CN114880581B - 用户数据处理方法、存储介质及电子设备 - Google Patents

用户数据处理方法、存储介质及电子设备 Download PDF

Info

Publication number
CN114880581B
CN114880581B CN202210755534.XA CN202210755534A CN114880581B CN 114880581 B CN114880581 B CN 114880581B CN 202210755534 A CN202210755534 A CN 202210755534A CN 114880581 B CN114880581 B CN 114880581B
Authority
CN
China
Prior art keywords
event
event type
user
target user
now
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210755534.XA
Other languages
English (en)
Other versions
CN114880581A (zh
Inventor
张凯伦
魏爽
张希
王殿胜
卞磊
唐红武
薄满辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Mobile Technology Co Ltd
Original Assignee
China Travelsky Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Mobile Technology Co Ltd filed Critical China Travelsky Mobile Technology Co Ltd
Priority to CN202210755534.XA priority Critical patent/CN114880581B/zh
Publication of CN114880581A publication Critical patent/CN114880581A/zh
Application granted granted Critical
Publication of CN114880581B publication Critical patent/CN114880581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用户数据处理方法,包括:获取目标用户对应的画像特征数据P;根据目标用户对应的第一事件集B,确定目标用户对应的行为特征信息A;根据当前时间tnow和第一时间跨度,获取目标用户的第二事件集M={m1,m2,m3,...,mn},mi=(d1i,d2i,pi,qi,ti);确定目标用户对应的用户特征向量E=(P,A,d1n,d2n,pn/Un,qn,n‑1,L);其中,Un为mn对应的第二事件参数,Un=dist(d1n,d2n),dist()为预设的距离计算函数;L为目标用户对应的用户参数,L=Num(qi≠1,mi,1,n‑1)/(n‑1),Num()为预设的计数函数;根据E,在若干候选事件类型中,确定出目标事件类型。采用本公开,通过目标用户的画像特征数据P、行为特征信息A和第二事件集M等特征数据确定目标用户对应的目标事件类型,特征数据较为多样化,可以提高确定目标用户对应的目标事件类型的准确度。

Description

用户数据处理方法、存储介质及电子设备
技术领域
本发明涉及数据处理领域,特别是涉及一种用户数据处理方法、存储介质及电子设备。
背景技术
随着全民风险意识和保险意识的逐步加强,用户对航班出行保险的需求也越来越强烈。
将每一用户最感兴趣的航班出行保险的类型设置为该用户对应的目标事件类型,则目前对用户对应的目标事件类型进行预测时,通常只考虑该用户的历史浏览行为数据、历史点击行为数据和历史购买行为数据等行为特征数据。
但是,大多数用户对应的特征数据均较少,基于此,极易产生数据重叠,即极易产生不同用户的特征数据完全相同或类似的情况,不同用户的特征数据区分度较小,进而对用户对应的目标事件类型进行预测的准确度较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:
根据本公开的一方面,提供了一种用户数据处理方法,该方法包括:
获取目标用户对应的画像特征数据P;
根据目标用户对应的第一事件集B,确定目标用户对应的行为特征信息A;
根据当前时间tnow和第一时间跨度,获取目标用户的第二事件集M={m1,m2,m3,...,mn},mi=(d1i,d2i,pi,qi,ti);其中,mi为第i个第二事件,d1i为第i个第二事件对应的源位置,d2i为第i个第二事件对应的目的位置,pi为第i个第二事件对应的第一事件参数,ti为第i个第二事件对应的事件开始时间,qi为第i个第二事件对应的事件标识,t1<t2<t3<...<tn,tn-1<tnow<tn
确定目标用户对应的用户特征向量E=(P,A,d1n,d2n,pn/Un,qn,n-1,L);其中,Un为mn对应的第二事件参数,Un=dist(d1n,d2n),dist()为预设的距离计算函数;L为目标用户对应的用户参数,L=Num(qi≠1,mi,1,n-1)/(n-1),Num()为预设的计数函数;
根据E,在若干候选事件类型中,确定出目标事件类型。
根据本公开的另一方面,还提供了一种非瞬时性计算机可读存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现上述用户数据处理方法。
根据本公开的另一方面,还提供了一种电子设备,包括处理器和上述非瞬时性计算机可读存储介质。
本发明至少具有以下有益效果:
通过目标用户的画像特征数据P、行为特征信息A和第二事件集M等特征数据确定目标用户对应的目标事件类型,可以使目标用户对应的特征数据较多且更为多样化,进而在确定目标用户对应的目标事件类型时出现数据重叠的可能性较低,即不同目标用户的特征数据完全相同或类似的情况出现的可能性较低,不同目标用户的特征数据区分度较大,进而可以提高确定目标用户对应的目标事件类型的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的用户数据处理的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种用户数据处理方法,其中,该方法可以由以下任意一项或其任意组合完成:终端、服务器、其他具备处理能力的设备,本发明实施例对此不作限定。
本发明实施例以用户数据处理方法应用于第一服务器为例,下面将参照图1所示的用户数据处理的流程图,对用户数据处理方法进行介绍。
该方法包括以下步骤:
步骤S200,获取目标用户对应的画像特征数据P。
其中,目标用户的用户标识和对应的画像特征数据P均可以预先存储于第二服务器中,第二服务器与第一服务器通信连接,例如,第二服务器可以为航空公司或机场对应的服务器。
在一种可能的实施方式中,第一服务器可以根据目标用户的用户标识,从第二服务器中获取目标用户对应的画像特征数据P。
步骤S400,根据目标用户对应的第一事件集B,确定目标用户对应的行为特征信息A。
其中,目标用户对应的第一事件集B可以预先存储于第二服务器中。
在一种可能的实施方式中,第一服务器可以根据目标用户的用户标识,从第二服务器中获取B,B可以设置为目标用户已购买的航班保险的集合,本发明实施例对此不作限定。接着根据B,确定目标用户对应的行为特征信息A。
步骤S600,根据当前时间tnow和第一时间跨度,获取目标用户的第二事件集M={m1,m2,m3,...,mn},mi=(d1i,d2i,pi,qi,ti)。
其中,mi为第i个第二事件,d1i为第i个第二事件对应的源位置,d2i为第i个第二事件对应的目的位置,pi为第i个第二事件对应的第一事件参数,ti为第i个第二事件对应的事件开始时间,qi为第i个第二事件对应的事件标识,t1<t2<t3<...<tn,tn-1<tnow<tn。第一时间跨度可以设置为0.5至5年,优选的,第一时间跨度可以设置为1年,目标用户对应的第二事件集可以均预先存储于第二服务器中。每一第二事件均可以设置为单次航班,基于此,源位置为起飞地,目的位置为到达地,第一事件参数为票价,事件开始时间为起飞时间,事件标识为座位等级,qi=1用于表示第i个第二事件的座位等级为经济舱,qi=2用于表示第i个第二事件的座位等级为商务舱,qi=3用于表示第i个第二事件的座位等级为头等舱。
在一种可能的实施方式中,第一服务器可以获取当前时间tnow和第一时间跨度并得到目标时间段,该目标时间段以tnow作为目标时间段的时间终点、以第一时间跨度作为目标时间段的时间长度,接着根据目标用户的用户标识,从第二服务器中获取目标时间段内目标用户的第二事件集M={m1,m2,m3,...,mn},mi=(d1i,d2i,pi,qi,ti)。其中,m1至mn-1均为在目标时间段内起飞的单次航班,mn为未来最近一次待起飞的单次航班。
步骤S800,确定目标用户对应的用户特征向量E=(P,A,d1n,d2n,pn/Un,qn,n-1,L)。
其中,Un为mn对应的第二事件参数,Un=dist(d1n,d2n),dist()为预设的距离计算函数;L为目标用户对应的用户参数,L=Num(qi≠1,mi,1,n-1)/(n-1),Num()为预设的计数函数,qi≠1用于表示Num()的计数条件为qi≠1,mi、1和n-1这三个参数用于表示分别判断m1至mn-1是否满足计数条件,若满足,则计数加1。基于每一第二事件均可以设置为单次航班,Un为mn对应的飞行公里数,pn/Un为mn对应的每公里票价。
在一种可能的实施方式中,根据已得到的P、A、d1n、d2n、pn/Un、qn、n-1和L,可以构建E=(P,A,d1n,d2n,pn/Un,qn,n-1,L)。
步骤S1000,根据E,在若干候选事件类型中,确定出目标事件类型。
其中,若干候选事件类型可以设置为若干航班保险的类型,例如,若干候选事件类型可以包括航班延误险、航班取消险和航班备降险等类型。
在一种可能的实施方式中,根据E,确定目标用户对应的目标事件类型,目标事件类型为若干候选事件类型中的任意一个。
因此,通过目标用户的画像特征数据P、行为特征信息A和第二事件集M等特征数据确定目标用户对应的目标事件类型,可以使目标用户对应的特征数据较多且更为多样化,进而在确定目标用户对应的目标事件类型时出现数据重叠的可能性较低,即不同目标用户的特征数据完全相同或类似的情况出现的可能性较低,不同目标用户的特征数据区分度较大,进而可以提高确定目标用户对应的目标事件类型的准确度。
可选的,该方法还包括:
根据mn对应的历史关联事件数据集Wn,获取mn对应的第一预测关联事件数据集H1n={(h11,tnow+1),....,(h17,tnow+7)}、第二预测关联事件数据集H2n={(h21,tnow+1),....,(h27,tnow+7)}和第三预测关联事件数据集H3n={(h31,tnow+1),....,(h37,tnow+7)}。
其中,tnow+j为tnow向后j个第二时间跨度的时间点对应的时间区间,h1j为预测得到的tnow+j内的第一类人员数量,第一类人员数量为位于d1n和d2n对应的地理区域内的具有第一标识的人员的数量,d1n对应的地理区域可以设置为d1n所在的市级行政区域,d2n对应的地理区域可以设置为d2n所在的市级行政区域,h2j为预测得到的tnow+j内的第二类人员数量,第二类人员数量为位于d1n和d2n对应的地理区域内的具有第一标识和第二标识的人员的数量,h3j为预测得到的tnow+j内的第三类人员数量,第三类人员数量为位于d1n和d2n对应的地理区域内的具有第一标识和第三标识的人员的数量。
其中,关联事件可以设置为疫情,基于此,第一标识可以设置为用于表示确诊疫情相关病症的标识,第二标识可以设置为用于表示死亡的标识,第三标识可以设置为用于表示疾病治愈的标识,对应的,第一类人员数量为确诊疫情相关病症的人数,第二类人员数量为确诊疫情相关病症后死亡的人数,第三类人员数量为确诊疫情相关病症后治愈的人数。
在一种可能的实施方式中,Wn可以预先存储于第三服务器中,第三服务器可以与第一服务器通信连接,第三服务器可以为关联事件对应的服务器,第一服务器可以从第三服务器中获取Wn=(w1,w2,w3),w1、w2和w3分别为tnow以前的第一类历史人员数量、第二类历史人员数量和第三类历史人员数量,其中,第一类历史人员数量为位于d1n和d2n对应的地理区域内的具有第一标识的人员的历史累计数量,第二类历史人员数量为位于d1n和d2n对应的地理区域内的具有第一标识和第二标识的人员的历史累计数量,第三类历史人员数量为位于d1n和d2n对应的地理区域内的具有第一标识和第三标识的人员的历史累计数量。
接着通过第一预测模型对w1进行预测处理得到h11,通过预测模型对w1和h11的和值进行预测处理得到h12,通过预测模型对w1、h11和h12的和值进行预测处理得到h13,,……以此类推,可以预测得到h11、h12、h13、h14、h15、h16和h17,即可以得到H1n={(h11,tnow+1),....,(h17,tnow+7)},同理,可以基于第二预测模型和w2进行预测处理得到H2n={(h21,tnow+1),....,(h27,tnow+7)},可以基于第三预测模型和w3进行预测处理得到H3n={(h31,tnow+1),....,(h37,tnow+7)},得到H2n和H3n的方式和得到H1n的方式同理,本发明实施例在此不再赘述。可选的,第一预测模型、第二预测模型和第三预测模型均可以采用差分整合移动平均自回归模型(ARIMA),本发明对上述第一预测模型、第二预测模型和第三预测模型具体采用的模型均不作限定。
进一步的,基于上述内容,上述步骤S800还可以包括如下步骤:
步骤S810,确定用户特征向量E=(P,A,d1n,d2n,pn/Un,qn,n-1,L,H1n,H2n,H3n,sn,rn,vn);其中,sn为mn对应的第三事件参数,rn为mn对应的事件等级标识,vn=v1n+v2n,vn为mn对应的关联区域的总数量,v1n为d1n对应的地理区域内的关联区域的数量,v2n为d2n对应的地理区域内的关联区域的数量。
其中,第三事件参数为历史准点率,事件等级标识为预计延误等级,关联区域可以设置为中高风险地区,每一用户对应的sn和rn均可以预先存储于第二服务器中,v1n和v2n均可以预先存储于第三服务器中。
在一种可能的实施方式中,可以根据目标用户的用户标识从第二服务器获取目标用户对应的sn和rn,根据d1n和d2n分别从第三服务器中获取v1n和v2n,vn=v1n+v2n,进而可以构建用户特征向量E=(P,A,d1n,d2n,pn/Un,qn,n-1,L,H1n,H2n,H3n,sn,rn,vn)。
因此,在确定目标用户对应的目标事件类型时还会考虑H1n、H2n、H3n、sn、rn和vn等特征数据,可以使目标用户对应的特征数据均更多且更为多样化,进而在确定目标用户对应的目标事件类型时出现数据重叠的可能性进一步降低,还可以考虑到关联事件对确定目标用户对应的目标事件类型的影响,进而可以进一步提高确定目标用户对应的目标事件类型的准确度。
可选的,上述步骤S400还可以包括如下步骤:
步骤S410,根据当前时间tnow和第一时间跨度,获取目标用户对应的第一事件集B={b1,b2,b3,...,by},bx=(k1x,ox)。其中,bx为第x个第一事件,k1x为第x个第一事件对应的第一事件类型标识,第一事件类型标识用于表示第一事件对应的候选事件类型,ox为第x个第一事件对应的第四事件参数。
步骤S420,根据B,获取目标用户对应的行为特征信息A={a1,a2,a3,...,az},ak=(cok,mok,shk,clk)。其中,z为若干候选事件类型的数量,ak为第k个候选事件类型对应的行为特征信息,cok为B中具有第k个候选事件类型对应的第一事件类型标识的第一事件的数量,mok为B中具有第k个候选事件类型对应的第一事件类型标识的第四事件参数的和,shk为第k个候选事件类型对应的展示次数,且shk为根据目标用户的用户标识从展示统计服务器获取的,clk为第k个候选事件类型对应的点击次数,且clk为根据目标用户的用户标识从点击统计服务器获取的。
其中,B可以预先存储于第二服务器中,第一事件可以设置为目标用户已购买的航班保险,基于此,第四事件参数可以设置为保险价格,展示次数为目标用户进入展示航班保险的页面的次数,点击次数为目标用户点击航班保险的次数。
在一种可能的实施方式中,第一服务器可以从第二服务器获取B,并根据B获取A。
因此,在确定目标用户对应的目标事件类型时还会考虑A={a1,a2,a3,...,az},ak=(cok,mok,shk,clk),行为特征信息A包括信息较多且较为多样化,在确定目标用户对应的目标事件类型时出现数据重叠的可能性可以进一步降低,进而可以进一步提高确定目标用户对应的目标事件类型的准确度。
可选的,画像特征数据P={p1,p2,p3,p4}。其中,p1为年龄数据,p2为性别标识,p3为关联位置,p4为设备标识。
在一种可能的实施方式中,p2=1或2,p2=说明目标用户的性别为男,p2=2说明目标用户的性别为女,p3为常住地内任意一点的经纬度坐标,p4=AND或IOS,p4=AND说明目标用户的常用手机为安卓手机,p2=IOS说明目标用户的常用手机为苹果手机。
可选的,该方法还包括步骤S100,步骤S100包括如下步骤:
步骤S110,根据tnow,获取若干历史用户对应的历史第三事件集D={d1,d2,d3,...,du},dg=(idg,k2g,qug)。其中,dg为第g个第三事件,idg为第g个第三事件对应的历史用户标识,k2g为第g个第三事件对应的第二事件类型标识,第二事件类型标识用于表示第三事件对应的候选事件类型,qug为第g个第三事件对应的第五事件参数;
步骤S120,获取初始分类模型。
步骤S130,对初始分类模型进行训练。
步骤S140,周期性获取训练中分类模型的评价信息;评价信息包括第一评价值集C1={c11,c12,c13,...,c1z}。其中,z为若干候选事件类型的数量,c1k为第k个候选事件类型对应的第一评价值;
c1k符合如下条件:
Figure DEST_PATH_IMAGE001
;其中,precisionk为第k个候选事件类 型对应的精确度,recallk为第k个候选事件类型对应的召回率,βk为第k个候选事件类型的 第一权重;
βk符合如下条件:
βk=(1/sik)/∑z k=1(1/sik);其中,sik为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件的数量。
步骤S150,根据评价信息,确定分类模型。
其中,D可以设置为预先存储于第二服务器中,第二服务器还用于预先存储若干训练用户对应的训练样本,若干训练用户为若干历史用户中的部分用户,第三事件可以设置为历史用户已购买的航班保险,对应的,sik可以设置为若干历史用户对第k个候选事件类型对应的第三事件的下单量。
在一种可能的实施方式中,根据若干历史用户的用户标识,第一服务器从第二服务器获取D和若干训练用户对应的训练样本,每一训练样本包括与对应的训练用户相关的输入数据和对应的目标事件类型,接着构建初始分类模型,再将若干训练样本中的输入数据输入至初始分类模型中,并对该初始分类模型进行训练,在训练过程中,根据D获取sik,并根据如下条件周期性获取训练中分类模型的第一总评价值:
Figure 613583DEST_PATH_IMAGE003
precisionk=tpk/tk;其中,tpk为第k个候选事件类型的真正例数,tk为第k个候选事件类型的预测正例数;
Recall=tpk/pk;其中,pk为第k个候选事件类型的预测正例数;
βk=(1/sik)/∑z k=1(1/sik);
并根据c11、c12、c13、……、c1z可以得到第一总评价值,当第一总评价值大于第一阈值时,可以将当前的第一总评价值对应的训练中分类模型作为分类模型。
进一步的,基于上述步骤S100,上述步骤S500还包括:
将E输入至分类模型中,得到目标事件类型。
因此,在训练分类模型时,第一总评价值可以考虑到每一候选事件类型对应的第三事件的数量,进而可以平衡分类模型中每一候选事件类型,减小每一候选事件类型对应的若干训练样本的数量不均衡的影响,可以提高训练后得到的分类模型的分类准确度,进而可以进一步提高确定目标用户对应的目标事件类型的准确度。
可选的,每一第三事件均具有若干激活条件和每一激活条件对应的反馈值,每一反馈值均为其对应的第三事件针对其对应的激活条件被激活后得到的;
c1k符合如下条件:
Figure DEST_PATH_IMAGE004
;其中,γk为第k个候选事件类型的第二 权重;
γk符合如下条件:
Figure DEST_PATH_IMAGE006
其中,Pk为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件的第五事件参数的平均值,Hk为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件的激活条件总数量,akh为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件针对其第h个激活条件被激活后得到的反馈值,gkh为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件针对其第h个激活条件的激活系数,∑Hk h=1gkh=1,lk为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件的历史激活总次数与sik的比值。
其中,激活条件可以设置为赔偿条件,反馈值可以设置为赔偿金额,第五事件参数可以设置为历史用户已购买的航班保险的金额,对应的,Hk为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件的赔偿条件总数量,在计算Hk时,属于不同第三事件的两个相同赔偿条件不会重复计数,lk为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件的被激活率。
在一种可能的实施方式中,在根据c11、c12、c13、……、c1z可以得到第一总评价值后,当第一总评价值大于第二阈值时,可以将当前的第一总评价值对应的训练中分类模型作为分类模型。
因此,在训练分类模型时,第一总评价值可以考虑到每一候选事件类型对应的第五事件参数的平均值、激活条件总数量和激活率等,进而可以进一步平衡分类模型中每一候选事件类型,减小每一候选事件类型对应的若干训练样本的数量不均衡的影响,可以进一步提高训练后得到的分类模型的分类准确度,进而可以进一步提高确定目标用户对应的目标事件类型的准确度。
可选的,评价信息还包括第二评价值集C2={c21,c22,c23,...,c2z}和第三评价值集C3={c31,c32,c33,...,c3z};其中,c2k为第k个候选事件类型对应的第二评价值,c3k为第k个候选事件类型对应的第三评价值;
c2k符合如下条件:
c2k=(fpk/fk)*βk;其中,fpk为第k个候选事件类型的假正例数,fk为第k个候选事件类型的实际正例数;
c3k符合如下条件:
c3k=(tpk/tk)*βk;其中,tpk为第k个候选事件类型的真正例数,tk为第k个候选事件类型的预测正例数。
在一种可能的实施方式中,在根据c11、c12、c13、……、c1z可以得到第一总评价值后,还可以根据c21、c22、c23、……、c2z得到第二总评价值、根据c31、c32、c33、……、c3z得到第三总评价值,并以第二总评价值作为横坐标、以第三总评价值作为纵坐标构建ROC曲线,当ROC曲线下面积大于第三阈值且第一总评价值大于第二阈值时,可以将当前的第一总评价值对应的训练中分类模型作为分类模型。
因此,在训练分类模型时,基于第一总评价值和ROC曲线分析训练中分类模型的分类准确度,即基于更多的评价信息确定分类模型,可以提高确定目标用户对应的目标事件类型的准确度。
可选的,c2k符合如下条件:
c2k=(fpk/fk)*βkk
c3k符合如下条件:
c3k=(tpk/tk)*βkk
在一种可能的实施方式中,当在根据c11、c12、c13、……、c1z可以得到第一总评价值后,还可以根据c21、c22、c23、……、c2z得到第二总评价值、根据c31、c32、c33、……、c3z得到第三总评价值,并以第二总评价值作为横坐标、以第三总评价值作为纵坐标构建ROC曲线,当ROC曲线下面积大于第四阈值且第一总评价值大于第二阈值时,可以将当前的第一总评价值对应的训练中分类模型作为分类模型。第二阈值和第四阈值均可以设置为0.7-0.9,优选的,第二阈值和第四阈值均可以设置为0.8。
因此,在训练分类模型时,第一总评价值和ROC曲线下面积都可以考虑到每一候选事件类型对应的第三事件的数量、第五事件参数的平均值、激活条件总数量和激活率等,在基于更多的评价信息确定分类模型的基础上还可以进一步平衡分类模型中每一候选事件类型,减小每一候选事件类型对应的若干训练样本的数量不均衡的影响,可以进一步提高训练后得到的分类模型的分类准确度,进而可以进一步提高确定目标用户对应的目标事件类型的准确度。
可选的,分类模型具体可以使用lightGBM模型、ID3算法模型、C4.5算法模型、CART算法模型、梯度提升树模型和XGBoost模型等,本发明实施例对此不作限定。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (8)

1.一种用户数据处理方法,其特征在于,所述方法包括:
获取目标用户对应的画像特征数据P;所述画像特征数据
Figure 523495DEST_PATH_IMAGE002
;其中,p1为年龄数据,
Figure 768531DEST_PATH_IMAGE004
为性别标识,
Figure 201848DEST_PATH_IMAGE006
为关联位置,
Figure 659374DEST_PATH_IMAGE008
为设备标识;
根据目标用户对应的第一事件集B,确定目标用户对应的行为特征信息A;
根据当前时间tnow和第一时间跨度,获取目标用户的第二事件集
Figure 942588DEST_PATH_IMAGE010
,mi=(d1i,d2i,pi,qi,ti);其中,mi为第i个第二事件,d1i为第i个第二事件对应的源位置,d2i为第i个第二事件对应的目的位置,pi为第i个第二事件对应的第一事件参数,ti为第i个第二事件对应的事件开始时间,qi为第i个第二事件对应的事件标识,
Figure 358526DEST_PATH_IMAGE012
<tn,tn-1<tnow<tn
确定所述目标用户对应的用户特征向量E=(P,A,d1n,d2n,pn/Un,qn,n-1,L);其中,Un为mn对应的第二事件参数,Un=dist(d1n,d2n),dist()为预设的距离计算函数;L为目标用户对应的用户参数,L=Num(qi≠1,mi,1,n-1)/(n-1),Num()为预设的计数函数;
根据E,在若干候选事件类型中,确定出目标事件类型;
所述根据目标用户对应的第一事件集B,确定目标用户对应的行为特征信息A,包括:
根据当前时间tnow和所述第一时间跨度,获取目标用户对应的第一事件集B={b1,b2,b3,...,by},bx=(k1x,ox);其中,bx为第x个第一事件,k1x为第x个第一事件对应的第一事件类型标识,所述第一事件类型标识用于表示所述第一事件对应的候选事件类型,ox为第x个第一事件对应的第四事件参数;
根据B,获取所述目标用户对应的行为特征信息
Figure 94401DEST_PATH_IMAGE014
Figure 621197DEST_PATH_IMAGE016
;其中,z为若干所述候选事件类型的数量,
Figure DEST_PATH_IMAGE018
为第k个所述候选事件类型对应的行为特征信息,
Figure DEST_PATH_IMAGE020
为B中具有第k个所述候选事件类型对应的第一事件类型标识的第一事件的数量,
Figure DEST_PATH_IMAGE022
为B中具有第k个所述候选事件类型对应的第一事件类型标识的第四事件参数的和,
Figure DEST_PATH_IMAGE024
为第k个所述候选事件类型对应的展示次数,且shk为根据目标用户的用户标识从展示统计服务器获取的,clk为第k个所述候选事件类型对应的点击次数,且clk为根据目标用户的用户标识从点击统计服务器获取的。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据mn对应的历史关联事件数据集Wn,获取mn对应的第一预测关联事件数据集H1n={(h11,tnow+1),....,(h17,tnow+7)}、第二预测关联事件数据集H2n={(h21,tnow+1),....,(h27,tnow+7)}和第三预测关联事件数据集H3n={(h31,tnow+1),....,(h37,tnow+7)};其中,tnow+j为tnow向后j个第二时间跨度的时间点对应的时间区间,h1j为预测得到的tnow+j内的第一类人员数量,所述第一类人员数量为位于d1n和d2n对应的地理区域内的具有第一标识的人员的数量,h2j为预测得到的tnow+j内的第二类人员数量,所述第二类人员数量为位于d1n和d2n对应的地理区域内的具有所述第一标识和第二标识的人员的数量,h3j为预测得到的tnow+j内的第三类人员数量,所述第三类人员数量为位于d1n和d2n对应的地理区域内的具有所述第一标识和第三标识的人员的数量;
所述确定所述目标用户对应的用户特征向量E=(P,A,d1n,d2n,pn/Un,qn,n-1,L),包括:
确定所述用户特征向量E=(P,A,d1n,d2n,pn/Un,qn,n-1,L,H1n,H2n,H3n,sn,rn,vn);其中,sn为mn对应的第三事件参数,rn为mn对应的事件等级标识,vn=v1n+v2n,vn为mn对应的关联区域的总数量,v1n为d1n对应的地理区域内的关联区域的数量,v2n为d2n对应的地理区域内的关联区域的数量。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据tnow,获取若干历史用户对应的历史第三事件集D={d1,d2,d3,...,du},dg=(idg,k2g,qug);其中,dg为第g个第三事件,idg为第g个第三事件对应的历史用户标识,k2g为第g个第三事件对应的第二事件类型标识,所述第二事件类型标识用于表示所述第三事件对应的候选事件类型,qug为第g个第三事件对应的第五事件参数;
获取初始分类模型;
对所述初始分类模型进行训练;
周期性获取训练中分类模型的评价信息;所述评价信息包括第一评价值集C1={c11,c12,c13,...,c1z};其中,z为若干所述候选事件类型的数量,c1k为第k个所述候选事件类型对应的第一评价值;
所述c1k符合如下条件:
Figure DEST_PATH_IMAGE026
;其中,precisionk为第k个所述候选事件类型对应的精确度,recallk为第k个所述候选事件类型对应的召回率,βk为第k个所述候选事件类型的第一权重;
所述βk符合如下条件:
βk=(1/sik)/∑z k=1(1/sik);其中,sik为D中具有第k个所述候选事件类型对应的第二事件类型标识的第三事件的数量;
根据所述评价信息,确定分类模型;
所述根据E,在若干候选事件类型中,确定出目标事件类型,包括:
将E输入至所述分类模型中,得到所述目标事件类型。
4.根据权利要求3所述的方法,其特征在于,每一所述第三事件均具有若干激活条件和每一激活条件对应的反馈值,每一所述反馈值均为其对应的第三事件针对其对应的激活条件被激活后得到的;
所述c1k符合如下条件:
Figure DEST_PATH_IMAGE028
;其中,γk为第k个所述候选事件类型的第二权重;
所述γk符合如下条件:
Figure DEST_PATH_IMAGE030
其中,Pk为D中具有第k个所述候选事件类型对应的第二事件类型标识的第三事件的第五事件参数的平均值,Hk为D中具有第k个所述候选事件类型对应的第二事件类型标识的第三事件的激活条件总数量,
Figure DEST_PATH_IMAGE032
为D中具有第k个所述候选事件类型对应的第二事件类型标识的第三事件针对其第h个激活条件被激活后得到的反馈值,
Figure DEST_PATH_IMAGE034
为D中具有第k个所述候选事件类型对应的第二事件类型标识的第三事件针对其第h个激活条件的激活系数,
Figure DEST_PATH_IMAGE036
,lk为D中具有第k个所述候选事件类型对应的第二事件类型标识的第三事件的历史激活总次数与sik的比值。
5.根据权利要求4所述的方法,其特征在于,所述评价信息还包括第二评价值集C2={c21,c22,c23,...,c2z}和第三评价值集C3={c31,c32,c33,...,c3z};其中,c2k为第k个所述候选事件类型对应的第二评价值,c3k为第k个所述候选事件类型对应的第三评价值;
所述c2k符合如下条件:
c2k=(fpk/fk)*βk;其中,
Figure DEST_PATH_IMAGE038
为第k个所述候选事件类型的假正例数,fk为第k个所述候选事件类型的实际正例数;
所述c3k符合如下条件:
c3k=(tpk/tk)*βk;其中,
Figure DEST_PATH_IMAGE040
为第k个所述候选事件类型的真正例数,tk为第k个所述候选事件类型的预测正例数。
6.根据权利要求5所述的方法,其特征在于,所述c2k符合如下条件:
c2k=(fpk/fk)*βkk
所述c3k符合如下条件:
c3k=(tpk/tk)*βkk
7.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-6中任意一项的所述方法。
8.一种电子设备,其特征在于,包括处理器和权利要求7中的所述非瞬时性计算机可读存储介质。
CN202210755534.XA 2022-06-30 2022-06-30 用户数据处理方法、存储介质及电子设备 Active CN114880581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210755534.XA CN114880581B (zh) 2022-06-30 2022-06-30 用户数据处理方法、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210755534.XA CN114880581B (zh) 2022-06-30 2022-06-30 用户数据处理方法、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN114880581A CN114880581A (zh) 2022-08-09
CN114880581B true CN114880581B (zh) 2022-09-16

Family

ID=82683169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210755534.XA Active CN114880581B (zh) 2022-06-30 2022-06-30 用户数据处理方法、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114880581B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618100B (zh) * 2022-09-15 2024-02-06 中航信移动科技有限公司 用于关联事件推荐的数据处理方法、存储介质及电子设备
CN116128609B (zh) * 2023-02-10 2023-10-27 中航信移动科技有限公司 基于民航数据的搜索结果展示方法、存储介质及电子设备
CN116167624B (zh) * 2023-04-25 2023-07-07 天信达信息技术有限公司 一种目标类别标识的确定方法、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763478A (zh) * 2018-05-29 2018-11-06 努比亚技术有限公司 用户隐性特征计算方法、服务器及计算机可读存储介质
CN108874911A (zh) * 2018-05-28 2018-11-23 广西师范学院 基于区域环境与犯罪事件数据的疑犯位置预测方法
CN109785968A (zh) * 2018-12-27 2019-05-21 东软集团股份有限公司 一种事件预测方法、装置、设备及程序产品
AU2019100968A4 (en) * 2019-09-10 2020-01-23 Chen, Jiayi Miss A Credit Reporting Evaluation System Based on Mixed Machine Learning
CN112528154A (zh) * 2020-12-22 2021-03-19 姜小芹 基于大数据和用户画像的数据处理方法及大数据服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874911A (zh) * 2018-05-28 2018-11-23 广西师范学院 基于区域环境与犯罪事件数据的疑犯位置预测方法
CN108763478A (zh) * 2018-05-29 2018-11-06 努比亚技术有限公司 用户隐性特征计算方法、服务器及计算机可读存储介质
CN109785968A (zh) * 2018-12-27 2019-05-21 东软集团股份有限公司 一种事件预测方法、装置、设备及程序产品
AU2019100968A4 (en) * 2019-09-10 2020-01-23 Chen, Jiayi Miss A Credit Reporting Evaluation System Based on Mixed Machine Learning
CN112528154A (zh) * 2020-12-22 2021-03-19 姜小芹 基于大数据和用户画像的数据处理方法及大数据服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于用户行为画像的安全审计系统;欧阳帆,张月天;《信息通信》;20190123;第1-2页 *

Also Published As

Publication number Publication date
CN114880581A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN114880581B (zh) 用户数据处理方法、存储介质及电子设备
US20170364933A1 (en) User maintenance system and method
CN109583966B (zh) 一种高价值客户识别方法、系统、设备及存储介质
CN110400215B (zh) 面向企业家族的小微企业信用评估模型构建方法及系统
JP6246776B2 (ja) 離職リスク判定器
CN106372674B (zh) 在线叫车服务平台中的司机分类方法和装置
CN109635029B (zh) 基于标签指标体系的数据处理方法、装置、设备及介质
Meng et al. Impact of different control policies for COVID-19 outbreak on the air transportation industry: A comparison between China, the US and Singapore
CN107093091B (zh) 一种数据处理方法和装置
CN107370614A (zh) 网络用户活跃度评估方法和预测方法
WO2017010317A1 (ja) 表示制御装置、表示制御方法、及び、プログラム
CN111275228A (zh) 预测方法、装置、电子设备及存储介质
CN110310163A (zh) 一种精准制定营销策略的方法、设备及可读介质
WO2020253354A1 (zh) 基于遗传算法的资源信息推荐方法、装置、终端及介质
US11562262B2 (en) Model variable candidate generation device and method
Ustinovichius Determination of efficiency of investments in construction
Bergstrom et al. What does the future hold for US National Park visitation? estimation and assessment of demand determinants and new projections
CN113139769B (zh) 采购方案智能推荐方法、装置、计算机设备及存储介质
CN110866832A (zh) 一种风险控制方法、系统、存储介质及计算设备
CN114595850A (zh) 基于机器学习的政务预约服务推荐方法
CN111639299A (zh) 置业顾问客户跟进绩效评估方法、系统及存储介质
CN109919675A (zh) 基于神经网络的通讯用户升档预测概率识别方法及系统
WO2018101462A1 (ja) 妊娠期間予測装置、妊娠期間予測方法及び妊娠期間予測プログラム
CN109145207B (zh) 一种基于分类指标预测的信息个性化推荐方法及装置
CN112288117A (zh) 目标客户的成交概率预测方法、装置与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant