CN108932658B - 数据处理方法、装置和计算机可读存储介质 - Google Patents

数据处理方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN108932658B
CN108932658B CN201810766548.5A CN201810766548A CN108932658B CN 108932658 B CN108932658 B CN 108932658B CN 201810766548 A CN201810766548 A CN 201810766548A CN 108932658 B CN108932658 B CN 108932658B
Authority
CN
China
Prior art keywords
user
target
characteristic
feature
characteristic value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810766548.5A
Other languages
English (en)
Other versions
CN108932658A (zh
Inventor
潘坤
朱翔宇
何从庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Jingdong Technology Holding Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201810766548.5A priority Critical patent/CN108932658B/zh
Publication of CN108932658A publication Critical patent/CN108932658A/zh
Application granted granted Critical
Publication of CN108932658B publication Critical patent/CN108932658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据处理方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:获取用户的特征值;根据基准用户的特征值和非基准用户的特征值,选取影响用户达到业务目标的特征值,作为目标特征值;选取具备目标特征值的非基准用户作为目标用户,以便对目标用户进行活动投放;其中,基准用户为已经达到业务目标的用户。本公开中获取用户的特征值,通过已经达到业务目标的基准用户的特征值和非基准用户的特征值,可以选取对用户达到业务目标影响较大的目标特征值,对具备目标特征值的目标用户进行活动投放,能够提高活动投放的精准性,提升活动投放效果和用户体验。

Description

数据处理方法、装置和计算机可读存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种数据处理方法、装置和计算机可读存储介质。
背景技术
随着互联网技术的发展,电子商务平台在人们生活中所起的作用越来越重要。
电子商务平台的运营方会推出各种活动,促进用户购物,以实现业务目标。例如,通过APP(应用程序)、短信等形式向用户推送活动或商品的信息。
发明内容
发明人发现:目前电子商务平台一般针对所有用户都进行活动投放。上述活动投放方式中对所有用户进行活动投放,可能造成大量的资源投放在并不经常上网购物的低价值用户身上。此外,对所有用户进行投放,会使打扰到很多根本不想参加活动的用户,多次对用户进行这样的打扰,影响用户体验,导致用户对于平台的活动失去兴趣。因此,针对所有用户进行活动投放无法实现活动的精准投放,活动投放效果差。
本公开所要解决的一个技术问题是:如何提高活动投放的精准性,提升活动投放效果和用户体验。
根据本公开的一些实施例,提供的一种数据处理方法,包括:获取用户的特征值;根据基准用户的特征值和非基准用户的特征值,选取影响用户达到业务目标的特征值,作为目标特征值;选取具备目标特征值的非基准用户作为目标用户,以便对目标用户进行活动投放;其中,基准用户为已经达到业务目标的用户。
在一些实施例中,根据基准用户的特征值和非基准用户的特征值,选取影响用户达到业务目标的特征值,作为目标特征值包括:根据用户中的基准用户的数量和负样本用户的数量,以及同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,选取影响用户达到业务目标的该特征项对应的特征值,作为目标特征值;其中,负样本用户为非基准用户中确定无法达到业务目标的用户。
在一些实施例中,选取影响用户达到业务目标的该特征对应的特征值包括:根据用户中的负样本用户的数量和基准用户的数量的第一比值,以及一种特征值对应的负样本用户的数量和基准用户的数量的第二比值,确定该种特征值对用户达到业务目标的影响度;选取对用户达到业务目标的影响度高于特征值阈值的特征值,作为目标特征值。
在一些实施例中,特征值对用户达到业务目标的影响度为1减去第二比值与第一比值的比值后得到的差值。
在一些实施例中,根据基准用户的特征值和非基准用户的特征值,选取影响用户达到业务目标的特征值,作为目标特征值包括:根据同一特征类中不同特征项对应的基准用户和负样本用户的特征值分布情况,选取影响用户达到业务目标的特征类,作为目标特征类;从目标特征类中选取影响用户达到业务目标的特征值,作为目标特征值;其中,负样本用户为非基准用户中确定无法达到业务目标的用户。
在一些实施例中,根据同一特征类中不同特征项对应的基准用户和负样本用户的特征值分布情况,选取影响用户达到业务目标的特征类,作为目标特征类包括:根据同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,确定该特征项对用户达到业务目标的影响度;根据同一特征类中不同特征项对用户达到业务目标的影响度;确定该特征类对用户达到业务目标的影响度;选取对用户达到业务目标的影响度高于特征类阈值的特征类,作为目标特征类。
在一些实施例中,特征项对用户达到业务目标的影响度根据第一向量和第二向量的皮尔逊相关系数确定;第一向量为特征项中不同特征值对应的基准用户的数量组成的向量,第二向量为该特征项中不同特征值对应的负样本用户的数量组成的向量;特征类对用户达到业务目标的影响度根据特征类中不同特征项对用户达到业务目标的影响度的加权值确定。
在一些实施例中,根据基准用户的特征值和非基准用户的特征值,选取影响用户达到业务目标的特征值,作为目标特征值包括:根据基准用户和非基准用户针对不同特征项的特征值,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。
在一些实施例中,根据基准用户和非基准用户针对不同特征项的特征值,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值包括:根据用户针对不同特征项对应的特征值,以及该用户为基准用户或非基准用户的用户标识,生成该用户的特征向量;将各个用户的特征向量输入FP Growth模型,进行频繁项集挖掘;根据挖掘出的不同特征值和用户标识的项集,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。
在一些实施例中,将包含至少基准用户的用户标识且出现频率高于阈值的项集中的特征值,作为目标特征值。
根据本公开的另一些实施例,提供的一种数据处理装置,包括:信息获取模块,用于获取用户的特征值;目标特征值确定模块,用于根据基准用户的特征值和非基准用户的特征值,选取影响用户达到业务目标的特征值,作为目标特征值;目标用户确定模块,用于选取具备目标特征值的非基准用户作为目标用户,以便对目标用户进行活动投放;其中,基准用户为已经达到业务目标的用户。
在一些实施例中,目标特征值确定模块用于根据用户中的基准用户的数量和负样本用户的数量,以及同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,选取影响用户达到业务目标的该特征项对应的特征值,作为目标特征值;其中,负样本用户为非基准用户中确定无法达到业务目标的用户。
在一些实施例中,目标特征值确定模块用于根据用户中的负样本用户的数量和基准用户的数量的第一比值,以及一种特征值对应的负样本用户的数量和基准用户的数量的第二比值,确定该种特征值对用户达到业务目标的影响度;选取对用户达到业务目标的影响度高于特征值阈值的特征值,作为目标特征值。
在一些实施例中,特征值对用户达到业务目标的影响度为1减去第二比值与第一比值的比值后得到的差值。
在一些实施例中,目标特征值确定模块用于根据同一特征类中不同特征项对应的基准用户和负样本用户的特征值分布情况,选取影响用户达到业务目标的特征类,作为目标特征类;从目标特征类中选取影响用户达到业务目标的特征值,作为目标特征值;其中,负样本用户为非基准用户中确定无法达到业务目标的用户。
在一些实施例中,目标特征值确定模块用于根据同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,确定该特征项对用户达到业务目标的影响度;根据同一特征类中不同特征项对用户达到业务目标的影响度;确定该特征类对用户达到业务目标的影响度;选取对用户达到业务目标的影响度高于特征类阈值的特征类,作为目标特征类。
在一些实施例中,特征项对用户达到业务目标的影响度根据第一向量和第二向量的皮尔逊相关系数确定;第一向量为特征项中不同特征值对应的基准用户的数量组成的向量,第二向量为该特征项中不同特征值对应的负样本用户的数量组成的向量;特征类对用户达到业务目标的影响度根据特征类中不同特征项对用户达到业务目标的影响度的加权值确定。
在一些实施例中,目标特征值确定模块用于根据基准用户和非基准用户针对不同特征项的特征值,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。
在一些实施例中,目标特征值确定模块用于根据用户针对不同特征项对应的特征值,以及该用户为基准用户或非基准用户的用户标识,生成该用户的特征向量;将各个用户的特征向量输入FP Growth模型,进行频繁项集挖掘;根据挖掘出的不同特征值和用户标识的项集,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。
在一些实施例中,目标特征值确定模块用于将包含至少基准用户的用户标识且出现频率高于阈值的项集中的特征值,作为目标特征值。
根据本公开的又一些实施例,提供的一种数据处理装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器设备中的指令,执行如前述任意实施例的数据处理方法。
根据本公开的再一些实施例,提供的一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的数据处理方法。
本公开中获取用户的特征值,通过已经达到业务目标的基准用户的特征值和非基准用户的特征值,可以选取对用户达到业务目标影响较大的目标特征值,对具备目标特征值的目标用户进行活动投放,能够提高活动投放的精准性,提升活动投放效果和用户体验。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的数据处理方法的流程示意图。
图2示出本公开的另一些实施例的数据处理方法的流程示意图。
图3示出本公开的又一些实施例的数据处理方法的流程示意图。
图4示出本公开的一些实施例的数据处理装置的结构示意图。
图5示出本公开的另一些实施例的数据处理装置的结构示意图。
图6示出本公开的又一些实施例的数据处理装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提供一种数据处理方法,下面结合图1描述本公开数据处理方法的一些实施例。
图1为本公开数据处理方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~S106。
在步骤S102中,获取用户的特征值。
用户在电子商务平台进行注册、购物等行为能够体现一个用户的特征。可以基于用户在电子商务平台的行为获取用户的特征值。进一步,用户的特征可以有很多种,可以将不同的特征项根据特征项类别划分为特征类,例如,特征类包括:个人信息、购物信息、资产信息至少一类特征。不同特征类中包含至少一个特征项,例如,个人信息特征类里可以包括年龄,性别,出生地,学历等至少一个特征项,购物信息特征类里可以包括购买物品信息,下单时间,支付方式等至少一个特征项。资产信息特征类里可以包括:收入、房产等至少一个特征项。也可以不对特征项划分特征类,根据实际需求进行选择。
特征项针对不同的用户有不同的特征值,例如,用户A30岁,即用户A的年龄特征项对应的特征值为30,用户B20岁,即用户B的年龄特征项对应的特征值为20。
实际应用过程中,可以在数据库中存储各个用户的特征值,例如以数据表的形式存储用户的特征值信息,数据表中每一行可以表示一个用户对应的各项特征项的特征值,数据表的每一列可以表示一个特征项对应的各个用户的特征值。针对将特征项划分为特征类的情况,可以将各个特征类对应的用户特征信息分不同的数据表进行存储,例如,个人信息数据表、购物信息表、资产信息表。用户特征值的具体存储形式,不限于所举示例,可以根据实际需求进行选择。
在步骤S104中,根据基准用户的特征值和非基准用户的特征值,选取影响用户达到业务目标的特征值,作为目标特征值。
基准用户为已经达到业务目标的用户。业务目标是由电子商务平台运营方根据实际需求制定的,例如,业务目标为用户在一年内购买10件商品,则基准用户是已经购买10件商品的用户。非基准用户为除去基准用户之外的其他用户。
根据反映基准用户的特征的特征值与非基准用户的特征值,可以确定对用户达到业务目标产生较大影响的特征值,作为目标特征值。
本公开提供一些针对不同应用场景确定目标特征值的实施方式。
(1)针对一个特定的特征项,选取该特征项对应目标特征值的情况。在一些实施例中,根据用户群中基准用户的数量和负样本用户的数量,以及同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,选取影响用户达到业务目标的该特征项对应的特征值,作为目标特征值。
负样本用户为非基准用户中确定无法达到业务目标的用户。例如,有些用户可能在几年内就在电子商务平台中购买过1件商品,甚至没有购买过商品,这些用户可以被确定为负样本用户,无法达到一年内购买10件商品的业务目标。可以根据非基准用户的特征值与相应的阈值进行比对,从而确定非基准用户中的负样本用户。
进一步,根据用户中的负样本用户的数量和基准用户的数量的第一比值,以及一种特征值对应的负样本用户的数量和基准用户的数量的第二比值,确定该种特征值对用户达到业务目标的影响度;选取对用户达到业务目标的影响度高于特征值阈值的特征值,作为目标特征值。
例如,特征值对用户达到业务目标的影响度为1减去第一比值与第二比值的比值后得到的差值,可以用以下公式表示。
Figure BDA0001729155660000081
公式(1)中,C0为某一特征值对应的负样本用户的数量,C1为该特征值对应的基准用户的数量,S0为用户群中负样本用户的数量,S1为用户群中基准用户的数量。公式(1)度量的是在惩罚掉正负样本比例以后,正负样本在某一个维度的表现情况。正样本即基准用户样本,正负样本比值越高表示该特征值对用户达到业务目标的影响度越高。
下面结合表1和表2描述上述方法的一些应用例。
表1
年龄 基准用户人数 负样本人数
[0-18] 16 4
(18-25] 36 20
(25-35] 24 18
(35-45] 30 20
(45-55] 20 8
(55-100] 10 2
[0-100] 136 72
如表1所示,针对年龄这一特征项,分别针对不同的特征值统计了对应的基准用户的数量和负样本用户的数量。以[0-18]这一特征值为例,计算该特征值对用户达到业务目标的影响度为1-4/16/(72/136)=0.52。同理可以得到(18-25]、(25-35]等各个特征值对用户达到业务目标的影响度,如表2所示。
年龄 基准用户人数 负样本人数 影响度
[0-18] 16 4 0.527778
(18-25] 36 20 -0.04938
(25-35] 24 18 -0.41667
(35-45] 30 20 -0.25926
(45-55] 20 8 0.244444
(55-100] 10 2 0.622222
从表2中可以看出,年龄特征值为[0-18]和(55-100]对用户达到业务目标的影响度较高,可以选取特征值为[0-18]和(55-100]作为目标特征值。
根据上述方法,还可以计算其他特征项对应的各个特征值对用户达到业务目标的影响度,针对每一个特征项选择目标特征值。
上述实施例的方法,针对运营方已经有了明确的运营方向的情况比较适用,例如运营人员想通过某一特定的特征项来圈定目标用户。上述实施例的方法运行速度快,精确度高,可以较好的描述某个特征值和基准人群的关系,从而确定目标特征值。
(2)针对多个特征类,先选取目标特征类再选取目标特征值的情况。在一些实施例中,如图2所示,步骤S104包括:步骤S202~S204。
在步骤S202中,根据同一特征类中不同特征项对应的基准用户和负样本用户的特征值分布情况,选取影响用户达到业务目标的特征类,作为目标特征类。
在一些实施例中,根据同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,确定该特征项对用户达到业务目标的影响度;根据同一特征类中不同特征项对用户达到业务目标的影响度;确定该特征类对用户达到业务目标的影响度;选取对用户达到业务目标的影响度高于特征类阈值的特征类,作为目标特征类。
进一步,特征项对用户达到业务目标的影响度为第一向量和第二向量的皮尔逊相关系数。第一向量为特征项中不同特征值对应的基准用户的数量组成的向量,第二向量为该特征项中不同特征值对应的负样本用户的数量组成的向量。特征类对用户达到业务目标的影响度根据特征类中不同特征项对用户达到业务目标的影响度的加权值确定。
可以采用以下公式计算特征类对于用户达到业务目标的影响度。
Figure BDA0001729155660000091
公式(2)中,pearsonR(i)表示特征项对应的皮尔逊相关系数,i为整数,1≤i≤N,N为特征项的总数量,mix()表示从特征类中所有特征项对应的皮尔逊相关系数中取最小值,α和β为权重系数,可以根据业务需求进行调整,α+β=1。通过调整α和β可以使公式的结果更加偏重特征项对应的皮尔逊相关系数的平均值或值更加偏重特征项对应的皮尔逊相关系数的最小值。皮尔逊相关系数,也称为皮尔逊积矩相关系数,计算方法为现有技术,在此不再赘述。
在步骤S204中,从目标特征类中选取影响用户达到业务目标的特征值,作为目标特征值。
下面结合表1和表3描述上述方法的一些应用例。
表3
受教育程度 基准用户数 负样本用户数
0 35 9
1 55 21
2 20 40
3 26 2
表1示出针对年龄这一特征项,分别针对不同的特征值统计了对应的基准用户的数量和负样本用户的数量。表3示出针对受教育程度这一特征项,分别针对不同的特征值统计了对应的基准用户的数量和负样本用户的数量。表3中0-3分别表示不同的受教育程度,例如0为最高受教育程度为小学教育程度,1表示最高受教育程度为初中教育程度,以此类推。
如表1所示,对于年龄这一特征项,不同特征值对应的基准用户的数量分布即第一向量为[16,36,24,30,20,10],不同特征值对应的负样本用户的数量分布即第二向量为[4,20,18,20,8,2]。计算第一向量和第二向量的皮尔逊积矩相关系数为0.92。同理,根据表3中,对于受教育程度这一特征项,第一向量为[35,55,20,26],第二向量为[9,21,40,2],两者的皮尔逊积矩相关系数为-0.16。皮尔逊积矩相关系数系数越小证明正负样本在这个特征项维度表现的差别越大,那么可以挖掘到的有用信息也越多。特征项皮尔逊相关系数越小,对用户达到业务目标的影响度越大。
皮尔逊积矩相关系数的取值范围为[-1,1],为了方便计算,给皮尔逊积矩相关系数值加一,那么取值范围就变成了[0,2]。取α,β分别为0.5,0.5,假设个人信息这个特征类中仅包含年龄和受教育程度这两个特征项,那么可以计算得到个人信息特征类对用户达到业务目标的影响度为2-0.5*((0.92+(-0.16))/2)+0.5*(-0.16)=1.89。
同理,可以按照上述方法计算购物信息特征类、用户资产信息特征类对用户达到业务目标的影响度,进而选取对用户达到业务目标的影响度更大的特征类,并从中选取目标特征值。
上述实施例的方法可以和针对一个特定的特征项,选取该特征项对应目标特征值的情况的实施例结合使用。例如,根据同一特征类中不同特征项对应的基准用户和负样本用户的特征值分布情况,选取影响用户达到业务目标的特征类,作为目标特征类。从目标特征类中,根据用户中的基准用户的数量和负样本用户的数量,以及同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,选取影响用户达到业务目标的该特征项对应的特征值,作为目标特征值。
上述实施例的方法适用于用户特征类别较多,特征项也较多的情况。运营方向可以利用上述从这些特征类中选择一个可以挖掘到更多的信息的类别做运营。然后再结合前述实施例的方法选取目标特征值,可以综合考虑多个特征类,综合覆盖到更多的信息,提高活动投放的精准性。
(3)针对综合考虑多个特征项,选取目标特征值的情况。在一些实施例中,根据基准用户和非基准用户针对不同特征项的特征值,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。多个特征值可以对应同一个特征类,也可以对应不同的特征类。
进一步,如图3所示,在一些实施例中,步骤S104包括:步骤S302~S306。
在S302中,根据用户针对不同特征项对应的特征值,以及该用户为基准用户或非基准用户的用户标识,生成该用户的特征向量。
例如,不同的特征项包括:年龄、购买小米手机,用户A为30岁,购买过小米手机,为基准用户,则用户A的特征向量可以为(30,1,1)。
在S304中,将各个用户的特征向量输入FP Growth模型,进行频繁项集挖掘。
FP Growth模型为现有算法,在此不再赘述。
在S306中,根据挖掘出的不同特征值和用户标识的项集,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。
在一些实施例中,将包含至少基准用户的用户标识且出现频率高于阈值的项集中的特征值,作为目标特征值。特征值与基准用户的用户标识出现频率高,表明该特征值对用户达到业务目标的影响度高。
下面结合表4描述上述方法的一些应用例。
表4
用户ID 买过小米手机 年龄 基准用户
User_1 30
User_2 20
User_3 30
User_4 15
如表4所示,每一行可以生成对应的用户的特征向量。将各个用户的特征向量输入通过FP Growth模型挖掘频繁项集,可以得到如下频繁项集,即置信度高,出现的频率高的项集。
(买过小米:是),(基准用户:是),(基准用户:否),(年龄:30),(基准用户:是,买过小米:是),(基准用户:是,买过小米:是,年龄:30)。
从这些项集中过滤掉只包含基准用户的用户标识的项集和没有出现的用户标识的项集。过滤后得到如下两个项集:(基准用户:是,买过小米:是,年龄:30)和(基准用户:是,买过小米:是)。可以将买过小米,年龄30这两个特征值作为目标特征值,基于这两个目标特征值选取目标用户。
上述实施例的方法,可以和针对多个特征类,先选取目标特征类再选取目标特征值的情况下的实施例结合使用。例如,根据同一特征类中不同特征项对应的基准用户和负样本用户的特征值分布情况,选取影响用户达到业务目标的特征类,作为目标特征类;根据基准用户和非基准用户在该特征类中针对不同特征项的特征值,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。
上述实施例的方法,也可以结合针对一个特定的特征项,选取该特征项对应目标特征值的情况的实施例应用。针对每一个特征项都可以选取一个目标特征值,对应一部分目标用户,在特征项较多的情况下目标用户并集中用户量可能会很大,可以选取进一步利用上述实施例的方法,利用FP Growth模型,综合考虑多个特征值作为目标特征值。
例如,在用户群中用户数量低于阈值的情况下,采用针对一个特征项,选取该特征项对应目标特征值的情况的实施例,进一步,可以将各个特征项对应的目标特征值的目标用户取并集,或者对用户达到业务目标影响度高于对应阈值的目标特征值的目标用户取并集。其他情况下可以采用针对综合考虑多个特征项,选取目标特征值的情况的实施例。
上述实施例的方法适用于可以利用的特征项有多个,并且希望更精准的定位目标用户的情况。虽然考虑用户的多个特征项信息,计算速度相对于只考虑一种特征项信息慢,但是避免了某个特征项的数据稀疏的话造成的目标特征值确定不准确,目标用户定位不准确的问题,进一步提高活动投放的精准性。
在步骤S106中,选取具备目标特征值的非基准用户作为目标用户,以便对目标用户进行活动投放。
对目标用户进行活动投放,可以根据目标用户的特征选取目标用户感兴趣的活动进行投放。或者,在活动是针对业务目标制定的情况下,可以向目标用户投放与业务目标相关的活动。例如,业务目标为用户购买10袋牛奶,通过上述实施例的方法,可以选取与基准用户特征相似的目标用户,他们购买10袋牛奶的概率较高,则向他们进行牛奶促销的活动的投放。
上述实施例的方法,获取用户的特征值,通过已经达到业务目标的基准用户的特征值和非基准用户的特征值,可以选取对用户达到业务目标影响较大的目标特征值,对具备目标特征值的目标用户进行活动投放,能够提高活动投放的精准性,提升活动投放效果和用户体验。此外,上述实施例的目标特征值的不同确定方法,可以适用于不同场景,从各方面提高活动投放的精准性,提升活动投放效果和用户体验。
本公开提供一种数据处理装置,下面结合图4进行描述。
图4为本公开数据处理装置的一些实施例的结构图。如图4所示,该实施例的装置40包括:信息获取模块402,目标特征值确定模块404,目标用户确定模块406。
信息获取模块402,用于获取用户的特征值。
目标特征值确定模块404,用于根据基准用户的特征值和非基准用户的特征值,选取影响用户达到业务目标的特征值,作为目标特征值。
基准用户可以为已经达到业务目标的用户。
在一些实施例中,目标特征值确定模块404用于根据用户中的基准用户的数量和负样本用户的数量,以及同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,选取影响用户达到业务目标的该特征项对应的特征值,作为目标特征值;其中,负样本用户为非基准用户中确定无法达到业务目标的用户。
进一步,目标特征值确定模块404可以用于根据用户中的负样本用户的数量和基准用户的数量的第一比值,以及一种特征值对应的负样本用户的数量和基准用户的数量的第二比值,确定该种特征值对用户达到业务目标的影响度;选取对用户达到业务目标的影响度高于特征值阈值的特征值,作为目标特征值。
进一步,特征值对用户达到业务目标的影响度可以为1减去第二比值与第一比值的比值后得到的差值。
在另一些实施例中,目标特征值确定模块404用于根据同一特征类中不同特征项对应的基准用户和负样本用户的特征值分布情况,选取影响用户达到业务目标的特征类,作为目标特征类;从目标特征类中选取影响用户达到业务目标的特征值,作为目标特征值;其中,负样本用户为非基准用户中确定无法达到业务目标的用户。
进一步,目标特征值确定模块404可以用于根据同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,确定该特征项对用户达到业务目标的影响度;根据同一特征类中不同特征项对用户达到业务目标的影响度;确定该特征类对用户达到业务目标的影响度;选取对用户达到业务目标的影响度高于特征类阈值的特征类,作为目标特征类。
进一步,特征项对用户达到业务目标的影响度可以根据第一向量和第二向量的皮尔逊相关系数确定;第一向量为特征项中不同特征值对应的基准用户的数量组成的向量,第二向量为该特征项中不同特征值对应的负样本用户的数量组成的向量。特征类对用户达到业务目标的影响度可以根据特征类中不同特征项对用户达到业务目标的影响度的加权值确定。
在又一些实施例中,目标特征值确定模块404用于根据基准用户和非基准用户针对不同特征项的特征值,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。
进一步,目标特征值确定模块404用于根据用户针对不同特征项对应的特征值,以及该用户为基准用户或非基准用户的用户标识,生成该用户的特征向量;将各个用户的特征向量输入FP Growth模型,进行频繁项集挖掘;根据挖掘出的不同特征值和用户标识的项集,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。
进一步,目标特征值确定模块404可以用于将包含至少基准用户的用户标识且出现频率高于阈值的项集中的特征值,作为目标特征值。
目标用户确定模块406,用于选取具备目标特征值的非基准用户作为目标用户,以便对目标用户进行活动投放。
本公开的实施例中的数据处理装置可各由各种计算设备或计算机系统来实现,下面结合图5以及图6进行描述。
图5为本公开数据处理装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行本公开中任意一些实施例中的数据处理方法。
其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6为本公开数据处理装置的另一些实施例的结构图。如图6所示,该实施例的装置60包括:存储器610以及处理器620,分别与存储器510以及处理器520类似。还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (18)

1.一种数据处理方法,包括:
获取用户的特征值;
根据基准用户的特征值和非基准用户的特征值,选取影响用户达到业务目标的特征值,作为目标特征值;
选取具备目标特征值的非基准用户作为目标用户,以便对所述目标用户进行活动投放;
其中,所述基准用户为已经达到业务目标的用户;
其中,所述根据基准用户的特征值和非基准用户的特征值,选取影响用户达到业务目标的特征值,作为目标特征值包括:
针对多个特征类,根据同一特征类中不同特征项对应的基准用户和负样本用户的特征值分布情况,选取影响用户达到业务目标的特征类,作为目标特征类,其中,所述负样本用户为非基准用户中确定无法达到业务目标的用户;
从所述目标特征类中选取影响用户达到业务目标的特征值,作为目标特征值;
其中,所述根据同一特征类中不同特征项对应的基准用户和负样本用户的特征值分布情况,选取影响用户达到业务目标的特征类,作为目标特征类包括:
根据同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,确定该特征项对用户达到业务目标的影响度;
根据同一特征类中不同特征项对用户达到业务目标的影响度;确定该特征类对用户达到业务目标的影响度;
选取对用户达到业务目标的影响度高于特征类阈值的特征类,作为目标特征类。
2.根据权利要求1所述的数据处理方法,其中,
所述从所述目标特征类中选取影响用户达到业务目标的特征值,作为目标特征值包括:
针对目标特征类中每个特征项,根据用户中的基准用户的数量和负样本用户的数量,以及同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,选取影响用户达到业务目标的该特征项对应的特征值,作为目标特征值。
3.根据权利要求2所述的数据处理方法,其中,
所述选取影响用户达到业务目标的该特征对应的特征值包括:
根据用户中的负样本用户的数量和基准用户的数量的第一比值,以及一种特征值对应的负样本用户的数量和基准用户的数量的第二比值,确定该种特征值对用户达到业务目标的影响度;
选取对用户达到业务目标的影响度高于特征值阈值的特征值,作为目标特征值。
4.根据权利要求3所述的数据处理方法,其中,
特征值对用户达到业务目标的影响度为1减去第二比值与第一比值的比值后得到的差值。
5.根据权利要求1所述的数据处理方法,其中,
特征项对用户达到业务目标的影响度根据第一向量和第二向量的皮尔逊相关系数确定;所述第一向量为特征项中不同特征值对应的基准用户的数量组成的向量,所述第二向量为该特征项中不同特征值对应的负样本用户的数量组成的向量;
特征类对用户达到业务目标的影响度根据特征类中不同特征项对用户达到业务目标的影响度的加权值确定。
6.根据权利要求1所述的数据处理方法,其中,
所述从所述目标特征类中选取影响用户达到业务目标的特征值,作为目标特征值包括:
针对目标特征类中不同特征项,根据基准用户和非基准用户针对不同特征项的特征值,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。
7.根据权利要求6所述的数据处理方法,其中,
所述根据基准用户和非基准用户针对不同特征项的特征值,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值包括:
根据用户针对不同特征项对应的特征值,以及该用户为基准用户或非基准用户的用户标识,生成该用户的特征向量;
将各个用户的特征向量输入FP Growth模型,进行频繁项集挖掘;
根据挖掘出的不同特征值和用户标识的项集,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。
8.根据权利要求7所述的数据处理方法,其中,
将包含至少基准用户的用户标识且出现频率高于阈值的项集中的特征值,作为目标特征值。
9.一种数据处理装置,包括:
信息获取模块,用于获取用户的特征值;
目标特征值确定模块,用于根据基准用户的特征值和非基准用户的特征值,选取影响用户达到业务目标的特征值,作为目标特征值;
目标用户确定模块,用于选取具备目标特征值的非基准用户作为目标用户,以便对所述目标用户进行活动投放;
其中,所述基准用户为已经达到业务目标的用户;
其中,所述目标特征值确定模块用于根据同一特征类中不同特征项对应的基准用户和负样本用户的特征值分布情况,选取影响用户达到业务目标的特征类,作为目标特征类;从所述目标特征类中选取影响用户达到业务目标的特征值,作为目标特征值,其中,所述负样本用户为非基准用户中确定无法达到业务目标的用户;
其中,所述目标特征值确定模块用于根据同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,确定该特征项对用户达到业务目标的影响度;根据同一特征类中不同特征项对用户达到业务目标的影响度;确定该特征类对用户达到业务目标的影响度;选取对用户达到业务目标的影响度高于特征类阈值的特征类,作为目标特征类。
10.根据权利要求9所述的数据处理装置,其中,
所述目标特征值确定模块用于针对目标特征类中每个特征项,根据用户中的基准用户的数量和负样本用户的数量,以及同一特征项中不同特征值对应的基准用户的数量和负样本用户的数量,选取影响用户达到业务目标的该特征项对应的特征值,作为目标特征值。
11.根据权利要求10所述的数据处理装置,其中,
所述目标特征值确定模块用于根据用户中的负样本用户的数量和基准用户的数量的第一比值,以及一种特征值对应的负样本用户的数量和基准用户的数量的第二比值,确定该种特征值对用户达到业务目标的影响度;选取对用户达到业务目标的影响度高于特征值阈值的特征值,作为目标特征值。
12.根据权利要求11所述的数据处理装置,其中,
特征值对用户达到业务目标的影响度为1减去第二比值与第一比值的比值后得到的差值。
13.根据权利要求9所述的数据处理装置,其中,
特征项对用户达到业务目标的影响度根据第一向量和第二向量的皮尔逊相关系数确定;所述第一向量为特征项中不同特征值对应的基准用户的数量组成的向量,所述第二向量为该特征项中不同特征值对应的负样本用户的数量组成的向量;
特征类对用户达到业务目标的影响度根据特征类中不同特征项对用户达到业务目标的影响度的加权值确定。
14.根据权利要求9所述的数据处理装置,其中,
所述目标特征值确定模块用于针对目标特征类中不同特征项,根据基准用户和非基准用户针对不同特征项的特征值,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。
15.根据权利要求14所述的数据处理装置,其中,
所述目标特征值确定模块用于根据用户针对不同特征项对应的特征值,以及该用户为基准用户或非基准用户的用户标识,生成该用户的特征向量;将各个用户的特征向量输入FP Growth模型,进行频繁项集挖掘;根据挖掘出的不同特征值和用户标识的项集,选取影响用户达到业务目标的不同特征项对应的特征值,作为目标特征值。
16.根据权利要求15所述的数据处理装置,其中,
所述目标特征值确定模块用于将包含至少基准用户的用户标识且出现频率高于阈值的项集中的特征值,作为目标特征值。
17.一种数据处理装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在存储器设备中的指令,执行如权利要求1-8任一项所述的数据处理方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。
CN201810766548.5A 2018-07-13 2018-07-13 数据处理方法、装置和计算机可读存储介质 Active CN108932658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810766548.5A CN108932658B (zh) 2018-07-13 2018-07-13 数据处理方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810766548.5A CN108932658B (zh) 2018-07-13 2018-07-13 数据处理方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108932658A CN108932658A (zh) 2018-12-04
CN108932658B true CN108932658B (zh) 2021-07-06

Family

ID=64447111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810766548.5A Active CN108932658B (zh) 2018-07-13 2018-07-13 数据处理方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108932658B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276514B (zh) * 2019-05-06 2023-04-07 创新先进技术有限公司 业务相关因素的评估方法、装置及设备
CN112116159B (zh) * 2020-09-21 2021-08-27 贝壳找房(北京)科技有限公司 信息交互方法、装置、计算机可读存储介质及电子设备
CN117367023A (zh) * 2023-10-25 2024-01-09 广东鑫焱智能设备科技有限公司 一种冷藏柜能耗控制方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550903A (zh) * 2015-12-25 2016-05-04 腾讯科技(深圳)有限公司 目标用户确定方法及装置
CN105740245A (zh) * 2014-12-08 2016-07-06 北京邮电大学 频繁项集挖掘方法
CN106355449A (zh) * 2016-08-31 2017-01-25 腾讯科技(深圳)有限公司 用户选取方法和装置
CN107103057A (zh) * 2017-04-13 2017-08-29 腾讯科技(深圳)有限公司 一种资源推送方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708871B (zh) * 2015-11-16 2020-08-11 阿里巴巴集团控股有限公司 一种社交业务特征用户的识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740245A (zh) * 2014-12-08 2016-07-06 北京邮电大学 频繁项集挖掘方法
CN105550903A (zh) * 2015-12-25 2016-05-04 腾讯科技(深圳)有限公司 目标用户确定方法及装置
CN106355449A (zh) * 2016-08-31 2017-01-25 腾讯科技(深圳)有限公司 用户选取方法和装置
CN107103057A (zh) * 2017-04-13 2017-08-29 腾讯科技(深圳)有限公司 一种资源推送方法及装置

Also Published As

Publication number Publication date
CN108932658A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
KR20200123015A (ko) 정보를 추천하는 방법, 장치, 기기 및 저장 매체
US20160379268A1 (en) User behavior data analysis method and device
CN107516246B (zh) 用户类型的确定方法、确定装置、介质及电子设备
CN109299356B (zh) 基于大数据的活动推荐方法、装置、电子设备及存储介质
CN108932658B (zh) 数据处理方法、装置和计算机可读存储介质
CN104239338A (zh) 信息推荐方法及装置
CN111061979B (zh) 一种用户标签的推送方法、装置、电子设备和介质
US8725735B2 (en) Information processing system, information processing method, program, and non-transitory information storage medium
US11210673B2 (en) Transaction feature generation
US20190080352A1 (en) Segment Extension Based on Lookalike Selection
US20200098031A1 (en) Product recommending apparatus and non-transitory computer readable medium
US20170142119A1 (en) Method for creating group user profile, electronic device, and non-transitory computer-readable storage medium
CN113407854A (zh) 一种应用推荐方法、装置、设备及计算机可读存储介质
CN110245684B (zh) 数据处理方法、电子设备和介质
US20240112210A1 (en) Self-learning valuation
CN109460778B (zh) 活动评估方法、装置、电子设备及存储介质
CN107357847B (zh) 数据处理方法及其装置
CN112287208A (zh) 用户画像生成方法、装置、电子设备及存储介质
CN110689032A (zh) 数据处理方法及系统、计算机系统和计算机可读存储介质
CN114285896A (zh) 信息推送方法、装置、设备、存储介质及程序产品
CN114282976A (zh) 供应商推荐方法、装置、电子设备及介质
CN109472454B (zh) 活动评估方法、装置、电子设备及存储介质
CN109472455B (zh) 活动评估方法、装置、电子设备及存储介质
CN111815204A (zh) 风险评估方法、装置以及系统
CN110009397A (zh) 一种精准营销的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Beijing Daxing District, Beijing

Applicant after: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address before: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Beijing Daxing District, Beijing

Applicant before: BEIJING JINGDONG FINANCIAL TECHNOLOGY HOLDING Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee before: Jingdong Digital Technology Holding Co.,Ltd.

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Patentee before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.