CN111651456A - 潜在用户确定方法、业务推送方法及装置 - Google Patents

潜在用户确定方法、业务推送方法及装置 Download PDF

Info

Publication number
CN111651456A
CN111651456A CN202010468804.XA CN202010468804A CN111651456A CN 111651456 A CN111651456 A CN 111651456A CN 202010468804 A CN202010468804 A CN 202010468804A CN 111651456 A CN111651456 A CN 111651456A
Authority
CN
China
Prior art keywords
target
user
node
seed
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010468804.XA
Other languages
English (en)
Other versions
CN111651456B (zh
Inventor
杨丽敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010468804.XA priority Critical patent/CN111651456B/zh
Publication of CN111651456A publication Critical patent/CN111651456A/zh
Application granted granted Critical
Publication of CN111651456B publication Critical patent/CN111651456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供了一种潜在用户确定方法、业务推送方法及装置,该潜在用户确定方法先基于目标人群的用户标识以及用户特征集合生成目标KD树,且目标KD树中每个节点关联有相应的用户标识,然后基于从目标人群中确定的种子人群的用户标识,标记目标KD树中的种子节点,进而基于种子节点在目标KD树中的上下近邻节点确定目标节点,将目标节点对应的用户确定为潜在用户。

Description

潜在用户确定方法、业务推送方法及装置
技术领域
本说明书实施例涉及互联网技术领域,尤其涉及一种潜在用户确定方法、业务推送方法及装置。
背景技术
随着互联网技术的发展,线上业务的种类越来越丰富。大多互联网公司在业务推广阶段,都有从海量人群中挖掘出潜在用户的需求,以便向挖掘出的潜在用户推送业务相关信息如推送业务链接、投放广告、资讯、资源等,这样能够在降低用户打扰率的基础上,提高业务推广的成功率。因此,实现潜在用户的挖掘尤为重要。
发明内容
本说明书实施例提供了一种潜在用户确定方法、业务推送方法及装置。
第一方面,本说明书实施例提供了一种潜在用户确定方法,包括:获取目标人群的用户标识以及所述目标人群的用户特征集合,所述用户特征集合包括所述目标人群中每个用户的特征数据集;基于所述目标人群的用户标识以及所述用户特征集合,生成目标KD树,所述目标KD树中每个节点关联有相应的用户标识;确定所述目标人群中的种子人群,并基于所述种子人群的用户标识,标记所述目标KD树中的种子节点;基于所述种子节点在所述目标KD树中的上下近邻节点确定目标节点,并将所述目标节点对应的用户确定为潜在用户。
第二方面,本说明书实施例提供了一种业务推送方法,包括:基于目标业务,从目标人群中确定种子人群;基于所述种子人群的用户标识,确定预先生成的目标KD树中的种子节点,其中,所述目标KD树是基于所述目标人群的用户标识以及所述目标人群的用户特征集合生成的,所述用户特征集合包括所述目标人群中每个用户的特征数据集;基于所述种子节点在所述目标KD树中的上下近邻节点确定目标节点,并将所述目标节点对应的用户确定为潜在用户;向所述潜在用户推送所述目标业务。
第三方面,本说明书实施例提供了一种潜在用户确定装置,包括:获取模块,用于获取目标人群的用户标识以及所述目标人群的用户特征集合,所述用户特征集合包括所述目标人群中每个用户的特征数据集;生成模块,用于基于所述目标人群的用户标识以及所述用户特征集合,生成目标KD树,所述目标KD树中每个节点关联有相应的用户标识;标记模块,用于确定所述目标人群中的种子人群,并基于所述种子人群的用户标识,标记所述目标KD树中的种子节点;确定模块,用于基于所述种子节点在所述目标KD树中的上下近邻节点确定目标节点,并将所述目标节点对应的用户确定为潜在用户。
第四方面,本说明书实施例提供了一种业务推送装置,包括:种子人群确定模块,用于基于目标业务,从目标人群中确定种子人群;种子节点确定模块,用于基于所述种子人群的用户标识,确定预先生成的目标KD树中的种子节点,其中,所述目标KD树是基于所述目标人群的用户标识以及所述目标人群的用户特征集合生成的,所述用户特征集合包括所述目标人群中每个用户的特征数据集;潜在用户确定模块,用于基于所述种子节点在所述目标KD树中的上下近邻节点确定目标节点,并将所述目标节点对应的用户确定为潜在用户;推送模块,用于向所述潜在用户推送所述目标业务。
第五方面,本说明书实施例提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面提供的潜在用户确定方法或第二方面提供的业务推送方法的步骤。
第六方面,本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面提供的潜在用户确定方法或第二方面提供的业务推送方法的步骤。
本说明书一个实施例提供的潜在用户确定方法,通过将KD树应用在人群泛化场景,利用目标人群的用户标识以及用户特征集合生成目标KD树,然后基于种子人群在目标KD树中标记种子节点,并利用目标KD树中上下近邻节点间的相似性,从种子节点的上下近邻节点中确定可泛化节点,将可泛化节点对应的用户确定为潜在用户,能够有效地实现对一小部分种子用户群体的扩张,从目标人群中挖掘出更多与种子人群相似的人群作为潜在用户,以便进一步进行业务推广。并且,利用目标KD树来查找与种子人群相似的潜在用户,查找过程方便且高效,有利于提高潜在用户的确定效率。
另外,本说明书一个实施例提供的业务推荐方法,基于预先根据目标人群的用户特征集合生成的目标KD树,实现种子人群的泛化,进而向泛化出来的潜在用户推送目标业务。这样,能够有效且快速地从目标人群中挖掘出更多习惯与种子人群相似的人群作为潜在用户,完成目标业务的推送,有利于在保证推送成功率的基础上,提高目标业务的推送效率。
附图说明
图1为本说明书实施例第一方面提供的一种潜在用户确定方法的流程图;
图2为本说明书实施例第一方面提供的一种示例性的切割完平面示意图;
图3为本说明书实施例第一方面提供的一种示例性二叉树示意图;
图4为本说明书实施例第二方面提供的一种业务推送方法的流程图;
图5为本说明书实施例第三方面提供的一种潜在用户确定装置的模块框图;
图6为本说明书实施例第四方面提供的一种业务推送装置的模块框图;
图7为本说明书实施例第五方面提供的一种电子设备的结构示意图。
具体实施方式
潜在用户的挖掘对于互联网平台来讲尤为重要,例如,可以应用于业务推广、广告投放或者是资源推送等场景中。相比于无差别的推广,先从海量的人群中挖掘出潜在用户,再针对性地进行推广,能够显著地提高推广的成功率,且降低对用户的打扰率。有鉴于此,本说明书实施例提供了一种潜在用户确定方法,能够有效地从人群中挖掘出潜在用户。
为了更好的理解本说明书实施例提供的技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。本说明书实施例中,术语“多个”表示“两个以上”,即包括两个或大于两个的情况;术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,M和/或N,可以表示:单独存在M,同时存在M和N,或者,单独存在N这三种情况。
第一方面,图1示出了本说明书实施例提供的一种潜在用户确定方法的流程图。请参阅图1,所述方法可以至少包括以下步骤S100至步骤S106。
步骤S100,获取目标人群的用户标识以及目标人群的用户特征集合,用户特征集合包括目标人群中每个用户的特征数据集。
本说明书实施例中,目标人群中每个用户的身份通过用户标识表征,用户标识即为用户身份的唯一标识,又称为uid(User Identification,用户身份证明),通过用户的用户标识即可方便查找该用户的其他信息如联系方式、历史行为信息等。获取目标人群的用户标识即为获取目标人群中每个用户的用户标识,得到目标人群的用户标识列表。
目标人群可以是全量用户,或者,也可以是根据需要预先指定的用户集合。全量用户是指归属于预设区域的多个用户组成的用户集合。举例来讲,预设区域为一个城市,如成都或杭州等,可以将常住于该城市的用户组成的用户集合,作为全量用户。例如,在一种应用场景中,假设某预设区域记录的常住用户有10万人,则全量用户可以包括这10万人。具体实施过程中,可以根据实际应用场景的需要确定目标人群。
用户的特征数据集可以包括多个维度的特征项,根据具体应用场景和实际需要确定。例如,在一种应用场景中,用户的特征数据集可以包括:用户画像如用户的年龄范围、性别、所在地区等。可选地,用户的特征数据集还可以包括用户的行为特征数据。如在电子商务业务场景下,用户的行为特征数据可以包括但不限于以下多个数据中的一个或多个组合:用户常购商品标识、常购类目、客单价即用户平均购买商品的金额、周订单数量、月订单数量、年订单数量以及用户的支付相关数据如一周内使用某支付平台支付的次数、一个月内使用某支付平台支付的次数和一年内使用某支付平台支付的次数等等。
具体来讲,用户的特征数据集可以包括用户的全量特征,例如,包括上述的用户画像以及用户的行为特征数据等。或者,也可以根据实际需求从用户全量特征中选择特定几个特征项如以年龄等有限个指定特征泛化,生成相应维度的KD树,这样能够在满足潜在用户挖掘需求的同时,减小计算量。
具体实施过程中,用户的特征数据集可以从用户预先录入的身份信息和/或用户的历史行为数据中采集。获取目标人群中每个用户的特征数据集后,即可以组成用户特征集合。举例来讲,目标人群共有10万人,则上述用户特征集合包括10万个特征数据集。确定目标人群以及目标人群的用户特征集合后,就可以执行以下步骤S102构建目标人群对应的目标KD树(k-dimensional树的简称)。
可以理解的是,用户的特征数据集尤其是用户画像以及用户行为特征都能够在一定程度上反应用户的习惯。而大部分业务的使用都有很强的用户习惯聚集现象,即习惯相似的人群极大概率会使用相同的业务,因此,通过用户特征集合,生成目标KD树,分析目标人群的习惯的相似关系,并以此进行种子人群的泛化扩展,能够较准确地获得潜在用户群体,以进行业务推广。
步骤S102,基于目标人群的用户标识以及用户特征集合,生成目标KD树,目标KD树中每个节点关联有相应的用户标识。
需要说明的是,针对目标KD树中每个节点来讲,相应的用户标识是指:该节点的特征数据集对应用户的用户标识。具体实施过程中,可以将与节点相应的用户标识存储到该节点中,或者,也可以创建并存储节点与用户标识的映射关系,从而将目标KD树中每个节点与相应用户标识进行关联。
KD树是每个节点均有k维数值点的二叉树,其上的每个节点均代表一个超平面,该超平面垂直于当前划分维度的坐标轴,并在该维度上将空间划分为两部分,一部分在其左子树,另一部分在其右子树。也就是说,若当前节点的划分维度为d,其左子树上所有点在d维的坐标值均小于当前值,右子树上所有点在d维的坐标值均大于或等于当前值,本定义对KD树上任意子节点均成立。
具体来讲,上述基于目标人群的用户标识以及用户特征集合,生成KD树的过程可以包括:基于用户特征集合,构建初始KD树;在目标KD树的每个节点中存储相应的用户标识,得到目标KD树。这样就可以通过匹配用户标识,查找目标KD树中的节点,并通过目标KD树中各节点之间的索引关系,确定所查找到的节点在该目标KD树中的上下级节点。
为了构建目标KD树,用户特征集合中对应于每个用户的特征数据集均需要由一个k维数值点表征,k通常为大于或等于2的整数。在一种可选的实施例中,上述步骤S100获取的用户特征数据集的每一维特征均是由数值表示的,对于本身不是数值的特征如用户所在区域、常购商品类目等,可以预先通过枚举等方式将其转化成数值。那么,步骤S100所得到的用户特征集合即为一个k维数值点集合。
在另一种可选的实施例中,上述步骤S100中,所获取的用户特征数据集即为原始的特征数据,那么,在步骤S102中,就需要先将用户特征集合中对应于每个用户的特征数据集分别转化为一个k维数值点,然后再基于转化后的用户特征集合构建目标KD树。
举例来讲,将用户的特征数据集表征为一个二维特征点,为了简化描述,以目标人群包括7个用户为例,假设这7个用户对应的用户特征集合为:(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)。通过以下步骤a-c生成目标人群的目标KD树:
步骤a,取数据方差最大的维度作为切割维度,因此,选取第一维(x方向)作为切割维度。进一步,对第一维的值2,5,9,4,8,7排序选出中值为7,所以第一维中位点即根节点为(7,2)。以x=7作为切割超平面,将整个空间切割为两部分,x<7的部分为左子空间,包含3个节点{(2,3),(5,4),(4,7)};另一部分为右子空间,包含2个节点{(9,6),(8,1)}。
步骤b,对左子空间和右子空间内的数据重复上述根节点的过程就可以得到下一级子节点(5,4)和(9,6)(也就是左右子空间的“根”节点),同时将空间和用户特征集合进一步细分。如此反复直到空间中只包含一个特征点,切割完平面如图2所示。
步骤c,切割完后生成的二叉树如图3所示,进一步,需要在每个节点存储uid。举例来讲,生成的目标KD树中每个节点存储的数据格式可以为:uid(i):F(i)。其中,uid(i)表示用户i的用户标识,F(i)表示用户i的数值化后的特征数据集。
生成目标人群的目标KD树后,就可以继续执行以下步骤S104,将所生成的目标KD树应用于人群泛化。人群泛化是指以小范围人群为种子,扩展出更多相似特征的人群,以用于广告目标选取,资源推荐等。
步骤S104,确定所述目标人群中的种子人群,并基于所述种子人群的用户标识,标记目标KD树中的种子节点。
本说明书实施例中,种子人群即为已确定的满足应用场景需求的人群,可以包括一个或多个用户,具体可以根据实际应用场景的需要确定。举例来讲,在需要确定潜在用户进行业务推荐的场景下,可以将目标人群中已经开通了该业务的人群作为种子人群,或者,可以随机从目标人群中选取部分人群做预推荐,将这部分人群中对推送的业务信息有响应的用户纳入种子人群。例如,浏览了推送的业务信息、点击了推送的业务信息中的业务链接、或者是接收到推送的业务信息后办理了该业务均可以认为是对推送的业务信息有响应。
确定目标人群中的种子人群后,就可以输入种子人群的uid,将种子人群的uid与目标KD树中各个节点的uid进行匹配,将与种子人群中任一个用户uid匹配即uid一致的节点标记为种子节点,以进一步执行以下步骤S106确定可泛化人群。
步骤S106,基于种子节点在目标KD树中的上下近邻节点,确定目标节点,并将目标节点对应的用户确定为潜在用户。
本说明书实施例中,种子节点的上下近邻节点是指在目标KD树中,种子节点的预设层级范围内的节点。其中,预设层级范围根据具体应用场景以及实际需要设置。由于KD树是一种二叉树数据结构,每个节点表示一个空间范围,预设层级范围内的节点之间几何空间距离可以认为是较近的,因此,可以将目标KD树中种子节点的上下近邻节点,认为是可作为相应种子用户的泛化项的节点。从而将种子节点在目标KD树中的上下近邻节点,确定为目标节点。
在一种实施方式中,预设层级范围为种子节点的上一层级和下一层级,此时,种子节点的上下近邻节点包括种子节点在目标KD树中的上下相邻节点,也就是该种子节点的父节点和/或子节点。举例来讲,图3中节点(5,4)的上下近邻节点包括其父节点(7,2)和子节点{(2,3),(4,7)}。可以理解的是,对于根节点来讲,不存在父节点,对于叶子节点来讲,不存在子节点。KD树中相邻节点之间几何空间距离最近,相应地,可以认为位于相邻节点的用户在上述特征数据集包含的特征项层面相似程度较高。因此,基于种子节点的上下相邻节点确定目标节点,有利于提高潜在用户确定的准确性。
当然,在本说明书其他实施例中,在满足实际应用场景需求的情况下,种子节点的上下近邻节点也可以包括更大的层级范围。例如,可以包括种子节点在上述目标KD树中的上一级节点以及下两级节点,即包括种子节点的父节点、子节点以及子节点的下一级节点,或者,也可以是种子节点在目标KD树中的上两级节点(即种子节点的父节点以及该父节点的父节点)以及下一级节点。
进一步地,由于目标KD树中各节点均关联有相应的uid,确定目标节点后,即可以根据目标节点关联的uid确定潜在用户。
为了进一步提高潜在用户挖掘的准确性,在本说明书一可选的实施例中,上述基于种子节点在目标KD树中的上下近邻节点确定目标节点的过程可以包括:针对每个种子节点,分别计算该种子节点的上下近邻节点与该种子节点之间的距离,将该种子节点的上下近邻节点中,距离低于预设阈值的节点确定为目标节点。通过两个节点之间的距离来进一步限定所要选取的目标节点与种子节点之间的相似程度也就是这两个节点对应的用户之间的相似程度,从种子节点的上下近邻节点中更准确地确定出符合需要的目标节点,从而提高潜在用户挖掘的准确性。
需要说明的是,上述步骤S104确定的种子节点个数根据实际应用场景中种子人群的人数确定,可以是一个,也可以是多个。在确定种子节点后,进一步针对每个种子节点,确定该种子节点在目标KD树中的上下近邻节点。进而,计算该种子节点与其上下近邻节点中每个节点的距离。可以理解的是,本说明书实施例中,两个节点之间的距离通过两个节点对应的特征数据集计算,例如图3所示的示例中,(5,4)和(2,3)之间的距离。具体来讲,上述距离可以是欧式距离,或者,也可以是绝对值距离等等,此处不作限制。
然后将计算得到的距离与预设阈值进行比较,取预设距离范围内的非种子节点对应的uid作为可泛化项。若两个节点之间的距离小于预设阈值,则表明这两个节点是具有一定的相似性的,而本说明书实施例中,目标KD树中每个节点均对应于一个uid,也就是说,这两个uid代表的用户在上述特征数据集包含的特征项层面是具有一定相似性的,因此,可以将与种子节点距离小于预设阈值的节点对应的用户确定为潜在用户。其中,预设阈值可以根据实际应用场景中对潜在用户与种子人群的相似性需求以及多次试验设置。例如,在一种具体应用场景中,可以设置为根据多次试验得到的一个固定值。
又例如,在一种具体应用场景中,也可以针对每个种子节点,分别设置一个适用于该种子节点的预设阈值。举例来讲,可以针对每个种子节点,将种子节点以及其所有相邻节点构成一个自上而下的相邻节点序列;依次针对相邻节点序列中的节点,与相邻节点序列中的其他节点组成节点对,得到该节点的节点对集合,且各节点对集合之间无重复节点对;针对每个节点对集合,比较节点对集合中各节点对的距离,取距离最小值,将得到的所有距离最小值取平均,将平均值设置为该种子节点对应的预设阈值,其中,最小距离值为每个种子节点与相邻节点的距离的最小值。例如,假设某种子节点以及其所有相邻节点构成的相邻节点序列为{A,B,C,D},相应地,得到节点对集合{AB,AC,AD}、{BC,BD}以及{CD}。其中,相比AC和AD来看,AB之间的距离最小,得到节点对集合{AB,AC,AD}中的距离最小值sAB。BD之间的距离相比BC更小,得到节点对集合{BC,BD}中的距离最小值sBD。而节点对集合{CD}的距离最小值即为CD之间的距离,得到节点对集合{CD}中的距离最小值sCD。进而,再将sAB、sBD和sCD的平均值作为该种子节点对应的预设阈值。相比于固定配置,通过这种方式来确定每个种子节点的预设阈值,适用性强,能够个性化配置每个种子节点的可泛化距离阈值,提高了距离阈值设置的准确性,使得泛化的目标用户更加准确,有利于进一步提高潜在用户挖掘的准确性。
可以理解的是,KD树作为一种查询索引结构,被广泛应用于数据库索引中,方便对多维空间关键数据进行搜索。而本说明书实施例提供的潜在用户确定方法,将KD树用在了人群泛化场景,基于种子人群在目标KD树中标记种子节点,并利用目标KD树中上下近邻节点间的相似性,从种子节点的上下近邻节点中确定可泛化节点,将可泛化节点对应的用户确定为潜在用户,能够有效地实现对一小部分种子用户群体的扩张,查找到更多与种子人群相似的人群作为潜在用户,以便进一步进行业务推广。并且,利用所生成的目标KD树来查找与种子人群相似的潜在用户,查找过程方便且高效,有利于提高潜在用户的确定效率。
另外,目标KD是基于目标人群的用户特征集合构建整个目标人群中用户之间的距离关系即相似关系,并不是单纯地对人群进行分类,能够根据需要灵活选择种子人群,从而查找出该种子人群的相似人群作为潜在人群,适用性更强。例如,在生成目标人群的目标KD树后,可以根据业务B1的推广需要,确定目标人群中的一小部分人为种子人群,根据该目标KD树确定相应的潜在用户,还可以根据业务B2的推广需要,确定目标人群中的另一小部分人为种子人群,根据同一目标KD树确定相应的潜在用户,有利于提高潜在用户的确定效率,且减少对计算资源的占用。
第二方面,图4示出了本说明书实施例提供的一种业务推送方法的流程图。请参阅图4,所述方法可以至少包括以下步骤S400至步骤S406。
步骤S400,基于目标业务,从目标人群中确定种子人群。
本说明书实施例中,目标业务即为需要推送给潜在用户的业务,根据具体应用场景确定。例如,目标业务可以是支付业务如新推出的支付方式、可以是广告业务或者也可以是新上线的产品等等。
目标人群可以是全量用户,也可以是根据需要指定的用户群体,此处不做限定。举例来讲,在新业务推广场景下,可以将目标人群中已确定的开通了该目标业务的人群作为种子人群,可以包括一个或多个用户,具体可以根据实际应用场景的需要确定。又例如,可以随机从目标人群中选取部分人群做目标业务的预推荐,将这部分人群中对推送的目标业务有响应的用户纳入种子人群。例如,浏览了推送的业务信息、点击了推送的业务信息中的业务链接、或者是接收到推送的业务信息后办理了该业务均可以认为是对推送的业务信息有响应。
步骤S402,基于种子人群的用户标识,确定预先生成的目标KD树中的种子节点,其中,目标KD树是基于目标人群的用户标识以及目标人群的用户特征集合生成的,用户特征集合包括目标人群中每个用户的特征数据集。
步骤S404,基于种子节点在目标KD树中的上下近邻节点确定目标节点,并将目标节点对应的用户确定为潜在用户。
需要说明的是,上述步骤S402以及步骤S404的具体实施过程与上述第一方面提供的实施例中步骤S104以及步骤S106的实施过程类似,具体可以参照上述第一方面中的相应描述,此处不再赘述。其中,目标KD树的生成过程与上述第一方面提供的实施例中步骤S102的实施过程类似,具体可以参照上述第一方面中的相应描述,此处不再赘述。
步骤S406,向所确定的潜在用户推送目标业务。
基于目标KD树实现对种子人群的泛化,确定目标业务的潜在用户后,就可以向这些潜在用户推送目标业务,以实现目标业务的精准推广。例如,可以通过消息、短信或弹出窗口等现有推送方式进行推送,此处不做限定。
本说明书实施例提供的业务推送方法,基于预先根据目标人群的用户特征集合生成的目标KD树,实现种子人群的泛化,能够快速从目标人群中挖掘出更多习惯与种子人群相似的人群作为潜在用户,完成目标业务的推送,有利于在保证推送成功率的基础上,提高目标业务的推送效率,从而降低在业务推广上的资源占用。
第三方面,基于与前述第一方面实施例提供的潜在用户确定方法同样的发明构思,本说明书实施例还提供了一种潜在用户确定装置。如图5所示,该潜在用户确定装置50包括:
获取模块51,用于获取目标人群的用户标识以及所述目标人群的用户特征集合,所述用户特征集合包括所述目标人群中每个用户的特征数据集;
生成模块52,用于基于所述目标人群的用户标识以及所述用户特征集合,生成目标KD树,所述目标KD树中每个节点关联有相应的用户标识;
标记模块53,用于确定所述目标人群中的种子人群,并基于所述种子人群的用户标识,标记所述目标KD树中的种子节点;
确定模块54,用于基于所述种子节点在所述目标KD树中的上下近邻节点确定目标节点,并将所述目标节点对应的用户确定为潜在用户。
在一种可选的实施例中,上述确定模块54用于:针对每个所述种子节点,分别计算所述种子节点的上下近邻节点与所述种子节点之间的距离,将所述种子节点的上下近邻节点中,所述距离低于预设阈值的节点确定为目标节点。
在一种可选的实施例中,上述生成模块52包括:第一创建子模块521,用于基于所述用户特征集合,构建初始KD树;第二创建子模块522,用于在所述目标KD树的每个节点中存储相应的用户标识,得到所述目标KD树。
在一种可选的实施例中,上述种子节点的上下近邻节点包括所述种子节点的父节点和/或子节点。
需要说明的是,本说明书实施例所提供的潜在用户确定装置50,其中各个模块执行操作的具体方式已经在上述第一方面提供的方法实施例中进行了详细描述,具体实施过程可以参照上述第一方面提供的方法实施例,此处将不做详细阐述说明。
第四方面,基于与前述第二方面实施例提供的业务推送方法同样的发明构思,本说明书实施例还提供了一种业务推送装置。如图6所示,该业务推送装置60包括:
种子人群确定模块61,用于基于目标业务,从目标人群中确定种子人群;
种子节点确定模块62,用于基于所述种子人群的用户标识,确定预先生成的目标KD树中的种子节点,其中,所述目标KD树是基于所述目标人群的用户标识以及所述目标人群的用户特征集合生成的,所述用户特征集合包括所述目标人群中每个用户的特征数据集;
潜在用户确定模块63,用于基于所述种子节点在所述目标KD树中的上下近邻节点确定目标节点,并将所述目标节点对应的用户确定为潜在用户;
推送模块64,用于向所述潜在用户推送所述目标业务。
需要说明的是,本说明书实施例所提供的业务推送装置60,其中各个模块执行操作的具体方式已经在上述第二方面提供的方法实施例中进行了详细描述,具体实施过程可以参照上述第二方面提供的方法实施例,此处将不做详细阐述说明。
第五方面,基于与前述实施例同样的发明构思,本说明书实施例还提供了一种电子设备。如图7所示,该电子设备包括存储器704、一个或多个处理器702及存储在存储器704上并可在处理器702上运行的计算机程序,处理器702执行该程序时实现前文第一方面提供的潜在用户确定方法的任一实施例的步骤,或者,实现前文第二方面提供的业务推送方法的任一实施例的步骤。
其中,在图7中,总线架构(用总线700来代表),总线700可以包括任意数量的互联的总线和桥,总线700将包括由处理器702代表的一个或多个处理器和存储器704代表的存储器的各种电路链接在一起。总线700还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口705在总线700和接收器701和发送器703之间提供接口。接收器701和发送器703可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器702负责管理总线700和通常的处理,而存储器704可以被用于存储处理器702在执行操作时所使用的数据。
可以理解的是,图7所示的结构仅为示意,本说明书实施例提供的电子设备还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。
第六方面,基于与前述实施例同样的发明构思,本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文第一方面提供的潜在用户确定方法的任一实施例的步骤,或者,实现前文第二方面提供的业务推送方法的任一实施例的步骤。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

Claims (12)

1.一种潜在用户确定方法,包括:
获取目标人群的用户标识以及所述目标人群的用户特征集合,所述用户特征集合包括所述目标人群中每个用户的特征数据集;
基于所述目标人群的用户标识以及所述用户特征集合,生成目标KD树,所述目标KD树中每个节点关联有相应的用户标识;
确定所述目标人群中的种子人群,并基于所述种子人群的用户标识,标记所述目标KD树中的种子节点;
基于所述种子节点在所述目标KD树中的上下近邻节点确定目标节点,并将所述目标节点对应的用户确定为潜在用户。
2.根据权利要求1所述的方法,所述基于所述种子节点在所述目标KD树中的上下近邻节点确定目标节点,包括:
针对每个所述种子节点,分别计算所述种子节点的上下近邻节点与所述种子节点之间的距离,将所述种子节点的上下近邻节点中,所述距离低于预设阈值的节点确定为目标节点。
3.根据权利要求1所述的方法,所述基于所述目标人群的用户标识以及所述用户特征集合,生成目标KD树,包括:
基于所述用户特征集合,构建初始KD树;
在所述初始KD树的每个节点中存储相应的用户标识,得到所述目标KD树。
4.根据权利要求1所述的方法,所述种子节点的上下近邻节点包括所述种子节点的父节点和/或子节点。
5.一种业务推送方法,包括:
基于目标业务,从目标人群中确定种子人群;
基于所述种子人群的用户标识,确定预先生成的目标KD树中的种子节点,其中,所述目标KD树是基于所述目标人群的用户标识以及所述目标人群的用户特征集合生成的,所述用户特征集合包括所述目标人群中每个用户的特征数据集;
基于所述种子节点在所述目标KD树中的上下近邻节点确定目标节点,并将所述目标节点对应的用户确定为潜在用户;
向所述潜在用户推送所述目标业务。
6.一种潜在用户确定装置,包括:
获取模块,用于获取目标人群的用户标识以及所述目标人群的用户特征集合,所述用户特征集合包括所述目标人群中每个用户的特征数据集;
生成模块,用于基于所述目标人群的用户标识以及所述用户特征集合,生成目标KD树,所述目标KD树中每个节点关联有相应的用户标识;
标记模块,用于确定所述目标人群中的种子人群,并基于所述种子人群的用户标识,标记所述目标KD树中的种子节点;
确定模块,用于基于所述种子节点在所述目标KD树中的上下近邻节点确定目标节点,并将所述目标节点对应的用户确定为潜在用户。
7.根据权利要求6所述的装置,所述确定模块用于:
针对每个所述种子节点,分别计算所述种子节点的上下近邻节点与所述种子节点之间的距离,将所述种子节点的上下近邻节点中,所述距离低于预设阈值的节点确定为目标节点。
8.根据权利要求6所述的装置,所述生成模块包括:
第一创建子模块,用于基于所述用户特征集合,构建初始KD树;
第二创建子模块,用于在所述初始KD树的每个节点中存储相应的用户标识,得到所述目标KD树。
9.根据权利要求6所述的装置,所述种子节点的上下近邻节点包括所述种子节点的父节点和/或子节点。
10.一种业务推送装置,包括:
种子人群确定模块,用于基于目标业务,从目标人群中确定种子人群;
种子节点确定模块,用于基于所述种子人群的用户标识,确定预先生成的目标KD树中的种子节点,其中,所述目标KD树是基于所述目标人群的用户标识以及所述目标人群的用户特征集合生成的,所述用户特征集合包括所述目标人群中每个用户的特征数据集;
潜在用户确定模块,用于基于所述种子节点在所述目标KD树中的上下近邻节点确定目标节点,并将所述目标节点对应的用户确定为潜在用户;
推送模块,用于向所述潜在用户推送所述目标业务。
11.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-5中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
CN202010468804.XA 2020-05-28 2020-05-28 潜在用户确定方法、业务推送方法及装置 Active CN111651456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010468804.XA CN111651456B (zh) 2020-05-28 2020-05-28 潜在用户确定方法、业务推送方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010468804.XA CN111651456B (zh) 2020-05-28 2020-05-28 潜在用户确定方法、业务推送方法及装置

Publications (2)

Publication Number Publication Date
CN111651456A true CN111651456A (zh) 2020-09-11
CN111651456B CN111651456B (zh) 2023-02-28

Family

ID=72352690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010468804.XA Active CN111651456B (zh) 2020-05-28 2020-05-28 潜在用户确定方法、业务推送方法及装置

Country Status (1)

Country Link
CN (1) CN111651456B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114626870A (zh) * 2020-12-11 2022-06-14 上海永银软件科技有限公司 一种企业数据智能分析系统及其分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020123987A1 (en) * 2001-01-18 2002-09-05 Cox James A. Nearest neighbor data method and system
CN108537567A (zh) * 2018-03-06 2018-09-14 阿里巴巴集团控股有限公司 一种目标用户群体的确定方法和装置
CN109255640A (zh) * 2017-07-13 2019-01-22 阿里健康信息技术有限公司 一种确定用户分组的方法、装置及系统
CN110717064A (zh) * 2019-08-19 2020-01-21 广州荔支网络技术有限公司 个性化音频播单生成方法、装置及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020123987A1 (en) * 2001-01-18 2002-09-05 Cox James A. Nearest neighbor data method and system
CN109255640A (zh) * 2017-07-13 2019-01-22 阿里健康信息技术有限公司 一种确定用户分组的方法、装置及系统
CN108537567A (zh) * 2018-03-06 2018-09-14 阿里巴巴集团控股有限公司 一种目标用户群体的确定方法和装置
CN110717064A (zh) * 2019-08-19 2020-01-21 广州荔支网络技术有限公司 个性化音频播单生成方法、装置及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114626870A (zh) * 2020-12-11 2022-06-14 上海永银软件科技有限公司 一种企业数据智能分析系统及其分析方法
CN114626870B (zh) * 2020-12-11 2024-04-02 上海永银软件科技有限公司 一种企业数据智能分析系统及其分析方法

Also Published As

Publication number Publication date
CN111651456B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
Karim et al. Decision tree and naive bayes algorithm for classification and generation of actionable knowledge for direct marketing
Velmurugan Performance based analysis between k-Means and Fuzzy C-Means clustering algorithms for connection oriented telecommunication data
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
CN104866474A (zh) 个性化数据搜索方法及装置
CN108121737A (zh) 一种业务对象属性标识的生成方法、装置和系统
CN104933049A (zh) 生成数字人的方法及系统
CN104424296A (zh) 查询词分类方法和装置
CN112070577A (zh) 一种商品推荐方法、系统、设备及介质
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN111612499B (zh) 信息的推送方法及装置、存储介质、终端
CN112989059A (zh) 潜在客户识别方法及装置、设备及可读计算机存储介质
CN113836310B (zh) 知识图谱驱动的工业品供应链管理方法和系统
Bhade et al. A systematic approach to customer segmentation and buyer targeting for profit maximization
Aeron et al. Data mining framework for customer lifetime value-based segmentation
CN108512674B (zh) 用于输出信息的方法、装置和设备
CN111651456B (zh) 潜在用户确定方法、业务推送方法及装置
CN114626925A (zh) 金融产品的推荐方法及其装置、电子设备及存储介质
Mosa et al. A novel hybrid segmentation approach for decision support: a case study in banking
Afifi Demand forecasting of short life cycle products using data mining techniques
CN116308683B (zh) 基于知识图谱的服装品牌定位推荐方法、设备及存储介质
US20230289617A1 (en) Method and apparatus for learning graph representation for out-of-distribution generalization, device and storage medium
CN116861038A (zh) 一种基于多平台的消费者数据整合系统及其整合方法
Bhargavi et al. Comparative study of consumer purchasing and decision pattern analysis using pincer search based data mining method
CN113610608B (zh) 一种用户偏好推荐方法、装置、电子设备及存储介质
CN113516524B (zh) 用于推送信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant