CN113011922B - 相似人群的确定方法、装置、电子设备和存储介质 - Google Patents

相似人群的确定方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113011922B
CN113011922B CN202110291936.4A CN202110291936A CN113011922B CN 113011922 B CN113011922 B CN 113011922B CN 202110291936 A CN202110291936 A CN 202110291936A CN 113011922 B CN113011922 B CN 113011922B
Authority
CN
China
Prior art keywords
crowd
individual prediction
initial
distinguishing
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110291936.4A
Other languages
English (en)
Other versions
CN113011922A (zh
Inventor
欧阳利萍
姚帅
田涛
林文聪
张英
杨胜文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110291936.4A priority Critical patent/CN113011922B/zh
Publication of CN113011922A publication Critical patent/CN113011922A/zh
Application granted granted Critical
Publication of CN113011922B publication Critical patent/CN113011922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了相似人群的确定方法、装置、电子设备和存储介质,涉及计算机技术领域,尤其涉及人工智能领域。具体实现方案为:基于人群预测模型确定人群中候选用户的个体预测得分;根据人群区分度阈值和所述候选用户的个体预测得分,选择属于目标相似人群的候选用户;其中,所述人群区分度阈值根据所述人群预测模型的训练样本得到。本申请实施例能够提高相似人群划分的准确度。

Description

相似人群的确定方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能领域,具体涉及相似人群的确定方法、装置、电子设备和存储介质。
背景技术
采用人群定向的方式进行广告定向营销是计算广告学领域的关键方法。
如何能够既充分理解原始人群的深度含义,实现精准的人群模型学习,又能高效、自动满足多样化数据样本场景,是一个技术难题。
发明内容
本申请提供了一种用于相似人群的确定方法、装置、电子设备和存储介质。
根据本申请的一方面,提供了一种相似人群的确定方法,包括:
基于人群预测模型确定人群中候选用户的个体预测得分;
根据人群区分度阈值和所述候选用户的个体预测得分,选择属于目标相似人群的候选用户;
其中,所述人群区分度阈值根据所述人群预测模型的训练样本得到。
根据本申请的另一方面,提供了一种相似人群的确定装置,包括:
个体预测得分确定模块,用于基于人群预测模型确定人群中候选用户的个体预测得分;
候选用户选择模块,用于根据所述人群区分度阈值和所述候选用户的个体预测得分,选择属于目标相似人群的候选用户;
其中,所述人群区分度阈值根据所述人群预测模型的训练样本得到。
根据本申请的又一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任意实施例所提供的相似人群的确定方法。
根据本申请的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本申请任意实施例所提供的相似人群的确定方法。
根据本申请的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本申请任意实施例所提供的相似人群的确定方法。
根据本申请的技术,能够提高相似人群划分的准确度。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的一种相似人群的确定方法的示意图;
图2是根据本申请实施例的另一种相似人群的确定方法的示意图;
图3是根据本申请实施例的又一种相似人群的确定方法的示意图;
图4是根据本申请实施例的一种相似人群的确定装置的示意图;
图5是用来实现本申请实施例的相似人群的确定方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
以下结合附图,对本申请实施例提供的该方案进行详细说明。
图1是根据本申请实施例提供的一种相似人群的确定方法的示意图,本申请实施例可适用于在进行定向广告营销时,确定与潜在客户群体相似用户的情况。该方法可由一种相似人群的确定装置来执行,该装置可采用硬件和/或软件的方式来实现,可配置于具备计算和存储功能的电子设备中。参考图1,该方法具体包括如下:
S110、基于人群预测模型确定人群中候选用户的个体预测得分。
S120、根据人群区分度阈值和所述候选用户的个体预测得分,选择属于目标相似人群的候选用户;其中,所述人群区分度阈值根据所述人群预测模型的训练样本得到。
其中,人群预测模型用于预测候选用户与目标相似人群的相似度。目标相似人群是根据用户的基本信息和产品特征确定的目标客户人群。具体的,广告主在互联网的广告平台精准投放某种产品的广告时,考虑到不同用户对于该产品的广告的感兴趣程度的差异,将对该产品感兴趣的用户群体确定为目标相似人群,向目标相似人群投放该产品的广告,以达到降低成本,提高转化的目的。
其中,个体预测得分可以是候选用户与目标相似人群的相似度,相似度越高,候选用户属于目标相似人群的概率越大。
基于人群预测模型确定各候选用户的个体预测得分,其中,人群预测模型是由相关技术人员根据实际业务确定的,在这里不做限定,具体依据实际情况确定。示例性的,人群预测模型可以为以下任意一种:xgboost(分布式梯度增强)、lr(逻辑回归)和gbdt(梯度提升决策树)。
可选的,在基于人群预测模型确定各候选用户的个体预测得分之前,还需要对人群预测模型进行训练。具体的,训练人群预测模型包括以下:
A、获取样本用户属性信息。其中,样本用户属性信息是指用于确定用户所属人群特征的数据。样本用户属性信息至少包括以下一种:用户基础属性、用户行为属性和用户标签属性。示例性的,用户基础属性包括以下至少一种:年龄、地域、设备标识和用户标识;用户行为属性是指用户在使用互联网服务时的历史行为记录。示例性的,用户行为属性包括浏览行为、社交行为、购买行为中的至少一种。用户标签属性是由系统以标签形式为用户或者由用户自身根据自身条件标定的。示例性的,用户标签属性包括:星座、兴趣、爱好等。可选地,用户基础属性、用户行为属性和用户标签属性均采用向量形式表示。本公开的技术方案中,所涉及的用户个人信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
B、通过对获取到的样本用户属性信息进行特征匹配得到样本用户的特征数据。然后,对特征数据进行特征筛选,再对得到筛选结果进行特征变换以及特征组合处理,得到的处理结果即为人群预测模型的训练样本。
其中,对特征数据进行特征筛选,可选的,利用UV(Unique Visitor,独立访客)作为数值标准对样本用户属性信息进行筛选将。其中,以UV为标准统计的是不重复用户数,同一用户多次访问网站只被计算1次。利用UV作为数值标准对样本用户属性信息进行筛选,对所属于同一用户的特征数据进行整合。
对得到筛选结果进行特征变换以及特征组合处理,具体的,对所有的特征数据的筛选结果按照范式进行转换与组合处理,也就是对筛选结果进行标准化处理。可选的,特征转换方法包括以下至少一种:特征填充、线性变换、非线性变化(开方、平方等)、归一化、离散化。组合方法包括四则运算(加运算、减运算、乘运算和除运算)、逻辑运算(与运算、或运算、非运算)和字符串拼接运算中的至少一种。特征变换和特征组合处理之间不存在先后逻辑关系,也就是说,既可以对特征数据的筛选结果先进行特征组合处理,也可以先进行特征转换处理。对特征数据进行特征转换与特征组合处理,以支持人群预测模型对多类型特征数据进行处理。
可选的,在人群预测模型训练的过程中,在系统中预设多组超参参考值,采用贝叶斯寻优等自动调参方法,从预设多组超参参考值中自动选择合适的超参,以优化人群预测模型性能。
其中,所述人群区分度阈值根据所述人群预测模型的训练样本得到。
训练样本是指用于训练人群预测模型的样本,训练样本包括用户特征数据和人群属性标签,其中人群属性标签可以通过手工标注的方式获得,人群属性标签包括:用户特征数据对应的用户与目标相似人群的相似度,以及该用户是否属于相似人群的标注,示例性的用数字0或者1标识。可选的,人群区分度阈值本领域技术人员根据实际情况确定的经验值。其中,确定人群区分度阈值是作为区分候选用户是否属于目标相似人群标准的数值。
每个候选用户均存在一个与之对应的个体预测得分。个体预测得分可以反映对应候选用户与目标相似人群的相似度,一般而言,该候选用户与目标相似人群的相似度越高,其对应的个体预测得分也越高。
可选的,人群区分度阈值在候选用户的个体预测得分范围内。人群区分度阈值的大小决定着属于目标相似人群的候选用户的数量。人群区分度阈值越小,被划分为目标相似人群中的候选用户的数量越多,否则越少。人群区分度阈值不宜过大或者过小,若人群区分度阈值过大,则会将实际属于目标相似人群的候选用户错误的划分出目标相似人群的范围;若人群区分度阈值过小,则会将实际不属于目标相似人群的候选用户错误的划分在目标相似人群的范围内。人群区分度阈值影响着相似人群的确定方法的准确度。
为了在候选用户中确定与目标相似人群相似度较高的用户作为目标相似人群中的一员,可选的,将各候选用户的个体预测得分按照从高到低的顺序进行排序。将个体预测得分大于人群区分度阈值的候选用户划分为目标相似人群。其他候选用户则被划分为在目标相似人群之外。
本申请实施例的技术方案,通过基于人群预测模型确定各候选用户的个体预测得分,再根据所述人群区分度阈值和所述候选用户的个体预测得分,选择属于目标相似人群的候选用户,本申请通过引入人群区分度阈值,利用人群区分度阈值和个体预测得分确定候选用户是否归属于目标相似人群,提高了相似人群确定的准确度。
图2是根据本申请实施例提供的另一种相似人群的确定方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2,本实施例提供的相似人群的确定方法包括:
S210、基于人群预测模型确定人群中候选用户的个体预测得分。
S220、根据业务方期望的人群类型和人群数量,按照所述候选用户的个体预测得分,选择初始人群。
S230、根据所述人群区分度阈值、所述人群类型和所述初始人群中的个体预测得分,对所述初始人群进行截断,得到目标相似人群。
其中,业务方是指提出业务需求的一方,示例性的,在广告投放的场景中,业务方为有产品推广需求的广告主。由于,产品的不同会导致广告目标受众群体也会存在差异,对于游戏类的产品业务方期望的人群类型为年轻人。考虑到产品成熟度以及推广成本等因素,业务方期望产品人群数量也会不同。
候选用户的个体预测得分反映了候选用户与业务方期望的人群类型相关程度。
可选的,在个体预测得分的维度,统计各个体预测得分对应的候选用户的数量。根据业务方期望人群数量,也就是需要在候选用户中选择多少个属于人群类型的候选用户,按照个体预测得分从高到低的顺序,将个体预测得分对应的候选用户的数量进行累计求和,直到候选用户的数量和大于等于业务方期望人群数量时截止,截止时对应的个体预测得分作为截断阈值,大于截断阈值的个体预测得分对应的候选用户作为初始人群,。
由于,初始人群主要是根据业务方期望的人群类型和人群数量确定,并未考虑到候选用户中属于业务方期望人群类型的实际人数,可能出现初始人群中候选用户与业务方期望的人群类型不匹配的情况。
根据人群区分度阈值对初始人群中的个体预测得分进行选择,此时得到的选择结果即为候选用户中属于业务方期望人群类型的实际人数。
将初始人群的人群评分按顺序排列,综合业务方期望与候选用户中人群分布的实际情况,再对初始人群进行截断得到目标相似人群,提高目标相似人群的准确度。
在上述方案的一种可选实施方式中,所述根据所述人群区分度阈值、所述人群类型和所述初始人群中的个体预测得分,对所述初始人群进行截断,得到目标相似人群,包括:在所述人群类型为正向人群的情况下,获取所述初始人群中的最小个体预测得分;在所述最小个体预测得分小于所述人群区分度阈值的情况下,滤除所述初始人群中个体预测得分小于所述人群区分度阈值的候选用户,得到目标正向人群。
其中,正向人群是指满足业务方对于人群类型需求的人群,在广告投放场景中,正向人群即为广告的目标受众。
初始人群主要是根据业务方期望的人群类型和人群数量确定,个体预测得分反映了该候选用户与业务方期望的正向人群的相似度,且个体预测得分与相似度呈正相关,即个体预测得分越高,该个体预测得分对应的候选用户属于业务方期望的正向人群的概率越高。
在所述人群类型为正向人群的情况下,若初始人群中最小个体预测得分大于等于人群区分度阈值,则说明初始人群中全部的候选用户均满足业务方对于人群类型的期望。若初始人群中最小个体预测得分小于人群区分度阈值,则说明初始人群中全部的候选用户存在不满足业务方对于人群类型期望的用户。此时,将人群区分度阈值作为正向人群截断阈值,滤除初始人群中不属于正向人群的候选用户。具体的,将个体预测得分小于正向人群截断阈值的候选用户从初始人群中剔除,得到目标正向人群。
在上述方案的一种可选实施方式中,所述根据所述人群区分度阈值、所述人群类型和所述初始人群中的个体预测得分,对所述初始人群进行截断,得到目标相似人群,包括:在所述人群类型为负向人群的情况下,获取所述初始人群中的最大个体预测得分;在所述最大个体预测得分大于所述人群区分度阈值的情况下,滤除所述初始人群中个体预测得分大于所述人群区分度阈值的候选用户,得到目标负向人群。
在广告投放场景中,为了降低推广成本,减少无效宣传,应避免向对待推广产品不感兴趣的人群投放该产品的广告。此时,业务方期望的人群类型即为负向人群。
初始人群主要是根据业务方期望的正向人群和人群数量确定,个体预测得分反映了该候选用户与业务方期望的正向人群的相似度,且个体预测得分与相似度呈正相关,即个体预测得分越高,该个体预测得分对应的候选用户属于业务方期望的正向人群的概率越高。
在所述人群类型为负向人群的情况下,若初始人群中最大个体预测得分小于等于人群区分度阈值,则说明初始人群中全部的候选用户均满足业务方对于人群类型的期望,初始人群中全部候选用户均属于负向人群。若初始人群中最小个体预测得分大于人群区分度阈值,则说明初始人群中候选用户中存在不满足业务方对于人群类型期望的用户。此时,将人群区分度阈值作为负向人群截断阈值,滤除初始人群中不属于负向人群的候选用户。具体的,将个体预测得分大于负向人群截断阈值的候选用户从初始人群中剔除,得到目标负向人群。
本申请实施例的技术方案,先根据业务方期望的人群类型和人群数量,按照所述候选用户的个体预测得分,选择初始人群,再根据所述人群区分度阈值、所述人群类型和所述初始人群中的个体预测得分,对所述初始人群进行截断,得到目标相似人群。综合考虑了业务方对于人群类型和人群数量的需求以及候选用户中人群类型分布的实际情况,提高了相似人群确定的准确度。
图3是根据本申请实施例提供的又一种相似人群的确定方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图3,本实施例提供的相似人群的确定方法包括:
S310、基于人群预测模型确定人群中候选用户的个体预测得分。
S320、根据各所述人群预测模型的训练样本,确定所述个体预测得分的伪阳性率和真阳性率。
S330、确定所述个体预测得分的伪阳性率和真阳性率之间的差值。
S340、根据所述个体预测得分的伪阳性率和真阳性率之间的差值,确定人群区分度阈值。
S350、根据人群区分度阈值和所述候选用户的个体预测得分,选择属于目标相似人群的候选用户。
其中,步骤S320到步骤S330描述的是人群区分度阈值的确定过程,人群区分度阈值是根据人群预测模型的训练样本得到的。具体的,根据训练样本的关于人群属性标签和人群预测模型的预测结果得到人群区分度阈值。
如果一个候选用户是正例并且也被预测成正例,即为真正例(True positive,TP),如果候选用户是负类被预测成正例,称之为假正例(False positive,FP)。相应地,如果候选用户是负例被预测成负例,称之为真负例(True negative,TN),正例被预测成负例则为假负例(false negative,FN)。真阳性率(true positive rate,TPR)可以通过公式TPR=TP/(TP+FN)计算得到,刻画的是分类器所识别出的正例也是真正例的比率。伪阳性率(false positive rate,FPR),通过公式FPR=FP/(FP+TN)计算得到,计算的是判定为正例却不是真正例的比率。
具体的,可以个体预测得分作为横轴,将FPR和TPR作为纵轴,FPR和TPR的值域均为[0,1]绘制折线图。观察折线图的走向随着横坐标从0到1变化,TPR越快提升,分类器效果越好;反之,FPR越快提升,分类器效果就越差。为了确定最优人群区分度阈值,需要综合考虑FPR和TPR两个指标,选取人群区分度阈值使得TPR尽可能高的同时FPR保持在一个相对较低的水平。
在上述方案的一种可选实施方式中,所述根据所述个体预测得分的伪阳性率和真阳性率之间的差值,确定人群区分度阈值,包括:在任一个体预测得分的伪阳性率和真阳性率之间的差值最大的情况下,将该个体预测得分作为所述人群区分度阈值。
在任一个体预测得分的伪阳性率和真阳性率之间的差值最大的情况下,也就是说尽可能多的真正例被确定为正例,同时尽可能少的负例被确定为了正例。当FPR和TPR的差值的绝对值最大时,该点对应的个体预测得分便是最佳阈值。
本申请实施例的技术方案,通过根据个体预测得分的伪阳性率和真阳性率之间的差值,在各候选用户的得分中确定了人群区分度阈值,本申请实施例将伪阳性率和真阳性率作为人群区分度阈值的选择标准,将候选用户相似人群的确定问题考虑为二分类问题,并考虑了正确分类和错误分类的情况,提高了相似人群确定的准确度。
图4根据本申请实施例提供的一种相似人群的确定装置的示意图,本实施例可适用于在进行定向广告营销时,确定与潜在客户群体相似用户的情况,该装置配置于具备计算和存储功能的电子设备中,可实现本申请任意实施例所述的相似人群的确定方法。相似人群的确定装置400具体包括如下:
个体预测得分确定模块401,用于基于人群预测模型确定人群中候选用户的个体预测得分;
候选用户选择模块402,用于根据人群区分度阈值和所述候选用户的个体预测得分,选择属于目标相似人群的候选用户;其中,所述人群区分度阈值根据所述人群预测模型的训练样本得到。
在一种可选实施方式中,所述装置还包括:人群区分度阈值确定模块,具体用于根据所述人群预测模型的训练样本得到所述人群区分度阈值。所述人群区分度阈值确定模块,包括:
伪阳性率和真阳性率确定子模块,用于根据各所述人群预测模型的训练样本,确定所述个体预测得分的伪阳性率和真阳性率;
差值确定子模块,用于确定所述个体预测得分的伪阳性率和真阳性率之间的差值;
人群区分度阈值确定子模块,用于根据所述个体预测得分的伪阳性率和真阳性率之间的差值,确定人群区分度阈值。
在一种可选实施方式中,人群区分度阈值确定子模块,具体用于在任一个体预测得分的伪阳性率和真阳性率之间的差值最大的情况下,将该个体预测得分作为所述人群区分度阈值。
在一种可选实施方式中,所述候选用户选择模块402,包括:
初始人群选择子模块,用于根据业务方期望的人群类型和人群数量,按照所述候选用户的个体预测得分,选择初始人群;
目标相似人群确定子模块,用于根据所述人群区分度阈值、所述人群类型和所述初始人群中的个体预测得分,对所述初始人群进行截断,得到目标相似人群。
在一种可选实施方式中,所述目标相似人群确定子模块,包括:
最小个体预测得分获取单元,用于在所述人群类型为正向人群的情况下,获取所述初始人群中的最小个体预测得分;
目标正向人群确定单元,用于在所述最小个体预测得分小于所述人群区分度阈值的情况下,滤除所述初始人群中个体预测得分小于所述人群区分度阈值的候选用户,得到目标正向人群。
在一种可选实施方式中,所述目标相似人群确定子模块,包括:
最大个体预测得分获取单元,用于在所述人群类型为负向人群的情况下,获取所述初始人群中的最大个体预测得分;
目标负向人群确定单元,用于在所述最大个体预测得分大于所述人群区分度阈值的情况下,滤除所述初始人群中个体预测得分大于所述人群区分度阈值的候选用户,得到目标负向人群。
本申请实施例的技术方案,通过基于人群预测模型确定各候选用户的个体预测得分,再根据所述人群区分度阈值和所述候选用户的个体预测得分,选择属于目标相似人群的候选用户,本申请通过引入人群区分度阈值,利用人群区分度阈值和个体预测得分确定候选用户是否归属于目标相似人群,提高了相似人群确定的准确度。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本申请的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种执行机器学习模型算法的计算单元、数字信息处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如相似人群的确定方法。例如,在一些实施例中,相似人群的确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的相似人群的确定方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行相似人群的确定方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上执行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (10)

1.一种相似人群的确定方法,包括:
基于人群预测模型确定人群中候选用户的个体预测得分;
根据人群区分度阈值和所述候选用户的个体预测得分,选择属于目标相似人群的候选用户;
其中,所述人群区分度阈值根据所述人群预测模型的训练样本得到;
其中,通过如下方式根据所述人群预测模型的训练样本得到所述人群区分度阈值:根据各所述人群预测模型的训练样本,确定所述个体预测得分的伪阳性率和真阳性率;确定所述个体预测得分的伪阳性率和真阳性率之间的差值;在任一个体预测得分的伪阳性率和真阳性率之间的差值最大的情况下,将该个体预测得分作为所述人群区分度阈值;其中,所述伪阳性率是指判定为正例却不是真正例的比率;所述真阳性率是指判定为正例也是真正例的比率。
2.根据权利要求1所述的方法,其中,所述根据人群区分度阈值和所述候选用户的个体预测得分,选择属于目标相似人群的候选用户,包括:
根据业务方期望的人群类型和人群数量,按照所述候选用户的个体预测得分,选择初始人群;
根据所述人群区分度阈值、所述人群类型和所述初始人群中的个体预测得分,对所述初始人群进行截断,得到目标相似人群。
3.根据权利要求2所述的方法,其中,所述根据所述人群区分度阈值、所述人群类型和所述初始人群中的个体预测得分,对所述初始人群进行截断,得到目标相似人群,包括:
在所述人群类型为正向人群的情况下,获取所述初始人群中的最小个体预测得分;
在所述最小个体预测得分小于所述人群区分度阈值的情况下,滤除所述初始人群中个体预测得分小于所述人群区分度阈值的候选用户,得到目标正向人群。
4.根据权利要求2所述的方法,其中,所述根据所述人群区分度阈值、所述人群类型和所述初始人群中的个体预测得分,对所述初始人群进行截断,得到目标相似人群,包括:
在所述人群类型为负向人群的情况下,获取所述初始人群中的最大个体预测得分;
在所述最大个体预测得分大于所述人群区分度阈值的情况下,滤除所述初始人群中个体预测得分大于所述人群区分度阈值的候选用户,得到目标负向人群。
5.一种相似人群的确定装置,包括:
个体预测得分确定模块,用于基于人群预测模型确定人群中候选用户的个体预测得分;
候选用户选择模块,用于根据人群区分度阈值和所述候选用户的个体预测得分,选择属于目标相似人群的候选用户;
其中,所述人群区分度阈值根据所述人群预测模型的训练样本得到;
其中,所述装置还包括:人群区分度阈值确定模块,具体用于根据所述人群预测模型的训练样本得到所述人群区分度阈值;人群区分度阈值确定模块,包括:伪阳性率和真阳性率确定子模块,用于根据各所述人群预测模型的训练样本,确定所述个体预测得分的伪阳性率和真阳性率;差值确定子模块,用于确定所述个体预测得分的伪阳性率和真阳性率之间的差值;人群区分度阈值确定子模块,用于在任一个体预测得分的伪阳性率和真阳性率之间的差值最大的情况下,将该个体预测得分作为所述人群区分度阈值;其中,所述伪阳性率是指判定为正例却不是真正例的比率;所述真阳性率是指判定为正例也是真正例的比率。
6.根据权利要求5所述的装置,其中,所述候选用户选择模块,包括:
初始人群选择子模块,用于根据业务方期望的人群类型和人群数量,按照所述候选用户的个体预测得分,选择初始人群;
目标相似人群确定子模块,用于根据所述人群区分度阈值、所述人群类型和所述初始人群中的个体预测得分,对所述初始人群进行截断,得到目标相似人群。
7.根据权利要求6所述的装置,其中,所述目标相似人群确定子模块,包括:
最小个体预测得分获取单元,用于在所述人群类型为正向人群的情况下,获取所述初始人群中的最小个体预测得分;
目标正向人群确定单元,用于在所述最小个体预测得分小于所述人群区分度阈值的情况下,滤除所述初始人群中个体预测得分小于所述人群区分度阈值的候选用户,得到目标正向人群。
8.根据权利要求6所述的装置,其中,所述目标相似人群确定子模块,包括:
最大个体预测得分获取单元,用于在所述人群类型为负向人群的情况下,获取所述初始人群中的最大个体预测得分;
目标负向人群确定单元,用于在所述最大个体预测得分大于所述人群区分度阈值的情况下,滤除所述初始人群中个体预测得分大于所述人群区分度阈值的候选用户,得到目标负向人群。
9. 一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。
CN202110291936.4A 2021-03-18 2021-03-18 相似人群的确定方法、装置、电子设备和存储介质 Active CN113011922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110291936.4A CN113011922B (zh) 2021-03-18 2021-03-18 相似人群的确定方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110291936.4A CN113011922B (zh) 2021-03-18 2021-03-18 相似人群的确定方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113011922A CN113011922A (zh) 2021-06-22
CN113011922B true CN113011922B (zh) 2023-08-04

Family

ID=76409759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110291936.4A Active CN113011922B (zh) 2021-03-18 2021-03-18 相似人群的确定方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113011922B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427129A (zh) * 2015-11-12 2016-03-23 腾讯科技(深圳)有限公司 一种信息的投放方法及系统
CN108415913A (zh) * 2017-02-09 2018-08-17 周孟 基于不确定邻居的人群定向方法
CN109597940A (zh) * 2018-12-06 2019-04-09 上海哔哩哔哩科技有限公司 基于商业兴趣的目标人群确定及信息推送方法和系统
CN109903086A (zh) * 2019-02-14 2019-06-18 北京奇艺世纪科技有限公司 一种相似人群扩展方法、装置及电子设备
CN110147882A (zh) * 2018-09-03 2019-08-20 腾讯科技(深圳)有限公司 神经网络模型的训练方法、人群扩散方法、装置及设备
CN110458220A (zh) * 2019-07-31 2019-11-15 腾讯科技(深圳)有限公司 人群定向方法、装置、服务器及存储介质
CN110689370A (zh) * 2019-09-05 2020-01-14 阿里巴巴集团控股有限公司 一种分类模型训练方法、装置及设备
CN110751020A (zh) * 2019-09-03 2020-02-04 上海交通大学 一种基于强化学习的在线非监督的人群组分割系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427129A (zh) * 2015-11-12 2016-03-23 腾讯科技(深圳)有限公司 一种信息的投放方法及系统
CN108415913A (zh) * 2017-02-09 2018-08-17 周孟 基于不确定邻居的人群定向方法
CN110147882A (zh) * 2018-09-03 2019-08-20 腾讯科技(深圳)有限公司 神经网络模型的训练方法、人群扩散方法、装置及设备
CN109597940A (zh) * 2018-12-06 2019-04-09 上海哔哩哔哩科技有限公司 基于商业兴趣的目标人群确定及信息推送方法和系统
CN109903086A (zh) * 2019-02-14 2019-06-18 北京奇艺世纪科技有限公司 一种相似人群扩展方法、装置及电子设备
CN110458220A (zh) * 2019-07-31 2019-11-15 腾讯科技(深圳)有限公司 人群定向方法、装置、服务器及存储介质
CN110751020A (zh) * 2019-09-03 2020-02-04 上海交通大学 一种基于强化学习的在线非监督的人群组分割系统
CN110689370A (zh) * 2019-09-05 2020-01-14 阿里巴巴集团控股有限公司 一种分类模型训练方法、装置及设备

Also Published As

Publication number Publication date
CN113011922A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
JP6547070B2 (ja) プッシュ情報粗選択ソーティングの方法、デバイス、およびコンピュータ記憶媒体
CN111460384B (zh) 策略的评估方法、装置和设备
WO2016169411A1 (zh) 一种信息处理方法及其设备
CN107291774B (zh) 错误样本识别方法和装置
CN112966081A (zh) 处理问答信息的方法、装置、设备和存储介质
CN111967807A (zh) 计算机执行的风险事件判别规则的生成方法及装置
CN107330709B (zh) 确定目标对象的方法及装置
CN114896291A (zh) 多智能体模型的训练方法和排序方法
CN113051911B (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN108090193B (zh) 异常文本的识别方法和装置
CN115293291B (zh) 排序模型的训练方法、排序方法、装置、电子设备及介质
CN113743968A (zh) 信息投放方法、装置及设备
CN113011922B (zh) 相似人群的确定方法、装置、电子设备和存储介质
CN109344327B (zh) 用于生成信息的方法和装置
CN112287208A (zh) 用户画像生成方法、装置、电子设备及存储介质
CN113362095A (zh) 一种信息投放的方法和装置
CN116342164A (zh) 目标用户群体的定位方法、装置、电子设备及存储介质
CN116204624A (zh) 应答方法、装置、电子设备及存储介质
CN112070564B (zh) 广告拉取方法、装置、系统与电子设备
CN113360693A (zh) 确定图像标签的方法及其装置、电子设备以及存储介质
CN113901316A (zh) 一种信息推送方法、装置、电子设备及存储介质
CN114547448B (zh) 数据处理、模型训练方法、装置、设备、存储介质及程序
CN115146725B (zh) 对象分类模式的确定方法、对象分类方法、装置和设备
CN110532540B (zh) 确定用户偏好的方法、系统、计算机系统和可读存储介质
CN114065074A (zh) 受众群体获取方法、用户对象匹配模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant