CN111178934B - 获取目标对象的方法及装置 - Google Patents
获取目标对象的方法及装置 Download PDFInfo
- Publication number
- CN111178934B CN111178934B CN201911204493.XA CN201911204493A CN111178934B CN 111178934 B CN111178934 B CN 111178934B CN 201911204493 A CN201911204493 A CN 201911204493A CN 111178934 B CN111178934 B CN 111178934B
- Authority
- CN
- China
- Prior art keywords
- users
- seed
- data
- user
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013145 classification model Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000006399 behavior Effects 0.000 claims description 130
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract description 16
- 230000000694 effects Effects 0.000 abstract description 14
- 230000008569 process Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种获取目标对象的方法及装置。其中,该方法包括:根据预设的多个种子用户的行为特征数据确定正样本,并从大盘用户中选取与种子用户数量相同的多个非种子用户,根据多个非种子用户的行为特征数据确定负样本,其中,种子用户为行为特征数据满足获取条件的用户,大盘用户为包括目标对象的待选取用户的集合;根据正样本和负样本对二分类模型进行训练,根据训练后的二分类模型对所有的大盘用户打分;根据大盘用户的分数,从多个大盘用户中排名在预设范围内的用户作为目标对象进行获取。本发明解决了相关技术中通过预测数据对潜客进行挖掘的方式不准确,效果差的技术问题。
Description
技术领域
本发明涉及广告投放领域,具体而言,涉及一种获取目标对象的方法及装置。
背景技术
广告投放中经常会遇到潜客挖掘的场景:给定一批被认为是高价值的种子人群,为了提高广告投放的效益,就需要从大盘所用户中挖掘出潜在的高价值客户去定向的投广告,从而带来比普投更好的收益。业界主要基于人群标签的方式。通过匹配种子人群的标签,比如性别年龄,收入,兴趣爱好,购买倾向等。然后计算大盘人群与种子人群的余弦相似度,选取相似度最高的前N个用户来作为潜客。对于广告公司,并不会收集用户的真实的性别年龄收入以及兴趣爱好等标签,这些标签都是通过一些方式预测来的,所以这些标签本身并不准确,基于这些标签的潜客挖掘方法也就不太准确。这些潜客在实际投放中的效果也确实不好。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种获取目标对象的方法及装置,以至少解决相关技术中通过预测数据对潜客进行挖掘的方式不准确,效果差的技术问题。
根据本发明实施例的一个方面,提供了一种获取目标对象的方法,包括:根据预设的多个种子用户的行为特征数据确定正样本,并从大盘用户中选取与所述种子用户数量相同的多个非种子用户,根据多个所述非种子用户的行为特征数据确定负样本,其中,所述种子用户为行为特征数据满足获取条件的用户,所述大盘用户为包括所述目标对象的待选取用户的集合;根据正样本和负样本对二分类模型进行训练,根据训练后的所述二分类模型对所有的大盘用户打分;根据所述大盘用户的分数,从多个所述大盘用户中排名在预设范围内的用户作为目标对象进行获取。
可选的,根据预设的多个种子用户的行为特征数据确定正样本,并从大盘用户中选取与所述种子用户数量相同的多个非种子用户,根据多个所述非种子用户的行为特征数据确定负样本之前,包括:获取多个大盘用户的历史数据;接收多个所述种子用户的行为特征数据。
可选的,获取多个大盘用户的历史数据包括:获取在预设时间内的多个所述大盘用户的历史日志,其中,所述历史日志包括下列至少之一:行为时间,具体使用的应用程序,所属终端,地理位置;根据所述历史日志,获取所述历史数据。
可选的,根据多个种子用户的行为特征数据确定正样本包括:确定多个种子用户的行为特征数据;对多个所述种子用户的行为特征数据进行聚类,去除多个所述种子用户中行为特征数据包括离群数据的种子用户;从去除后的多个种子用户中选取预设数量的种子用户,并确定选取的种子用户的行为特征数据为所述正样本。
可选的,根据多个非种子用户的行为特征数据确定负样本包括:从多个所述非种子用户中,确定所述非种子用户的行为特征数据;将所述非种子用户的行为特征数据作为负样本,其中,所述正样本和所述负样本的用户均不同。
可选的,从多个所述非种子用户中,确定所述非种子用户的行为特征数据包括:对所述非种子用户的所述历史日志进行清洗,去除所述历史日志中的应用程序流量数据异常的历史日志,生成按照流量数据排序的应用程序列表,其中,所述历史日志还包括所述行为特征数据所使用的应用程序流量数据;合并清洗过的历史日志,确定每个所述非种子用户的行为数据,其中,所述行为数据包括下列至少之一:预设时间内的行为数量,所使用的应用程序的操作行为的数量,操作行为数量最大的应用程序的类别,出现频率最高的地理位置,使用频率最高的终端;根据所述行为数据生成特征矩阵,对所述特征矩阵的数值特征进行归一化,对所述特征矩阵的类别特征进行编码,以确定所述非种子用户的所述行为特征数据。
可选的,根据所述大盘用户的分数,从多个所述大盘用户中排名在预设范围内的用户作为目标对象进行获取之后包括:向所述目标对象进行内容定向投放。
根据本发明实施例的另一方面,还提供了一种获取目标对象的装置,包括:确定模块,用于根据预设的多个种子用户的行为特征数据确定正样本,并从大盘用户中选取与所述种子用户数量相同的多个非种子用户,根据多个所述非种子用户的行为特征数据确定负样本,其中,所述种子用户为行为特征数据满足获取条件的用户,所述大盘用户为包括所述目标对象的待选取用户的集合;打分模块,用于根据正样本和负样本对二分类模型进行训练,根据训练后的所述二分类模型对所有的大盘用户打分;获取模块,用于根据所述大盘用户的分数,从多个所述大盘用户中排名在预设范围内的用户作为目标对象进行获取。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的获取目标对象的方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项的获取目标对象的方法。
在本发明实施例中,采用根据多个种子用户的行为特征数据确定正样本,根据多个非种子用户的行为特征数据确定负样本,其中,种子用户为特征数据满足获取条件的用户;根据正样本和负样本对二分类模型进行训练;根据训练后的二分类模型对待获取用户打分;根据待获取用户的分数,从多个待获取用户中获取排名在预设范围内的用户的方式,通过种子用户和非种子用户的行为特征数据对待获取用户进行打分,从而对待获取用户的行为特征进行预测,将分数在预设范围内的用户作为潜客,达到了准确挖掘潜客的目的,从而实现了提高潜客挖掘的准确率的技术效果,进而解决了相关技术中通过预测数据对潜客进行挖掘的方式不准确,效果差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种获取目标对象的方法的流程图;
图2是根据本发明实施方式的潜客挖掘的流程图;
图3是根据本发明实施例的一种获取目标对象的装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种获取目标对象方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种获取目标对象的方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,根据预设的多个种子用户的行为特征数据确定正样本,并从大盘用户中选取与种子用户数量相同的多个非种子用户,根据多个非种子用户的行为特征数据确定负样本,其中,种子用户为行为特征数据满足获取条件的用户,大盘用户为包括目标对象的待选取用户的集合;
步骤S104,根据正样本和负样本对二分类模型进行训练;
步骤S106,根据训练后的二分类模型对所有的大盘用户打分;
步骤S108,根据大盘用户的分数,从多个大盘用户中排名在预设范围内的用户作为目标对象进行获取。
通过上述步骤,采用根据多个种子用户的行为特征数据确定正样本,根据多个非种子用户的行为特征数据确定负样本,其中,种子用户为特征数据满足获取条件的用户;根据正样本和负样本对二分类模型进行训练;根据训练后的二分类模型对待获取用户打分;根据待获取用户的分数,从多个待获取用户中获取排名在预设范围内的用户的方式,通过种子用户和非种子用户的行为特征数据对待获取用户进行打分,从而对待获取用户的行为特征进行预测,将分数在预设范围内的用户作为潜客,达到了准确挖掘潜客的目的,从而实现了提高潜客挖掘的准确率的技术效果,进而解决了相关技术中通过预测数据对潜客进行挖掘的方式不准确,效果差的技术问题。
大盘用户为包括目标对象的待选取用户的集合,上述大盘用户可以是广告投放的目标范围的所有用户。上述大盘用户通常为大量,在进行广告投放时,如果没有合理的投放策略会导致广告投放的效率大大降低。例如,相关技术中采用随机投放的方式,由于大盘的用户数量非常大,将广告随机投放到对广告感兴趣的用户的概率非常小。再例如,相关技术中为了提高广告投放的效率,对大盘所有的用户通过标签进行标记,例如,用户的性别,年龄,收入,兴趣,爱好,购买倾向等。然后根据上述标签计算大盘用户与种子用户的相似度,从而对大盘用户进行筛选,对广告投放的有效用户进行选取。
上述种子用户可以是给定的行为数据满足获取条件的种子用户,上述种子用户还可以为广告投放的大盘用户中选取的。上述种子用户还可以是广告投放的有效目标,也即是广告投放的潜客,或对投放的广告具有需求的潜力用户,将广告投放给上述种子用户,种子用户可以产生良好的反映,例如,较高的点击量,购买率或咨询率的反馈。上述非种子用户可以是用户给定的,也可以是在大盘用户中选取的,上述非种子用户与种子用户相对,可以是广告投放的无效目标,在广告投放向非种子用户之后,非种子用户无法对投放的广告产生相应的反映,或者反映不足。上述种子用户和非种子用户还可以都是从上述大盘的所有用户中选取的,还可以是从该广告的投放的历史数据中选取的,选取对该广告具有较好反映的用户为种子用户,选取对该广告具有较差反映,或者无反应的用户为非种子用户。
可选的,根据预设的多个种子用户的行为特征数据确定正样本,并从大盘用户中选取与种子用户数量相同的多个非种子用户,根据多个非种子用户的行为特征数据确定负样本之前,包括:获取多个大盘用户的历史数据;接收多个种子用户的行为特征数据。在本实施例中,上述种子用户是给定的,给定的种子用户的可以根据需求进行给定,以对最终获取的用户进行正向调节。上述非种子用户是在大盘用户中选取的,方便快捷,有效提高效率。
上述根据多个种子用户的行为特征数据确定正样本,根据多个非种子用户的行为特征数据确定负样本,上述行为特征数据可以是该用户在过去1个月的总请求数,过去一个月的总曝光数,过去一个月的总点击数,过去一个月每个小时的平均点击数(共12个数),过去三个月的总请求数,过去三个月的总曝光数,过去三个月的总点击数,过去三个月每个小时的平均点击数。Top1000的app中每个app的请求次数,点击率最大的app类别,最常出现的城市,手机品牌,手机型号等。
在一种实施方式中,在从大盘中选取上述种子用户时,可以是通过上述行为特征数据,生成大盘的用户的特征矩阵,然后根据该特征矩阵,确定种子人群。例如,对特征矩阵的数值型特征进行归一化,对特征矩阵的类别类特征一位有效编码(one-hot编码),对上述大盘的用户进行分类,然后从大盘人群的多个分类中匹配种子人群的对应的人群,对应人群的进行聚类方式,除去离群点,剩余的人群,作为种子人群。
上述根据正样本和负样本对二分类模型进行训练之前,可以是先建立二分类模型,上述二分类模型为机器学习模型的一种。上述根据正样本和负样本对二分类模型进行训练可以是用机器学习的方法对二分类模型进行正负样本的训练,得到一个训练收敛的二分类模型,例如,xgboost模型。根据大量的正样本和负样本对上述模型进行训练,每个样本包括行为特征数据和该行为特征数据对应的用标签,也即是种子用户或者非种子用户。
根据上述二分类模型对对大盘用户进行打分,分数越高,与种子用户的两高反应越相似,可以是将大盘用户的行为特征数据输入上述二分类模型,二分类模型根据输入的行为特征数据对上述大盘用户进行打分,最后按照分数对大盘的而所有大盘用户进行排名,根据上述排名选取前预设数量的用户,在上述广告投放的例子中,可以将广告投放给上述排名中前预设数量的用户。
可选的,获取多个大盘用户的历史数据包括:获取在预设时间内的多个大盘用户的历史日志,其中,历史日志包括下列至少之一:行为时间,具体使用的应用程序,所属终端,地理位置;根据历史日志,获取历史数据。
上述获取大盘用户的历史数据可以是获取在大盘所有人群过去3个月已有的广告投放过程中的流量数据,包括请求日志,曝光日志,点击日志。每种日志数据可以包括:时间,手机品牌,手机型号,地理位置,使用的app等数据,进行初步的清洗,去掉异常数据,计算出流量top1000的app。
可选的,根据多个种子用户的行为特征数据确定正样本,根据多个大盘用户的行为特征数据确定负样本之前,包括:获取多个大盘用户的历史数据,大盘用户包括非种子用户和种子用户;根据历史数据确定每个用户的行为特征数据和行为特征数据对应的行为效果,其中,行为特征数据包括多个预设时间段内的行为特征数据,行为效果为用户在行为特征数据下的效果;根据每个用户的行为效果,确定用户是否为种子用户。
上述行为特征数据可以是上述该大盘用户在过去1个月的总请求数,过去一个月的总曝光数,过去一个月的总点击数,过去一个月每个小时的平均点击数(共12个数),过去三个月的总请求数,过去三个月的总曝光数,过去三个月的总点击数,过去三个月每个小时的平均点击数。Top1000的app中每个app的请求次数,点击率最大的app类别,最常出现的城市,手机品牌,手机型号等。上述行为效果可以是上述广告图放在该大盘用户上,大盘用户对该广告的反映程度是否到达预设程度,具体的可以根据点击量,购买率,咨询率是否超过预设阈值,在超过的情况下,确定该用户为种子用户,不超过的情况下,确定用户为非种子用户。
在上述一种可选的实施方式中,根据多个种子用户的行为特征数据确定正样本包括:确定多个种子用户的行为特征数据;对多个种子用户的行为特征数据进行聚类,去除多个种子用户中行为特征数据包括离群数据的种子用户;从去除后的多个种子用户中选取预设数量的种子用户,并确定选取的种子用户的行为特征数据为正样本。
上述对多个种子用户的行为特征数据进行聚类,去除多个种子用户中行为特征数据包括离群数据的种子用户,可以将种子人群中的离散至,从而是种子用户的行为特征数据更加稳定和准确。
可选的,根据多个非种子用户的行为特征数据确定负样本包括:从多个非种子用户中,确定非种子用户的行为特征数据;将非种子用户的行为特征数据作为负样本,其中,正样本和负样本的用户均不同。
上述正样本和负样本的用户不能为同一用户,在正样本和负样本进行选取时,有可能将一些行为特征数据处于中间层级的数据,同时选为种子用户和非种子用户,这样会对机器学习模型的训练产生一定影响,因此,规定上述正样本和负样本的用户不能为同一用户。
可选的,从多个非种子用户中,确定非种子用户的行为特征数据包括:对非种子用户的历史日志进行清洗,去除历史日志中的应用程序流量数据异常的历史日志,生成按照流量数据排序的应用程序列表,其中,历史日志还包括行为特征数据所使用的应用程序流量数据;合并清洗过的历史日志,确定每个非种子用户的行为数据,其中,行为数据包括下列至少之一:预设时间内的行为数量,所使用的应用程序的操作行为的数量,操作行为数量最大的应用程序的类别,出现频率最高的地理位置,使用频率最高的终端;根据行为数据生成特征矩阵,对特征矩阵的数值特征进行归一化,对特征矩阵的类别特征进行编码,以确定非种子用户的行为特征数据。
上述编码方式可以为一位有效编码,也即是one-hot编码。上述编码方式还可以是热编码。上述通过对非种子用户的历史日志进行清洗,可以去除历史日志中的异常数据,从而提高了历史日志的有效性和稳定性,从而进一步提高了目标对象获取的准确性和稳定性。
可选的,根据大盘用户的分数,从多个大盘用户中排名在预设范围内的用户作为目标对象进行获取之后包括:向目标对象进行内容定向投放。
需要说明的是,本实施例还提供了一种可选的实施方式,下面对该实施方式进行详细说明。
图2是根据本发明实施方式的潜客挖掘的流程图;如图2所示,本实施方式提供的广告投放的潜客挖掘方法具体步骤如下:
(1)数据预处理:获取在大盘所有人群过去3个月已有的广告投放过程中的流量数据:请求日志,曝光日志,点击日志。每种日志数据应包括:时间,手机品牌,手机型号,地理位置,使用的app等数据,进行初步的清洗,去掉异常数据,计算出流量top1000的app。
(2)合并所有清洗过的日志,计算出每个用户的特征数据:过去1个月的总请求数,过去一个月的总曝光数,过去一个月的总点击数,过去一个月每个小时的平均点击数(共12个数),过去三个月的总请求数,过去三个月的总曝光数,过去三个月的总点击数,过去三个月每个小时的平均点击数。Top1000的app中每个app的请求次数,点击率最大的app类别,最常出现的城市,手机品牌,手机型号。生成大盘人群的特征矩阵。数值型特征进行归一化,类别类特征one-hot编码。本实施方式用的是移动端的历史广告行为数据,本实施方式用的都是事实特征数据,手机品牌,app等全是事实数据,没有预测类数据。
(3)从大盘人群中匹配种子人群的特征数据,然后对种子人群通过k-means聚类的方式,找到并去掉离群点后,用剩余的种子人群作为正样本。
(4)从大盘中随机挑选出与正样本个数相同个数的用户作为负样本,且负样本与正样本没有交集。
(5)用xgboost二分类模型对正负样本去训练,得到一个二分类模型,然后给大盘的所有用户打分,得到每个用户的分数,然后按分数降序排序,取前N个用户,即得分最高的N个用户,作为潜客去投放广告。N可以自由设置。本实施方式更偏向于整体流程的保护,所以这里的模型选择的是xgboost,也可以选择其他的机器学习模型)
本实施方式能很好的挖掘出潜客,在实际投放过程中,取得了很好的效果。
图3是根据本发明实施例的一种获取目标对象的装置的示意图,如图3所示,根据本发明实施例的另一方面,还提供了一种获取目标对象的装置,包括:确定模块32,训练模块34,打分模块36和获取模块38,下面对该装置进行详细说明。
确定模块32,用于根据预设的多个种子用户的行为特征数据确定正样本,并从大盘用户中选取与种子用户数量相同的多个非种子用户,根据多个非种子用户的行为特征数据确定负样本,其中,种子用户为行为特征数据满足获取条件的用户,大盘用户为包括目标对象的待选取用户的集合;训练模块34,与上述确定模块32相连,用于根据正样本和负样本对二分类模型进行训练;打分模块36,与上述训练模块34相连,用于根据训练后的二分类模型对所有的大盘用户打分;获取模块38,与上述打分模块36相连,用于根据大盘用户的分数,从多个大盘用户中排名在预设范围内的用户作为目标对象进行获取。
通过上述装置,采用确定模块32根据预设的多个种子用户的行为特征数据确定正样本,并从大盘用户中选取与种子用户数量相同的多个非种子用户,根据多个非种子用户的行为特征数据确定负样本,其中,种子用户为行为特征数据满足获取条件的用户,大盘用户为包括目标对象的待选取用户的集合;训练模块34根据正样本和负样本对二分类模型进行训练;打分模块36根据训练后的二分类模型对所有的大盘用户打分;获取模块38根据大盘用户的分数,从多个大盘用户中排名在预设范围内的用户作为目标对象进行获取的方式,通过种子用户和非种子用户的行为特征数据对待获取用户进行打分,从而对待获取用户的行为特征进行预测,将分数在预设范围内的用户作为潜客,达到了准确挖掘潜客的目的,从而实现了提高潜客挖掘的准确率的技术效果,进而解决了相关技术中通过预测数据对潜客进行挖掘的方式不准确,效果差的技术问题。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述中任意一项的获取目标对象的方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述中任意一项的获取目标对象的方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种获取目标对象的方法,其特征在于,包括:
根据预设的多个种子用户的行为特征数据确定正样本,并从大盘用户中选取与所述种子用户数量相同的多个非种子用户,根据多个所述非种子用户的行为特征数据确定负样本,其中,所述种子用户为行为特征数据满足获取条件的用户,所述大盘用户为包括所述目标对象的待选取用户的集合;
根据正样本和负样本对二分类模型进行训练;
根据训练后的所述二分类模型对所有的大盘用户打分;
根据所述大盘用户的分数,从多个所述大盘用户中排名在预设范围内的用户作为目标对象进行获取;
其中,所述大盘用户包括所述非种子用户和所述种子用户,基于所述大盘用户的行为特征数据,生成所述大盘用户的特征矩阵,根据所述特征矩阵,确定所述多个种子用户;
其中,根据多个种子用户的行为特征数据确定正样本包括:
确定多个种子用户的行为特征数据;
对多个所述种子用户的行为特征数据进行聚类,去除多个所述种子用户中行为特征数据包括离群数据的种子用户;
从去除后的多个种子用户中选取预设数量的种子用户,并确定选取的种子用户的行为特征数据为所述正样本;
其中,根据多个非种子用户的行为特征数据确定负样本包括:
从多个所述非种子用户中,确定所述非种子用户的行为特征数据;
将所述非种子用户的行为特征数据作为负样本,其中,所述正样本和所述负样本的用户均不同;
其中,从多个所述非种子用户中,确定所述非种子用户的行为特征数据包括:
对所述非种子用户的所述历史日志进行清洗,去除所述历史日志中的应用程序流量数据异常的历史日志,生成按照流量数据排序的应用程序列表,其中,所述历史日志还包括所述行为特征数据所使用的应用程序流量数据;
合并清洗过的历史日志,确定每个所述非种子用户的行为数据,其中,所述行为数据包括下列至少之一:预设时间内的行为数量,所使用的应用程序的操作行为的数量,操作行为数量最大的应用程序的类别,出现频率最高的地理位置,使用频率最高的终端;
根据所述行为数据生成特征矩阵,对所述特征矩阵的数值特征进行归一化,对所述特征矩阵的类别特征进行编码,以确定所述非种子用户的所述行为特征数据。
2.根据权利要求1所述的方法,其特征在于,根据预设的多个种子用户的行为特征数据确定正样本,并从大盘用户中选取与所述种子用户数量相同的多个非种子用户,根据多个所述非种子用户的行为特征数据确定负样本之前,包括:
获取多个大盘用户的历史数据;
接收多个所述种子用户的行为特征数据。
3.根据权利要求2所述的方法,其特征在于,获取多个大盘用户的历史数据包括:
获取在预设时间内的多个所述大盘用户的历史日志,其中,所述历史日志包括下列至少之一:行为时间,具体使用的应用程序,所属终端,地理位置;
根据所述历史日志,获取所述历史数据。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,根据所述大盘用户的分数,从多个所述大盘用户中排名在预设范围内的用户作为目标对象进行获取之后包括:
向所述目标对象进行内容定向投放。
5.一种获取目标对象的装置,其特征在于,包括:
确定模块,用于根据预设的多个种子用户的行为特征数据确定正样本,并从大盘用户中选取与所述种子用户数量相同的多个非种子用户,根据多个所述非种子用户的行为特征数据确定负样本,其中,所述种子用户为行为特征数据满足获取条件的用户,所述大盘用户为包括所述目标对象的待选取用户的集合;
训练模块,用于根据正样本和负样本对二分类模型进行训练;
打分模块,用于根据训练后的所述二分类模型对所有的大盘用户打分;
获取模块,用于根据所述大盘用户的分数,从多个所述大盘用户中排名在预设范围内的用户作为目标对象进行获取;
其中,所述大盘用户包括所述非种子用户和所述种子用户,基于所述大盘用户的行为特征数据,生成所述大盘用户的特征矩阵,根据所述特征矩阵,确定所述多个种子用户;
其中,确定模块还用于确定多个种子用户的行为特征数据;对多个所述种子用户的行为特征数据进行聚类,去除多个所述种子用户中行为特征数据包括离群数据的种子用户;从去除后的多个种子用户中选取预设数量的种子用户,并确定选取的种子用户的行为特征数据为所述正样本;
其中,确定模块还用于从多个所述非种子用户中,确定所述非种子用户的行为特征数据;将所述非种子用户的行为特征数据作为负样本,其中,所述正样本和所述负样本的用户均不同;
其中,确定模块还用于对所述非种子用户的所述历史日志进行清洗,去除所述历史日志中的应用程序流量数据异常的历史日志,生成按照流量数据排序的应用程序列表,其中,所述历史日志还包括所述行为特征数据所使用的应用程序流量数据;合并清洗过的历史日志,确定每个所述非种子用户的行为数据,其中,所述行为数据包括下列至少之一:预设时间内的行为数量,所使用的应用程序的操作行为的数量,操作行为数量最大的应用程序的类别,出现频率最高的地理位置,使用频率最高的终端;根据所述行为数据生成特征矩阵,对所述特征矩阵的数值特征进行归一化,对所述特征矩阵的类别特征进行编码,以确定所述非种子用户的所述行为特征数据。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的获取目标对象的方法。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任意一项所述的获取目标对象的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911204493.XA CN111178934B (zh) | 2019-11-29 | 2019-11-29 | 获取目标对象的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911204493.XA CN111178934B (zh) | 2019-11-29 | 2019-11-29 | 获取目标对象的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178934A CN111178934A (zh) | 2020-05-19 |
CN111178934B true CN111178934B (zh) | 2024-03-08 |
Family
ID=70647358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911204493.XA Active CN111178934B (zh) | 2019-11-29 | 2019-11-29 | 获取目标对象的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178934B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112150199A (zh) * | 2020-09-21 | 2020-12-29 | 北京小米松果电子有限公司 | 垂类特征的确定方法及装置、存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427129A (zh) * | 2015-11-12 | 2016-03-23 | 腾讯科技(深圳)有限公司 | 一种信息的投放方法及系统 |
CN107403336A (zh) * | 2017-06-26 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 基于流数据的评分方法和装置 |
WO2017202006A1 (zh) * | 2016-05-25 | 2017-11-30 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、计算机存储介质 |
CN108205766A (zh) * | 2016-12-19 | 2018-06-26 | 阿里巴巴集团控股有限公司 | 信息推送方法、装置及系统 |
CN108280670A (zh) * | 2017-01-06 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 种子人群扩散方法、装置以及信息投放系统 |
WO2018149337A1 (zh) * | 2017-02-15 | 2018-08-23 | 腾讯科技(深圳)有限公司 | 一种信息投放方法、装置及服务器 |
CN108647986A (zh) * | 2018-03-28 | 2018-10-12 | 北京奇艺世纪科技有限公司 | 一种目标用户确定方法、装置及电子设备 |
CN108875761A (zh) * | 2017-05-11 | 2018-11-23 | 华为技术有限公司 | 一种拓展潜在用户的方法及装置 |
CN109034896A (zh) * | 2018-07-23 | 2018-12-18 | 北京奇艺世纪科技有限公司 | 一种广告投放人群预测方法及装置 |
CN109801091A (zh) * | 2017-11-16 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 目标用户群体定位方法、装置、计算机设备和存储介质 |
CN110059112A (zh) * | 2018-09-12 | 2019-07-26 | 中国平安人寿保险股份有限公司 | 基于机器学习的用户挖掘方法及装置、电子设备、介质 |
CN110458220A (zh) * | 2019-07-31 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 人群定向方法、装置、服务器及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10713692B2 (en) * | 2017-10-13 | 2020-07-14 | Oath Inc. | Systems and methods for user propensity classification and online auction design |
-
2019
- 2019-11-29 CN CN201911204493.XA patent/CN111178934B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427129A (zh) * | 2015-11-12 | 2016-03-23 | 腾讯科技(深圳)有限公司 | 一种信息的投放方法及系统 |
WO2017202006A1 (zh) * | 2016-05-25 | 2017-11-30 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、计算机存储介质 |
CN108205766A (zh) * | 2016-12-19 | 2018-06-26 | 阿里巴巴集团控股有限公司 | 信息推送方法、装置及系统 |
CN108280670A (zh) * | 2017-01-06 | 2018-07-13 | 腾讯科技(深圳)有限公司 | 种子人群扩散方法、装置以及信息投放系统 |
WO2018149337A1 (zh) * | 2017-02-15 | 2018-08-23 | 腾讯科技(深圳)有限公司 | 一种信息投放方法、装置及服务器 |
CN108875761A (zh) * | 2017-05-11 | 2018-11-23 | 华为技术有限公司 | 一种拓展潜在用户的方法及装置 |
CN107403336A (zh) * | 2017-06-26 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 基于流数据的评分方法和装置 |
CN109801091A (zh) * | 2017-11-16 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 目标用户群体定位方法、装置、计算机设备和存储介质 |
CN108647986A (zh) * | 2018-03-28 | 2018-10-12 | 北京奇艺世纪科技有限公司 | 一种目标用户确定方法、装置及电子设备 |
CN109034896A (zh) * | 2018-07-23 | 2018-12-18 | 北京奇艺世纪科技有限公司 | 一种广告投放人群预测方法及装置 |
CN110059112A (zh) * | 2018-09-12 | 2019-07-26 | 中国平安人寿保险股份有限公司 | 基于机器学习的用户挖掘方法及装置、电子设备、介质 |
CN110458220A (zh) * | 2019-07-31 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 人群定向方法、装置、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111178934A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10325289B2 (en) | User similarity groups for on-line marketing | |
CN107346496B (zh) | 目标用户定向方法及装置 | |
US9805391B2 (en) | Determining whether to provide an advertisement to a user of a social network | |
CN102708131B (zh) | 将消费者自动分类到微细分中 | |
US8732015B1 (en) | Social media pricing engine | |
CN106570718B (zh) | 信息的投放方法及投放系统 | |
US20080091524A1 (en) | System and method for advertisement price adjustment utilizing traffic quality data | |
US20150067075A1 (en) | Methods and apparatus to estimate demographics of users employing social media | |
JP2015097094A (ja) | リアルタイム広告入札に対して競争評価モデルを使用するための学習システム | |
CN102541972A (zh) | 基于各自目标匹配登广告者和用户 | |
US20100257022A1 (en) | Finding Similar Campaigns for Internet Advertisement Targeting | |
CN109299356B (zh) | 基于大数据的活动推荐方法、装置、电子设备及存储介质 | |
JP5253519B2 (ja) | スマートテキストを生成するための方法、装置、及び記憶媒体 | |
CN104254851A (zh) | 用于向用户推荐内容的方法和系统 | |
US20170148051A1 (en) | Systems and methods for one-to-one advertising management | |
US11107113B2 (en) | Multitrack performance scoring for assets comprising digital media | |
WO2014120869A1 (en) | Content sequencing | |
WO2010138861A2 (en) | Contextual content targeting | |
CN111814034A (zh) | 信息处理方法、装置、存储介质及电子设备 | |
US20090259540A1 (en) | System for partitioning and pruning of advertisements | |
US20150379556A1 (en) | System and Method for Online Advertising | |
CN111178934B (zh) | 获取目标对象的方法及装置 | |
CN115222433A (zh) | 一种信息推荐方法、装置及存储介质 | |
CN113743968A (zh) | 信息投放方法、装置及设备 | |
CN113139826A (zh) | 广告位的分配权限确定方法、装置、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |