CN112734486A - 一种确定目标人群的方法、装置、电子设备和存储介质 - Google Patents

一种确定目标人群的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112734486A
CN112734486A CN202110044581.9A CN202110044581A CN112734486A CN 112734486 A CN112734486 A CN 112734486A CN 202110044581 A CN202110044581 A CN 202110044581A CN 112734486 A CN112734486 A CN 112734486A
Authority
CN
China
Prior art keywords
magnitude
crowd
calculating
user
crowds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110044581.9A
Other languages
English (en)
Inventor
潘峰
赵立超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202110044581.9A priority Critical patent/CN112734486A/zh
Publication of CN112734486A publication Critical patent/CN112734486A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0257User requested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种确定目标人群的方法、装置、电子设备和存储介质,该方法包括:获取人群中每个用户的日志文件,其中,所述人群的数量至少为两个;基于所述人群中每个用户的日志文件,获取所述人群中每个所述用户的设备标识;基于所述人群中每个所述用户的设备标识,计算每个所述人群之间的交并差量级;根据所述交并差量级确定投放广告的目标人群。这样,可以快速计算出每个人群之间的交并差量级,并通过交并差量级快速确定目标人群,既提高了计算交并差量级的速度,又减少了在计算结果人群时的资源浪费。并且通过这种方法确定出的目标人群更精准,提高了广告投放的精准度。

Description

一种确定目标人群的方法、装置、电子设备和存储介质
技术领域
本申请涉及信息处理技术领域,具体而言,涉及一种确定目标人群的方法、装置、电子设备和存储介质。
背景技术
互联网广告当前的技术趋势是针对不同的用户投放最贴近用户需求的广告,广告主在投放广告之前,需要预先了解两个人群交并差之后的量级是多少,是否满足自己的要求。
现有技术中,实现交并差功能都需要通过执行交并差任务的方式,最终形成一个新的人群包,然后去统计这个新的人群包的数量来作为交并差的结果,广告主查看新的人群包的量级是否满足需求,来确定投放广告的目标人群。这种方法是根据每个人群包的大小来计算,计算的时间并不能保证。并且监测到的用户数据量十分巨大,需要消耗集群的资源,而且每次新生成的交并差结果和量级不可复用,非常定制化,这样每次计算的时候都需要执行任务去统计,资源消耗量非常大,并且计算速度也很慢。
发明内容
有鉴于此,本申请的目的在于提供一种确定目标人群的方法、装置、电子设备和存储介质,用于解决现有技术中确定目标人群速度慢、消耗计算资源较大的问题。
第一方面,本申请实施例提供了一种确定目标人群的方法,所述方法包括:
获取人群中每个用户的日志文件,其中,所述人群的数量至少为两个;
基于所述人群中每个用户的日志文件,获取所述人群中每个所述用户的设备标识;
基于所述人群中每个所述用户的设备标识,计算每个所述人群之间的交并差量级;
根据所述交并差量级确定投放广告的目标人群。
可选的,所述基于所述人群中每个所述用户的设备标识,计算每个所述人群之间的交并差量级,包括:
基于所述人群中每个所述用户的设备标识,计算所述人群所对应的量级;
基于所述人群所对应的量级,计算每个所述人群之间的交并差量级。
可选的,所述基于所述人群中每个所述用户的设备标识,计算所述人群所对应的量级,包括:
将所述人群中每个所述用户的设备标识进行转换,得到每个所述用户的设备标识所对应的字符串;
将每个所述字符串进行分桶记录;
根据分桶后的字符串,记录每个桶所对应的特征值;
根据所述特征值,计算所述人群所对应的量级;
基于所述人群所对应的量级,计算每个所述人群之间的交并差量级。
可选的,所述交并差量级包括并的量级;所述每个所述人群之间的交并差量级是通过以下步骤计算的:
将多个所述人群中每个所述用户的设备标识所对应的字符串进行去重处理;
根据去重后每个人群中所述用户的用户标识所对应的字符串,确定多个人群之间并的量级;
所述交并差量级包括交的量级;所述每个所述人群之间的交并差量级是通过以下步骤计算的:
基于所述每个人群所对应的量级的和以及所述多个人群之间并的量级,计算多个人群之间交的量级;
所述交并差量级包括差的量级;所述每个所述人群之间的交并差量级是通过以下步骤计算的:
基于所述多个人群之间并的量级以及待删除人群的量级,计算多个人群之间差的量级。
可选的,所述根据所述交并差量级确定投放广告的目标人群,包括:
将所述交并差量级发送至终端页面;
若所述交并差量级符合量级需求,则执行所述人群之间的交并差任务,得到所述目标人群;
将所述广告投放给所述目标人群。
第二方面,本申请实施例还提供了一种确定目标人群的装置,所述装置包括:
第一获取模块,用于获取人群中每个用户的日志文件,其中,所述人群的数量至少为两个;
第二获取模块,用于基于所述人群中每个用户的日志文件,获取所述人群中每个所述用户的设备标识;
计算模块,用于基于所述人群中每个所述用户的设备标识,计算每个所述人群之间的交并差量级;
确定模块,用于根据所述交并差量级确定投放广告的目标人群。
可选的,计算模块,包括:
第一计算单元,用于基于所述人群中每个所述用户的设备标识,计算所述人群所对应的量级;
第二计算单元,用于基于所述人群所对应的量级,计算每个所述人群之间的交并差量级。
可选的,第一计算单元,包括:
转换子单元,用于将所述人群中每个所述用户的设备标识进行转换,得到每个所述用户的设备标识所对应的字符串;
分桶记录子单元,用于将每个所述字符串进行分桶记录;
第一计算子单元,用于根据分桶后的字符串,计算出每个所述字符串所对应的特征值;
第二计算子单元,用于根据所述特征值,计算所述人群所对应的量级;
第三计算子单元,用于基于所述人群所对应的量级,计算每个所述人群之间的交并差量级。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的确定目标人群方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述的确定目标人群的方法的步骤。
本申请实施例提出的一种确定目标人群的方法,首先,获取人群中每个用户的日志文件,其中,所述人群的数量至少为两个;然后,基于所述人群中每个用户的日志文件,获取所述人群中每个所述用户的设备标识;基于所述人群中每个所述用户的设备标识,计算每个所述人群之间的交并差量级;最后,根据所述交并差量级确定投放广告的目标人群。
本申请实施例提供的方法,通过获取人群中每个用户的日志文件,计算每个人群的量级,再根据每个人群的量级计算每个人群之间交并差的量级,根据交并差量级确定投放广告的目标人群,这种方法可以快速计算出每个人群之间的交并差量级,既能满足时间上的要求,又不需要通过执行交并差任务的方式先得到结果人群,既提高了计算交并差量级的速度,又减少了在计算结果人群时的资源浪费。并且通过这种方法确定出的目标人群更精准,提高了广告投放的精准度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种确定目标人群的方法的基本流程示意图;
图2为本申请实施例提供的一种详细的确定目标人群的方法的流程示意图;
图3为本申请实施例提供的一种确定目标人群的装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
经研究发现,要想获得集合的交并差之后得到的集合的量级,首先必须要获得这个交并差的结果集合,然后基于这个结果集合去统计这个集合对应的基数。现有技术实现人群的交并差功能很简单,首先不同编程语言基本都已经实现了交并差的功能,但是这种方式只能处理小数据量的数据,因为需要把数据放到内存中,然后进行比较。但是监测到的用户数据量十分巨大,直接通过放到内存的方式是无法实现的。另外,这种方式是在一台机器上运行的,需要在一台机器上进行比较,速度会特别慢。
想要快速确定出这两个人群在交集或并集或差集之后的目标人群是否满足需求,则需要进行交并差量级的计算,现有技术中想要实现交并差功能都需要通过执行交并差任务的方式,最终形成一个新的人群包,然后去统计这个新的人群包的量级来作为交并差的结果。这种方式根据人群包的大小,计算的时间并不能保证。因为需要执行交并差任务,需要消耗集群的资源,而且每次新生成的交并差结果和量级不可复用,非常定制化,这样每次计算的时候都需要跑任务去统计,资源消耗量非常大。
基于此,本申请实施例提供了一种确定目标人群的方法,以解决现有技术中确定目标人群速度慢、消耗计算资源较大的问题。
请参阅图1,图1为本申请实施例提供的一种确定目标人群的方法的基本流程示意图。如图1中所示,本申请实施例提供的一种确定目标人群的方法,包括:
S101,获取人群中每个用户的日志文件,其中,人群的数量至少为两个。
在步骤S101中,人群指的是广告行业中在某一方面有相同或相似属性的一些用户,就是将用户进行分类,在本实施例中,人群分类的维度可以为四种:(1)人口属性:如年龄、性别等;(2)兴趣爱好:如汽车、美妆、游戏、旅游运动、母婴等;(3)触媒偏好:如贴吧、论坛、APP、网页等;(4)生活状态:如用户学历、用户婚姻状态、上网场景等。日志文件指的是指的是用户行为日志,就是用户每次访问网站所产生的行为数据,如用户在网页中对广告的访问、浏览、搜索、点击等行为都会产生对应的行为数据,可以记录用户在哪个时间、哪个地点、点击了什么样的广告。
具体实施时,获取每个人群中每个用户的日志文件,其中人群的数量至少为两个。可以通过每个用户的日志文件监测每个用户的上网浏览广告的行为,通过特定的规则在所有日志文件中挖掘出对应的人群,例如,广告主待投放的广告是母婴类别的,需要对浏览过母婴类别的用户去进行针对性的广告投放,则通过特定的规则在所有日志文件中筛选浏览过母婴类别的所有用户,作为一个人群,这样通过这样的方法会得到很多不同类别的人群。具有某一方面相同或相似属性的一些用户就会被分到一个人群中,例如,年龄在20-30岁的女性为人群A,浏览过母婴类别中任意一条广告的用户为人群B。
S102,基于人群中每个用户的日志文件,获取人群中每个用户的设备标识。
在步骤S102中,设备标识指的是每个用户在进行广告浏览时所操作的设备的标识,是每个设备固有的唯一的标识,例如UDID、Android_id等。UDID(Unique DeviceIdentifier,唯一设备标识符)指的是苹果IOS设备的唯一识别码,由40个字符的字母和数字组成,移动广告商和游戏网络运营商往往需要通过UDID用来识别玩家用户,并对用户活动进行跟踪。Android_id指的是安卓设备的唯一标识码,是一串64位的编码(十六进制的字符串)。通过设备标识可以追踪到进行广告访问、浏览、搜索、点击等行为的是哪个用户。
具体实施时,在获取到每个用户的日志文件后,基于每个用户的日志文件,获取人群中每个用户的设备标识。
S103,基于人群中每个用户的设备标识,计算每个人群之间的交并差量级。
S104,根据交并差量级确定投放广告的目标人群。
在步骤S103和步骤S104中,量级指的是人群当中的基数,基数相当于一个集合中不重复的元素的个数;其中,集合中的元素指的是集合中的每一个对象,相当于人群中的每一个用户。因此,量级相当于将每个人群中的用户进行去重。例如一个用户在一个设备上点了五个不同的广告,获取到的日志文件中会有五个相同的设备标识对应的操作数据,这时需要进行去重记录,这个用户的基数是1,对于同一个设备标识,无论这个设备标识所对应的用户点击或浏览了多少个、多少次广告,这个用户的基数都是1。人群的量级就相当于人群中对于用户进行去重后的用户数量。通常,交并差指的是两个集合的交集、并集和差集,是两个集合最常用的三种操作。两个集合的交集指的是两个集合公有的元素集合;两个集合的并集指的是两个集合合并在一起然后进行去重最终得到的集合;两个集合差集指的是从一个集合中刨除另外一个集合有的元素,最终得到的集合。在本实施例中,交并差指的是两个人群的交集、并集和差集。两个人群的交集指的是两个人群中具有相同元素的用户的集合;两个人群的并集指的是两个人群合并在一起然后进行去重最终得到的人群;两个人群的差集指的是从一个人群中刨除另外一个人群中具有相同元素的用户,最终得到的人群。交并差量级指的是两个人群进行交集或并集或差集之后所对应的人群的量级。目标人群指的是广告的受众人群,是接收待投送广告的某些用户。通过计算出每个人群之间的交并差量级,可以确定出投放广告的目标人群包括哪些用户。
通过上述四个步骤,通过获取人群中每个用户的日志文件,计算每个人群的量级,再根据每个人群的量级计算每个人群之间交并差的量级,根据交并差量级确定投放广告的目标人群,这种方法可以快速计算出每个人群之间的交并差量级,既能满足时间上的要求,又不需要通过执行交并差任务的方式先得到结果人群,既提高了计算交并差量级的速度,又减少了在计算结果人群时的资源浪费。并且通过这种方法确定出的目标人群更精准,提高了广告投放的精准度。
请参阅图2,图2为本申请实施例提供的一种详细的确定目标人群的方法的流程示意图。如图2中所示,所述基于人群中每个用户的设备标识,计算所述人群之间的交并差量级,包括:
S201,基于人群中每个用户的设备标识,计算人群所对应的量级。
S202,基于人群所对应的量级,计算每个人群之间的交并差量级。
在步骤S201和步骤S202中,首先根据人群中每个用户的设备标记计算出该人群所对应的量级。将人群所对应的量级计算出来后,再根据每个人群所对应的量级计算每个人群之间的交并差的量级。
在上述步骤S201中,基于人群中用户的设备标识,计算人群所对应的量级包括:
步骤2011,将人群中每个用户的设备标识进行转换,得到每个用户的设备标识所对应的字符串。
在步骤2011中,将人群中每个用户的设备标识进行转换,得到每个用户的设备标识所对应的字符串时,可以先将每个用户的设备标识经过哈希处理,得到每个设备标识对应的字符串,其中,每个设备标识对应的字符串是一组由01组成的字符串。
在具体实施时,将人群中每个用户的设备标识进行哈希处理,得到每个用户的设备标识所对应的一组由01组成的字符串。在进行哈希处理后,可以将每个人群映射成HLLC(HyperLogLog Counting,基数统计算法)文件的格式。例如,将人群A中的所有用户的设备标识进行哈希处理后,得到每个设备标识所对应的字符串,将所有的字符串添加到HLLC文件中,得到人群A所对应的HLLC_A文件,人群B也可以基于同样的方式得到人群B所对应的HLLC_B文件,这样每个人群对应一个不同的HLLC文件,并且生成的HLLC文件是可以复用的。
步骤2012,将每个所述字符串进行分桶记录。
步骤2013,根据分桶后的字符串,计算出每个字符串所对应的特征值。
在步骤2012中,分桶记录指的是对数据进行区分,将所有数据中含有相同元素的数据分为一组。将进行过哈希处理后的每个字符串进行分桶记录。每个字符串所对应的特征值指的是分桶后的字符串中除去分桶标准位数的数字后,第一个“1”所出现的最大位置。
在具体实施时,在对字符串进行分桶记录时,可以先获取预设的分桶标准,例如,分桶标准为“00,01,10,11”,则字符串中的前两位表示桶,根据每个字符串的前两位数,将该人群中所有用户设备标识所对应的字符串划分到不同的桶中。例如,该人群中有八个用户,将这八个用户的设备标识进行哈希处理后得到的八个长度为10位的字符串,分别为0010100101、0000011001、0100011100、0111110101、1011001010、1000000111、1100000010、1101010111,则可以将00 10100101、00 00011001分在“00”的桶中,将01 00001100、0111110101分在“01”的桶中,将10 11001010、10 00000111分在“10”的桶中,将11 00000010、11 01010111分在“11”的桶中。分桶记录完成后,根据分桶后的字符串,针对同一个桶中的字符串,记录每个字符串中除前两位之外的其余位的数中第一个“1”所出现的位置,并记录第一个“1”所出现的最大位置,即每个桶所对应的特征值。延续上述实施例,“00”的桶中所记录的第一个“1”所出现的最大位置为4,则“00”的桶所对应的特征值为4;“01”的桶中所记录的第一个“1”所出现的最大位置为5,则“01”的桶所对应的特征值为5;“10”的桶中所记录的第一个“1”所出现的最大位置为6,则“00”的桶所对应的特征值为6;“11”的桶中所记录的第一个“1”所出现的最大位置为7,则“11”的桶所对应的特征值为7。
在具体实施时,分桶标准是可以根据需求提前预设好的,分桶的数量是与最后求得的量级的精度成一定关系的,如果对量级的精度要求误差很小,对分桶数量的要求就相应的增加,也就是增加桶所对应的位数;如果对量级的精度没有很精准的需求,对分桶数量的要求可以相应的减少,也就是减小桶所对应的位数。
步骤2014,根据所述特征值,计算人群所对应的量级。
在步骤2014中,根据人群中每个桶的特征值,计算该人群所对应的量级。人群所对应的量级是根据以下公式计算的:
Figure BDA0002897017330000111
其中,m为字符串在分桶记录后桶的个数,Rj为第j个桶对应的特征值,即第j个桶中“1”出现的最大位置,
Figure BDA0002897017330000112
表示第j个桶的基数,const表示一个常数,DVHLL表示所有桶的基数和,即该人群所对应的量级,公式
Figure BDA0002897017330000113
表示将每个桶的基数取调和平均数。
步骤2015,基于所述人群所对应的量级,计算每个所述人群之间的交并差量级。
在步骤2015中,将需要进行交集或并集或差集的人群的量级计算完后,根据每个人群所对应的量级计算每个人群之间的交并差量级。
在步骤2015中,所述交并差量级包括并的量级;所述每个所述人群之间的交并差量级是通过以下步骤计算的:
将多个所述人群中每个所述用户的设备标识所对应的字符串进行去重处理;
根据去重后每个人群中所述用户的用户标识所对应的字符串,确定多个人群之间并的量级。
其中,去重处理指的是将每个用户的设备标识所对应的字符串进行合并处理,将两个字符串中每一位数字取或,0和0合并之后是0,0和1合并之后是1,1和1合并之后是1。例如现在要将0010100101和1011001010这两个字符串进行去重,去重后的字符串为1011101111。将多个人群中每个用户的设备标识所对应的字符串都进行去重,可以得到去重后的每个人群中用户的用户标识所对应的字符串,这时根据去重后的每个字符串进行量级的计算,即确定多个人群之间并的量级。其中,计算两个人群并的量级的方法可以参照步骤2012至步骤2014的描述,并且能达到相同的技术效果,对此不做赘述。
所述交并差量级包括交的量级;所述每个所述人群之间的交并差量级是通过以下步骤计算的:
基于所述每个人群所对应的量级的和以及所述多个人群之间并的量级,计算多个人群之间交的量级。
下面以两个人群为例,对人群之间交的量级进行详细说明。在确定出两个人群之间并的量级后,基于每个人群所对应的量级以及两个人群之间并的量级,可以根据以下公式计算两个人群之间交的量级:
A∩B=A+B-A∪B
其中,A表示多个人群中一个人群所对应的量级,B表示多个人群中另一个人群所对应的量级,A∪B表示通过上述确定多个人群之间并的量级的步骤计算出的并的量级。也就是,多个人群之间交的量级可以通过两个人群所对应的量级的和减去这两个人群并的量级。
所述交并差量级包括差的量级;所述每个所述人群之间的交并差量级是通过以下步骤计算的:
基于所述多个人群之间并的量级以及待删除人群的量级,计算多个人群之间差的量级。
其中,待删除人群指的是在计算差的量级时被减去的人群。下面以两个人群为例,对人群之间差的量级进行详细说明。在确定出两个人群之间并的量级后,基于两个人群之间并的量级以及待删除人群的量级,可以根据以下公式计算两个人群之间差的量级:
A-B=A∪B-B
其中,A表示多个人群中一个人群所对应的量级,B表示多个人群中另一个人群所对应的量级,A∪B表示通过上述确定多个人群之间并的量级的步骤计算出的并的量级。也就是,多个人群之间差的量级可以通过两个人群并的量级减去待删除人群所对应的量级。
在具体实施时,当多个人群之间的交并差量级时,以3个人群为例:人群A,人群B和人群C。首先这三个人群中每个用户的设备标识进行转换,分别得到三个人群所对应的HLLC文件:人群A的HLLC文件HLLC_A,人群B的HLLC文件HLLC_B,人群C的HLLC文件HLLC_C。再计算出这三个人群中每个人群所对应的量级:人群A的量级count_A,人群B的量级count_B,人群C的量级count_C,计算三个人群所对应的量级的方法可以参照步骤2012至步骤2014的描述,并且能达到相同的技术效果,对此不做赘述。然后人群A和B并的量级就可以通过HLLC_A和HLLC_B两个文件合并出一个HLLC_AB文件,快速得到这个文件对应的量级,也就能快速得到A和B并集的量级count_AB。再根据上述步骤20152步骤20153中的公式,就可以快速得到人群A和B的交集(count_A+count_B-countAB)和差集(count_AB–count_B)的量级了。以此类推,人群A和C的交并差,人群B和C的交并差也都能通过上述公式快速计算出对应的量级结果。
通过这种方式可以在真实计算两个人群包交并差的结果之前,先对结果的量级进行快速估算,在时间上,广告主可以在秒级别上直接查看最终算出的人群量级是否满足自己对于量级的需求,大大节约了时间;在计算资源上,能够在误差范围内提前合理地估算出人群交并差之后算出的人群的量级,如果最终估算的交并差量级不满足广告主的量级需求,则不需要再继续执行人群之间的交并差任务去计算结果人群了,大大节约了计算资源。
因此,在计算完每个人群之间的交并差量级后,广告主需要查看当前的交并差量级是否满足自己的量级需求,来判断这些人适不适合自己投放广告,可以根据需求选择是否继续执行交并差任务,S104还包括:
步骤1041,将交并差量级发送至终端页面。
步骤1042,若交并差量级符合量级需求,则执行人群之间的交并差任务,得到目标人群。
步骤1043,将广告投放给目标人群。
在步骤1041-步骤1043中,终端页面指的是广告主可以查询到交并差量级的界面。量级需求指的是广告主自身对于两个人群交并差量级的需求。交并差任务指的是将两个人群所对应的人群包进行交集或并集或差集之后生成新的人群包的任务,新的人群包中对应的用户则是目标人群。
在具体实施时,将计算得到的两个人群间交并差量级的结果发送给广告主的终端页面,广告主查看量级结果,判断这两个人群间的交并差量级是否满足自己的量级需求。如果满足,则执行两个人群间的交并差任务,得到目标人群。例如,延续在步骤S101中的例子,某品牌的广告主想要推广自己的母婴广告,希望推送给更可能购买母婴产品的用户,这样才能提高广告主的回报率。年龄在20-30岁的女性更可能会购买母婴产品,因此将年龄在20-30岁的女性作为人群A,看过这个广告主其他母婴广告的用户作为人群B,这样人群A和人群B交集的人群更可能购买母婴产品。这样通过上述方法可以计算出人群A和人群B之间交的量级,如果这个量级满足该广告主的需求,则对人群A和人群B执行交集任务,得到人群A和人群B交的人群包,即目标人群。然后将广告主待投放的广告发送至所述目标人群中的每个用户。本技术方案通过这样的方法可以判断某两个人群交并差之后对应的人群是否适合广告的投放,如果适合则利用所述方法确定出待投放广告的目标人群,准确地进行广告投放,这种方式确定广告投放的目标人群更贴近用户行为习惯,提高广告投放的精准度,广告主的回报率更高。
本申请实施例提供的一种确定目标人群的方法,通过获取人群中每个用户的日志文件,计算每个人群的量级,再根据每个人群的量级计算每个人群之间交并差的量级,根据交并差量级确定投放广告的目标人群,这种方法可以快速计算出每个人群之间的交并差量级,既能满足时间上的要求,又不需要通过执行交并差任务的方式先得到结果人群,既提高了计算交并差量级的速度,又减少了在计算结果人群时的资源浪费。并且广告主可以通过这种方法快速查看交并差量级是否符合自己的量级需求,交并差之后的人群是否适合进行广告投放,这种方式确定广告投放的目标人群更贴近用户行为习惯,提高广告投放的精准度,广告主的回报率更高。
请参阅图3,图3为本申请实施例提供的一种确定目标人群的装置的结构示意图,如图3中所示,所述装置包括:
第一获取模块301,用于获取人群中每个用户的日志文件,其中,所述人群的数量至少为两个;
第二获取模块302,用于基于所述人群中每个用户的日志文件,获取所述人群中每个所述用户的设备标识;
计算模块303,用于基于所述人群中每个所述用户的设备标识,计算每个所述人群之间的交并差量级;
确定模块304,用于根据所述交并差量级确定投放广告的目标人群。
可选的,计算模块303,包括:
第一计算单元,用于基于所述人群中每个所述用户的设备标识,计算所述人群所对应的量级;
第二计算单元,用于基于所述人群所对应的量级,计算每个所述人群之间的交并差量级。
可选的,第一计算单元,包括:
转换子单元,用于将所述人群中每个所述用户的设备标识进行转换,得到每个所述用户的设备标识所对应的字符串;
分桶记录子单元,用于将每个所述字符串进行分桶记录;
第一计算子单元,用于根据分桶后的字符串,计算出每个所述字符串所对应的特征值;
第二计算子单元,用于根据所述特征值,计算所述人群所对应的量级;
第三计算子单元,用于基于所述人群所对应的量级,计算每个所述人群之间的交并差量级。
可选的,所述交并差量级包括并的量级;所述每个所述人群之间的交并差量级是通过以下步骤计算的:
将多个所述人群中每个所述用户的设备标识所对应的字符串进行去重处理;
根据去重后每个人群中所述用户的用户标识所对应的字符串,确定多个人群之间并的量级;
所述交并差量级包括交的量级;所述每个所述人群之间的交并差量级是通过以下步骤计算的:
基于所述每个人群所对应的量级的和以及所述多个人群之间并的量级,计算多个人群之间交的量级;
所述交并差量级包括差的量级;所述每个所述人群之间的交并差量级是通过以下步骤计算的:
基于所述多个人群之间并的量级以及待删除人群的量级,计算多个人群之间差的量级。
可选的,确定模块304,包括:
发送单元,用于将所述交并差量级发送至终端页面;
执行单元,用于执行若所述交并差量级符合量级需求,则执行所述人群之间的交并差任务,得到所述目标人群;
投放单元,用于将所述广告投放给所述目标人群。
请参阅图4,图4为本申请实施例提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1以及图2所示方法实施例中的确定目标人群的方法的步骤,解决了现有技术中确定目标人群速度慢、消耗计算资源较大的问题。具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的确定目标人群的方法的步骤,用于解决现有技术中确定目标人群速度慢、消耗计算资源较大的问题。具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种确定目标人群的方法,其特征在于,所述方法包括:
获取人群中每个用户的日志文件,其中,所述人群的数量至少为两个;
基于所述人群中每个用户的日志文件,获取所述人群中每个所述用户的设备标识;
基于所述人群中每个所述用户的设备标识,计算每个所述人群之间的交并差量级;
根据所述交并差量级确定投放广告的目标人群。
2.根据权利要求1所述的方法,其特征在于,所述基于所述人群中每个所述用户的设备标识,计算每个所述人群之间的交并差量级,包括:
基于所述人群中每个所述用户的设备标识,计算所述人群所对应的量级;
基于所述人群所对应的量级,计算每个所述人群之间的交并差量级。
3.根据权利要求2所述的方法,其特征在于,所述基于所述人群中每个所述用户的设备标识,计算所述人群所对应的量级,包括:
将所述人群中每个所述用户的设备标识进行转换,得到每个所述用户的设备标识所对应的字符串;
将每个所述字符串进行分桶记录;
根据分桶后的字符串,记录每个桶所对应的特征值;
根据所述特征值,计算所述人群所对应的量级;
基于所述人群所对应的量级,计算每个所述人群之间的交并差量级。
4.根据权利要求3所述的方法,其特征在于,所述交并差量级包括并的量级;所述每个所述人群之间的交并差量级是通过以下步骤计算的:
将多个所述人群中每个所述用户的设备标识所对应的字符串进行去重处理;
根据去重后每个人群中所述用户的用户标识所对应的字符串,确定多个人群之间并的量级;
所述交并差量级包括交的量级;所述每个所述人群之间的交并差量级是通过以下步骤计算的:
基于所述每个人群所对应的量级的和以及所述多个人群之间并的量级,计算多个人群之间交的量级;
所述交并差量级包括差的量级;所述每个所述人群之间的交并差量级是通过以下步骤计算的:
基于所述多个人群之间并的量级以及待删除人群的量级,计算多个人群之间差的量级。
5.根据权利要求1所述的方法,其特征在于,所述根据所述交并差量级确定投放广告的目标人群,包括:
将所述交并差量级发送至终端页面;
若所述交并差量级符合量级需求,则执行所述人群之间的交并差任务,得到所述目标人群;
将所述广告投放给所述目标人群。
6.一种确定目标人群的装置,其特征在于,所述装置包括:
第一获取模块,用于获取人群中每个用户的日志文件,其中,所述人群的数量至少为两个;
第二获取模块,用于基于所述人群中每个用户的日志文件,获取所述人群中每个所述用户的设备标识;
计算模块,用于基于所述人群中每个所述用户的设备标识,计算每个所述人群之间的交并差量级;
确定模块,用于根据所述交并差量级确定投放广告的目标人群。
7.根据权利要求6所述的装置,其特征在于,计算模块,包括:
第一计算单元,用于基于所述人群中每个所述用户的设备标识,计算所述人群所对应的量级;
第二计算单元,用于基于所述人群所对应的量级,计算每个所述人群之间的交并差量级。
8.根据权利要求7所述的装置,其特征在于,第一计算单元,包括:
转换子单元,用于将所述人群中每个所述用户的设备标识进行转换,得到每个所述用户的设备标识所对应的字符串;
分桶记录子单元,用于将每个所述字符串进行分桶记录;
第一计算子单元,用于根据分桶后的字符串,计算出每个所述字符串所对应的特征值;
第二计算子单元,用于根据所述特征值,计算所述人群所对应的量级;
第三计算子单元,用于基于所述人群所对应的量级,计算每个所述人群之间的交并差量级。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至5任一所述的确定目标人群的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一所述的确定目标人群的方法的步骤。
CN202110044581.9A 2021-01-13 2021-01-13 一种确定目标人群的方法、装置、电子设备和存储介质 Pending CN112734486A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110044581.9A CN112734486A (zh) 2021-01-13 2021-01-13 一种确定目标人群的方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110044581.9A CN112734486A (zh) 2021-01-13 2021-01-13 一种确定目标人群的方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN112734486A true CN112734486A (zh) 2021-04-30

Family

ID=75592513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110044581.9A Pending CN112734486A (zh) 2021-01-13 2021-01-13 一种确定目标人群的方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112734486A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537578A (zh) * 2018-03-26 2018-09-14 杭州米趣网络科技有限公司 基于大数据的广告推送方法及装置
CN110442761A (zh) * 2019-06-21 2019-11-12 深圳中琛源科技股份有限公司 一种用户画像构建方法、电子设备及存储介质
CN110941738A (zh) * 2019-11-27 2020-03-31 北京奇艺世纪科技有限公司 推荐方法、装置、电子设备及计算机可读存储介质
CN111080361A (zh) * 2019-12-16 2020-04-28 上海风秩科技有限公司 一种广告投放方法、装置、电子设备及可读存储介质
CN111768219A (zh) * 2019-05-30 2020-10-13 北京沃东天骏信息技术有限公司 广告人群实验方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537578A (zh) * 2018-03-26 2018-09-14 杭州米趣网络科技有限公司 基于大数据的广告推送方法及装置
CN111768219A (zh) * 2019-05-30 2020-10-13 北京沃东天骏信息技术有限公司 广告人群实验方法、装置及存储介质
CN110442761A (zh) * 2019-06-21 2019-11-12 深圳中琛源科技股份有限公司 一种用户画像构建方法、电子设备及存储介质
CN110941738A (zh) * 2019-11-27 2020-03-31 北京奇艺世纪科技有限公司 推荐方法、装置、电子设备及计算机可读存储介质
CN111080361A (zh) * 2019-12-16 2020-04-28 上海风秩科技有限公司 一种广告投放方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN104662529B (zh) 用于高性能分析的数据精炼引擎的系统和方法
CN112000747B (zh) 数据多维分析方法、装置及系统
CN108805598B (zh) 相似度信息确定方法、服务器及计算机可读存储介质
CN108304426B (zh) 标识的获取方法及装置
US10346496B2 (en) Information category obtaining method and apparatus
CN113327146B (zh) 一种信息追踪方法和装置
CN109697454B (zh) 一种基于隐私保护的跨设备个体识别方法及装置
CN110674620A (zh) 目标文案生成方法、装置、介质及电子设备
KR102288408B1 (ko) 광고 생성 방법, 컴퓨터 판독 가능한 저장매체 및 시스템
CN104361092A (zh) 搜索方法及装置
CN107608980A (zh) 基于dpi大数据分析的信息推送方法和系统
CN114625973B (zh) 一种匿名信息跨域推荐方法、装置、电子设备及存储介质
CN114328632A (zh) 基于位图的用户数据分析方法、装置及计算机设备
CN104462396A (zh) 字符串处理方法和装置
CN108459845A (zh) 一种监控标签属性的埋点方法及装置
CN108664501B (zh) 广告审核方法、装置及服务器
CN114942971A (zh) 一种结构化数据的抽取方法及装置
CN106919609B (zh) 产品信息推送方法和装置
JP2019145043A (ja) データ管理装置およびデータ管理システム
TWI447662B (zh) An ad management apparatus, an advertisement selecting apparatus, an advertisement management method, an advertisement management program, and a recording medium on which an advertisement management program is recorded
CN113706249A (zh) 数据推荐方法、装置、电子设备及存储介质
CN108241643B (zh) 关键词的指标数据分析方法及装置
KR102299525B1 (ko) 제품 평가 마이닝 방법 및 이를 수행하는 장치
CN108021713A (zh) 一种文档聚类的方法和装置
CN110362540B (zh) 一种数据存储、访客数获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination