CN113468231A - 用户群规模估计方法、装置、电子设备及可读存储介质 - Google Patents
用户群规模估计方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113468231A CN113468231A CN202010238479.8A CN202010238479A CN113468231A CN 113468231 A CN113468231 A CN 113468231A CN 202010238479 A CN202010238479 A CN 202010238479A CN 113468231 A CN113468231 A CN 113468231A
- Authority
- CN
- China
- Prior art keywords
- user
- library
- feature library
- initial
- group scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005070 sampling Methods 0.000 claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种用户群规模估计方法、装置、电子设备及可读存储介质。该方法包括:获取用户的用户群规模查询请求,其中,用户群规模查询请求中包括目标用户特征;基于目标用户特征在第一用户特征库中查询,得到初始用户群规模,其中,第一用户特征库是通过对第二用户特征库进行随机抽样生成的,第二用户特征库用于存储各用户特征;根据第一用户特征库所对应的第一用户数量、以及第二用户特征库所对应的第二用户数量,对初始用户群规模进行修正,得到修正后的用户群规模并提供给用户。在本申请实施例中,可以实现快速的查询,又可以保证了查询得到的结果的准确性。
Description
技术领域
本申请涉及大数据技术领域,具体而言,本申请涉及一种用户群规模估计方法、装置、电子设备及可读存储介质。
背景技术
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
标签库是指在大数据系统中收集分析用户的线上线下行为数据,把个性化的人,打上标准化的标签,把标签做梳理聚合,形成典型的用户特征标签库,其可以用于做“用户画像分析”和“精准营销/推荐”。
通常情况下,用户可以选取多个标签与标签值,然后在标签库中选取满足的用户人群,但是在当涉及多标签和多标签值组合时,或者不存在高性能关系型数据库以及物理资源受限制时,可能无法从标签库中准确快速的确定满足要求的用户人群规模。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是无法从标签库中准确快速的确定满足要求的用户人群规模的技术缺陷。
第一方面,本申请实施例提供了一种用户群规模估计方法,该方法包括:
获取用户的用户群规模查询请求,其中,用户群规模查询请求中包括目标用户特征;
基于目标用户特征在第一用户特征库中查询,得到初始用户群规模,其中,第一用户特征库是通过对第二用户特征库进行随机抽样生成的,第二用户特征库用于存储各用户特征;
根据第一用户特征库所对应的第一用户数量、以及第二用户特征库所对应的第二用户数量,对初始用户群规模进行修正,得到修正后的用户群规模并提供给用户。
可选的,第二用户特征库为用户标签库,对于一个用户,用户特征包括各个用户标签、以及该用户对应于各个用户标签的标签值;
目标用户特征包括至少一个待查询的用户标签和标签值的组合。
可选的,第一用户特征库是通过以下方式生成的:
获取第二用户特征库的各用户特征;
以第二用户数量为随机范围因子,对第二用户特征库中各用户特征进行乱序洗牌处理,得到打乱后的各用户特征;
按照第一用户数量从打乱后的各用户特征进行抽样,生成第一用户特征库。
可选的,按照第一用户数量从打乱后的各用户特征进行抽样,生成第一用户特征库包括:
确定第一用户数量,并从打乱后的各用户特征中顺序选取第一用户数量的用户特征,得到初始第一用户特征库;
按照预设顺序读取第二用户特征库中的用户数据,并以第二用户数量为随机范围生成随机数;
在随机数属于第一用户数量的范围内时,将当前读取的第二用户特征库中的用户特征,替换初始第一用户特征库中行数为随机数的用户特征,得到替换后的初始第一用户特征库;
当第二用户特征库中的用户特征全部读取完毕时,所对应的替换后的初始第一用户特征库作为第一用户特征库。
可选的,根据第一用户数量、以及第二用户数量,对初始用户群规模进行修正,得到修正后的用户群规模,包括:
确定初始用户群规模与第一用户数量的比值;
根据比值、以及第二用户数量对初始用户群规模进行修正,得到修正后的用户群规模。
可选的,第一用户特征库是按照预设周期通过对第二用户特征库进行随机抽样生成的。
第二方面,本申请实施例提供了一种用户群规模估计装置,该装置包括:
请求获取模块,用于获取用户的用户群规模查询请求,其中,用户群规模查询请求中包括目标用户特征;
初始用户群规模确定模块,用于基于目标用户特征在第一用户特征库中查询,得到初始用户群规模,其中,第一用户特征库是通过对第二用户特征库进行随机抽样生成的,第二用户特征库用于存储各用户特征;
用户群规模修订模块,用于根据第一用户特征库所对应的第一用户数量、以及第二用户特征库所对应的第二用户数量,对初始用户群规模进行修正,得到修正后的用户群规模并提供给用户。
可选的,第二用户特征库为用户标签库,对于一个用户,用户特征包括各个用户标签、以及该用户对应于各个用户标签的标签值;
目标用户特征包括至少一个待查询的用户标签和标签值的组合。
可选的,该装置还包括特征库生成模块,用于通过以下方式生成第一用户特征库:
获取第二用户特征库的各用户特征;
以第二用户数量为随机范围因子,对各用户特征进行乱序洗牌处理,得到打乱后的各用户特征;
按照第一用户数量从打乱后的各用户特征进行抽样,生成第一用户特征库
可选的,特征库生成模块在按照第一用户数量从打乱后的各用户特征进行抽样,生成第一用户特征库包括时,具体用于:
确定第一用户数量,并从打乱后的各用户特征中顺序选取第一用户数量的用户特征,得到初始第一用户特征库;
按照预设顺序读取第二用户特征库中的用户数据,并以第二用户数量为随机范围生成随机数;
在随机数属于第一用户数量的范围内时,将当前读取的第二用户特征库中的用户特征,替换初始第一用户特征库中行数为随机数的用户特征,得到替换后的初始第一用户特征库;
当第二用户特征库中的用户特征全部读取完毕时,所对应的替换后的初始第一用户特征库作为第一用户特征库。
可选的,用户群规模修订模块在根据第一用户数量、以及第二用户数量,对初始用户群规模进行修正,得到修正后的用户群规模时,具体用于:
确定初始用户群规模与第一用户数量的比值;
根据比值、以及第二用户数量对初始用户群规模进行修正,得到修正后的用户群规模。
可选的,第一用户特征库是按照预设周期通过对第二用户特征库进行随机抽样生成的。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:
处理器;以及存储器,该存储器配置用于存储计算机程序,该计算机程序在由该处理器执行时,使得该处理器执行第一方面中的任一项方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机存储介质用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述第一方面中的任一项方法。
本申请实施例提供的技术方案带来的有益效果是:
在本申请实施例中,当获取用户的用户群规模查询请求后,可以先在第一用户特征库中查询,得到初始用户群规模。由于第一用户特征库是通过对第二用户特征库进行随机抽样生成的,第一用户特征库所对应的第一用户数量是远远小于第二用户特征库所对应的第二用户数量的,此时在基于用户群规模查询请求进行查询时,在第一用户特征库中的查询量远远小于在第二用户特征库中的查询量,此时即使不存在高性能关系型数据库、或物理资源受限制时,也可以实现快速的查询;进一步的,由于第一用户特征库是通过对第二用户特征库进行随机抽样生成的,此时再基于第二用户特征库所对应的第二用户数量对初始用户群规模进行修正,又可以保证了查询得到的结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种用户群规模估计方法的流程示意图;
图2为本申请实施例提供的另一种用户群规模估计方法的流程示意图;
图3为本申请实施例提供的一种用户群规模估计装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
首先对本申请涉及的几个名词进行介绍和解释:
Hadoop:Hadoop实现了一个分布式文件系统(Hadoop Distributed FileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql(Structured Query Language,结构化查询语言)查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类sql语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
需要说明的是,本申请实施例所提供的方法的执行主体为服务器,相应的,当终端设备接收到用户触发的用户群规模查询请求后,可以将该请求发送至服务器,服务器基于目标用户特征在第一用户特征库中查询,得到初始用户群规模,然后根据第一用户特征库所对应的第一用户数量、以及第二用户特征库所对应的第二用户数量,对初始用户群规模进行修正,得到修正后的用户群规模并返回至终端设备,终端设备将修正后的用户群规模提供给用户。可以理解是,本申请实施例中服务器可以周期性的对第二用户特征库进行随机抽样生成第一用户特征库。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请实施例中所提供的一种用户群规模估计方法的流程示意图,如图1所示,该方法可以包括:
步骤S101,获取用户的用户群规模查询请求,其中,用户群规模查询请求中包括目标用户特征。
其中,用户群规模查询请求指的是用户想要查询用户群规模的请求,而目标用户特征指的是用户想要查询的用户群规模中的用户需要满足的特征,如该目标用户特征可以为男性,年龄处于18~40岁之间,此时该用户群规模查询请求中可以包括表征男性,以及年龄处于18~40岁的特征。
其中,用户触发用户群规模查询请求的形式本申请实施例不限定,如终端设备可以设置触发用户群规模查询触发请求的按钮,当用户点击该按钮时,显示包括用户特征标识的列表,用户可以从该列表中选择目标用户特征;相应的,当用户选择完目标用户特征后,则视为用户触发了用户群规模查询请求。
步骤S102,基于目标用户特征在第一用户特征库中查询,得到初始用户群规模,其中,第一用户特征库是通过对第二用户特征库进行随机抽样生成的,第二用户特征库用于存储各用户特征。
在实际应用中,在获取到第二用户特征库时,可以对该对第二用户特征库进行随机抽样生成的第一用户特征库,即从第二用户特征库选取部分用户特征作为第一用户特征库;进一步,在获取到用户的用户群规模查询请求后,可以在第一用户特征库中查询满足目标用户特征的用户,得到一个初始用户群规模(即初始用户数量)。
步骤S103,根据第一用户特征库所对应的第一用户数量、以及第二用户特征库所对应的第二用户数量,对初始用户群规模进行修正,得到修正后的用户群规模并提供给用户。
在实际应用中,由于第一用户特征库是基于第二用户特征库随机抽样生成的,因此第一用户特征库与第二用户特征库在用户规模(即用户数量)上是存在关联的,如第一用户特征库的第一用户数量为第二用户特征库的第二用户数量的十分之一;进一步的,由于初始用户群规模是基于第一用户特征库得到的,而第一用户特征库与第二用户特征库在用户规模上是存在关联的,因此初始用户群规模与第二用户特征库在用户数量也是存在关联的;相应的,为了保证得到的用户群规模更加的准确,此时可以基于第一用户特征库所对应的第一用户数量、以及第二用户特征库所对应的第二用户数量,对初始用户群规模进行修正,得到修正后的用户群规模并提供给用户。
在本申请实施例中,当获取用户的用户群规模查询请求后,可以先在第一用户特征库中查询,得到初始用户群规模。由于第一用户特征库是通过对第二用户特征库进行随机抽样生成的,第一用户特征库所对应的第一用户数量是远远小于第二用户特征库所对应的第二用户数量的,此时在基于用户群规模查询请求进行查询时,在第一用户特征库中的查询量远远小于在第二用户特征库中的查询量,此时即使不存在高性能关系型数据库、或物理资源受限制时,也可以实现快速的查询;进一步的,由于第一用户特征库是通过对第二用户特征库进行随机抽样生成的,此时再基于第二用户特征库所对应的第二用户数量对初始用户群规模进行修正,又可以保证了查询得到的结果的准确性。
在本申请可选的实施例中,第二用户特征库为用户标签库,对于一个用户,用户特征包括各用户标签、以及该用户对应于各用户标签的标签值;
目标用户特征包括至少一个待查询的用户标签和标签值的组合。
其中,第二用户特征库中即为用户标签库,用户标签包括了大量的被标注有标签值的用户特征,而用户标签表征了用户的各个属性,标签值表征了属性值,属性值的形式本申请不作限定,可以是文本形式、数值形式、数值范围等等,对于不同的属性,属性值的形式可能不。例如,一个典型的用户特征库的结构可以如下表1所示:
表1
用户 | 性别 | 年龄段 | 收入 | 爱好 | 标签… |
13912340001 | 男 | 1~18 | A | 打球 | …… |
13912340002 | 女 | 19~40 | B | 唱歌 | …… |
13912340003 | 男 | 60~80 | B | 书法 | …… |
…… | …… | …… | …… | …… | …… |
在第二用户特征库中,一行对应为一个用户的用户特征一般每个用户为一个数据行,每列为该用户对应于某标签的具体标签值,例如标签“性别”,它的标签值可能为“男”、“女”、“未知”等,表达方式可能为“A”、“B”、“C”或其他方式。
相应的,此时用户群规模查询请求中的目标用户特征可以包括至少一个待查询的用户标签和标签值的组合。如该目标特征可以包括用户性别标签和用户年龄标签,其具体标签值为男性和19~40岁。
在本申请可选的实施例中,第一用户特征库是通过以下方式生成的:
获取第二用户特征库的各用户特征;
以第二用户数量为随机范围因子,对第二用户特征库中的各用户特征进行乱序洗牌处理,得到打乱后的各用户特征;
按照第一用户数量从打乱后的各用户特征进行抽样,生成第一用户特征库。
在实际应用中,为了保障估算的准确性,我们需要将标签库打乱,使其尽可能的随机分布,这里我们采用基于Hadoop-Hive-UDF的方式进行功能实现。
在实际应用中,可以将第二用户数量作为随机范围因子生成随机数,该范围内的每个随机数对应一个第二用户特征库中的一个用户特征,即随机数的一个具体取值与一个用户特征相对应,如前文中描述的表1中一行对应一个用户特征,如表1中的第一个用户特征则可以对应于数值1,第二个用户特征则可以对应于数值2,即在生成随机数时,一个具体的数值就对应一个用户特征;然后可以基于生成的随机数对第二用户特征库中的各用户特征进行乱序洗牌处理,得到打乱后的各用户特征,其中,一种可选的实施方式为:
从随机范围因子中随机生成一个随机数并记录到记录表中,然后查看记录表中之前记录的随机数是否有当前生成的随机数,若不存在,将第二用户特征库中行数为当前生成的随机数的用户特征与第二用户特征库中行数为记录表中当前生成的随机数的前一个随机数的用户数据替换;若存在,再从随机范围中随机生成一个随机数,并执行上述过程,直至满足设定结束条件,得到打乱后的各用户特征。其中,设定结束条件可以为用户特征替换的次数达到设定阈值等。
在一示例中,假设第二用户数量为10,此时随机范围因子为10,也就是生成的随机数的数值范围为1~10,结束条件为用户特征替换的次数达到8次。相应的,可以从1~10中选取任意一个2作为随机数,然后将数字2记录到记录表中,然后再生成一个随机数3,由于随机数3与记录表中上一个随机数2不同,此时可以将第二用户特征库中第3行的用户特征与第二用户特征库中第2行的用户特征调换;进一步的,假设再生成一个随机数3,此时与记录表中上一个随机数3相同,则重新生成一个随机数5,然后将第二用户特征库中第5行的用户特征与第二用户特征库中第3行的用户特征调换,直至用户特征替换的次数达到8次,即可得到第二用户特征库中打乱后的各用户特征。
在实际应用中,而当采用Hadoop-Hive-UDF(Universal Disc Format,统一光盘格式)式时,若入参为0,此时可以将记录表清零,以便可以进行多次乱序洗牌处理。
进一步的,得到第二用户特征库中打乱后的各用户特征之后,可以基于第一用户数量从打乱后的各用户特征进行抽样,生成第一用户特征库。
在本申请可选的实施例中,按照第一用户数量从打乱后的各用户特征进行抽样,生成第一用户特征库可以包括:
确定第一用户数量,并从打乱后的各用户特征中顺序选取第一用户数量的用户特征,得到初始第一用户特征库;
按照预设顺序读取第二用户特征库中的用户特征,并以第二用户数量为随机数范围生成随机数;
在随机数属于第一用户数量的范围内时,将当前读取的第二用户特征库中的用户特征,替换初始第一用户特征库中行数为随机数的用户数据,得到替换后的初始第一用户特征库;
当第二用户特征库中的用户数据全部读取完毕时,所对应的替换后的初始第一用户特征库作为第一用户特征库。
其中,预设顺序本申请实施例不限定,如按照用户特征的排序从前到后或从后到前等。
在实际应用中,当确定第一用户数量后,可以依据第二用户特征库中用户特征的排序(从前到后或从后到前),顺序选取第一用户数量的用户特征,得到初始第一用户特征库;然后可以根据第二用户特征库中用户特征的排序(从前到后或从后到前),顺序读取第二用户特征库中的每一个用户特征。其中,每读取一个用户特征时,即以第二用户数量为随机范围生成一个随机数,若该随机数属于第一用户数量的范围内,则将初始第一用户特征库中行数为随机数的用户特征与当前读取的用户特征替换,得到替换后的初始第一用户特征库;然后顺序读取第二用户特征库中的下一个用户特征,然后确定是否需要替换用户数据,直至将第二用户特征库中的用户特征全部读取完毕,此时所对应的替换后的初始第一用户特征库作为第一用户特征库。
在一示例中,假设第一用户数量为5,第二用户数量为20。此时可以依据第二用户特征库中用户特征从前到后的顺序选取5个用户数据作为初始第一用户特征库,然后读取第二用户特征库中的第一个用户特征,在1~20的范围内随机生成一个随机数3,该随机数3属于1~5的范围内,则将当前读取的用户特征与初始第一用户特征库中的第3个用户特征调换;然后读取第二用户特征库中的第二个用户特征,在1~20的范围内随机生成一个随机数10,该随机数10不属于1~5的范围内,则继续读取第二用户特征库中的第三个用户特征,然后生成一个随机数,并判断是否需要替换数据,直至将第二用户特征库中的20个用户特征全部读取完毕,此时所对应的初始第一用户特征库即为第一用户特征库。
在实际应用中,按照第一用户数量从打乱后的各用户特征进行抽样可以采用分片抽样函数进行抽样,可选的,该分片抽样函数可以采用JAVA(面向对象编程语言)实现,此时第二用户特征库即为入参为Hive JDBC(Java Database ConnectivityJava,数据库连接)ResultSet(数据库结果集的数据表),第二用户特征库中的用户特征以ResultSet流数据流形式体现。
可以理解是,在本申请实施例中,由于第一用户特征库是从第二用户特征库中随机抽取的,因此第一用户特征库实际上也是一个数据量相对较小的用户标签库。
在本申请可选的实施例中,根据第一用户数量、以及第二用户数量,对初始用户群规模进行修正,得到修正后的用户群规模,包括:
确定初始用户群规模与第一用户数量的比值;
根据比值、以及第二用户数量对初始用户群规模进行修正,得到修正后的用户群规模。
在实际应用中,在根据第一用户数量、以及第二用户数量,对初始用户群规模进行修正时,可以确定初始用户群规模与第一用户数量的比值,然后将第二用户数量乘以确定的该比值,既可以得到修正后的用户群规模。具体可以通过以下公式确定:
其中,表示修正后的用户群规模,s为第二用户数量,n为第一用户数量,tag为用户选择的标签以及具体的标签值,sum(tag1∩tag2∩tag3∩tag4∩tag…)为第一用户特征库中同时满足tag1、tag2、tag3、tag4、tag...的初始用户群规模,需要说明的是;
在本申请可选的实施例中,第一用户特征库是按照预设周期通过对第二用户特征库进行随机抽样生成的。
在实际应用中,第二用户特征中的用户特征并不是实时变化的,为了减少数据处理量,可以周期性对第二用户特征库进行随机抽样生成第一用户特征库。其中,预设周期的具体时长本申请实施例不限定,如可以设置每个一个月对第二用户特征库进行随机抽样生成的第一用户特征库。
为了更好地理解本申请实施例所提供的方案,下面结合具体的应用场景对该方案进行详细描述。如图2所示,本申请实施例提供一种该方案的整体流程图,包括:
步骤S201,获取第二用户特征库;
步骤S202,对第二用户特征库中各用户特征进行乱序洗牌处理,得到打乱后的各用户特征;
步骤S203,对打乱后的各用户特征进行分片抽样生成第一用户特征库;
步骤S204,将第一用户特征库导入WEB(World Wide Web,全球广域网)展现库,其中WEB展现库包含在可以与终端设备(如可以搭载为WEB系统的终端设备)进行交互的服务器中;
步骤S205,用户使用终端设备中的WEB系统,自由筛选组合标签和标签值形成用户群规模查询请求;
步骤S206,向WEB展现库提交查询用户群规模查询请求;
步骤S207,WEB展现库通过接口接收用户群规模查询请求后,使用sql查询功能得到初始用户群规模;
步骤S208,根据第一用户特征库所对应的第一用户数量、以及第二用户特征库所对应的第二用户数量,对初始用户群规模进行修正,得到修正后的用户群规模;
步骤S209,将修正后的用户群规模返回至终端设备,并通过网页显示给用户。
可以理解是,本实例中的执行主体为第一服务器,该第一服务器中可以包含WEB展现库,而执行步骤S201至步骤S204的服务器可以为其它用于管理用户特征数据的指定服务器,其可以按照预设周期执行一次步骤S201至步骤S204,如每隔一个月执行一次步骤S201至步骤S204。
本申请实施例提供了一种用户群规模估计装置,如图3所示,该用户群规模估计装置60可以包括:请求获取模块601、初始用户群规模确定模块602以及用户群规模修订模块603,其中,
请求获取模块601,用于获取用户的用户群规模查询请求,其中,用户群规模查询请求中包括目标用户特征;
初始用户群规模确定模块602,用于基于目标用户特征在第一用户特征库中查询,得到初始用户群规模,其中,第一用户特征库是通过对第二用户特征库进行随机抽样生成的,第二用户特征库用于存储各用户特征;
用户群规模修订模块603,用于根据第一用户特征库所对应的第一用户数量、以及第二用户特征库所对应的第二用户数量,对初始用户群规模进行修正,得到修正后的用户群规模并提供给用户。
可选的,第二用户特征库为用户标签库,对于一个用户,用户特征包括各个用户标签、以及该用户对应于各个用户标签的标签值;
目标用户特征包括至少一个待查询的用户标签和标签值的组合。
可选的,该装置还包括特征库生成模块,用于通过以下方式生成第一用户特征库:
获取第二用户特征库的各用户特征;
以第二用户数量为随机范围因子,对各用户特征进行乱序洗牌处理,得到打乱后的各用户特征;
按照第一用户数量从打乱后的各用户特征进行抽样,生成第一用户特征库
可选的,特征库生成模块在按照第一用户数量从打乱后的各用户特征进行抽样,生成第一用户特征库包括时,具体用于:
确定第一用户数量,并从打乱后的各用户特征中顺序选取第一用户数量的用户特征,得到初始第一用户特征库;
按照预设顺序读取第二用户特征库中的用户数据,并以第二用户数量为随机范围生成随机数;
在随机数属于第一用户数量的范围内时,将当前读取的第二用户特征库中的用户特征,替换初始第一用户特征库中行数为随机数的用户特征,得到替换后的初始第一用户特征库;
当第二用户特征库中的用户特征全部读取完毕时,所对应的替换后的初始第一用户特征库作为第一用户特征库。
可选的,用户群规模修订模块在根据第一用户数量、以及第二用户数量,对初始用户群规模进行修正,得到修正后的用户群规模时,具体用于:
确定初始用户群规模与第一用户数量的比值;
根据比值、以及第二用户数量对初始用户群规模进行修正,得到修正后的用户群规模。
可选的,第一用户特征库是按照预设周期通过对第二用户特征库进行随机抽样生成的。
本申请实施例的用户群规模估计装置可执行本申请实施例提供的一种用户群规模估计方法,其实现原理相类似,此处不再赘述。
本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选地,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现图3所示的各模块的功能。
处理器2001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM或可存储静态信息和计算机程序的其他类型的静态存储设备,RAM或者可存储信息和计算机程序的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储或以数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。
存储器2003用于存储执行本申请方案的应用程序的计算机程序,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序的计算机程序,以实现图3所示实施例提供的用户群规模估计装置的动作。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:处理器;以及存储器,存储器配置用于存储机器计算机程序,该计算机程序在由该处理器执行时,使得该处理器执行用户群规模估计方法。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行实现用户群规模估计方法。
本申请中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本申请实施例中的一种用户群规模估计方法,在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种用户群规模估计方法,其特征在于,包括:
获取用户的用户群规模查询请求,其中,所述用户群规模查询请求中包括目标用户特征;
基于所述目标用户特征在第一用户特征库中查询,得到初始用户群规模,其中,所述第一用户特征库是通过对第二用户特征库进行随机抽样生成的,所述第二用户特征库用于存储各用户特征;
根据所述第一用户特征库所对应的第一用户数量、以及所述第二用户特征库所对应的第二用户数量,对所述初始用户群规模进行修正,得到修正后的用户群规模并提供给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述第二用户特征库为用户标签库,对于一个用户,所述用户特征包括各个用户标签、以及该用户对应于各个用户标签的标签值;
所述目标用户特征包括至少一个待查询的用户标签和标签值的组合。
3.根据权利要求1所述的方法,其特征在于,所述第一用户特征库是通过以下方式生成的:
获取所述第二用户特征库的各用户特征;
以所述第二用户数量为随机范围因子,对所述第二用户特征库中各用户特征进行乱序洗牌处理,得到打乱后的各用户特征;
按照所述第一用户数量从所述打乱后的各用户特征进行抽样,生成所述第一用户特征库。
4.根据权利要求3所述的方法,其特征在于,所述按照所述第一用户数量从所述打乱后的各用户特征进行抽样,生成所述第一用户特征库包括:
确定所述第一用户数量,并从所述打乱后的各用户特征中顺序选取所述第一用户数量的用户特征,得到初始第一用户特征库;
按照预设顺序读取所述第二用户特征库中的用户数据,并以所述第二用户数量为随机范围生成随机数;
在所述随机数属于所述第一用户数量的范围内时,将当前读取的所述第二用户特征库中的用户特征,替换所述初始第一用户特征库中行数为随机数的用户特征,得到替换后的初始第一用户特征库;
当所述第二用户特征库中的用户特征全部读取完毕时,所对应的替换后的初始第一用户特征库作为所述第一用户特征库。
5.根据权利要求1所述的方法,其特征在于,根据所述第一用户数量、以及所述第二用户数量,对所述初始用户群规模进行修正,得到修正后的用户群规模,包括:
确定所述初始用户群规模与所述第一用户数量的比值;
根据所述比值、以及所述第二用户数量对所述初始用户群规模进行修正,得到修正后的用户群规模。
6.根据权利要求1所述的方法,其特征在于,所述第一用户特征库是按照预设周期通过对第二用户特征库进行随机抽样生成的。
7.一种用户群规模估计装置,其特征在于,包括:
请求获取模块,用于获取用户的用户群规模查询请求,其中,所述用户群规模查询请求中包括目标用户特征;
初始用户群规模确定模块,用于基于所述目标用户特征在第一用户特征库中查询,得到初始用户群规模,其中,所述第一用户特征库是通过对第二用户特征库进行随机抽样生成的,所述第二用户特征库用于存储各用户特征;
用户群规模修订模块,用于根据所述第一用户特征库所对应的第一用户数量、以及所述第二用户特征库所对应的第二用户数量,对所述初始用户群规模进行修正,得到修正后的用户群规模并提供给所述用户。
8.根据权利要求7所述的装置,其特征在于,该装置还包括特征库生成模块,用于通过以下方式生成所述第一用户特征库:
获取所述第二用户特征库的各用户特征;
以所述第二用户数量为随机范围因子,对所述各用户特征进行乱序洗牌处理,得到打乱后的各用户特征;
按照所述第一用户数量从所述打乱后的各用户特征进行抽样,生成所述第一用户特征库。
9.一种电子设备,其特征在于,包括处理器以及存储器:
所述存储器被配置用于存储计算机程序,所述计算机程序在由所述处理器执行时,使得所述处理器执行权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机程序,当所述计算机程序在计算机上运行时,使得计算机可以执行上述权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010238479.8A CN113468231A (zh) | 2020-03-30 | 2020-03-30 | 用户群规模估计方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010238479.8A CN113468231A (zh) | 2020-03-30 | 2020-03-30 | 用户群规模估计方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468231A true CN113468231A (zh) | 2021-10-01 |
Family
ID=77864963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010238479.8A Pending CN113468231A (zh) | 2020-03-30 | 2020-03-30 | 用户群规模估计方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468231A (zh) |
-
2020
- 2020-03-30 CN CN202010238479.8A patent/CN113468231A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
CN111126495B (zh) | 模型训练方法、信息预测方法、装置、存储介质及设备 | |
CN107291755B (zh) | 一种终端推送方法及装置 | |
CN112396462B (zh) | 基于Clickhouse的人群圈选方法及装置 | |
JP2013531289A (ja) | 検索におけるモデル情報群の使用 | |
CN107918618B (zh) | 数据处理方法及装置 | |
CN111061954B (zh) | 搜索结果排序方法、装置及存储介质 | |
CN110647512A (zh) | 一种数据存储和分析方法、装置、设备和可读介质 | |
CN108133058B (zh) | 一种视频检索方法 | |
US20150234883A1 (en) | Method and system for retrieving real-time information | |
US8290925B1 (en) | Locating product references in content pages | |
CN111159563A (zh) | 用户兴趣点信息的确定方法、装置、设备及存储介质 | |
CN114385620A (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN111382345A (zh) | 话题筛选和发布的方法、装置和服务器 | |
CN116737753A (zh) | 业务数据处理方法、装置、计算机设备和存储介质 | |
CN110909072B (zh) | 一种数据表建立方法、装置及设备 | |
CN116561181A (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
JP7213890B2 (ja) | 高速化された大規模な類似度計算 | |
CN110866085A (zh) | 数据反馈方法与装置 | |
CN116186119A (zh) | 用户行为分析方法、装置、设备及存储介质 | |
CN113468231A (zh) | 用户群规模估计方法、装置、电子设备及可读存储介质 | |
CN110781375A (zh) | 一种用户状态标识确定方法及装置 | |
CN112214494B (zh) | 检索方法及装置 | |
CN109582863B (zh) | 一种推荐方法及服务器 | |
CN111125155B (zh) | 基于访问路径的数据查询方法、装置、存储介质及处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |