CN113076382B - 用户标签的生成方法、装置、电子设备及可读存储介质 - Google Patents
用户标签的生成方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113076382B CN113076382B CN202110628825.8A CN202110628825A CN113076382B CN 113076382 B CN113076382 B CN 113076382B CN 202110628825 A CN202110628825 A CN 202110628825A CN 113076382 B CN113076382 B CN 113076382B
- Authority
- CN
- China
- Prior art keywords
- user
- label
- tag
- generated
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种用户标签的生成方法、装置、电子设备及可读存储介质,包括:获取标签生成请求,确定所述标签生成请求中携带的服务属性信息;基于所述服务属性信息,确定与所述服务属性信息对应的至少一个待生成标签类型;基于所述至少一个待生成标签类型对应的标签生成规则以及预先生成的用户属性宽表以及用户行为宽表,确定对应的用户标签表。这样,在标签生成过程中,标签逻辑清晰,用户属性宽表以及用户行为宽表也均是有规律的数据源,减少了标签生成过程中的数据处理量,有助于提升标签生成效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其是涉及用户标签的生成方法、装置、电子设备及可读存储介质。
背景技术
随着科学技术的飞速发展,互联网用户越来越多,如何根据各个互联网用户的习惯以及偏好,向对应的用户推荐合适的推送资源,以提高推送资源的推送概率的研究也越来越重要,其中,可以是基于用户的原始数据,为用户确定出标签,根据用户的多个标签向用户推荐相应的推送资源。
现有的标签技术,通常仅对原始数据最初步的数据治理就投入使用(空值、异常值处理等),标签的建立,由业务先定义标签的逻辑,将该逻辑转化为结构化查询语言(Structured Query Language,SQL)语句,并从原始数据中进行计算抽取,标记用户。该技术中,不同标签类型的标签生成逻辑不同,甚至相同标签类型的标签生成逻辑也不尽相同,在生成标签时,需要考虑大量的标签逻辑以及处理大量的不规则的原始数据,导致标签生成效率低。
发明内容
有鉴于此,本申请的目的在于提供用户标签的生成方法、装置、电子设备及可读存储介质,通过在标签生成过程中,设置同一标签类型使用同一标签逻辑,并且是针对于有规律的用户属性宽表以及用户行为宽表进行的标签生成,在标签生成过程中,标签逻辑清晰,用户属性宽表以及用户行为宽表也均是有规律的数据源,减少了标签生成过程中的数据处理量,有助于提升标签生成效率。
本申请实施例提供了一种用户标签的生成方法,所述生成方法包括:
获取标签生成请求,确定所述标签生成请求中携带的服务属性信息;
基于所述服务属性信息,确定与所述服务属性信息对应的至少一个待生成标签类型;
基于所述至少一个待生成标签类型对应的标签生成规则以及预先生成的用户属性宽表以及用户行为宽表,确定对应的用户标签表。
进一步的,所述基于所述至少一个待生成标签类型对应的标签生成规则以及预先生成的用户属性宽表以及用户行为宽表,确定对应的用户标签表,包括:
针对于每个待生成标签类型,确定该标签类型对应的标签维度名称以及标签生成规则;
针对于每个待生成标签类型,基于所述标签维度名称、标签生成规则、用户属性宽表以及用户行为宽表,生成该待生成标签类型对应的类型标签表;
将确定出的多个类型标签表聚合,得到所述用户标签表。
进一步的,通过以下步骤生成所述用户属性宽表:
获取多条用户原始数据;其中,所述用户原始数据中包括用户标识字段、用户属性字段以及用户行为字段;
针对于每条用户原始数据,将该用户原始数据中的用户标识字段以及用户属性字段进行提取;
基于确定出的多个用户标识字段以及多个用户属性字段,生成至少一个用户属性表;
将至少一个所述用户属性表聚合,生成所述用户属性宽表。
进一步的,所述基于确定出的多个用户标识字段以及多个用户属性字段,生成至少一个用户属性表,包括:
按照每个用户标识字段对应的用户原始数据存储时间,基于用户属性字段对多个用户属性字段以及多个用户标识字段进行去重,得到去重后的无重复的多个用户属性字段以及多个用户标识字段;
基于无重复的多个用户标识字段以及无重复的多个用户属性字段,按照不同的用户标识字段,生成对应的用户属性表。
进一步的,通过以下步骤生成所述用户行为宽表:
针对于每条用户原始数据,将提取该用户原始数据中的用户标识字段以及用户行为字段进行提取;
基于确定提取出的多个用户标识字段以及多个用户行为字段,生成至少一个用户行为表;其中,所述用户行为表中的行为是基于用户行为字段直接或者间接赋值确定的;
将至少一个所述用户行为表聚合,生成所述用户行为宽表。
本申请实施例还提供了一种用户标签的生成装置,所述生成装置包括:
请求获取模块,用于获取标签生成请求,确定所述标签生成请求中携带的服务属性信息;
类型确定模块,用于基于所述服务属性信息,确定与所述服务属性信息对应的至少一个待生成标签类型;
标签确定模块,用于基于所述至少一个待生成标签类型对应的标签生成规则以及预先生成的用户属性宽表以及用户行为宽表,确定对应的用户标签表。
进一步的,所述标签确定模块在用于基于所述至少一个待生成标签类型对应的标签生成规则以及预先生成的用户属性宽表以及用户行为宽表,确定对应的用户标签表时,所述标签确定模块用于:
针对于每个待生成标签类型,确定该标签类型对应的标签维度名称以及标签生成规则;
针对于每个待生成标签类型,基于所述标签维度名称、标签生成规则、用户属性宽表以及用户行为宽表,生成该待生成标签类型对应的类型标签表;
将确定出的多个类型标签表聚合,得到所述用户标签表。
进一步的,所述生成装置还包括属性宽表生成模块,所述属性宽表生成模块用于:
获取多条用户原始数据;其中,所述用户原始数据中包括用户标识字段、用户属性字段以及用户行为字段;
针对于每条用户原始数据,将该用户原始数据中的用户标识字段以及用户属性字段进行提取;
基于确定出的多个用户标识字段以及多个用户属性字段,生成至少一个用户属性表;
将至少一个所述用户属性表聚合,生成所述用户属性宽表。
进一步的,所述属性宽表生成模块在用于基于确定出的多个用户标识字段以及多个用户属性字段,生成至少一个用户属性表时,所述属性宽表生成模块用于:
按照每个用户标识字段对应的用户原始数据存储时间,基于用户属性字段对多个用户属性字段以及多个用户标识字段进行去重,得到去重后的无重复的多个用户属性字段以及多个用户标识字段;
基于无重复的多个用户标识字段以及无重复的多个用户属性字段,按照不同的用户标识字段,生成对应的用户属性表。
进一步的,所述生成装置还包括行为宽表生成模块,所述行为宽表生成模块用于:
针对于每条用户原始数据,提取该用户原始数据中的用户标识字段以及用户行为字段;
基于提取出的多个用户标识字段以及多个用户行为字段,生成至少一个用户行为表;其中,所述用户行为表中的行为是基于用户行为字段直接或者间接赋值确定的;
将至少一个所述用户行为表聚合,生成所述用户行为宽表。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的用户标签的生成方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的用户标签的生成方法的步骤。
本申请实施例提供的用户标签的生成方法、装置、电子设备及可读存储介质,通过解析标签生成请求,确定出需要生成的待生成标签类型,同时根据预先设置的待生成标签类型对应的标签生成规则,以及预先生成的用户属性宽表以及用户行为宽表,确定出相应的用户标签表,在标签生成过程中,设置同一标签类型使用同一标签逻辑,并且是针对于有规律的用户属性宽表以及用户行为宽表进行的标签生成,在标签生成过程中,标签逻辑清晰,用户属性宽表以及用户行为宽表也均是有规律的数据源,减少了标签生成过程中的数据处理量,有助于提升标签生成效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种用户标签的生成方法的流程图;
图2为本申请实施例所提供的另一种用户标签的生成方法的流程图;
图3为用户标签表生成过程的流程图;
图4为本申请实施例所提供的一种用户标签的生成装置的结构示意图之一;
图5为本申请实施例所提供的一种用户标签的生成装置的结构示意图之二;
图6为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于数据处理技术领域。
经研究发现,现有的标签技术,通常仅对原始数据最初步的数据治理就投入使用(空值、异常值处理等),标签的建立,由业务先定义标签的逻辑,将该逻辑转化为结构化查询语言(Structured Query Language,SQL)语句,并从原始数据中进行计算抽取,标记用户。该技术中,不同标签类型的标签生成逻辑不同,甚至相同标签类型的标签生成逻辑也不尽相同,在生成标签时,需要考虑大量的标签逻辑以及处理大量的不规则的原始数据,导致标签生成效率低。
基于此,本申请实施例提供了一种用户标签的生成方法,以提升标签生成效率。
请参阅图1,图1为本申请实施例所提供的一种用户标签的生成方法的流程图。如图1中所示,本申请实施例提供的用户标签的生成方法,包括:
S101、获取标签生成请求,确定所述标签生成请求中携带的服务属性信息。
该步骤中,根据获取到的标签生成请求,从标签生成请求中获取标签请求中携带的用户对标签的具体需求的服务属性信息。
这里,标签是对用户的属性信息、行为信息进行计算加工后产生的对用户某个特征维度的描述。在数据结构上,标签包含标签维度名称及其描述值,具有高度概括、相互独立及可枚举穷尽的特点。
例如,为某用户打上标签“消费倾向为高”,其中“消费倾向”为标签维度名称,其值为“高”。
这里,不同的标签生成请求中携带的服务属性信息可能并不相同,具体的服务属性信息是根据用户根据标签进行的业务分类的需求确定的,不同的用户对于标签的需求可能会存在差异,例如,有的用户需要统计不同待统计用户的消费能力,那么就需要针对于消费能力所属的服务属性信息,去确定出相应的标签类型,进而生成相应的标签。
这里,用户根据不同的服务还可以自定义命名分类标签的标签维度名称,及每一个类别的名称,类别名称作为标签值,以得到更符合用户需求的服务标签。
S102、基于所述服务属性信息,确定与所述服务属性信息对应的至少一个待生成标签类型。
该步骤中,根据步骤S101确定出来的服务属性信息,确定出与用户需求的服务属性信息对应的至少一个待生成标签类别。
其中,可以根据不同的待生成标签类别,根据各个待生成标签类别对应的规则创建对应的标签,标签的创建方式,可分为通过规则创建和通过自定义SQL创建两种方式。
这里,通过规则创建的待生成标签类别可以包括分类标签、指标标签、首末次特征标签、行为偏好标签等,用户可以根据对应的属性信息以及每个标签对应的规则模型,生成对应的标签。
其中,针对于分类标签,可自定义命名分类标签的标签维度名称,及每一个类别的名称,类别名称作为标签值。类别之间为互斥关系,即同一个用户身份标识号(Identitydocument,ID)只能同时属于其中一个类别,优先级由设定的类别顺序决定;针对于指标标签,服务可自定义命名指标标签的标签维度名称,标签值由计算规则进行赋值;针对于首末次特征标签,可自定义命名首末次特征标签的标签维度名称,标签值由计算规则进行赋值,针对于行为偏好标签,可自定义命名行为偏好标签的标签维度名称,标签值由计算规则进行赋值。
这里,待生成标签类型还包括通过自定义SQL创建的自定义SQL标签,针对于自定义SQL标签没有具体的创建范式的规定,只需要最终的查询结果与标签表的格式一致,表格中可以包括两列用户ID以及标签值(value)。
S103、基于所述至少一个待生成标签类型对应的标签生成规则以及预先生成的用户属性宽表以及用户行为宽表,确定对应的用户标签表。
该步骤中,根据步骤S102确定出的用户需求的至少一个待生成标签类型,以及基于原始数据预先生成的用户属性宽表以及用户行为宽表,确定出与符合需求的用户标签表。
这里,在本申请实施例中,针对于的原始数据均是结构化数据,同时,原始数据需要满足下述先决条件:数据包含一种用户ID,用以表示一个用户,并且,数据若与行为相关,必须包含一列时间字段,用以表示行为发生时间。
其中,结构化数据指的是高度组织和整齐格式化的数据,可以放入表格和电子表格中的数据类型,结构化数据也被成为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号;典型的结构化数据包括:信用卡号码、日期、财务金额、电话号码、地址、产品名称等。
其中,原始数据中可以分为属性相关字段、行为相关字段以及无关字段,属性相关字段用以描述用户自身,如性别、年龄、家庭住址等信息;行为相关字段用以描述用户的行为,如浏览统一资源定位器(Uniform Resource Locator,URL)、商品名称、商品价格、行为时间;无关字段与用户自身或用户行为没有关联,如何日志序号、日志处理时间。
例如,数据库中某一原始数据为“1-用户W-男-24岁-08:05浏览X网页Y产品”,那么针对于该原始数据,字段“1”为日志序号属于无关字段、字段“用户W”表明了用户名称、字段“男”表明了用户性别、字段“24岁”表明了用户年龄,均属于属性相关字段;字段“08:05浏览X网页Y产品”表明了用户的行为以及行为发生时间,属于行为相关字段。
这里,用户属性宽表以及用户行为宽表均是数据库中的原始数据基于业务特点进行处理后,根据各个相关字段拆分后,得到的包含与业务过程相关的事实的明细表,均属于事实表。
其中,事实表即为事实数据表的简称。主要特点是含有大量的数据,并且这些数据是可以汇总,并被记录的。
这里,针对于同一个用户ID根据用户属性宽表以及用户行为宽表,可以确定出多个用户子标签表,将这些用户子标签表聚合,得到本申请实施例中的用户标签表,即在本申请实施例中用户标签表实质上是聚合后的用户标签宽表,在用户标签表中包括多个用户的ID以及每个用户对应的所有标签,标签宽表只有一张,是对标签表的整合,便于上层应用的查询。
请参阅表1,表1为用户标签表,如表1中所示,在用户标签表中以用户id为主键,包括多个标签1-标签n。
表1用户标签表
请参阅图2,图2为本申请实施例所提供的另一种用户标签的生成方法的流程图。如图2中所示,本申请实施例提供的用户标签的生成方法,包括:
S201、获取标签生成请求,确定所述标签生成请求中携带的服务属性信息。
S202、基于所述服务属性信息,确定与所述服务属性信息对应的至少一个待生成标签类型。
S203、针对于每个待生成标签类型,确定该标签类型对应的标签维度名称以及标签生成规则。
该步骤中,针对于确定出的每个待生成标签类型,确定出该标签类型对应的标签维度名称以及标签生成规则。
这里,针对于不同的标签需求用户,对应的标签维度名称可能会存在同,具体的标签维度名称需要根据用户的业务需求进行具体的设置,这些可以在向用户发出查询指令,根据用户对查询指令的响应进行确定。
在本申请实施例中,不同的待生成标签类型对应的标签生成规则也不相同:
第一,当待生成标签类型为分类标签时,标签生成规则可以是由属性规则、行为规则和时间序列规则三个部分构成,三部分之间通过“AND”的关系进行组合,规则范式可以为:
属性规则 AND 行为规则 AND 时间序列规则;
其中,属性规则用于对用户属性进行过滤;行为规则用于用户在指定时间范围内完成指定行为的总次数统计以及用户在指定时间范围内完成指定的行为的数值属性的指标统计(总和、均值、最大值、最小值);时间序列规则用于确定用户在指定时间范围内依次完成多个指定行为。
这里,具体的规则内还可以包括不同的范式:
(1)在属性规则内,支持针对来源于属性宽表中的属性,创建1个或多个判断条件,条件之间支持支持两层AND/OR关系的嵌套,即:
AND/OR
(
AND/OR(条件1、条件2...条件n)
AND/OR(条件1、条件2...条件n)
...
AND/OR(条件1、条件2...条件n)
)
这里,针对于每个条件,范式可以为:【属性 + 运算符 + 值】。
其中,不同的属性类型,可选的运算符也不同,运算符“等于”以及“不等于”适用于字符型以及数值型数据;运算符“大于”、“小于”、“大于等于”、“小于等于”适用于数值型数据;运算符“存在”以及“不存在”适用于所有类型数据;运算符“包含”以及“不包含”适用于字符型以及数组型数据;运算符“正则匹配”以及“正则不匹配”适用于字符型数据;运算符“绝对时间”、“相对当前时间点”、“相对当前时间区间”适用于日期型数据。
(2)在行为规则内,支持针对来源于行为宽表中的行为,创建1个或多个判断条件,条件之间支持支持两层AND/OR关系的嵌套,即:
AND/OR
(
AND/OR(条件1、条件2...条件n)
AND/OR(条件1、条件2...条件n)
...
AND/OR(条件1、条件2...条件n)
)
这里,行为条件的范式,由行为过滤和指标过滤两部分组成,如下:
【时间范围 + 行为 + 筛选条件】 + 【指标统计 + 运算符 + 值】;
其中,范式的第一部分为行为过滤,其中的筛选条件,范式与属性条件相同,即【行为属性 + 运算符 + 值】,具体的运算符与属性类型之间的关系,可以参考表2;范式的第二部分为指标过滤,指标统计可以为该行为的总次数,或是针对该行为的某数值类行为属性的指标统计,运算符与属性规则中的数值型一致,统计方式包括如下四种方式:总和、均值、最大值以及最小值。
(3)在时间序列规则内,支持针对来源于行为宽表中的行为,创建1个或多个序列判断条件,条件之间支持支持一层AND/OR关系,即:
AND/OR(条件1、条件2...条件n);
其中,序列判断条件的范式可以为:【时间范围 + n个行为的完成顺序】。
第二,当待生成标签类型为指标标签时,标签生成规则可以是由行为过滤和指标统计两部分组成,规则范式可以为:
【时间范围 + 行为 + 筛选条件】 + 【指标统计】 + 【区间划分】;
其中,范式的第一部分为行为过滤,逻辑与分类标签中的行为规则一致;范式的第二部分为指标统计,可以统计的指标包括但不限于:行为的总次、行为或某行为属性的去重数,并且针对于数值类的指标统计可以是总和、均值、最大值以及最小值等,最终的统计值将作为标签值;范式的第三部分为区间划分,由于指标统计的值为离散数值,直接作为标签值会影响后续查询效率。
这里,针对于区间划分,将提供三种方式对统计值进行区间划分:(1)离散数值:保持统计原始值不变,值为标签值;(2)按百分比区间,每个区间可自定义命名:如0-10%,10%-50%,50-100%,区间命名为标签值;(3)按数值区间,每个区间可自定义命名:如0-10,10-20,20-30,区间命名为标签值。
第三,当待生成标签类型为首末次特征标签时,标签生成规则可以是由行为过滤和特征选择两部分组成,规则范式可以为:
【时间范围 + 行为 + 筛选条件】 + 【行为属性 + 首次/末次】;
其中,范式的第一部分为行为过滤,逻辑与分类标签中的行为规则一致;范式的第二部分为特征选择,将首次或末次的某行为属性的值,作为标签值。
第四,当待生成标签类型为行为偏好标签时,标签生成规则可以是由行为过滤和偏好选择两部分组成,规则范式可以为:
【时间范围 + 行为 + 筛选条件】 + 【行为属性 + 偏好】;
其中,范式的第一部分为行为过滤,逻辑与分类标签中的行为规则一致;范式的第二部分为偏好选择。
其中,针对于偏好选择可以有两种设置方式:(1)出现次数最多的前几名的某个行为属性的值作为标签值;(2)某个数值类行为属性数值最大的前几名,对应的某个行为属性的值作为标签值。
S204、针对于每个待生成标签类型,基于所述标签维度名称、标签生成规则、用户属性宽表以及用户行为宽表,生成该待生成标签类型对应的类型标签表。
该步骤中,针对于每个待生成标签类型,根据在该待生成标签类型下的标签维度名称、标签生成规则、已经预先生成的用户属性宽表中的属性数据、用户行为宽表中的行为数据,生成与该待生成标签类型对应的类型标签表。
在本申请实施例中,不同的待生成标签类型生成标签的过程也不相同:
例如,当待生成标签类型为分类标签时,针对于具体实例,可以将该分类标签类型下的范式设置为:属性规则(性别=男性;年龄>18)AND行为规则(2020-01-01至2020-01-10内,行为"购买"的总次数 > 3)AND时间序列规则(2020-01-01至2020-01-10内,用户依次完成了“浏览”、“加入购物车”、“下单”三个行为),根据上述规则对用户属性宽表以及用户行为宽表中的用户数据进行筛选以及判断,最后确定用户在分类标签属性下的用户标签。
例如,当待生成标签类型为首末次特征标签时,针对于具体实例,确定出的标签值可以为:2020-01-01至2020-01-10内,首次"购买"行为的行为属性“商品名称”。
例如,当待生成标签类型为行为偏好标签时,针对于具体实例,2020-01-01至2020-01-10内,行为"购买",行为属性”商品名称“出现次数最多的前3名,作为标签的值;2020-01-01至2020-01-10内,行为"购买",数值类行为属性”商品价格“数值最大的前3名的”商品名称“,作为标签的值。
S205、将确定出的多个类型标签表聚合,得到所述用户标签表。
该步骤中,将确定出的多个类型标签表聚合,得到针对于用户需求的用户标签表。
这里,标签表以用户ID为主键,存储ID和单个标签的值;标签表可有多张,表的个数即标签的个数,将多张用户标签表按照用户ID进行聚合,以用户ID为主键,存储用户ID及其对应的所有标签,得到用户标签表。
其中,S201至S202的描述可以参照S101至S102的描述,并且能达到相同的技术效果,对此不做赘述。
进一步的,通过以下步骤生成所述用户属性宽表:获取多条用户原始数据;其中,所述用户原始数据中包括用户标识字段、用户属性字段以及用户行为字段;针对于每条用户原始数据,将该用户原始数据中的用户标识字段以及用户属性字段进行提取;基于确定出的多个用户标识字段以及多个用户属性字段,生成至少一个用户属性表;将至少一个所述用户属性表聚合,生成所述用户属性宽表。
该步骤中,从数据库中获取多条用户原始数据,如上述示例中所示,在用户原始数据中包括用户标识字段、用户属性字段以及用户行为字段,针对于每条用户原始数据,将该条用户原始数据中的用户标识字段以及用户属性字段进行提取,将确定出的多个用户标识字段以及用户属性字段,进行整合,生成至少一个用户属性表,将多个用户属性表进行聚合,得到用户属性宽表。
这里,在对用户属性进行处理时,一个用户名称(用户ID)对应的属性应该是唯一的,例如,用户W的性别一定是“男”或者“女”中的一种,由于获取原始数据的不同,针对同一用户ID的同一属性可能存在不止一个用户属性值,针对这类原始数据在生成用户属性表时需要对数据进行去重处理。
因此,在本申请的实施例中,步骤“基于确定出的多个用户标识字段以及多个用户属性字段,生成至少一个用户属性表”,包括:
a1:按照每个用户标识字段对应的用户原始数据存储时间,基于用户属性字段对多个用户属性字段以及多个用户标识字段进行去重,得到去重后的无重复的多个用户属性字段以及多个用户标识字段。
该步骤中,根据每个用户标识字段对应的用户原始数据存储时间的先后顺序,根据用户属性字段对提取出的多个用户属性字段以及多个用户标识字段进行去重处理,得到去重后的无重复的多个用户属性字段以及多个用户识别字段。
这里,在对提取出的用户标识字段以及用户属性字段及进行去重时,针对于同一用户标识同一用户属性的用户数据,选择保留存储时间最近的一条数据去生成用户属性表。
例如,有三天数据,数据1:08:05-用户W-男;数据2:09:05-用户W-男;数据3:10:05-用户W-男,在去重处理过程中,选择保留的是数据3。
a2:基于无重复的多个用户标识字段以及无重复的多个用户属性字段,按照不同的用户标识字段,生成对应的用户属性表。
该步骤中,根据步骤a1获取的无重复的多个用户标识字段以及无重复的多个用户属性字段,根据不同的用户标识字段指示的用户标识进行聚合,得到用户属性宽表。
这里,针对于用户属性宽表的聚合规则可以为:所有的用户属性表共用一列用户标识(用户ID)列,然后各个用户属性表的属性列在横向进行平铺。
请参阅表2,表2为用户属性宽表,如表2中所示,所有子表共用一列用户ID列;各表的属性列在横向进行平铺。
表2用户属性宽表
进一步的,通过以下步骤生成所述用户行为宽表:针对于每条用户原始数据,提取该用户原始数据中的用户标识字段以及用户行为字段;基于提取出的多个用户标识字段以及多个用户行为字段,生成至少一个用户行为表;其中,所述用户行为表中的行为是基于用户行为字段直接或者间接赋值确定的;将至少一个所述用户行为表聚合,生成所述用户行为宽表。
该步骤中,针对于每条用户原始数据,将该用户原始数据中的用户标识字段以及用户行为字段进行提取,根据提取出的多个用户标识字段以及多个用户行为字段,生成对应的至少一个用户行为表,将生成的至少一个用户行为表按照用户标识字段指示的用户进行聚合,生成用户行为宽表。
这里,针对于用户行为表,即使是针对于同一用户标识一种行为,但是可能由于用户进行该行为的行为时间不同,即可认为这是不同的两条用户行为数据,因此,在用户行为表生成的过程中,一般情况下是不需要进行去重处理的。
这里,所述用户行为表中的行为是基于用户行为字段直接或者间接赋值确定的。在具体实施过程中,生产用户行为表的过程中,存储用户ID,及行为相关字段,并对每一行的数据,定义一个行为(event),在定义行为的过程中可能存在下述两种不同的赋值方式:(1)若每一行的数据都为一种行为,则可直接对event进行赋值;(2)若不同行代表的行为不同,则需要通过对行为相关字段的条件判断,进行赋值,如:字段1 = a,则event = A,字段1= b,则event = B。
这里,针对于用户行为宽表的聚合规则可以为:所有用户行为表共用用户标识(用户ID),行为和行为发生时间列;由于实际业务场景中,行为相关字段较多,且各数据源的行为属性个数不一致,因此各表的行为属性列,以key: value的形式,聚合为json,存储一列,如:
{
"行为属性1":"value";
"行为属性2":"value";
}。
请参阅表3,表3为用户行为宽表,如表3中所示,所有子表共用用户ID,行为和行为发生时间列,各表的行为属性列,以key: value的形式,聚合为json,存储一列。
表3用户属性宽表
请参阅图3,图3为用户标签表生成过程的流程图,如图3中所示,数据库中的原始数据经过数据处理(去重等),拆分成多个用户行为表以及多个用户属性表,将多个用户行为表聚合成用户行为宽表,将多个用户属性表聚合多个用户属性宽表,基于用户行为宽表以及用户属性宽表,以及解析用户的标签生产请求中的标签服务后,聚合成用户标签表。
本申请实施例提供的用户标签的生成方法,通过解析标签生成请求,确定出需要生成的待生成标签类型,同时根据预先设置的待生成标签类型对应的标签生成规则,以及预先生成的用户属性宽表以及用户行为宽表,确定出相应的用户标签表,在标签生成过程中,设置同一标签类型使用同一标签逻辑,并且是针对于有规律的用户属性宽表以及用户行为宽表进行的标签生成,在标签生成过程中,标签逻辑清晰,用户属性宽表以及用户行为宽表也均是有规律的数据源,减少了标签生成过程中的数据处理量,有助于提升标签生成效率。
请参阅图4、图5,图4为本申请实施例所提供的一种用户标签的生成装置的结构示意图之一,图5为本申请实施例所提供的一种用户标签的生成装置的结构示意图之二。如图4中所示,所述生成装置400包括:
请求获取模块410,用于获取标签生成请求,确定所述标签生成请求中携带的服务属性信息。
类型确定模块420,用于基于所述服务属性信息,确定与所述服务属性信息对应的至少一个待生成标签类型。
标签确定模块430,用于基于所述至少一个待生成标签类型对应的标签生成规则以及预先生成的用户属性宽表以及用户行为宽表,确定对应的用户标签表。
进一步的,如图5所示,所述生成装置400还包括属性宽表生成模块440,所述属性宽表生成模块440用于:
获取多条用户原始数据;其中,所述用户原始数据中包括用户标识字段、用户属性字段以及用户行为字段;
针对于每条用户原始数据,将该用户原始数据中的用户标识字段以及用户属性字段进行提取;
基于确定出的多个用户标识字段以及多个用户属性字段,生成至少一个用户属性表;
将至少一个所述用户属性表聚合,生成所述用户属性宽表。
进一步的,如图5所示,所述生成装置400还包括行为宽表生成模块450,所述行为宽表生成模块450用于:
针对于每条用户原始数据,提取该用户原始数据中的用户标识字段以及用户行为字段;
基于提取出的多个用户标识字段以及多个用户行为字段,生成至少一个用户行为表;其中,所述用户行为表中的行为是基于用户行为字段直接或者间接赋值确定的;
将至少一个所述用户行为表聚合,生成所述用户行为宽表。
进一步的,所述标签确定模块430在用于基于所述至少一个待生成标签类型对应的标签生成规则以及预先生成的用户属性宽表以及用户行为宽表,确定对应的用户标签表时,所述标签确定模块430用于:
针对于每个待生成标签类型,确定该标签类型对应的标签维度名称以及标签生成规则;
针对于每个待生成标签类型,基于所述标签维度名称、标签生成规则、用户属性宽表以及用户行为宽表,生成该待生成标签类型对应的类型标签表;
将确定出的多个类型标签表聚合,得到所述用户标签表。
进一步的,所述属性宽表生成模块440在用于基于确定出的多个用户标识字段以及多个用户属性字段,生成至少一个用户属性表时,所述属性宽表生成模块440用于:
按照每个用户标识字段对应的用户原始数据存储时间,基于用户属性字段对多个用户属性字段以及多个用户标识字段进行去重,得到去重后的无重复的多个用户属性字段以及多个用户标识字段;
基于无重复的多个用户标识字段以及无重复的多个用户属性字段,按照不同的用户标识字段,生成对应的用户属性表。
本申请实施例提供的用户标签的生成装置,通过解析标签生成请求,确定出需要生成的待生成标签类型,同时根据预先设置的待生成标签类型对应的标签生成规则,以及预先生成的用户属性宽表以及用户行为宽表,确定出相应的用户标签表,在标签生成过程中,设置同一标签类型使用同一标签逻辑,并且是针对于有规律的用户属性宽表以及用户行为宽表进行的标签生成,在标签生成过程中,标签逻辑清晰,用户属性宽表以及用户行为宽表也均是有规律的数据源,减少了标签生成过程中的数据处理量,有助于提升标签生成效率。
请参阅图6,图6为本申请实施例所提供的一种电子设备的结构示意图。如图6中所示,所述电子设备600包括处理器610、存储器620和总线630。
所述存储器620存储有所述处理器610可执行的机器可读指令,当电子设备600运行时,所述处理器610与所述存储器620之间通过总线630通信,所述机器可读指令被所述处理器610执行时,可以执行如上述图1以及图2所示方法实施例中的用户标签的生成方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的用户标签的生成方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种用户标签的生成方法,其特征在于,所述生成方法包括:
获取标签生成请求,确定所述标签生成请求中携带的服务属性信息;
基于所述服务属性信息,确定与所述服务属性信息对应的至少一个待生成标签类型;其中,所述服务属性信息是根据用户根据标签进行的业务分类的需求确定的;
基于所述至少一个待生成标签类型对应的标签生成规则以及预先生成的用户属性宽表以及用户行为宽表,确定对应的用户标签表;
所述基于所述至少一个待生成标签类型对应的标签生成规则以及预先生成的用户属性宽表以及用户行为宽表,确定对应的用户标签表,包括:
针对于每个待生成标签类型,确定该标签类型对应的标签维度名称以及标签生成规则;其中,所述标签维度名称根据不同的服务根据用户自定义命名生成;针对不同的待生成标签类别,根据各个待生成标签类别对应的规则创建对应的标签,标签的创建方式,包括通过规则创建或者通过自定义SQL创建;
针对于每个待生成标签类型,基于所述标签维度名称、标签生成规则、用户属性宽表以及用户行为宽表,生成该待生成标签类型对应的类型标签表;
将确定出的多个类型标签表聚合,得到所述用户标签表。
2.根据权利要求1所述的生成方法,其特征在于,通过以下步骤生成所述用户属性宽表:
获取多条用户原始数据;其中,所述用户原始数据中包括用户标识字段、用户属性字段以及用户行为字段;
针对于每条用户原始数据,将该用户原始数据中的用户标识字段以及用户属性字段进行提取;
基于确定出的多个用户标识字段以及多个用户属性字段,生成至少一个用户属性表;
将至少一个所述用户属性表聚合,生成所述用户属性宽表。
3.根据权利要求2所述的生成方法,其特征在于,所述基于确定出的多个用户标识字段以及多个用户属性字段,生成至少一个用户属性表,包括:
按照每个用户标识字段对应的用户原始数据存储时间,基于用户属性字段对多个用户属性字段以及多个用户标识字段进行去重,得到去重后的无重复的多个用户属性字段以及多个用户标识字段;
基于无重复的多个用户标识字段以及无重复的多个用户属性字段,按照不同的用户标识字段,生成对应的用户属性表。
4.根据权利要求3所述的方法,其特征在于,通过以下步骤生成所述用户行为宽表:
针对于每条用户原始数据,提取该用户原始数据中的用户标识字段以及用户行为字段;
基于提取出的多个用户标识字段以及多个用户行为字段,生成至少一个用户行为表;其中,所述用户行为表中的行为是基于用户行为字段直接或者间接赋值确定的;
将至少一个所述用户行为表聚合,生成所述用户行为宽表。
5.一种用户标签的生成装置,其特征在于,所述生成装置包括:
请求获取模块,用于获取标签生成请求,确定所述标签生成请求中携带的服务属性信息;
类型确定模块,用于基于所述服务属性信息,确定与所述服务属性信息对应的至少一个待生成标签类型;其中,所述服务属性信息是根据用户根据标签进行的业务分类的需求确定的;
标签确定模块,用于基于所述至少一个待生成标签类型对应的标签生成规则以及预先生成的用户属性宽表以及用户行为宽表,确定对应的用户标签表;
所述标签确定模块在用于基于所述至少一个待生成标签类型对应的标签生成规则以及预先生成的用户属性宽表以及用户行为宽表,确定对应的用户标签表时,所述标签确定模块用于:
针对于每个待生成标签类型,确定该标签类型对应的标签维度名称以及标签生成规则;其中,所述标签维度名称根据不同的服务根据用户自定义命名生成;针对不同的待生成标签类别,根据各个待生成标签类别对应的规则创建对应的标签,标签的创建方式,包括通过规则创建或者通过自定义SQL创建;
针对于每个待生成标签类型,基于所述标签维度名称、标签生成规则、用户属性宽表以及用户行为宽表,生成该待生成标签类型对应的类型标签表;
将确定出的多个类型标签表聚合,得到所述用户标签表。
6.根据权利要求5所述的生成装置,其特征在于,所述生成装置还包括属性宽表生成模块,所述属性宽表生成模块用于:
获取多条用户原始数据;其中,所述用户原始数据中包括用户标识字段、用户属性字段以及用户行为字段;
针对于每条用户原始数据,将该用户原始数据中的用户标识字段以及用户属性字段进行提取;
基于确定出的多个用户标识字段以及多个用户属性字段,生成至少一个用户属性表;
将至少一个所述用户属性表聚合,生成所述用户属性宽表。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4中任一项所述的用户标签的生成方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至4中任一项所述的用户标签的生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628825.8A CN113076382B (zh) | 2021-06-07 | 2021-06-07 | 用户标签的生成方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110628825.8A CN113076382B (zh) | 2021-06-07 | 2021-06-07 | 用户标签的生成方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113076382A CN113076382A (zh) | 2021-07-06 |
CN113076382B true CN113076382B (zh) | 2021-09-17 |
Family
ID=76617091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110628825.8A Active CN113076382B (zh) | 2021-06-07 | 2021-06-07 | 用户标签的生成方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076382B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836146B (zh) * | 2021-09-29 | 2024-04-26 | 五八同城信息技术有限公司 | 一种特征标签生成方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG10201406215YA (en) * | 2014-09-30 | 2016-04-28 | Mentorica Technology Pte Ltd | Systems and methods for automated data analysis and customer relationship management |
CN109189774A (zh) * | 2018-09-14 | 2019-01-11 | 南威软件股份有限公司 | 一种基于脚本规则的用户标签转化方法及系统 |
CN111160992A (zh) * | 2020-01-02 | 2020-05-15 | 焦点科技股份有限公司 | 一种基于用户画像体系的营销系统 |
CN112287015B (zh) * | 2020-10-14 | 2024-03-01 | 北京易观数智科技股份有限公司 | 画像生成系统及其方法、电子设备及存储介质 |
CN112559809A (zh) * | 2020-12-21 | 2021-03-26 | 恩亿科(北京)数据科技有限公司 | 消费者多渠道数据整合方法、系统、设备及存储介质 |
-
2021
- 2021-06-07 CN CN202110628825.8A patent/CN113076382B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113076382A (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111008321B (zh) | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 | |
US9652516B1 (en) | Constructing reports using metric-attribute combinations | |
US8407104B2 (en) | Catalog based price search | |
US9251212B2 (en) | Profiling in a massive parallel processing environment | |
US20140101201A1 (en) | Distributed data warehouse | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN107015987B (zh) | 一种更新和搜索数据库的方法及设备 | |
CN113268667B (zh) | 一种基于中文评论情感引导的序列推荐方法及系统 | |
CN115760258A (zh) | 投标文件智能生成方法、系统、计算机装置和存储介质 | |
CN113032668A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN113076382B (zh) | 用户标签的生成方法、装置、电子设备及可读存储介质 | |
CN108520045B (zh) | 数据的服务响应方法及装置 | |
CN114461644A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN115408381A (zh) | 数据处理方法及相关设备 | |
CN112860808A (zh) | 基于数据标签的用户画像分析方法、装置、介质和设备 | |
US20160063594A1 (en) | Data refining engine for high performance analysis system and method | |
CN114741392A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN114066533A (zh) | 产品推荐方法、装置、电子设备及存储介质 | |
US10073892B1 (en) | Item attribute based data mining system | |
CN112307297B (zh) | 一种基于优先级规则的用户标识统一方法及系统 | |
CN111383049A (zh) | 产品推荐方法、装置及存储介质 | |
CN116468011A (zh) | 一种报表的生成方法、装置、设备及存储介质 | |
CN115409014A (zh) | 单据模板生成方法、装置、计算机设备和存储介质 | |
CN115098738A (zh) | 业务数据的提取方法、装置、存储介质及电子设备 | |
CN113051333A (zh) | 一种数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |