CN114564482A

CN114564482A - 一种面向多实体的标签系统及处理方法

Info

Publication number: CN114564482A
Application number: CN202210255491.9A
Authority: CN
Inventors: 苏淦; 古嘉宏; 胡嘉宏; 徐亚波; 李旭日
Original assignee: Guangdong Hengqin Shushushuo Story Information Technology Co ltd
Current assignee: Guangdong Hengqin Shushushuo Story Information Technology Co ltd
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-05-31

Abstract

本发明公开了一种面向多实体的标签系统及处理方法，所述系统包括：标签多实体扩展模块、标签规则设置模块、万维标签内容存储模块，所述标签实体扩展模块用于配置标签的实体并将配置后的标签实体输入至标签规则设置模块，所述标签规则设置模块用于配置不同等级的标签处理规则并根据已配置的标签处理规则对标签实体进行处理得到标签，所述万维标签内容存储模块用于对标签规则设置模块的处理得到的标签进行存储和更新维护。本发明实现了对标签多实体的扩展，提升了系统扩展能力，同时实现了标签规则的灵活设置以及对万维标签内容存储。

Description

一种面向多实体的标签系统及处理方法

技术领域

本发明涉及标签系统技术领域，更具体地，涉及一种面向多实体的标签系统及处理方法。

背景技术

从互联网时代逐渐步入大数据时代后，企业和消费者都迎来了一系列重大改变和重塑。其中最大的改变莫过于消费者的一切行为数据都将在企业面前可视化，但事实是海量数据赋予企业不一定都是可用信息。如何帮助企业从海量数据中快速，精准感知消费者的消费意向，其中最行之有效的方案就是构建清晰的用户画像，标签是构成用户画像的基本元素，是基于用户的行为数据和消费数据进行统计计算得到的，包括用户的各个维度，其值是准确的，为用户画像的刻画提供了数据基础，其实这背后是由整个标签系统提供能力的输出。

标签系统，使用最为普遍的是基于用户所有的特征集合构成的能力系统，在现有市场能力服务提供商中，无论在paas/saas方向，标签系统普遍存在一些扩展性不足的问题：

打标签的实体要延伸到非用户(人)对象等其他对象，系统怎么扩展；

打标签的规则，怎么灵活的、动态的，按约定的规则语法敏捷生成；

标签的内容的输出，怎么存储支持多标签数量的目标(万维)；

标签的数据，怎么更新、怎么维护、怎么快速方便检索构造标签内容分析。

当某一业务场景下，当使用的标签系统面临着如上的问题的时候，就表明了目前的系统存在能力不足等弱点，不足以应付不同的场景的标签内容建设，包括：不同打标签实体的扩展能力不够、规则不够灵活、标签内容的存储能力、分析能力等多方面存在不足。随着数据量的增多、业务的日益复杂，整个系统需要考虑拉倒重来(重构)建设等系统设计问题。

现有技术公开了一种公开了创建实体标签的方法、用户数据中心及系统。所述方法包括：接收由应用服务器发送的XCAP操作消息；将XCAP操作消息中的XCAP操作分解，并发送分解后的XCAP操作；接收XCAP服务器返回的操作响应，操作响应中携带XML文档的实体标签；为符合应用视图的XML文档创建实体标签，将实体标签与XCAP服务器为其中的XML文档创建的实体标签建立关联关系；向应用服务器返回操作响应消息，操作响应消息中携带为符合应用视图的XML文档创建的实体标签。该方案没有实现对标签实体的扩展，无法进行灵活的规则设置。

发明内容

本发明为克服上述现有的标签系统扩展能力不够、规则不够灵活、标签内容的存储能力不足的缺陷，提供一种面向多实体的标签系统及处理方法。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

本发明第一方面提供了一种面向多实体的标签系统，包括：标签多实体扩展模块、标签规则设置模块、万维标签内容存储模块，所述标签实体扩展模块用于扩展标签实体并将扩展后的标签实体输入至标签规则设置模块，所述标签规则设置模块用于设置不同等级的标签处理规则并根据已设置的标签处理规则对标签实体进行处理得到标签，所述万维标签内容存储模块用于对标签规则设置模块处理得到的标签进行存储和更新维护。

进一步的，所述标签多实体扩展模块通过创建标签树类型来扩展标签实体，所述标签树类型的属性包括：类型名称、物料表、打标签对象、描述，其中物料表即为输入的数据源，所述物料表包含有若干关联的表，可以选择一个或多个物料表来构成物料表组。

进一步的，所述标签树类型创建完成后以表的形式存储，记为标签树类型表，所述标签树类型表包括以下字段：树类型ID、树类型名、实体表的主键字段、输出的标签Hive表名、树类型包含的数据源列表、用户ID、用户名、是否冻结、创建时间、更新时间，其中，所述实体表的主键字段为对应的实体标记属性，所述输出的标签Hive表名为对应的物料表。

进一步的，标签实体的扩展过程如下：

获取物料表中的物料信息；

根据物料信息构建标签树类型，得到若干标签树；

导入语料库利用每个标签规则生成标签，每隔设定的时间将标签生成标签任务；

标签任务进入任务队列按队列的策略进行异步离线作业，生成实体下不同标签，即完成了标签实体的扩展。

进一步的，所述获取物料表中的物料信息具体过程为：

调用预设的数据引擎的能力接口，获取数据源的元信息；根据元信息，获取相应数据源的数据信息，完成物料表的物料信息获取；

所述根据物料信息构建标签树类型，得到若干标签树，具体过程为：

选择已生成的物料表作为输入，选择输出标签表的存储地址，确定标签的实体主键，完成标签树的构建；

所述导入语料库利用每个标签规则生成标签，每隔设定的时间将标签生成标签任务，具体过程为：建立筛选规则，建立标签取值规则，根据筛选规则和标签取值规则提交任务，形成标签任务；

所述标签任务进入任务队列按队列的策略进行异步离线作业，生成实体下不同标签，即完成标签实体的扩展，具体过程为：设置标签的运行周期及运行参数，根据运行周期和运行参数，执行标签任务。

进一步的，所述标签规则设置模块包括：规则协议单元和解析器，所述规则协议单元用于反驱动前端页面的交互构建、逻辑规则定义，接口传参形式及后台规则解析器的设计；所述解析器把协议转化为不同存储引擎的SQL语法。

进一步的，所述规则协议单元包括：标签规则rule部分和元数据meta部分，其中标签规则rule部分包括：entityField、labelTable、valueType、valueField、ruleLeo、ruleCondition、aggLeo、aggCondition、ruleSql，所述entityField表示标签实体的id字段,对于用户标签，就是用户表的用户ID字段；所述labelTable表示输出标签的表名；

所述valueType表示最终标签的值；

所述valueField用于根据最终标签的值确定语料类型；

所述ruleLeo表示基础筛选条件；

所述ruleCondition表示基础条件Leo表达式解析结果；

所述aggLeo表示聚合筛选条件；

所述aggCondition表示聚合条件Leo表达式解析结果；

所述ruleSql表示基础拖拉拽Leo解析后的sql语句,或高级用户直接输入的sql语句；

所述元数据meta部分包括：fieldKeyMap、joinSql，其中，fieldKeyMap表示语料key的定义，所述语料key包括有：type、groupField、groupFunc，所述type表示字段类型，所述groupField表示分组字段，所述groupFunc表示当前字段支持的组函数；所述joinSql表示当前查询条件用到的多个表之间join子句从预设的列表中查出。

进一步的，标签规则设置模块的规则解析工作过程为：

获取规则的等级，判断规则等级为基础或高级；

若为基础规则，则前端拖拽构造规则表达式字段名为语料表的key，后端解析成condition表达式字段名为语料表的key，根据解析目标选择计算平台进行计算处理；

若为高级规则，则直接输入SQL语句作为标签任务SQL语句。

进一步的，根据解析目标选择计算平台进行计算处理，具体为：

若解析任务为引擎任务配置，则选择预设的分布式处理引擎进行解析，步骤为：

根据condition用到的字段key从语料表查对应的表以及join要用的字段，根据查到的表生成输入数据源算子，根据查到的表及join要用的字段生成join表的转换算子，根据condition表达式构建普通码表算子，构建Hive输出算子，根据得到的算子完成引擎任务配置；

若解析任务为标签任务SQL语句，则选择SparkSQL或Hive进行解析，步骤为：

根据condition用到的字段key从语料表查对应的表以及join要用的字段，根据查到的表及join要用的字段构造join子句，根据标签ID构造select子句，根据condition本身将select解析成where语句，将select子句、join子句、where子句拼接得到SQL语句。

进一步的，所述万维标签内容存储模块处理标签作业任务的过程为：

获取实体标签，将所有标签结果存入大数据的技术栈hive作为临时表，并且按日期和标签ID分区；

利用Hbase的快速检索功能，将Hive、Hbase的存储1:1进行数据融合；

数据同步更新到Elasticsearch全文检索引擎，提供对标签数据快速检索的能力；

结合后台的定期更新业务数据的脚本、清除Elasticsearch任务的脚本，实现对业务数据更新、过期标签清除。

本发明第二方面提供了一种面向多实体的标签处理方法，所述方法应用于所述的面向多实体的标签系统，包括以下步骤：

S1：利用标签实体扩展模块扩展标签的实体并将扩展后的标签实体输入至标签规则设置模块；

S2：标签规则设置模块根据已设置的标签处理规则对输入的标签实体进行处理得到标签；

S3：利用万维标签内容存储模块对标签规则设置模块处理得到的标签进行存储和更新维护。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过构建面向多实体的标签系统，利用标签多实体扩展模块实现了对标签多实体的扩展，利用标签规则设置模块实现了标签规则的灵活设置，利用万维标签内容存储模块实现了对万维标签内容存储。

附图说明

图1为本发明实施例一种面向多实体的标签系统框图。

图2为本发明实施例创建标签树类型示意图。

图3为本发明实施例标签规则设置示意图。

图4为本发明实施例标签规则设置模块的解析工作过程流程图。

图5为本发明实施例面向多实体的标签处理方法流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

名词解释

物料表：打标签材料输入的数据源，物料表在标签系统可以输入多个。

实体：打标签内容的对象，对象在一个标签树类型，只能一个。

标签树类型：包含了物料表、实体字段的一个对象的概念。

标签树：一个标签节点构成子节点的一个树结构的数据结构的组织形式的标签集合。

DSL：DomainSpecificLanguage，领域特定语言。

ETL：是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

Hive：基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

HBase：一个分布式的、面向列的开源数据库。

ES：Elasticsearch的简称，一个基于RESTful web接口并且构建在Apache Lucene之上的开源分布式搜索引擎。

HiveSQL：分布式大数据引擎hive的提供的SQL工具。

SparkSQL：分布式大数据引擎spark的提供的SQL工具。

实施例1

如图1所示，一种面向多实体的标签系统，包括：标签多实体扩展模块、标签规则设置模块、万维标签内容存储模块，所述标签实体扩展模块用于扩展标签的实体并将扩展后的标签实体输入至标签规则设置模块，所述标签规则设置模块用于设置不同等级的标签处理规则并根据已设置的标签处理规则对标签实体进行处理得到标签，所述万维标签内容存储模块用于对标签规则设置模块的处理得到的标签进行存储和更新维护。

需要说明的是，本发明实施例通过标签多实体扩展模块支持用户通过UI界面来扩展标签实体并将扩展后的标签实体输入至标签规则设置模块，通过标签规则设置模块可以自定义对标签规则进行动态设置并根据已设置的标签处理规则对标签实体进行处理，通过万维标签内容存储模块对标签规则设置模块的处理结果进行存储和更新维护，进而实现标签的存储以及稳定的、低延时的标签内容更新、维护。

进一步的，所述标签多实体扩展模块通过创建标签树类型来扩展标签实体，所述标签树类型的属性包括：类型名称、物料表、打标签对象、描述，其中物料表即为输入的数据源，其包含有若干关联的表，所述物料表可以选择一个或多个来构成物料表组。

需要说的是，在一个具体的实施例中，在前端通过设置UI界面创建标签树类型实现扩展，如图2所示，标签树类型的属性包括：类型名称、物料表、打标签对象、描述，其中，物料表即为输入的数据源，其包含有若干关联的表，所述物料表可以选择一个或多个来构成物料表组。

需要说明的是，标签树类型，关联对应一种标签实体，如用户/商品，所述标签树类型创建完成后以表结构的形式存储，记为标签树类型表，标签树类型融合了物料组信息和表关系的概念，如表1所示为标签树类型表。

表1标签树类型表

其中，所述实体表的主键字段为对应的实体标记属性，所述输出的标签Hive表名为对应的物料表，例如，选择一个某表的UserId字段，即为对实体人进行打标签，选择productId字段，即为对实体产品进行打标签。

进一步的，标签实体的扩展的过程如下：

获取物料表中的物料信息；

更具体的，调用预设的数据引擎的能力接口，获取数据源的元信息；根据元信息，获取相应数据源的数据信息，完成物料表的物料信息获取；

根据物料信息构建标签树类型，得到若干标签树；

更具体的，选择已生成的物料表作为输入，选择输出标签表的存储地址，确定标签的实体主键，完成标签树的构建；

更具体的，建立筛选规则，建立标签取值规则，根据筛选规则和标签取值规则提交任务，形成标签任务；

标签任务进入任务队列按队列的策略进行异步离线作业，生成实体下不同标签，即完成标签实体的扩展，更具体的，设置标签的运行周期及运行参数，根据运行周期和运行参数，执行标签任务。

进一步的，所述标签树拥有多层级的多个标签，每个标签树包括字段有：树根标签ID、顶级周期性配置；所述标签包括一个具体的打标签规则，所述标签包括的字段有：筛选规则、标签取值规则、周期性任务配置、执行配置、标签树ID；所述标签任务为标签定期生成的任务，所述标签任务包括字段有：标签ID、任务类型、运行时参数、生成HiveSQL；所述语料在创建树类型时导入，标签筛选条件从树类型的语料选取，语料包括的字段有：库、表、字段、类型、可选聚合函数、表之间join关系。

需要说明的是，本发明中标签树类型的实体，贯穿于标签处理流程的上下文，包括：初始化构建–标签作业处理-标签处理–标签查询，这个链路是基于实体这个对象，做到配置与代码处理逻辑低耦合、高扩展。

实施例2

本实施例详细阐述标签规则设置模块及规则解析过程。

所述标签规则设置模块包括：规则协议单元和解析器，所述规则协议单元用于反驱动着前端页面的交互构建、逻辑规则定义、接口传参形式及后台规则解析器的设计；所述解析器把协议转化为不同存储引擎的SQL语法。

本发明中，所述规则协议单元包括：标签规则rule部分和元数据meta部分，其中标签规则rule部分包括：entityField、labelTable、valueType、valueField、ruleLeo、ruleCondition、aggLeo、aggCondition、ruleSql，所述entityField表示标签实体的id字段,对于用户标签，就是用户表的用户ID字段；

所述labelTable表示输出标签的表名；

所述valueType表示最终标签的值，可以是labelName(标签名)，fieldKey(字段值),groupFunc(组函数计算)；

所述valueField用于根据最终标签的值确定语料类型；如果valueType＝＝'fieldKey'填语料key，valueType＝＝'groupFunc'填<函数>(<预料key>)；

所述ruleLeo表示基础筛选条件，前端拖拉拽构造，{"paramJson":{},"boolExpresssion":""}；

所述ruleCondition表示基础条件Leo表达式解析结果，{"must":[],"mustNot":[],"boolExpression":""}；

所述aggLeo表示聚合筛选条件，前端拖拉拽构造，{"paramJson":{},"boolExpresssion":""}；

所述aggCondition表示聚合条件Leo表达式解析结果，{"must":[],"mustNot":

[],"boolExpression":""}；

所述ruleSql表示基础拖拉拽Leo解析后的sql语句或高级用户直接输入的sql语句(必须有id，labelID，labelName等字段)，"select user_id,now()+86400from****"；

所述元数据meta部分包括：fieldKeyMap、joinSql，其中，fieldKeyMap表示语料key的定义，所述语料key包括：type、groupField、groupFunc，所述type表示字段类型，所述groupField表示分组字段，所述groupFunc表示当前字段支持的组函数；所述joinSql表示"from***join***on***"//当前查询条件用到的多个表之间join子句，从t_trident_corpus_join系列表查出。

需要说明的是，在一个具体的实施例中，标签规则设置模块前端通过UI界面进行设置规则项，如图3所示，所述规则可以包括基础规则和高级规则，在基础规则和高级规则中均可以添加若干个条件，同时不同条件之间可以设置逻辑关系。基于标签多实体扩展模块扩展得到的不同标签实体，利用标签规则设置模块按基础规则加高级规则，进行不同标签的数据作业的处理，生成不同的标签内容。

进一步的，标签规则设置模块工作过程为：终端用户选择创建一个标签实体信息；

1、执行标签任务，从标签作业执行工场中选择执行作业的处理引擎；

2、生成执行计划，所述执行计划包括：

a)根据标签规则解析，生成任务配置；

b)根据标签实体信息，运行具体的作业逻辑；

3、根据已选择的处理引擎、解析的执行计划，生成具体处理引擎的执行计划。

如图4所示，根据标签规则解析，生成任务配置的过程具体为(也即标签规则设置模块的规则解析工作过程)：

获取规则的等级，判断规则等级为基础或高级；

若为高级规则，则直接输入SQL语句作为标签任务SQL语句。

根据condition用到的字段key从语料表查对应的表以及join要用的字段，根据查到的表生成输入数据源算子，根据查到的表及join要用的字段生成join表的转换算子，根据condition表达式构建普通码表算子，构建Hive输出算子，根据得到的算子完成工场任务配置；

需要说明的是，在本发明中通过前端页面的设置，后台的解析转化，最终输出到前端用户的使用体验，尤其对一些非技术的运营、分析人员，极大的提高了他们的制作标签的效率。

实施例3

如图5所示，本发明还提供了一种面向多实体的标签处理方法，所述方法应用于所述的面向多实体的标签系统，包括以下步骤：

S1：利用标签实体扩展模块扩展标签实体并将扩展后的标签实体输入至标签规则设置模块；

本实施例详细阐述万维标签内容存储模块的处理过程。所述万维标签内容存储模块处理标签作业任务的过程为：

需要说明的是，在一个具体的实施例中，扫描的周期为分钟级的高频扫描，标签作业合并时需要考虑的合并条件包括：a.合并时机：按标签树的周期性任务时间触发，排除个别自定义时间的任务；b.合并依据：join的表和group by字段；c.合并阈值：任务数量、任务提交时间、任务预期执行时间/优先度。在进行作业融合并时按标签树类型合并融合任务(融合HBase表与标签树类型1:1)；在进行ES标签刷新作业合并时，首先a.按标签树类型合并融合任务(ES标签表与标签树类型1:1)，其次，b.通过ES的多索引存储，通过字段维度数映射，维护了一个实体关联万维标签的字段的目标；在进行标签作业合并执行逻辑修改时，同一个标签树类型下所有的标签任务会放入一个task执行，按照树ID进行海纳task的划分，且每棵树按照20个标签的阈值再划分task，以此类推。

进一步的，标签任务的周期性处理还包括：执行各标签任务，将Hive竖表融合到HBase标签表，定期更新ES二级索引，所述定期更新ES二级索引包括：定期删除ES的过期标签，定期更新ES父文档信息。

需要说明的是，通过上述标签作业的调度和分布式计算，实现了以下技术效果，首先通过ES的多索引存储，通过字段维度数的关系映射，实现了了一个实体关联万维标签的字段的目标；每次定期做增量标签更新，保证标签数据的时效性；所有的应用层数据都统一存储在ES进行只读操作，只用Hive临时表的写操作，保证了整个系统标签数据应用的稳定性、可靠性。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向多实体的标签系统，其特征在于，包括：标签多实体扩展模块、标签规则设置模块、万维标签内容存储模块，所述标签实体扩展模块用于扩展标签实体并将扩展后的标签实体输入至标签规则设置模块，所述标签规则设置模块用于设置不同等级的标签处理规则并根据已设置的标签处理规则对标签实体进行处理得到标签，所述万维标签内容存储模块用于对标签规则设置模块处理得到的标签进行存储和更新维护。

2.根据权利要求1所述的一种面向多实体的标签系统，其特征在于，所述标签多实体扩展模块通过创建标签树类型来扩展标签实体，所述标签树类型的属性包括：类型名称、物料表、打标签对象、描述，其中物料表即为输入的数据源，所述物料表包含有若干关联的表，可以选择一个或多个物料表来构成物料表组。

3.根据权利要求2所述的一种面向多实体的标签系统，其特征在于，所述标签树类型创建完成后以表的形式存储，记为标签树类型表，所述标签树类型表包括以下字段：树类型ID、树类型名、实体表的主键字段、输出的标签Hive表名、树类型包含的数据源列表、用户ID、用户名、是否冻结、创建时间、更新时间，其中，所述实体表的主键字段为对应的实体标记属性，所述输出的标签Hive表名为对应的物料表。

4.根据权利要求3所述的一种面向多实体的标签系统，其特征在于，标签实体的扩展过程如下：

获取物料表中的物料信息；

根据物料信息构建标签树类型，得到若干标签树；

标签任务进入任务队列按队列的策略进行异步离线作业，生成实体下不同标签，即完成标签实体的扩展。

5.根据权利要求4所述的一种面向多实体的标签系统，其特征在于，所述获取物料表中的物料信息具体过程为：

6.根据权利要求1所述的一种面向多实体的标签系统，其特征在于，所述标签规则设置模块包括：规则协议单元和解析器，所述规则协议单元用于反驱动前端页面的交互构建、逻辑规则定义，接口传参形式及后台规则解析器的设计；所述解析器把协议转化为不同存储引擎的SQL语法；

所述规则协议单元包括：标签规则rule部分和元数据meta部分，其中标签规则rule部分包括：entityField、labelTable、valueType、valueField、ruleLeo、ruleCondition、aggLeo、aggCondition、ruleSql，所述entityField表示标签实体的id字段,对于用户标签，就是用户表的用户ID字段；所述labelTable表示输出标签的表名；

所述valueType表示最终标签的值；

所述valueField用于根据最终标签的值确定语料类型；

所述ruleLeo表示基础筛选条件；

所述ruleCondition表示基础条件Leo表达式解析结果；

所述aggLeo表示聚合筛选条件；

所述aggCondition表示聚合条件Leo表达式解析结果；

所述ruleSql表示基础拖拉拽Leo解析后的sql语句或高级用户直接输入的sql语句；

7.根据权利要求1所述的一种面向多实体的标签系统，其特征在于，标签规则设置模块的规则解析工作过程为：

获取规则的等级，判断规则等级为基础或高级；

若为高级规则，则直接输入SQL语句作为标签任务SQL语句。

8.根据权利要求7所述的一种面向多实体的标签系统，其特征在于，根据解析目标选择计算平台进行计算处理，具体为：

9.根据权利要求1所述的一种面向多实体的标签系统，其特征在于，所述万维标签内容存储模块处理标签作业任务的过程为：

10.一种面向多实体的标签处理方法，所述方法应用于权利要求1-9任一项所述的面向多实体的标签系统，其特征在于，包括以下步骤：