CN111400278B

CN111400278B - 一种基于标签的拖拽构建多层次目标人群的方法和系统

Info

Publication number: CN111400278B
Application number: CN202010160945.5A
Authority: CN
Inventors: 林金怡
Original assignee: China Unicom WO Music and Culture Co Ltd
Current assignee: China Unicom WO Music and Culture Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2023-11-14
Anticipated expiration: 2040-03-10
Also published as: CN111400278A

Abstract

本发明涉及一种基于标签的拖拽构建多层次目标人群的方法，该方法所方法通过用户在web端筛选标签，并拖拽生成具有若干层级的树状结构模型规则；然后模型规则经后台转换成SQL树状结构，并将相关数据存入Oracle数据库表中；根据数据库表中存储的树状结构，生成SQL集传递给hadoop+Spark集群进行计算，Spark计算完毕后，将结果数据统计并回传到Oracle数据库；并将oracle的模型相关统计信息返回到web端展示。本发明通过用户在web端筛选标签，并拖拽生成具有若干层级的树状结构模型规则，实现对目标人群的任意条件的定位，同时通过将模型规则转换成SQL树状结构实现了对多层级模型规则存储。

Description

一种基于标签的拖拽构建多层次目标人群的方法和系统

技术领域

本发明涉及大数据领域的技术领域，具体为一种基于标签的拖拽构建多层次目标人群的方法和系统。

背景技术

目前，现有的大数据领域的标签建模工具，其标签只能进行属性选择，无法进行数据比较及属性选择和数据比较的结合，难以支撑普遍运营需求；另外其标签树状层级上是存在限制的，也就是层级节点是不能超过4层，当根节点超过四个后无法构建用户群体，因此，根本无法满足深度运营上的业务需求。

发明内容

本发明的目的在于提供基于标签的拖拽构建多层次目标人群的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于标签的拖拽构建多层次目标人群的方法，所述方法包括如下步骤：

步骤1：用户在web端筛选标签，并拖拽生成具有若干层级的树状结构模型规则；并且每个叶子可以是标签的属性选择、数据比较及属性选择和数据比较的结合；

步骤2：模型规则经后台转换成SQL树状结构，并将相关数据存入Oracle数据库表中；

步骤3：根据步骤2表中存储的树状结构，生成SQL集传递给hadoop+Spark集群进行计算；

步骤4：Spark计算完毕后，将结果数据统计并回传到Oracle数据库，Oracle只存储结果数据集在hadoop集群的路径及统计数据，其结果数据集继续保留在hadoop集群中。

步骤5：将Oracle的标签构建结果以及相关统计信息返回到web端展示；

优选的，步骤2中将SQL树状结构对应的值分为两类即一类为SQL树根节点、分支节点和叶子节点的关系，另一类为叶子节点的对应值，并分别存储在两张不同的数据表中；这里的叶子这类把标签、比较或属于类型和标签值存下来，因此可满足步骤1中标签的属性选择、数据比较及属性选择和数据比较的结合。

优选的，步骤3中所述SQL集是指步骤3中存储的SQL树，根据至底向上及叶子节点上面一个叶子节点一条SQL，一棵子树一条SQL的规则，写成的多条SQL。

本发明还提供了一种基于标签的拖拽构建多层次目标人群的系统，所述系统包括可视化WEB端模块、关系型数据库模块和分布式系统模块，所述可视化WEB端模块用于用户在web端筛选标签，并拖拽生成具有若干层级的树状结构模型规则；所述关系型数据库模块是指用于将所述模型规则对应的SQL树状结构数据存储的Oracle数据库，所述分布式系统模块是指用于接受Oracle数据库传递的指令进行计算并将计算结果返回给Oracle数据库的Hadoop+Spark集群。

与现有技术相比，本发明的有益效果是：

本发明通过用户在web端筛选标签，并拖拽生成具有若干层级的树状结构模型规则，实现对目标人群的任意条件的定位，同时实现了在标签进行属性选择基础上可进一步进行标签的自定义数据的比较及属性选择和数据结合的比较，从而解决了现有技术中存在的标签的筛选中只能进行属性选择之痛点，满足了深度运营业务上的普遍需求；同时通过将模型规则转换成SQL树状结构实现了对多层级模型规则存储,并且可根据SQL树的叶子及树枝数量解析成适当多的SQL，而非一条SQL运行，避免出现瓶颈。

附图说明

图1为本发明方法流程图；

图2为本发明实施例模型界面图；

图3为本发明实施例经拖拽、选择后形成的树状筛选规则示意图；

图4至图5为本发明实施例操作界面示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图5，本方法通过用户在web端筛选标签，并拖拽生成具有若干层级的树状结构模型规则，然后将模型规则经后台转换成SQL树状结构，并将相关数据存入Oracle数据库表中，再根据表中存储的树状结构，生成SQL集传递给hadoop+Spark集群进行计算，Spark计算完毕后，将结果数据统计并回传到Oracle数据库，Oracle只存储结果数据集存放在hadoop集群的路径及统计数据(此数据长期保存总和不足1M的轻量数据)，其结果数据集(此数据量长期保存较大)继续保留在hadoop集群里，并将oracle的模型相关统计信息返回到web端展示。现以一个通过可视化标签拖拽，构建目标人群标签的业务场景来描述，该场景的模型界面如图2，所述界面包括分类标签菜单栏和拖拽区，在系统上实现筛选偏好为美食外卖并且热度介于10-14，应用名称为微信、支付宝，用户性别属于男或者用户年龄介于18至22岁的人群，通过拖拽操作即可得界面如下图3。为对所得到的界面所对应的标签进行存储，需进行模型SQL树的标签类型的设置:标签根据其值的内容分为三种类型，其一是值为数字类型的数值型数据，这种类型的数值由用户自身去填写，用户可选择大于，等于，小于，大等于，大于等于以及介于。如用户年龄：大于18岁；其二是值为字符的字符型数据，这种数据的值让用户筛选，用户可以选择“属于”和“不属于”如图4；其三是数字和字符的组合类型，这种类型可以让用户先筛选字符值，再填写其想要的范围如图5。本发明将标签的信息存在一张数据表中，其中的表结构类型如下：标签id，唯一标识某个标签的ID；标签名称，标签的中文名称如：用户年龄，用户性别；表名，标签所对应的底层数据表名称如：用户年龄在表A，用户性别在表B；字段名，标签所对应的底层数据表的字段名称如：用户年龄在表A字段是user_age；标签类型，标签类型分为数值类型，字符类型，数字字符组合类型；在WEB端用户使用以上各标签类型的标签进行相应的拖拽，逻辑的选择，最后汇成一套筛选规则，即所述的模型，如图3。在模型结构存储方面，从模型直观来看可以写成一条两层嵌套的SQL，但如果一条SQL跑完的话必定会遇上性能上面的瓶颈，因此必须得拆分适当的多条SQL，这个称为SQL集。为了实现把模型化为SQL集的功能，将模型逻辑看成一棵SQL树。这棵SQL树存储的方法分两步，通过数据库的两张表存储，其步骤如下：第一张表存储存储SQL树根节点、分支节点和叶子节点的关系：这棵SQL树拆按一个分支一颗树方法分成多棵子树。如图3，该模型分为两棵子树：第一棵树R-02为根节点、L-01、L-02是叶子节点；第二棵树R-01为根节点，R02、L-03、L-04为叶子节点。一棵子树一个节点存储在数据库一条数据，一棵子树有一个唯一ID，这里称为子树ID，然后再用另一个ID记录第几个叶子节点，即叶子节点ID。然后第一棵子树的根节点R-02是第二棵子树的叶子节点R-02，这里利用子树ID及叶子节点ID来做关联。第二棵树存储的是叶子节点存储具体标签的选择。如图3里，L-01、L-02、L-03、L-04就是叶子节点。L-01存储的就是用户性别是男，L-02存储就是用户年龄介于18到22。L-03存储的是应用名称属于微信、支付宝。L-04存储的是偏好(热度0-14)属于美食外卖介于10到14，在SQL树已经存储好之后，根据至底向上的规则写成多条SQL，叶子节点上面一个叶子节点一条SQL，一棵子树一条SQL。这样无论模型被构建多少层，无论SQL树多复杂都通过这种方法将复杂的SQL树拆分成相应多条的SQL，在进行SQL查询时，都不会出现瓶颈。把SQL集传到Hadoop+Spark上执行，进而得到模型结果集，最后将标签构建结果以及相关统计信息返回到web端展示。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于标签的拖拽构建多层次目标人群的方法，其特征在于：所述方法包括如下步骤：

步骤1：用户在web端筛选标签，并拖拽生成具有若干层级的树状结构模型规则，并且每个叶子是标签的属性选择、数据比较及属性选择和数据比较的结合；

步骤2：模型规则经后台转换成SQL树状结构，其中SQL树状结构对应的值分为两类即一类为SQL树根节点、分支节点和叶子节点的关系，另一类为叶子节点的对应值，并分别存储在两张不同的数据表中；

步骤3：根据步骤2表中存储的树状结构，生成SQL集传递给hadoop+Spark集群进行计算，其中SQL集是指根据至底向上及叶子节点上面一个叶子节点一条SQL，一棵子树一条SQL的规则，写成的多条SQL；

步骤4：Spark计算完毕后，将结果数据统计并回传到数据库；

步骤5：并将数据库的模型相关统计信息返回到web端展示。

2.根据权利要求1所述的方法，所述数据库为Oracle数据库。

3.一种基于标签的拖拽构建多层次目标人群的系统，其特征在于：所述系统用于实现权利要求1所述的一种基于标签的拖拽构建多层次目标人群的方法，所述系统包括可视化WEB端模块、关系型数据库模块和分布式系统模块，所示可视化WEB端模块用于用户在web端筛选标签，并拖拽生成具有若干层级的树状结构模型规则；所述关系型数据库模块是指用于将所述模型规则对应的SQL树状结构数据存储的Oracle数据库，所述分布式系统模块是指用于接收Oracle数据库传递的指令进行计算并将计算结果返回给Oracle数据库的Hadoop+Spark集群。