CN117370549A

CN117370549A - 一种基于spark计算的自助数据标签萃取方法及工具

Info

Publication number: CN117370549A
Application number: CN202311147653.8A
Authority: CN
Inventors: 孔繁博; 孙海建; 孙守伟
Original assignee: Shandong Inspur Digital Business Technology Co Ltd
Current assignee: Shandong Inspur Digital Business Technology Co Ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2024-01-09

Abstract

本发明公开一种基于SPARK计算的自助数据标签萃取方法，涉及数据处理技术领域，包括：定义业务主体，获取业务主体的历史业务数据；根据历史业务数据对业务主体进行数据处理和分析，生成特征数据；对特征数据进行预处理，将预处理后的特征数据进行分析和组合，生成标签；根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组，实施精准营销服务。本发明还公开了一种自助数据标签萃取工具，其用于实现前述方法。本发明可以根据已有的业务数据进行数据处理和分析，通过构建客户标签体系，支撑精准营销服务。

Description

一种基于SPARK计算的自助数据标签萃取方法及工具

技术领域

本发明涉及数据处理技术领域，具体的说是一种基于SPARK计算的自助数据标签萃取方法及工具。

背景技术

在大数据时代，数据在呈现出海量化、多样化和价值化变化的同时，也改变了传统IT行业的市场竞争环境、营销策略和服务模式。

如果想要针对已有的业务数据构建客户标签体系，实施精准营销服务，那进行标签计算的过程时间不能过长，需要达到分钟级别，所以标签计算需要一个强大的大数据分布式计算引擎。

Spark是一种基于内存的快速、通用、可扩展的大数据计算引擎。它集批处理、实时流处理、交互式查询、图计算与机器学习于一体，所以适用于标签计算的场景。

发明内容

本发明针对目前技术发展的需求和不足之处，提供一种基于SPARK计算的自助数据标签萃取方法及工具。

第一方面，本发明提供一种基于SPARK计算的自助数据标签萃取方法，解决上述技术问题采用的技术方案如下：

一种基于SPARK计算的自助数据标签萃取方法，包括如下步骤：

定义业务主体，获取业务主体的历史业务数据；

根据历史业务数据对业务主体进行数据处理和分析，生成特征数据；

对特征数据进行预处理，将预处理后的特征数据进行分析和组合，生成标签；

根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组，实施精准营销服务。

可选的，所涉及业务主体指的是具有唯一标识的独立个体的集合；

业务主体的定义内容包括：主体基础表名、主键和主体名称、英文名称、名称字段；

定义业务主体后，可以对已定义的业务主体进行修改或删除。

进一步可选的，根据历史业务数据对业务主体进行数据处理和分析，生成的特征数据包括基础特征和行为特征；

用户可以对生成的特征数据进行查看、新增、编辑和删除的操作；用户对生成的特征数据进行新增时，默认关联主键和主体名称，并且可以配置特征的中文名称、英文名称、特征描述、值类型、数据类型、数据定义。

进一步可选的，对特征数据进行预处理，具体包括：

配置执行规则；

将业务主体的所有特征数据通过配置的执行规则生成指定的数据格式；

将特征数据对应的特征值根据转换引擎转换成指定的字段值，其中，转换引擎将配置类规则转换成执行语句、将sql类规则转换成执行语句进行处理、将代码类规则转换成可执行方法、将接口类规则转换成可执行方法，将各类规则执行结果进行处理；

将所有的特征值放入表中的对应字段中，组成业务主体的特征表。

进一步可选的，将预处理后的特征数据进行分析和组合后，通过动态生成和外部导入两种方式生成标签，生成的标签包括特征和边界值两部分；

动态生成标签需要选择一个或者多个特征，选择支持“>、>＝、<、<＝、＝、like、notlike”多种运算符，维护边界值；

外部导入生成标签需要选择数据表、数据字段、名称字段。

第二方面，本发明提供一种基于SPARK计算的自助数据标签萃取工具，解决上述技术问题采用的技术方案如下：

一种基于SPARK计算的自助数据标签萃取工具，其包括：

定义模块，用于定义业务主体；

获取模块，用于获取业务主体的历史业务数据；

特征生成模块，用于根据历史业务数据对业务主体进行数据处理和分析，生成特征数据；

预处理模块，用于对特征数据进行预处理；

标签生成模块，用于将预处理后的特征数据进行分析和组合，生成标签；

组合筛选模块，用于根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组，实施精准营销服务。

定义模块定义的业务主体内容包括：主体基础表名、主键和主体名称、英文名称、名称字段；

针对完成定义的业务主体，用户可以通过定义模块对其进行修改或删除。

进一步可选的，生成的特征数据包括基础特征和行为特征；

特征生成模块具有特征查看、新增、编辑和删除的功能；

用户通过特征生成模块对生成的特征数据进行新增时，默认关联主键和主体名称，并且可以配置特征的中文名称、英文名称、特征描述、值类型、数据类型、数据定义。

进一步可选的，所涉及预处理模块对特征数据进行预处理的具体操作包括：

配置执行规则；

进一步可选的，所涉及标签生成模块将预处理后的特征数据进行分析和组合后，通过动态生成和外部导入两种方式生成标签，生成的标签包括特征和边界值两部分，其中：

标签生成模块通过动态方式生成标签时需要选择一个或者多个特征，选择支持“>、>＝、<、<＝、＝、like、not like”多种运算符，维护边界值；

标签生成模块通过外部导入方式生成标签时需要选择数据表、数据字段、名称字段。

本发明的一种基于SPARK计算的自助数据标签萃取方法及工具，与现有技术相比具有的有益效果是：

本发明根据已有的业务数据对业务主体进行数据处理和分析，生成特征数据，根据业务主体的特征数据进行分析和组合，进而生成标签，根据单个标签或者多个标签的组合可以筛选出符合该标签下特征组合的个体群组，最终可以筛选出符合要求的个体群组，实施精准营销服务。

附图说明

附图1是本发明实施例一的方法流程图；

附图2是本发明实施例二的模块连接图。

附图3是本发明以消费者为业务主体进行标签萃取的流程图。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白，以下结合具体实施例，对本发明的技术方案进行清楚、完整的描述。

实施例一：

结合附图1，本实施例提出一种基于SPARK计算的自助数据标签萃取方法，包括如下步骤：

(一)定义业务主体，获取业务主体的历史业务数据。

业务主体指的是具有唯一标识的商品、消费者、经销商等独立个体的集合。

业务主体的定义内容包括：主体基础表名、主键和主体名称、英文名称、名称字段。

(二)根据历史业务数据对业务主体进行数据处理和分析，生成特征数据。

特征数据包括基础特征和行为特征，如针对消费者来说，其姓名年龄身高体重是基础特征信息，其近7天下达数量是行为特征数据。

用户可以对生成的特征数据进行查看、新增、编辑和删除的操作；用户对生成的特征数据进行新增时，默认关联主键和主体名称，并且可以配置特征的中文名称、英文名称、特征描述、值类型、数据类型、数据定义。数据定义包括可视化配置、定义sql脚本的方式等定义。

(三)对特征数据进行预处理，将预处理后的特征数据进行分析和组合，生成标签。

对特征数据进行预处理，具体包括：

配置执行规则；

将预处理后的特征数据进行分析和组合后，通过动态生成和外部导入两种方式生成标签，生成的标签包括特征和边界值两部分；

外部导入生成标签需要选择数据表、数据字段、名称字段。

(四)根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组，实施精准营销服务。

针对本实施例，结合附图3，以业务主体是消费者为例，可以具体定义消费者的执业、年龄、居住地、性别等多个特征，例如从年龄这个特征配置比较规则，年龄小于18岁标签一，18至30岁标签二，大于30岁的标签三。现在想筛选出“消费者的职业是程序员、年龄是18至30岁、居住地是杭州、性别是男”多个标签的交集，筛选出张三、李四、王五多个体集合，然后通过这些数据接下来做营销活动。

实施例二：

结合附图2，本实施例提出一种基于SPARK计算的自助数据标签萃取工具，其包括：

定义模块，用于定义业务主体，其中，业务主体指的是具有唯一标识的商品、消费者、经销商等独立个体的集合；定义模块定义的业务主体内容包括：主体基础表名、主键和主体名称、英文名称、名称字段；针对完成定义的业务主体，用户可以通过定义模块对其进行修改或删除；

获取模块，用于获取业务主体的历史业务数据；

特征生成模块，用于根据历史业务数据对业务主体进行数据处理和分析，生成特征数据；特征数据包括基础特征和行为特征；

预处理模块，用于对特征数据进行预处理；

本实施例中，特征生成模块具有特征查看、新增、编辑和删除的功能。用户通过特征生成模块对生成的特征数据进行新增时，默认关联主键和主体名称，并且可以配置特征的中文名称、英文名称、特征描述、值类型、数据类型、数据定义，数据定义包括可视化配置、定义sql脚本的方式等定义。

本实施例中，预处理模块对特征数据进行预处理的具体操作包括：

配置执行规则；

本实施例中，标签生成模块将预处理后的特征数据进行分析和组合后，通过动态生成和外部导入两种方式生成标签，生成的标签包括特征和边界值两部分，其中：

综上可知，采用本发明的一种基于SPARK计算的自助数据标签萃取方法及工具，可以根据已有的业务数据对业务主体进行数据处理和分析，生成特征数据，根据业务主体的特征数据进行分析和组合，进而生成标签，根据单个标签或者多个标签的组合可以筛选出符合该标签下特征组合的个体群组，最终可以筛选出符合要求的个体群组，实施精准营销服务。

以上应用具体个例对本发明的原理及实施方式进行了详细阐述，这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例，本技术领域的技术人员在不脱离本发明原理的前提下，对本发明所作出的任何改进和修饰，皆应落入本发明的专利保护范围。

Claims

1.一种基于SPARK计算的自助数据标签萃取方法，其特征在于,包括如下步骤：

定义业务主体，获取业务主体的历史业务数据；

2.根据权利要求1所述的一种基于SPARK计算的自助数据标签萃取方法，其特征在于，所述业务主体指的是具有唯一标识的独立个体的集合；

3.根据权利要求2所述的一种基于SPARK计算的自助数据标签萃取方法，其特征在于，根据历史业务数据对业务主体进行数据处理和分析，生成的特征数据包括基础特征和行为特征；

4.根据权利要求3所述的一种基于SPARK计算的自助数据标签萃取方法，其特征在于，对特征数据进行预处理，具体包括：

配置执行规则；

将特征数据对应的特征值根据转换引擎转换成指定的字段值，其中，所述转换引擎将配置类规则转换成执行语句、将sql类规则转换成执行语句进行处理、将代码类规则转换成可执行方法、将接口类规则转换成可执行方法，将各类规则执行结果进行处理；

5.根据权利要求4所述的一种基于SPARK计算的自助数据标签萃取方法，其特征在于，将预处理后的特征数据进行分析和组合后，通过动态生成和外部导入两种方式生成标签，生成的标签包括特征和边界值两部分；

外部导入生成标签需要选择数据表、数据字段、名称字段。

6.一种基于SPARK计算的自助数据标签萃取工具，其特征在于，其包括：

定义模块，用于定义业务主体；

获取模块，用于获取业务主体的历史业务数据；

预处理模块，用于对特征数据进行预处理；

7.根据权利要求6所述的一种基于SPARK计算的自助数据标签萃取工具，其特征在于，业务主体指的是具有唯一标识的独立个体的集合；

所述定义模块定义的业务主体内容包括：主体基础表名、主键和主体名称、英文名称、名称字段；

8.根据权利要求7所述的一种基于SPARK计算的自助数据标签萃取工具，其特征在于，生成的特征数据包括基础特征和行为特征；

特征生成模块具有特征查看、新增、编辑和删除的功能；

9.根据权利要求8所述的一种基于SPARK计算的自助数据标签萃取工具，其特征在于，所述预处理模块对特征数据进行预处理的具体操作包括：

配置执行规则；

10.根据权利要求9所述的一种基于SPARK计算的自助数据标签萃取工具，其特征在于，所述标签生成模块将预处理后的特征数据进行分析和组合后，通过动态生成和外部导入两种方式生成标签，生成的标签包括特征和边界值两部分，其中：

所述标签生成模块通过动态方式生成标签时需要选择一个或者多个特征，选择支持“>、>＝、<、<＝、＝、like、not like”多种运算符，维护边界值；

所述标签生成模块通过外部导入方式生成标签时需要选择数据表、数据字段、名称字段。