CN117370549A - 一种基于spark计算的自助数据标签萃取方法及工具 - Google Patents

一种基于spark计算的自助数据标签萃取方法及工具 Download PDF

Info

Publication number
CN117370549A
CN117370549A CN202311147653.8A CN202311147653A CN117370549A CN 117370549 A CN117370549 A CN 117370549A CN 202311147653 A CN202311147653 A CN 202311147653A CN 117370549 A CN117370549 A CN 117370549A
Authority
CN
China
Prior art keywords
data
service
characteristic
feature
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311147653.8A
Other languages
English (en)
Inventor
孔繁博
孙海建
孙守伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Digital Business Technology Co Ltd
Original Assignee
Shandong Inspur Digital Business Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Digital Business Technology Co Ltd filed Critical Shandong Inspur Digital Business Technology Co Ltd
Priority to CN202311147653.8A priority Critical patent/CN117370549A/zh
Publication of CN117370549A publication Critical patent/CN117370549A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于SPARK计算的自助数据标签萃取方法,涉及数据处理技术领域,包括:定义业务主体,获取业务主体的历史业务数据;根据历史业务数据对业务主体进行数据处理和分析,生成特征数据;对特征数据进行预处理,将预处理后的特征数据进行分析和组合,生成标签;根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组,实施精准营销服务。本发明还公开了一种自助数据标签萃取工具,其用于实现前述方法。本发明可以根据已有的业务数据进行数据处理和分析,通过构建客户标签体系,支撑精准营销服务。

Description

一种基于SPARK计算的自助数据标签萃取方法及工具
技术领域
本发明涉及数据处理技术领域,具体的说是一种基于SPARK计算的自助数据标签萃取方法及工具。
背景技术
在大数据时代,数据在呈现出海量化、多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境、营销策略和服务模式。
如果想要针对已有的业务数据构建客户标签体系,实施精准营销服务,那进行标签计算的过程时间不能过长,需要达到分钟级别,所以标签计算需要一个强大的大数据分布式计算引擎。
Spark是一种基于内存的快速、通用、可扩展的大数据计算引擎。它集批处理、实时流处理、交互式查询、图计算与机器学习于一体,所以适用于标签计算的场景。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种基于SPARK计算的自助数据标签萃取方法及工具。
第一方面,本发明提供一种基于SPARK计算的自助数据标签萃取方法,解决上述技术问题采用的技术方案如下:
一种基于SPARK计算的自助数据标签萃取方法,包括如下步骤:
定义业务主体,获取业务主体的历史业务数据;
根据历史业务数据对业务主体进行数据处理和分析,生成特征数据;
对特征数据进行预处理,将预处理后的特征数据进行分析和组合,生成标签;
根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组,实施精准营销服务。
可选的,所涉及业务主体指的是具有唯一标识的独立个体的集合;
业务主体的定义内容包括:主体基础表名、主键和主体名称、英文名称、名称字段;
定义业务主体后,可以对已定义的业务主体进行修改或删除。
进一步可选的,根据历史业务数据对业务主体进行数据处理和分析,生成的特征数据包括基础特征和行为特征;
用户可以对生成的特征数据进行查看、新增、编辑和删除的操作;用户对生成的特征数据进行新增时,默认关联主键和主体名称,并且可以配置特征的中文名称、英文名称、特征描述、值类型、数据类型、数据定义。
进一步可选的,对特征数据进行预处理,具体包括:
配置执行规则;
将业务主体的所有特征数据通过配置的执行规则生成指定的数据格式;
将特征数据对应的特征值根据转换引擎转换成指定的字段值,其中,转换引擎将配置类规则转换成执行语句、将sql类规则转换成执行语句进行处理、将代码类规则转换成可执行方法、将接口类规则转换成可执行方法,将各类规则执行结果进行处理;
将所有的特征值放入表中的对应字段中,组成业务主体的特征表。
进一步可选的,将预处理后的特征数据进行分析和组合后,通过动态生成和外部导入两种方式生成标签,生成的标签包括特征和边界值两部分;
动态生成标签需要选择一个或者多个特征,选择支持“>、>=、<、<=、=、like、notlike”多种运算符,维护边界值;
外部导入生成标签需要选择数据表、数据字段、名称字段。
第二方面,本发明提供一种基于SPARK计算的自助数据标签萃取工具,解决上述技术问题采用的技术方案如下:
一种基于SPARK计算的自助数据标签萃取工具,其包括:
定义模块,用于定义业务主体;
获取模块,用于获取业务主体的历史业务数据;
特征生成模块,用于根据历史业务数据对业务主体进行数据处理和分析,生成特征数据;
预处理模块,用于对特征数据进行预处理;
标签生成模块,用于将预处理后的特征数据进行分析和组合,生成标签;
组合筛选模块,用于根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组,实施精准营销服务。
可选的,所涉及业务主体指的是具有唯一标识的独立个体的集合;
定义模块定义的业务主体内容包括:主体基础表名、主键和主体名称、英文名称、名称字段;
针对完成定义的业务主体,用户可以通过定义模块对其进行修改或删除。
进一步可选的,生成的特征数据包括基础特征和行为特征;
特征生成模块具有特征查看、新增、编辑和删除的功能;
用户通过特征生成模块对生成的特征数据进行新增时,默认关联主键和主体名称,并且可以配置特征的中文名称、英文名称、特征描述、值类型、数据类型、数据定义。
进一步可选的,所涉及预处理模块对特征数据进行预处理的具体操作包括:
配置执行规则;
将业务主体的所有特征数据通过配置的执行规则生成指定的数据格式;
将特征数据对应的特征值根据转换引擎转换成指定的字段值,其中,转换引擎将配置类规则转换成执行语句、将sql类规则转换成执行语句进行处理、将代码类规则转换成可执行方法、将接口类规则转换成可执行方法,将各类规则执行结果进行处理;
将所有的特征值放入表中的对应字段中,组成业务主体的特征表。
进一步可选的,所涉及标签生成模块将预处理后的特征数据进行分析和组合后,通过动态生成和外部导入两种方式生成标签,生成的标签包括特征和边界值两部分,其中:
标签生成模块通过动态方式生成标签时需要选择一个或者多个特征,选择支持“>、>=、<、<=、=、like、not like”多种运算符,维护边界值;
标签生成模块通过外部导入方式生成标签时需要选择数据表、数据字段、名称字段。
本发明的一种基于SPARK计算的自助数据标签萃取方法及工具,与现有技术相比具有的有益效果是:
本发明根据已有的业务数据对业务主体进行数据处理和分析,生成特征数据,根据业务主体的特征数据进行分析和组合,进而生成标签,根据单个标签或者多个标签的组合可以筛选出符合该标签下特征组合的个体群组,最终可以筛选出符合要求的个体群组,实施精准营销服务。
附图说明
附图1是本发明实施例一的方法流程图;
附图2是本发明实施例二的模块连接图。
附图3是本发明以消费者为业务主体进行标签萃取的流程图。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
结合附图1,本实施例提出一种基于SPARK计算的自助数据标签萃取方法,包括如下步骤:
(一)定义业务主体,获取业务主体的历史业务数据。
业务主体指的是具有唯一标识的商品、消费者、经销商等独立个体的集合。
业务主体的定义内容包括:主体基础表名、主键和主体名称、英文名称、名称字段。
定义业务主体后,可以对已定义的业务主体进行修改或删除。
(二)根据历史业务数据对业务主体进行数据处理和分析,生成特征数据。
特征数据包括基础特征和行为特征,如针对消费者来说,其姓名年龄身高体重是基础特征信息,其近7天下达数量是行为特征数据。
用户可以对生成的特征数据进行查看、新增、编辑和删除的操作;用户对生成的特征数据进行新增时,默认关联主键和主体名称,并且可以配置特征的中文名称、英文名称、特征描述、值类型、数据类型、数据定义。数据定义包括可视化配置、定义sql脚本的方式等定义。
(三)对特征数据进行预处理,将预处理后的特征数据进行分析和组合,生成标签。
对特征数据进行预处理,具体包括:
配置执行规则;
将业务主体的所有特征数据通过配置的执行规则生成指定的数据格式;
将特征数据对应的特征值根据转换引擎转换成指定的字段值,其中,转换引擎将配置类规则转换成执行语句、将sql类规则转换成执行语句进行处理、将代码类规则转换成可执行方法、将接口类规则转换成可执行方法,将各类规则执行结果进行处理;
将所有的特征值放入表中的对应字段中,组成业务主体的特征表。
将预处理后的特征数据进行分析和组合后,通过动态生成和外部导入两种方式生成标签,生成的标签包括特征和边界值两部分;
动态生成标签需要选择一个或者多个特征,选择支持“>、>=、<、<=、=、like、notlike”多种运算符,维护边界值;
外部导入生成标签需要选择数据表、数据字段、名称字段。
(四)根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组,实施精准营销服务。
针对本实施例,结合附图3,以业务主体是消费者为例,可以具体定义消费者的执业、年龄、居住地、性别等多个特征,例如从年龄这个特征配置比较规则,年龄小于18岁标签一,18至30岁标签二,大于30岁的标签三。现在想筛选出“消费者的职业是程序员、年龄是18至30岁、居住地是杭州、性别是男”多个标签的交集,筛选出张三、李四、王五多个体集合,然后通过这些数据接下来做营销活动。
实施例二:
结合附图2,本实施例提出一种基于SPARK计算的自助数据标签萃取工具,其包括:
定义模块,用于定义业务主体,其中,业务主体指的是具有唯一标识的商品、消费者、经销商等独立个体的集合;定义模块定义的业务主体内容包括:主体基础表名、主键和主体名称、英文名称、名称字段;针对完成定义的业务主体,用户可以通过定义模块对其进行修改或删除;
获取模块,用于获取业务主体的历史业务数据;
特征生成模块,用于根据历史业务数据对业务主体进行数据处理和分析,生成特征数据;特征数据包括基础特征和行为特征;
预处理模块,用于对特征数据进行预处理;
标签生成模块,用于将预处理后的特征数据进行分析和组合,生成标签;
组合筛选模块,用于根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组,实施精准营销服务。
本实施例中,特征生成模块具有特征查看、新增、编辑和删除的功能。用户通过特征生成模块对生成的特征数据进行新增时,默认关联主键和主体名称,并且可以配置特征的中文名称、英文名称、特征描述、值类型、数据类型、数据定义,数据定义包括可视化配置、定义sql脚本的方式等定义。
本实施例中,预处理模块对特征数据进行预处理的具体操作包括:
配置执行规则;
将业务主体的所有特征数据通过配置的执行规则生成指定的数据格式;
将特征数据对应的特征值根据转换引擎转换成指定的字段值,其中,转换引擎将配置类规则转换成执行语句、将sql类规则转换成执行语句进行处理、将代码类规则转换成可执行方法、将接口类规则转换成可执行方法,将各类规则执行结果进行处理;
将所有的特征值放入表中的对应字段中,组成业务主体的特征表。
本实施例中,标签生成模块将预处理后的特征数据进行分析和组合后,通过动态生成和外部导入两种方式生成标签,生成的标签包括特征和边界值两部分,其中:
标签生成模块通过动态方式生成标签时需要选择一个或者多个特征,选择支持“>、>=、<、<=、=、like、not like”多种运算符,维护边界值;
标签生成模块通过外部导入方式生成标签时需要选择数据表、数据字段、名称字段。
综上可知,采用本发明的一种基于SPARK计算的自助数据标签萃取方法及工具,可以根据已有的业务数据对业务主体进行数据处理和分析,生成特征数据,根据业务主体的特征数据进行分析和组合,进而生成标签,根据单个标签或者多个标签的组合可以筛选出符合该标签下特征组合的个体群组,最终可以筛选出符合要求的个体群组,实施精准营销服务。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。

Claims (10)

1.一种基于SPARK计算的自助数据标签萃取方法,其特征在于,包括如下步骤:
定义业务主体,获取业务主体的历史业务数据;
根据历史业务数据对业务主体进行数据处理和分析,生成特征数据;
对特征数据进行预处理,将预处理后的特征数据进行分析和组合,生成标签;
根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组,实施精准营销服务。
2.根据权利要求1所述的一种基于SPARK计算的自助数据标签萃取方法,其特征在于,所述业务主体指的是具有唯一标识的独立个体的集合;
业务主体的定义内容包括:主体基础表名、主键和主体名称、英文名称、名称字段;
定义业务主体后,可以对已定义的业务主体进行修改或删除。
3.根据权利要求2所述的一种基于SPARK计算的自助数据标签萃取方法,其特征在于,根据历史业务数据对业务主体进行数据处理和分析,生成的特征数据包括基础特征和行为特征;
用户可以对生成的特征数据进行查看、新增、编辑和删除的操作;用户对生成的特征数据进行新增时,默认关联主键和主体名称,并且可以配置特征的中文名称、英文名称、特征描述、值类型、数据类型、数据定义。
4.根据权利要求3所述的一种基于SPARK计算的自助数据标签萃取方法,其特征在于,对特征数据进行预处理,具体包括:
配置执行规则;
将业务主体的所有特征数据通过配置的执行规则生成指定的数据格式;
将特征数据对应的特征值根据转换引擎转换成指定的字段值,其中,所述转换引擎将配置类规则转换成执行语句、将sql类规则转换成执行语句进行处理、将代码类规则转换成可执行方法、将接口类规则转换成可执行方法,将各类规则执行结果进行处理;
将所有的特征值放入表中的对应字段中,组成业务主体的特征表。
5.根据权利要求4所述的一种基于SPARK计算的自助数据标签萃取方法,其特征在于,将预处理后的特征数据进行分析和组合后,通过动态生成和外部导入两种方式生成标签,生成的标签包括特征和边界值两部分;
动态生成标签需要选择一个或者多个特征,选择支持“>、>=、<、<=、=、like、notlike”多种运算符,维护边界值;
外部导入生成标签需要选择数据表、数据字段、名称字段。
6.一种基于SPARK计算的自助数据标签萃取工具,其特征在于,其包括:
定义模块,用于定义业务主体;
获取模块,用于获取业务主体的历史业务数据;
特征生成模块,用于根据历史业务数据对业务主体进行数据处理和分析,生成特征数据;
预处理模块,用于对特征数据进行预处理;
标签生成模块,用于将预处理后的特征数据进行分析和组合,生成标签;
组合筛选模块,用于根据单个标签或者多个标签的组合筛选出符合该标签下特征组合的个体群组,实施精准营销服务。
7.根据权利要求6所述的一种基于SPARK计算的自助数据标签萃取工具,其特征在于,业务主体指的是具有唯一标识的独立个体的集合;
所述定义模块定义的业务主体内容包括:主体基础表名、主键和主体名称、英文名称、名称字段;
针对完成定义的业务主体,用户可以通过定义模块对其进行修改或删除。
8.根据权利要求7所述的一种基于SPARK计算的自助数据标签萃取工具,其特征在于,生成的特征数据包括基础特征和行为特征;
特征生成模块具有特征查看、新增、编辑和删除的功能;
用户通过特征生成模块对生成的特征数据进行新增时,默认关联主键和主体名称,并且可以配置特征的中文名称、英文名称、特征描述、值类型、数据类型、数据定义。
9.根据权利要求8所述的一种基于SPARK计算的自助数据标签萃取工具,其特征在于,所述预处理模块对特征数据进行预处理的具体操作包括:
配置执行规则;
将业务主体的所有特征数据通过配置的执行规则生成指定的数据格式;
将特征数据对应的特征值根据转换引擎转换成指定的字段值,其中,所述转换引擎将配置类规则转换成执行语句、将sql类规则转换成执行语句进行处理、将代码类规则转换成可执行方法、将接口类规则转换成可执行方法,将各类规则执行结果进行处理;
将所有的特征值放入表中的对应字段中,组成业务主体的特征表。
10.根据权利要求9所述的一种基于SPARK计算的自助数据标签萃取工具,其特征在于,所述标签生成模块将预处理后的特征数据进行分析和组合后,通过动态生成和外部导入两种方式生成标签,生成的标签包括特征和边界值两部分,其中:
所述标签生成模块通过动态方式生成标签时需要选择一个或者多个特征,选择支持“>、>=、<、<=、=、like、not like”多种运算符,维护边界值;
所述标签生成模块通过外部导入方式生成标签时需要选择数据表、数据字段、名称字段。
CN202311147653.8A 2023-09-07 2023-09-07 一种基于spark计算的自助数据标签萃取方法及工具 Pending CN117370549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311147653.8A CN117370549A (zh) 2023-09-07 2023-09-07 一种基于spark计算的自助数据标签萃取方法及工具

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311147653.8A CN117370549A (zh) 2023-09-07 2023-09-07 一种基于spark计算的自助数据标签萃取方法及工具

Publications (1)

Publication Number Publication Date
CN117370549A true CN117370549A (zh) 2024-01-09

Family

ID=89388180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311147653.8A Pending CN117370549A (zh) 2023-09-07 2023-09-07 一种基于spark计算的自助数据标签萃取方法及工具

Country Status (1)

Country Link
CN (1) CN117370549A (zh)

Similar Documents

Publication Publication Date Title
US7062477B2 (en) Information-processing apparatus, information-processing method and storage medium
CN102236663B (zh) 一种基于垂直搜索的查询方法、系统和装置
CN107491655B (zh) 基于机器学习的肝脏疾病信息智能咨询系统
CN104809142A (zh) 商标查询系统和方法
CN106649890A (zh) 数据存储方法和装置
CN112527994A (zh) 情绪分析方法、装置、设备及可读存储介质
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN111428503A (zh) 同名人物的识别处理方法及处理装置
CN112700271A (zh) 一种基于标签模型的大数据画像方法及系统
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN114625918A (zh) 视频推荐方法、装置、设备、存储介质及程序产品
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
JP6715487B1 (ja) メール分類装置、メール分類方法、およびコンピュータプログラム
CN117150138A (zh) 一种基于高维空间映射的科技资源组织方法及系统
CN117370549A (zh) 一种基于spark计算的自助数据标签萃取方法及工具
CN116127066A (zh) 文本聚类方法、文本聚类装置、电子设备及存储介质
CN110062112A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN109492117A (zh) 专利数据分析系统
CN114077682A (zh) 一种图像检索智能识别匹配处理方法、系统和存储介质
CN108897832B (zh) 一种自动分析价值信息的方法与装置
CN113408207A (zh) 基于社会网络分析技术的数据挖掘的一种方法
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质
CN117633165B (zh) 一种智能ai客服对话引导方法
CN117349509A (zh) 信息推送方法及其装置
CN116842015A (zh) 一种页面与表关系的溯源方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination