CN115712619A

CN115712619A - 用于燃气用户标签生成的方法、装置、设备及介质

Info

Publication number: CN115712619A
Application number: CN202211177224.0A
Authority: CN
Inventors: 彭霖
Original assignee: Xinao Xinzhi Technology Co ltd
Current assignee: Xinao Xinzhi Technology Co ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2023-02-24

Abstract

本申请涉及大数据技术领域，特别涉及一种用于燃气用户标签生成的方法、装置、设备及介质，其中，方法包括：将采集的燃气用户数据输入至Hadoop平台中；基于至少一个预设业务场景，根据燃气用户数据中的个性化属性生成每个燃气用户的燃气用户标签；由每个燃气用户的燃气用户标签生成标签高表，并基于标签高表及预设标签规则对每个燃气用户进行圈群，得到每个用户的管理信息。由此，解决了相关技术中基于关系型数据库的处理方法已无法满足现有业务数据存储和处理需求的问题，对外提供更高效的查询服务能力。

Description

用于燃气用户标签生成的方法、装置、设备及介质

技术领域

本申请涉及大数据技术领域，特别涉及一种用于燃气用户标签生成的方法、装置、设备及介质。

背景技术

燃气企业用于大量的民用户、工商户用户，企业经过多年的信息化建设，沉淀了大量的数据，也拥有大量用户资产，但是大量的数据、用户资产处于贡献低、活跃低的状态，并且各企业间数据难以形成合力，用户标签急待丰富，激活用户价值，增加用户粘性和创值收入，实现业务精细化运营。用户标签全方位标记用户的个性化属性，通过输入合同号即可查询用户的全部标签信息，也可根据标签筛选出相应的用户群。在用户标签部署过程中，企业用户产生和应用的数据量日益增大，海量用户数据的出现和数据结构的多样化。

然而，基于关系型数据库的处理方法已无法满足现有业务数据存储和处理需求，亟待解决。

发明内容

本申请提供一种用于燃气用户标签生成的方法、装置、设备及介质，以解决相关技术中基于关系型数据库的处理方法已无法满足现有业务数据存储和处理需求的问题，对外提供更高效的查询服务能力。

本申请第一方面实施例提供一种用于燃气用户标签生成的方法，包括以下步骤：

将采集的燃气用户数据输入至Hadoop平台中；

基于至少一个预设业务场景，根据所述燃气用户数据中的个性化属性生成每个燃气用户的燃气用户标签；以及

由所述每个燃气用户的燃气用户标签生成标签高表，并基于所述标签高表及预设标签规则对所述每个燃气用户进行圈群，得到所述每个用户的管理信息。

可选地，所述根据所述燃气用户数据生成每个燃气用户的燃气用户标签，包括：

利用所述Hadoop平台对所述燃气用户数据进行分析，得到所述每个燃气用户的至少一个标签宽表；

确定每个标签宽表与所述每个燃气用户的身份标识之间的映射关系。

可选地，所述由所述每个燃气用户的燃气用户标签生成标签高表，包括：

基于所述至少一个标签宽表生成对应的标签序号；

根据所述至少一个标签宽表、所述身份标识、所述标签序号及对应的标签值得到所述每个用户的基础标签数据，并将所述基础标签数据写入所述Hadoop平台的分布式存储系统，生成所述标签高表。

可选地，所述生成所述标签高表，包括：

将所述身份标识信息和对应的标签序号作为存储表的主键，并将一行数据值存储为所述标签值，以将所述至少一个标签宽表转换成对应的标签高表。

可选地，还包括：

以所述身份标识信息为索引，所述标签高表为树形存储至预设数据库中，以利用所述预设数据库执行标签数据服务的查询指令。

本申请第二方面实施例提供一种用于燃气用户标签生成的装置，包括：

输入模块，用于将采集的燃气用户数据输入至Hadoop平台中；

生成模块，用于基于至少一个预设业务场景，根据所述燃气用户数据中的个性化属性生成每个燃气用户的燃气用户标签；以及

获取模块，用于由所述每个燃气用户的燃气用户标签生成标签高表，并基于所述标签高表及预设标签规则对所述每个燃气用户进行圈群，得到所述每个用户的管理信息。

可选地，所述生成模块，具体用于：

可选地，所述获取模块，具体用于：

基于所述至少一个标签宽表生成对应的标签序号；

可选地，所述获取模块，具体用于：

可选地，还包括：

存储模块，用于以所述身份标识信息为索引，所述标签高表为树形存储至预设数据库中，以利用所述预设数据库执行标签数据服务的查询指令。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的用于燃气用户标签生成的方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现上述的用于燃气用户标签生成的方法。

由此，本申请实施例的用于燃气用户标签生成的方法，具有以下优点：

(1)基于Hadoop分布式技术的燃气用户标签生成方法的好处是实现了用户个性化特征信息的标签化，能有效加速企业标签体系的构建速度，更快响应业务需求，提高了燃气企业在自有业务推荐、激活用户价值，增加用户粘性和创值收入的能力。

(2)系统基于分布式计算存储引擎，支持海量的标签数据和高并发查询服务，满足绝大部分使用场景。

(3)Phoenix的引入，具备支持正向/反向的双向查询能力，包括，正向查询即根据用户合同号，查询用户部分或者全部标签；反向查询即以标签为维度，筛选出具备该标签特征的用户群体.

(4)基于hdfs存储下来的海量标签数据，可以使用spark框架结合协同过滤算法、决策树、关联分析算法、聚类算法等，进行标签智能推荐。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种用于燃气用户标签生成的方法的流程图；

图2为根据本申请一个具体实施例的用于燃气用户标签生成的方法的流程图；

图3为根据本申请实施例的用于燃气用户标签生成的装置的示例图；

图4为根据本申请实施例的电子设备的示例图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的用于燃气用户标签生成的方法、装置、设备及介质。针对上述背景技术中心提到的基于关系型数据库的处理方法已无法满足现有业务数据存储和处理需求的问题，本申请提供了一种用于燃气用户标签生成的方法，在该方法中，可以将采集的燃气用户数据输入至Hadoop平台中，并基于至少一个预设业务场景，根据燃气用户数据中的个性化属性生成每个燃气用户的燃气用户标签，并由每个燃气用户的燃气用户标签生成标签高表，并基于标签高表及预设标签规则对每个燃气用户进行圈群，得到每个用户的管理信息。由此，解决了相关技术中基于关系型数据库的处理方法已无法满足现有业务数据存储和处理需求的问题，对外提供更高效的查询服务能力。

具体而言，图1为本申请实施例所提供的一种用于燃气用户标签生成的方法的流程示意图。

如图1所示，该用于燃气用户标签生成的方法包括以下步骤：

在步骤S101中，将采集的燃气用户数据输入至Hadoop平台中。

其中，Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop由许多元素构成。其最底部是HDFS(HadoopDistributedFileSystem，分布式文件系统)，它存储Hadoop集群中所有存储节点上的文件；ApacheYarn(YetAnotherResourceNegotiator，应用资源管理框架)是hadoop集群资源管理器系统，Yarn从hadoop2引入，最初是为了改善MapReduce的实现，但是它具有通用性，同样执行其他分布式计算模式，如Flink，Spark，Tez，MapReduce等；

具体而言，本申请实施例可以通过sqoop或者datax将业务系统的燃气用户数据采集到HDFS里。需要说明的是，Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库(例如：MySQL，Oracle，Postgres等)中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

在步骤S102中，基于至少一个预设业务场景，根据燃气用户数据中的个性化属性生成每个燃气用户的燃气用户标签。

可选地，在一些实施例中，根据燃气用户数据生成每个燃气用户的燃气用户标签，包括：利用Hadoop平台对燃气用户数据进行分析，得到每个燃气用户的至少一个标签宽表；确定每个标签宽表与每个燃气用户的身份标识之间的映射关系。

可以理解的是，本申请实施例可以根据不同的业务场景，使用Hive进行数据分析统计，形成体现用户个性化特征的各种标签宽表；本申请实施例可以在Hive的宽表中以企业和用户之间签订的合同号作为用户唯一标识。

需要说明的是，Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL(StructuredQueryLanguage，结构化查询语言)查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。Hive十分适合对数据仓库进行统计分析。

在步骤S103中，由每个燃气用户的燃气用户标签生成标签高表，并基于标签高表及预设标签规则对每个燃气用户进行圈群，得到每个用户的管理信息。

可选地，在一些实施例中，由每个燃气用户的燃气用户标签生成标签高表，包括：基于至少一个标签宽表生成对应的标签序号；根据至少一个标签宽表、身份标识、标签序号及对应的标签值得到每个用户的基础标签数据，并将基础标签数据写入Hadoop平台的分布式存储系统，生成标签高表。

其中，在一些实施例中，生成标签高表，包括：将身份标识信息和对应的标签序号作为存储表的主键，并将一行数据值存储为标签值，以将至少一个标签宽表转换成对应的标签高表。

具体地，本申请实施例可以根据实际配置，将上述步骤中生成的标签宽表里列生成标签序号，并将用户标签主要包含合同号、标签序号、标签值的数据通过Phoenixjdbc接口写入到hbase里。Phoenix能基于sql的方式访问操作hbase里的数据，本申请实施例将合同号、标签序号作为hbase表的主键，一行数据值存储一个标签值，将Hive里宽表转换成hbase里的高表。

进一步地，基于上述生成的基础标签数据，本申请实施例可以配置标签规则，进行用户圈群，定义新的标签，这些都基于Phoenix的sql查询来实现。

需要说明的是，DataX是阿里开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(如MySQL、Oracle等)、HDFS、Hive、ODPS(OpenDataProcessingService，开发数据处理服务)、HBase、FTP(FileTransferProtocol，文件传输协议)等各种异构数据源之间稳定高效的数据同步功能；

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群，HBase是Apache的Hadoop项目的子项目，数据存储在HDFS上。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库；

Phoenix是一个Java中间层，可以让开发者在ApacheHBase上执行SQL查询。查询引擎可以SQL查询转换为一个或多个HBaseScan，并编排执行以生成标准的JDBC结果集。对于简单查询来说，其性能量级是毫秒，对于百万级别的行数来说，其性能量级是秒；

Redis是一个高性能的key-value数据库，能提供高并发，低延迟的查询写入能力。

可选地，在一些实施例中，还包括：以身份标识信息为索引，标签高表为树形存储至预设数据库中，以利用预设数据库执行标签数据服务的查询指令。

应当理解的是，虽然hbase也可以提供高并发、低延迟的查询，但是hbase容易出现抖动，在本申请进行标签计算，圈群的时候可能会影响对外的服务查询，本申请实施例可以将业务系统需要使用到的标签数据以合同号为key，标签集合为value的结构存储到redis中，对外提供更高效的查询服务能力。

此外，基于Phoenix+hbase实现这一块，本申请实施例可以用Elastic Search或者Clickhouse、doris其他高效的存储引擎来实现，对应的redis这一块也可以其他的高效缓存来替代，如Tendis，Tair，Memcached等。

为便于本领域技术人员进一步了解本申请实施例的用于燃气用户标签生成的方法，下面结合图2进行详细说明。

如图2所示，业务系统中一般可以包括有交易系统、商机系统、维保系统等，本申请实施例可以通过datax或者aqoop将业务系统的燃气用户数据采集到HDFS里，基于多个预设业务场景，利用Hadoop平台对燃气用户数据进行分析，得到每个燃气用户的多个标签宽表，从而确定每个标签宽表与每个燃气用户的身份标识之间的映射关系，然后由每个燃气用户的燃气用户标签生成标签高表，并基于标签高表及预设标签规则对每个燃气用户进行圈群，得到每个用户的管理信息，最终以身份标识信息为索引，标签高表为树形存储至预设数据库中，以利用预设数据库执行标签数据服务的查询指令。

根据本申请实施例提出的用于燃气用户标签生成的方法，可以将采集的燃气用户数据输入至Hadoop平台中，并基于至少一个预设业务场景，根据燃气用户数据中的个性化属性生成每个燃气用户的燃气用户标签，并由每个燃气用户的燃气用户标签生成标签高表，并基于标签高表及预设标签规则对每个燃气用户进行圈群，得到每个用户的管理信息。由此，解决了相关技术中基于关系型数据库的处理方法已无法满足现有业务数据存储和处理需求的问题，对外提供更高效的查询服务能力。

其次参照附图描述根据本申请实施例提出的用于燃气用户标签生成的装置。

图3是本申请实施例的用于燃气用户标签生成的装置的方框示意图。

如图3所示，该用于燃气用户标签生成的装置10包括：输入模块100、生成模块200和获取模块300。

其中，输入模块100用于将采集的燃气用户数据输入至Hadoop平台中；

生成模块200用于基于至少一个预设业务场景，根据燃气用户数据中的个性化属性生成每个燃气用户的燃气用户标签；以及

获取模块300用于由每个燃气用户的燃气用户标签生成标签高表，并基于标签高表及预设标签规则对每个燃气用户进行圈群，得到每个用户的管理信息。

可选地，生成模块，具体用于：

利用Hadoop平台对燃气用户数据进行分析，得到每个燃气用户的至少一个标签宽表；

确定每个标签宽表与每个燃气用户的身份标识之间的映射关系。

可选地，获取模块300具体用于：

基于至少一个标签宽表生成对应的标签序号；

根据至少一个标签宽表、身份标识、标签序号及对应的标签值得到每个用户的基础标签数据，并将基础标签数据写入Hadoop平台的分布式存储系统，生成标签高表。

可选地，获取模块300具体用于：

将身份标识信息和对应的标签序号作为存储表的主键，并将一行数据值存储为标签值，以将至少一个标签宽表转换成对应的标签高表。

可选地，还包括：

存储模块，用于以身份标识信息为索引，标签高表为树形存储至预设数据库中，以利用预设数据库执行标签数据服务的查询指令。

需要说明的是，前述对用于燃气用户标签生成的方法实施例的解释说明也适用于该实施例的用于燃气用户标签生成的装置，此处不再赘述。

根据本申请实施例提出的用于燃气用户标签生成的装置，可以将采集的燃气用户数据输入至Hadoop平台中，并基于至少一个预设业务场景，根据燃气用户数据中的个性化属性生成每个燃气用户的燃气用户标签，并由每个燃气用户的燃气用户标签生成标签高表，并基于标签高表及预设标签规则对每个燃气用户进行圈群，得到每个用户的管理信息。由此，解决了相关技术中基于关系型数据库的处理方法已无法满足现有业务数据存储和处理需求的问题中，对外提供更高效的查询服务能力。

图4为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。

处理器402执行程序时实现上述实施例中提供的用于燃气用户标签生成的方法。

进一步地，电子设备还包括：

通信接口403，用于存储器401和处理器402之间的通信。

存储器401，用于存放可在处理器402上运行的计算机程序。

存储器401可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器401、处理器402和通信接口403独立实现，则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器401、处理器402及通信接口403，集成在一块芯片上实现，则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。

处理器402可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的用于燃气用户标签生成的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于燃气用户标签生成的方法，其特征在于，包括以下步骤：

将采集的燃气用户数据输入至Hadoop平台中；

2.根据权利要求1所述的方法，其特征在于，所述根据所述燃气用户数据生成每个燃气用户的燃气用户标签，包括：

3.根据权利要求2所述的方法，其特征在于，所述由所述每个燃气用户的燃气用户标签生成标签高表，包括：

基于所述至少一个标签宽表生成对应的标签序号；

4.根据权利要求3所述的方法，其特征在于，所述生成所述标签高表，包括：

5.根据权利要求2-4任一项所述的方法，其特征在于，还包括：

6.一种用于燃气用户标签生成的装置，其特征在于，包括：

输入模块，用于将采集的燃气用户数据输入至Hadoop平台中；

7.根据权利要求6所述的装置，其特征在于，所述生成模块，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述获取模块，具体用于：

基于所述至少一个标签宽表生成对应的标签序号；

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-5任一项所述的用于燃气用户标签生成的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-5任一项所述的用于燃气用户标签生成的方法。