CN112527917A - 一种数据处理的方法和装置 - Google Patents

一种数据处理的方法和装置 Download PDF

Info

Publication number
CN112527917A
CN112527917A CN202011403225.3A CN202011403225A CN112527917A CN 112527917 A CN112527917 A CN 112527917A CN 202011403225 A CN202011403225 A CN 202011403225A CN 112527917 A CN112527917 A CN 112527917A
Authority
CN
China
Prior art keywords
data
star model
user entity
layer star
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011403225.3A
Other languages
English (en)
Inventor
乌晓红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Guangzhou Chengxingzhidong Automotive Technology Co., Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Guangzhou Chengxingzhidong Automotive Technology Co., Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd, Guangzhou Chengxingzhidong Automotive Technology Co., Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202011403225.3A priority Critical patent/CN112527917A/zh
Publication of CN112527917A publication Critical patent/CN112527917A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理的方法和装置,所述方法包括:预置双层星形模型;其中,双层星形模型包括第一层星形模型和第二层星形模型,第一层星形模型为第二层星形模型提供数据支持,第二层星形模型包括一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;在接收到基于一个或多个目标标签数据的用户分群请求时,根据一个多个目标标签数据,生成数据查询指令;按照数据查询指令,从第二层星形模型的一个或多个第二用户实体数据中,确定与一个或多个目标标签数据对应的一个或多个目标第二用户实体数据。通过本发明实施例,实现了基于双层星形模型的客户分群工具应用,降低了技术使用门槛,提高了数据需求的处理效率。

Description

一种数据处理的方法和装置
技术领域
本发明涉及数据处理领域,特别是涉及一种数据处理的方法和装置。
背景技术
在获取特定用户的用户信息时,通常需要从各个割裂的系统中进行查找,进而补充完整的用户信息,如从销售系统、售后系统等,耗费大量的成本处理数据,且各个系统的数据难以整合。
在现有技术中,可以将各个系统的数据打通并集成到数据仓库中,减少了数据处理的成本,但对于从数仓中获取用户数据,需要采用人工开发脚本以在数仓执行的方式,但这种方式存在一定的技术门槛,对非技术背景的业务人员很不友好,且业务需求的新增和变化非常快,新的数据统计需求不断提出,使得客户群相关统计任务量堆积,影响需求反馈效率,造成了数仓系统运行成本增大。
发明内容
鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种数据处理的方法和装置,包括:
一种数据处理的方法,所述方法包括:
预置双层星形模型;其中,所述双层星形模型包括第一层星形模型和第二层星形模型,所述第一层星形模型为所述第二层星形模型提供数据支持,所述第二层星形模型包括一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
在接收到基于一个或多个目标标签数据的用户分群请求时,根据所述一个多个目标标签数据,生成数据查询指令;
按照所述数据查询指令,从所述第二层星形模型的一个或多个第二用户实体数据中,确定与所述一个或多个目标标签数据对应的一个或多个目标第二用户实体数据。
可选地,所述第一层星形模型与所述第二层星形模型之间设置有映射关系,所述第一层星形模型中数据通过所述映射关系同步映射为所述第二层星形模型中数据。
可选地,所述第一层星形模型包括一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,所述预置双层星形模型,包括:
根据获取的一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建所述第一层星形模型;
按照所述映射关系,对所述第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
根据所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建第二层星形模型。
可选地,所述根据所述一个多个目标标签数据,生成数据查询指令,包括:
按照所述映射关系,确定所述一个或多个目标标签数据映射的一个或多个目标业务数据的标识;
根据所述一个或多个目标业务数据的标识和所述一个或多个目标标签数据,生成数据查询指令。
可选地,还包括:
获取标签配置数据;
按照所述标签配置数据,对所述第一层星形模型的一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行标签加工处理,得到所述第二层星形模型的一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据。
可选地,所述获取标签配置数据,包括:
获取标签需求信息;
根据所述标签需求信息,生成标签配置数据。
可选地,每个第一用户实体数据对应所述第一层星形模型中一主表,每个维度的业务数据对应所述第一层星形模型中与主表关联的维度表;
每个第二用户实体数据对应所述第二层星形模型中一主表,每个标签数据对应所述第二层星形模型中与主表关联的维度表。
一种数据处理的装置,所述装置包括:
双层星形模型预置模块,用于预置双层星形模型;其中,所述双层星形模型包括第一层星形模型和第二层星形模型,所述第一层星形模型为所述第二层星形模型提供数据支持,所述第二层星形模型包括一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
数据查询指令生成模块,用于在接收到基于一个或多个目标标签数据的用户分群请求时,根据所述一个多个目标标签数据,生成数据查询指令;
目标第二用户实体数据确定模块,用于按照所述数据查询指令,从所述第二层星形模型的一个或多个第二用户实体数据中,确定与所述一个或多个目标标签数据对应的一个或多个目标第二用户实体数据。
一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的数据处理的方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理的方法。
本发明实施例具有以下优点:
在本发明实施例中,通过预置双层星形模型,双层星形模型包括第一层星形模型和第二层星形模型,第一层星形模型为第二层星形模型提供数据支持,第二层星形模型包括一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,然后在接收到基于一个或多个目标标签数据的用户分群请求时,根据一个多个目标标签数据,生成数据查询指令,进而按照数据查询指令,从第二层星形模型的一个或多个第二用户实体数据中,确定与一个或多个目标标签数据对应的一个或多个目标第二用户实体数据,实现了基于双层星形模型的自定义客户分群工具应用,能够针对用户分群请求生成数据查询指令,进行确定标签数据对应的用户实体数据,降低了技术使用门槛,提高了数据需求的处理效率,具备灵活性、可扩展性、易用性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种星形模型示例的示意图;
图2是本发明一实施例提供的一种自定义客户群架构示例的示意图;
图3是本发明一实施例提供的一种数据处理的方法的步骤流程图;
图4是本发明一实施例提供的另一种数据处理的方法的步骤流程图;
图5是本发明一实施例提供的一种数据处理的装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在数据仓库中,数据模型可以围绕着星形模型和雪花模型来设计,由于星形模型在多维数据查询或分析中,可以通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能,即在有限数据冗余情况下能够实现更高的效率,且支持动态扩展维表,则本发明采用了星形模型进行设计。
星形模型是一种多维的数据关系,如图1,它可以由一个事实表和多个维表组成,多个维表可以与事实表直接连接,每个维表可以将一个维度作为主键,如维度可以为文字、时间等类型的数据,由全部维表的主键可以组合成事实表的主键。而事实表的非主键属性称为事实,其可以是数值或其它能够进行计算的数据。
通过星形模型的方式组织数据,可以按照不同的维度(事实表部分主键或全部主键),采用事实表中事实数据进行求和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算或分析,从而可以通过多个维度分析业务主题的情况。
在实际应用中,可以将“星形模型”的设计应用至自定义客户群架构,以构建一个双层的星形模型,如图2所示,双层的星形模型可以包括数仓层、转换层、展示层。
其中,数仓层可以具有实体-关系星形模型,其由客户实体表与多个维度表组成;展示层可以具有客户-标签星形模型,其是通过将“客户”作为主表,并围绕客户的标签设计不同维度以形成的星形模型,从而使得展示层具有星形模型的高效查询、灵活扩展的特性。上述两个星形模型可以各自分布于数仓层和展示层,属于不同的物理层。
而且,双层星形模型可以通过转换层(如关联逻辑Mapping层)实现相互之间的数据通信,可以将数仓层的星形模型映射至展示层的星形模型,如将数仓层“事实表-维度”数据映射至展示层“客户-标签”数据。
基于此,双层的星形模型能够具有“事实-维度表”灵活扩展的特性,随着业务需求的新增和变更,可以在原有主事实表的基础上,不改变总体结构,只需扩展维度表即可以支持业务维度的扩展;同时,星形模型具有少执行、效率高的特性,也能够支持更高效的满足客户需求,且通过维度映射,可以支持标签的灵活扩展。
参照图3,示出了本发明一实施例提供的一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤301,预置双层星形模型;其中,所述双层星形模型包括第一层星形模型和第二层星形模型,所述第一层星形模型为所述第二层星形模型提供数据支持,所述第二层星形模型包括一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
在客户分群的数据查询过程中,可以通过预置双层星形模型,该双层星形模型可以包括第一层星形模型和第二层星形模型,第一层星形模型可以为第二层星形模型提供数据支持,如第一层星形模型可以为实体-关系星形模型,第二层星形模型可以为客户-标签星形模型。
具体的,第一层星形模型可以包括一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,每个第一用户实体数据可以对应第一层星形模型中一主表,每个维度的业务数据可以对应第一层星形模型中与主表关联的维度表。
第二层星形模型可以包括一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,每个第二用户实体数据可以对应第二层星形模型中一主表,每个标签数据可以对应第二层星形模型中与主表关联的维度表。
第一层星形模型可以与第二层星形模型之间设置有映射关系,第一层星形模型中数据可以通过映射关系同步映射为第二层星形模型中数据。
在一示例中,第一层星形模型中数据可以存储于数据仓库,第二层星形模型中数据可以存储于关系型数据库,第一层星形模型和第二层星形模型可以各自分布于数仓层和展示层,属于不同的物理层。
在本发明一实施例中,步骤301可以包括如下子步骤:
子步骤11,根据获取的一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建所述第一层星形模型;
在具体实现中,可以根据获取的一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建第一层星形模型,如实体-关系星形模型,并可以将第一层星形模型中数据存储于数据仓库。
在一示例中,如图2所示,分布于数仓层的第一层星形模型可以由一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据组成,每个第一用户实体数据可以对应第一层星形模型中一主表(如客户实体表),每个维度的业务数据可以对应第一层星形模型中与主表关联的维度表(如不同维度表),其中,客户实体表可以与一个或多个维度表连接,其可以包括客户类型维度表、充电桩维度表、社区发帖维度表、社区评论维度表、维修履历维度表、车辆维度表、订单维度表等。
在又一示例中,可以通过获取源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,以为构建双层星形模型提供数据支持。
具体的,通过数据仓库中ODS层(Operational Data Store,操作数据存储)获取源数据,其可以作为源数据层存在于数据仓库体系结构中,数据仓库可以具有第一数据层、第二数据层,以及第三数据层,第一数据层可以用于存储源数据,第二数据层可以用于存储一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,第三数据层可以用于存储一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,第三数据层可以为关系型数据库提供数据支持。
在获取源数据后,可以对源数据进行预处理,如针对源数据的整理可以分为三步进行:源系统梳理、数据收集、数据加载,并可以确定该源数据所属的主题域,然后可以按照主题域,对源数据进行归类,进而可以对每个主题域中的源数据进行数据整合,得到一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据。
子步骤12,按照所述映射关系,对所述第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
在构建第一层星形模型后,可以按照第一层星形模型与第二层星形模型之间设置的映射关系,对第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,进而可以得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,即第一层星形模型中数据可以通过映射关系同步映射为第二层星形模型中数据。
在一示例中,如图2所示,可以通过转换层对分布于数仓层的第一层星形模型和分布于展示层的第二层星形模型进行映射,可以按照实体-关系与主体-关系的映射关系,将分布于数仓层的第一层星形模型中数据同步映射为分布于展示层的第二层星形模型中数据,也可以采用自然语言分词解析的数据处理方法,通过展示层调用分布于数仓层的第一层星形模型中数据。
子步骤13,根据所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建第二层星形模型。
在实际应用中,可以根据一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建第二层星形模型,如客户-标签星形模型,并可以将第二层星形模型中数据存储于关系型数据库。
在一示例中,如图2所示,分布于展示层的第二层星形模型可以由一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据组成,每个第二用户实体数据可以对应第二层星形模型中一主表(如客户实体表),每个标签数据(如该客户具有的标签)可以对应第二层星形模型中与主表关联的维度表。
其中,通过不同客户分群条件,可以得到多个客户群标签,其可以包括线索标签、社区标签、充电标签、投诉标签、敏感客户标签、车辆标签、订单标签、基础标签等,针对每一客户群标签,可以设置有客户群的标签信息,可以存储于客户群标签中。
在又一示例中,针对分布于展示层的第二层星形模型中每个标签数据,其可以对应有第二层星形模型中与主表关联的维度表,该维度表中可以具有该标签数据对应的标签信息,可以用于针对用户分群请求解析的SQL语句,通过SQL语句查询标签信息,可以确定与目标标签数据对应的目标第二用户实体数据。
步骤302,在接收到基于一个或多个目标标签数据的用户分群请求时,根据所述一个多个目标标签数据,生成数据查询指令;
在得到双层星形模型后,可以在接收到基于一个或多个目标标签数据的用户分群请求时,根据一个多个目标标签数据,生成数据查询指令,如可以通过解析用户分群请求,得到针对一个多个目标标签数据的SQL语句,以用于进行数据查询。
在实际应用中,基于双层星形模型的客户分群架构可以包括双层星形模型模块、数据处理模块,其中,双层星形模型可以作为底层支撑模块,其在数据转换处理扩展和客户标签分群灵活定制方面起到基础决定性作用;数据处理模块,可以具有针对模型层和展示层关联的作用,其通过基于模型定义Mapping加工处理数据,能够支撑展示层的数据内容。
步骤303,按照所述数据查询指令,从所述第二层星形模型的一个或多个第二用户实体数据中,确定与所述一个或多个目标标签数据对应的一个或多个目标第二用户实体数据。
在生成数据查询指令后,可以按照该数据查询指令,从第二层星形模型的一个或多个第二用户实体数据中,确定与一个或多个目标标签数据对应的一个或多个目标第二用户实体数据,以反馈针对客户分群的数据查询需求。
具体的,数据处理模块可以具备数据处理引擎功能,其可以将一个或多个第二用户实体数据对应的一个或多个标签数据推送至分布于展示层的客户-标签星形模型(即第二层星形模型),并可以针对展示层接收到的基于一个或多个目标标签数据的用户分群请求进行解析,通过查询返回用户分群请求对应的客户群数据集(即与一个或多个目标标签数据对应的一个或多个目标第二用户实体数据)。
在一示例中,数据处理模块还可以支持定时的数据处理任务,通过用户自定义选择待查询的目标标签后,可以通过解析得到标签对应的SQL脚本,进而可以生成多个可执行的SQL任务,进而可以采用数据引擎获取目标数据,并提供反馈和下载,不仅提高了数据需求的处理效率,还可以减少数据开发人员的重复工作量,使得无技术背景的业务人员也可以零门槛使用自定义客户分群工具。
在本发明实施例中,通过预置双层星形模型,双层星形模型包括第一层星形模型和第二层星形模型,第一层星形模型为第二层星形模型提供数据支持,第二层星形模型包括一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,然后在接收到基于一个或多个目标标签数据的用户分群请求时,根据一个多个目标标签数据,生成数据查询指令,进而按照数据查询指令,从第二层星形模型的一个或多个第二用户实体数据中,确定与一个或多个目标标签数据对应的一个或多个目标第二用户实体数据,实现了基于双层星形模型的自定义客户分群工具应用,能够针对用户分群请求生成数据查询指令,进行确定标签数据对应的用户实体数据,降低了技术使用门槛,提高了数据需求的处理效率,具备灵活性、可扩展性、易用性。
参照图4,示出了本发明一实施例提供的另一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤401,预置双层星形模型;其中,所述双层星形模型包括第一层星形模型和第二层星形模型,所述第一层星形模型为所述第二层星形模型提供数据支持,所述第二层星形模型包括一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,第一层星形模型与所述第二层星形模型之间设置有映射关系;
在本发明一实施例中,还可以包括如下步骤:
获取标签配置数据;按照所述标签配置数据,对所述第一层星形模型的一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行标签加工处理,得到所述第二层星形模型的一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据。
由于数据处理模块可以具备客户标签加工功能,通过获取客户、车辆和充电相关数据,并经过数据清洗、汇总,然后可以根据分布于数仓层的第一层星形模型,将客户、车辆和充电数据加工成相应的标签并进行存储,如为每个客户打上相应的标签,进而可以通过配置数据推送任务,采用Mapping关联推送数据,可以实现分布于数仓层的第一层星形模型向分布于展示层的第二层星形模型的数据同步推送。
在实际应用中,针对客户标签加工,可以通过获取标签配置数据,然后可以按照该标签配置数据,对第一层星形模型的一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行标签加工处理,进而可以得到第二层星形模型的一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,如可以针对每个客户打上相应的标签。
在本发明一实施例中,所述获取标签配置数据,可以包括如下子步骤:
获取标签需求信息;根据所述标签需求信息,生成标签配置数据。
在具体实现中,可以通过获取标签需求信息,进而可以根据标签需求信息,生成标签配置数据,以按照标签配置数据进行标签加工处理,得到第二层星形模型的一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据。
例如,可以采用如下方式进行客户标签加工:
1、可以获取基于业务来源的标签需求,其可以为单个标签需求,也可以为批量标签需求,如“充电焦虑”标签需求;
2、判断当前“标签体系”是否满足标签需求,该“标签体系”可以为按业务规则分类归纳的标签集合,通过在标签体系中检索标签需求,可以查看是否满足需求,若满足需求可以使用预设的标签,若不满足需求可以新建标签,如经过检索比对,“充电焦虑”标签不存在于现有标签体系中,则可以新建“充电焦虑”标签;
3、通过分析标签的需求,可以得到标签定义、加工口径以及数据源要求等信息,如“充电焦虑”标签可以归类至“充电类”标签体系中,并可以定义为量化客户对车辆充电的焦虑程度,其可以分4个挡位,即30%以下为低焦虑,30%~50%为中焦虑,50%~80%为高焦虑,80%以上为超高焦虑;加工口径可以为针对客户在过去一个月内的车辆充电内容,如充电SOC平均值(车辆当前电池电量剩余百分比),50%可以表示当前电池剩余50%;数据源要求可以为采集客户充电明细数据,如每次充电时车辆剩余电量;
4、通过数据源判断,在双层星形模型的第一层星形模型对应的数据结构中,可以查找是否具备所需的数据存储,若具备数据,则可以进行客户标签加工;若不具备数据,可以申请数据源接入的分支流程,如针对“充电焦虑”标签所需的客户充电明细数据,可以通过第一层星形模型对应的ODPS数据仓库申请接入相关数据;
5、通过数据源申请,可以申请相关业务数据进行接入,可以使用ODPS数据仓库对应的数据加载工具dataX(异构数据源离线同步工具)接入数据;
6、针对数据接入或清洗,如客户充电数据接入至数据仓库后,可以通过查询是否有重复数据、关键字和必填项为空的数据、数据格式是否正确、数据是否完整、是否存在乱码等,然后可以将充电明细数据与客户实体进行关联,其可以通过客户实体的关键属性UID进行关联,并可以检查是否存在未关联到客户实体的孤岛数据,以通过手机号等关键属性进行关联;
7、针对标签加工,在数据源具备后,可以按标签口径加工数据,并可以将标签加工脚本配置为定时任务,以定期执行更新数据,如针对车主近一个月的充电明细中充电SOC计算平均值,并可以分档归类,为每一个客户打上对应的标签;
8、最新加工的标签可以更新至标签体系库,加工后标签可以对应有标签相关信息,其可以包括标签分类、标签名称、标签加工口径、标签数据源等,如将“充电焦虑”标签归类至“充电类”标签,标签名称为“充电焦虑”,标签加工口径为客户近一个月充电明细中充电SCO平均值,数据源为充电业务源数据;
9、可以更新双层星形模型,即通过将标签与双层星形模型进行比对,可以更新标签加工时针对模型的调整内容、Mapping内容等,在实际数据处理过程中,可以根据需求对模型进行改动,如修改属性的类型,将“焦虑标签”在模型定义中的充电SOC平均值百分比类型,改为低、中、高、超高的枚举类型,以更符合实际需求,其对整体双层星形模型不造成影响;
10、可以刷新标签数据,即可以对ODPS数据仓库中加工后标签数据进行刷新,进而可以存储至展示层的客户-标签星形模型(即第二层星形模型),并可以按照Mapping映射(即映射关系),将数仓层“充电焦虑”客户标签数据的新建任务,推送至展示层的客户充电类标签表中。
步骤402,在接收到基于一个或多个目标标签数据的用户分群请求时,按照所述映射关系,确定所述一个或多个目标标签数据映射的一个或多个目标业务数据的标识;
在实际应用中,可以在接收到基于一个或多个目标标签数据的用户分群请求时,按照第一层星形模型与第二层星形模型之间设置的映射关系,进而可以确定一个或多个目标标签数据映射的一个或多个目标业务数据的标识,如第二层星形模型中标签数据对应的与主表关联的维度表标识。
步骤403,根据所述一个或多个目标业务数据的标识和所述一个或多个目标标签数据,生成数据查询指令;
在确定一个或多个目标业务数据的标识后,可以根据一个或多个目标业务数据的标识和一个或多个目标标签数据,生成数据查询指令,如可以根据第二层星形模型中目标标签数据对应的与主表关联的维度表标识和目标标签数据,生成用于数据查询的SQL语句。
步骤404,按照所述数据查询指令,从所述第二层星形模型的一个或多个第二用户实体数据中,确定与所述一个或多个目标标签数据对应的一个或多个目标第二用户实体数据。
在一示例中,通过数据处理模块的数据处理引擎功能,可以采用如下方式进行客户分群的数据查询:
1、可以新建数据分群任务,即用户可以在终端界面新建分群任务,如可以发起“获取9月份北京地区充电焦虑客户群”的数据查询任务;
2、可以配置筛选条件,即可以将客户分群需求拆解为客户标签粒度的条件,通过用户在终端界面的操作以确定筛选条件,并可以针对条件附上需求的具体值,进而可视化模块可以将UI化的“客户标签条件集合”转换为具体的数据库标签字段,如将“获取9月份北京地区充电焦虑客户群”拆分需求为:客户类型=车主,时间标签=9月,地点标签=北京,充电焦虑标签=(高,超高)等5个标签集合,即通过可视化模块UI组建可以将用户分群请求转换为标签集合;
3、可以定制执行计划,即可以选择客户分群任务立即执行,或定时执行,以在提交任务后等待返回结果,其可以通过数据处理引擎排队执行;
4、通过数据引擎判断任务队列中任务是否满足执行条件,若满足执行条件,可以将任务提交至第6步执行,若未满足执行条件,则该任务继续等待;
5、数据引擎扫描任务队列的频率可以通过参数配置,如配置为1秒一个扫描频次,也可以根据实际任务堆积情况和服务器负载情况进行动态配置;
6、采用双层星形模型中数据可以执行数据查询任务,可以将任务对应的标签集合进行标签对应的SQL语法解析,其可以根据双层星形模型的“逻辑关联mapping映射”(即映射关系)进行解析,并通过对相关SQL进行再重构,其可以根据双层星形模型的“客户分群公式Mapping”进行重构,如“获取9月份北京地区充电焦虑客户群”的标签集,可以采用“逻辑关联mapping映射”,将“cust_tag”标签映射为“客户实体表db_cust_userview_et”,“charge_time_tag”标签映射为“充电维度表db_charge_order_dim”,进而可以依次将标签映射的实体或维度表,解析为SQL语句,并可以根据“客户分群公式Mapping”判断标签之间是否存在互斥关系,若存在,则可以将SQL语句按互斥实体拆分为若干语句,针对多语句返回的结果,可以根据标签集的“且/或”关系进行合并,若不存在互斥关系则不用拆分,在完成后可以将SQL语句提交执行;
7、通过检查任务是否执行成功,在成功时可以返回客户群数据集(即一个或多个目标第二用户实体数据);
8、在任务失败后,可以将任务重新推送至“任务队列”进行重跑,并可以记录重跑次数,在达到“重跑阈值”后停止重跑,其参数可以按需求自定义;
9、在任务成功后,可以将针对用户分群请求查询得到的客户数据集反馈至终端页面;
10、终端界面可以提供客户数据集的下载导出和线上预览功能。
在实际应用中,基于双层星形模型的客户分群架构可以包括可视化模块,可视化模块可以作为用户交互层,其可以针对分布于展示层的第二层星形模型,对一个或多个标签数据进行可视化,也可以针对用户分群请求查询得到的客户数据集,将其反馈结果渲染至终端页面,使得业务人员可以直观获取自定义客户分群的查询数据,实现了构建灵活扩展的客户分群工具。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,示出了本发明一实施例提供的一种数据处理的装置的结构示意图,具体可以包括如下模块:
双层星形模型预置模块501,用于预置双层星形模型;其中,所述双层星形模型包括第一层星形模型和第二层星形模型,所述第一层星形模型为所述第二层星形模型提供数据支持,所述第二层星形模型包括一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
数据查询指令生成模块502,用于在接收到基于一个或多个目标标签数据的用户分群请求时,根据所述一个多个目标标签数据,生成数据查询指令;
目标第二用户实体数据确定模块503,用于按照所述数据查询指令,从所述第二层星形模型的一个或多个第二用户实体数据中,确定与所述一个或多个目标标签数据对应的一个或多个目标第二用户实体数据。
在本发明一实施例中,所述第一层星形模型与所述第二层星形模型之间设置有映射关系,所述第一层星形模型中数据通过所述映射关系同步映射为所述第二层星形模型中数据。
在本发明一实施例中,所述第一层星形模型包括一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,所述双层星形模型预置模块501,包括:
第一层星形模型构建子模块,用于根据获取的一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建所述第一层星形模型;
标签数据得到子模块,用于按照所述映射关系,对所述第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
第二层星形模型构建子模块,用于根据所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建第二层星形模型。
在本发明一实施例中,所述数据查询指令生成模块502,包括:
目标业务数据的标识确定子模块,用于按照所述映射关系,确定所述一个或多个目标标签数据映射的一个或多个目标业务数据的标识;
数据查询指令生成确定子模块,用于根据所述一个或多个目标业务数据的标识和所述一个或多个目标标签数据,生成数据查询指令。
在本发明一实施例中,还包括:
标签配置数据获取模块,用于获取标签配置数据;
标签加工模块,用于按照所述标签配置数据,对所述第一层星形模型的一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行标签加工处理,得到所述第二层星形模型的一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据。
在本发明一实施例中,所述标签配置数据获取模块包括:
标签需求信息获取子模块,用于获取标签需求信息;
标签配置数据生成子模块,用于根据所述标签需求信息,生成标签配置数据。
在本发明一实施例中,每个第一用户实体数据对应所述第一层星形模型中一主表,每个维度的业务数据对应所述第一层星形模型中与主表关联的维度表;
每个第二用户实体数据对应所述第二层星形模型中一主表,每个标签数据对应所述第二层星形模型中与主表关联的维度表。
在本发明实施例中,通过预置双层星形模型,双层星形模型包括第一层星形模型和第二层星形模型,第一层星形模型为第二层星形模型提供数据支持,第二层星形模型包括一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,然后在接收到基于一个或多个目标标签数据的用户分群请求时,根据一个多个目标标签数据,生成数据查询指令,进而按照数据查询指令,从第二层星形模型的一个或多个第二用户实体数据中,确定与一个或多个目标标签数据对应的一个或多个目标第二用户实体数据,实现了基于双层星形模型的自定义客户分群工具应用,能够针对用户分群请求生成数据查询指令,进行确定标签数据对应的用户实体数据,降低了技术使用门槛,提高了数据需求的处理效率,具备灵活性、可扩展性、易用性。
本发明一实施例还提供了一种电子设备,可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上数据处理的方法。
本发明一实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上数据处理的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对所提供的一种数据处理的方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据处理的方法,其特征在于,所述方法包括:
预置双层星形模型;其中,所述双层星形模型包括第一层星形模型和第二层星形模型,所述第一层星形模型为所述第二层星形模型提供数据支持,所述第二层星形模型包括一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
在接收到基于一个或多个目标标签数据的用户分群请求时,根据所述一个多个目标标签数据,生成数据查询指令;
按照所述数据查询指令,从所述第二层星形模型的一个或多个第二用户实体数据中,确定与所述一个或多个目标标签数据对应的一个或多个目标第二用户实体数据。
2.根据权利要求1所述的方法,其特征在于,所述第一层星形模型与所述第二层星形模型之间设置有映射关系,所述第一层星形模型中数据通过所述映射关系同步映射为所述第二层星形模型中数据。
3.根据权利要求2所述的方法,其特征在于,所述第一层星形模型包括一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,所述预置双层星形模型,包括:
根据获取的一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建所述第一层星形模型;
按照所述映射关系,对所述第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
根据所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建第二层星形模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述一个多个目标标签数据,生成数据查询指令,包括:
按照所述映射关系,确定所述一个或多个目标标签数据映射的一个或多个目标业务数据的标识;
根据所述一个或多个目标业务数据的标识和所述一个或多个目标标签数据,生成数据查询指令。
5.根据权利要求1或2或3或4所述的方法,其特征在于,还包括:
获取标签配置数据;
按照所述标签配置数据,对所述第一层星形模型的一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行标签加工处理,得到所述第二层星形模型的一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据。
6.根据权利要求5所述的方法,其特征在于,所述获取标签配置数据,包括:
获取标签需求信息;
根据所述标签需求信息,生成标签配置数据。
7.根据权利要求3所述的方法,其特征在于,每个第一用户实体数据对应所述第一层星形模型中一主表,每个维度的业务数据对应所述第一层星形模型中与主表关联的维度表;
每个第二用户实体数据对应所述第二层星形模型中一主表,每个标签数据对应所述第二层星形模型中与主表关联的维度表。
8.一种数据处理的装置,其特征在于,所述装置包括:
双层星形模型预置模块,用于预置双层星形模型;其中,所述双层星形模型包括第一层星形模型和第二层星形模型,所述第一层星形模型为所述第二层星形模型提供数据支持,所述第二层星形模型包括一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
数据查询指令生成模块,用于在接收到基于一个或多个目标标签数据的用户分群请求时,根据所述一个多个目标标签数据,生成数据查询指令;
目标第二用户实体数据确定模块,用于按照所述数据查询指令,从所述第二层星形模型的一个或多个第二用户实体数据中,确定与所述一个或多个目标标签数据对应的一个或多个目标第二用户实体数据。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据处理的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理的方法。
CN202011403225.3A 2020-12-04 2020-12-04 一种数据处理的方法和装置 Pending CN112527917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011403225.3A CN112527917A (zh) 2020-12-04 2020-12-04 一种数据处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011403225.3A CN112527917A (zh) 2020-12-04 2020-12-04 一种数据处理的方法和装置

Publications (1)

Publication Number Publication Date
CN112527917A true CN112527917A (zh) 2021-03-19

Family

ID=74998329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011403225.3A Pending CN112527917A (zh) 2020-12-04 2020-12-04 一种数据处理的方法和装置

Country Status (1)

Country Link
CN (1) CN112527917A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527919A (zh) * 2020-12-04 2021-03-19 广州橙行智动汽车科技有限公司 一种数据处理的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120179644A1 (en) * 2010-07-09 2012-07-12 Daniel Paul Miranker Automatic Synthesis and Presentation of OLAP Cubes from Semantically Enriched Data Sources
US20130173528A1 (en) * 2011-12-29 2013-07-04 International Business Machines Corporation Multi-fact query processing in data processing system
CN105787052A (zh) * 2016-02-26 2016-07-20 广州品唯软件有限公司 数据处理模型建立方法及基于数据处理模型数据筛选方法
CN105913188A (zh) * 2016-04-13 2016-08-31 苏州大成电子科技有限公司 一种rfid供应链的多维管理系统及方法
CN109902100A (zh) * 2019-01-31 2019-06-18 平安科技(深圳)有限公司 报表查询方法、装置及存储介质
CN112015754A (zh) * 2019-05-30 2020-12-01 阿里巴巴集团控股有限公司 数据查询方法、装置与系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120179644A1 (en) * 2010-07-09 2012-07-12 Daniel Paul Miranker Automatic Synthesis and Presentation of OLAP Cubes from Semantically Enriched Data Sources
US20130173528A1 (en) * 2011-12-29 2013-07-04 International Business Machines Corporation Multi-fact query processing in data processing system
CN105787052A (zh) * 2016-02-26 2016-07-20 广州品唯软件有限公司 数据处理模型建立方法及基于数据处理模型数据筛选方法
CN105913188A (zh) * 2016-04-13 2016-08-31 苏州大成电子科技有限公司 一种rfid供应链的多维管理系统及方法
CN109902100A (zh) * 2019-01-31 2019-06-18 平安科技(深圳)有限公司 报表查询方法、装置及存储介质
CN112015754A (zh) * 2019-05-30 2020-12-01 阿里巴巴集团控股有限公司 数据查询方法、装置与系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527919A (zh) * 2020-12-04 2021-03-19 广州橙行智动汽车科技有限公司 一种数据处理的方法和装置

Similar Documents

Publication Publication Date Title
CN108038222B (zh) 用于信息系统建模和数据访问的实体-属性框架的系统
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN104239340B (zh) 搜索结果筛选方法与装置
CN104794242B (zh) 一种搜索方法
CN111506621B (zh) 一种数据统计方法及装置
CN110647512B (zh) 一种数据存储和分析方法、装置、设备和可读介质
CN103425740B (zh) 一种面向物联网的基于语义聚类的物资信息检索方法
CN112396462B (zh) 基于Clickhouse的人群圈选方法及装置
CN111191111A (zh) 内容推荐方法、装置及存储介质
CN108280082A (zh) 一种统计数据的即席查询方法及系统
CN112527920A (zh) 一种数据处理的方法和装置
CN113032420A (zh) 数据查询方法、装置和服务器
CN111666344A (zh) 异构数据同步方法及装置
CN111160699A (zh) 一种专家推荐方法及系统
CN112527918A (zh) 一种数据处理的方法和装置
CN101901277A (zh) 一种基于用户情景的动态本体建模方法及系统
CN112527917A (zh) 一种数据处理的方法和装置
US11630854B2 (en) Segmenting users with sparse data utilizing hash partitions
Hoang et al. Dashboard by-example: A hypergraph-based approach to on-demand data warehousing systems
CN114817226A (zh) 政府数据的处理方法及装置
CN101159049A (zh) 一种动态配置列的方法和系统
EP4002151A1 (en) Data tagging and synchronisation system
CN113342844A (zh) 工业智能搜索系统
CN113360517A (zh) 数据处理方法、装置、电子设备及存储介质
CN112527919A (zh) 一种数据处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination