CN112732841B - 一种数据处理的方法和装置 - Google Patents

一种数据处理的方法和装置 Download PDF

Info

Publication number
CN112732841B
CN112732841B CN202011406979.4A CN202011406979A CN112732841B CN 112732841 B CN112732841 B CN 112732841B CN 202011406979 A CN202011406979 A CN 202011406979A CN 112732841 B CN112732841 B CN 112732841B
Authority
CN
China
Prior art keywords
data
user entity
layer
star model
entity data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011406979.4A
Other languages
English (en)
Other versions
CN112732841A (zh
Inventor
乌晓红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Guangzhou Chengxingzhidong Automotive Technology Co., Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Guangzhou Chengxingzhidong Automotive Technology Co., Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd, Guangzhou Chengxingzhidong Automotive Technology Co., Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202011406979.4A priority Critical patent/CN112732841B/zh
Publication of CN112732841A publication Critical patent/CN112732841A/zh
Application granted granted Critical
Publication of CN112732841B publication Critical patent/CN112732841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理的方法和装置,所述方法包括:获取源数据,并根据源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据;根据一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型;对第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;根据一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建双层星形模型中第二层星形模型,提高了处理效率。

Description

一种数据处理的方法和装置
技术领域
本发明涉及数据处理领域,特别是涉及一种数据处理的方法和装置。
背景技术
在获取特定用户的用户信息时,通常需要从各个割裂的系统中进行查找,进而补充完整的用户信息,如从销售系统、售后系统等,耗费大量的成本处理数据,且各个系统的数据难以整合。
在现有技术中,可以将各个系统的数据打通并集成到数据仓库中,减少了数据处理的成本,但对于从数仓中获取用户数据,需要采用人工开发脚本以在数仓执行的方式,但这种方式存在一定的技术门槛,对非技术背景的业务人员很不友好,且业务需求的新增和变化非常快,新的数据统计需求不断提出,使得客户群相关统计任务量堆积,影响需求反馈效率,造成了数仓系统运行成本增大。
发明内容
鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种数据处理的方法和装置,包括:
一种数据处理的方法,所述方法包括:
获取源数据,并根据所述源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据;
根据所述一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型;
对所述第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
根据所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建双层星形模型中第二层星形模型。
可选地,还包括:
响应于基于一个或多个目标标签数据的用户分群请求,从所述第二层星形模型的一个或多个第二用户实体数据中,确定与所述一个或多个目标标签数据对应的一个或多个目标第二用户实体数据。
可选地,所述第一层星形模型与所述第二层星形模型之间设置有映射关系,所述第一层星形模型中数据通过所述映射关系同步映射为所述第二层星形模型中数据。
可选地,所述根据所述源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,包括:
确定所述源数据所属的主题域;
按照所述主题域,对所述源数据进行归类;
对每个主题域中的源数据进行数据整合,得到一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据。
可选地,所述数据整合的方式包括以下任一种或多种:
对字段名称进行规范化、对数据结构进行规范化、过滤重复数据、筛选存在冲突的数据。
可选地,在所述根据所述源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据之前,还包括:
对所述源数据进行预处理。
可选地,所述第一层星形模型中数据存储于数据仓库,所述第二层星形模型中数据存储于关系型数据库。
可选地,所述数据仓库具有第一数据层、第二数据层,以及第三数据层,所述第一数据层用于存储所述源数据,所述第二数据层用于存储所述一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,所述第三数据层用于存储所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,所述第三数据层为所述关系型数据库提供数据支持。
一种数据处理的装置,所述装置包括:
源数据获取模块,用于获取源数据,并根据所述源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据;
第一层星形模型构建模块,用于根据所述一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型;
标签数据得到模块,用于对所述第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
第二层星形模型构建模块,用于根据所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建双层星形模型中第二层星形模型。
一种服务器,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的数据处理的方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理的方法。
本发明实施例具有以下优点:
在本发明实施例中,通过获取源数据,并根据源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,然后根据一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型,对第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,进而根据一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建双层星形模型中第二层星形模型,实现了基于双层星形模型构建自定义客户分群工具,提高了数据需求的处理效率,使得无技术背景的业务人员也可以零门槛使用自定义客户分群工具,具备灵活性、可扩展性、易用性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种星形模型示例的示意图;
图2是本发明一实施例提供的一种自定义客户群架构示例的示意图;
图3是本发明一实施例提供的一种数据处理的方法的步骤流程图;
图4是本发明一实施例提供的一种数据架构示例的示意图;
图5是本发明一实施例提供的另一种数据处理的方法的步骤流程图;
图6是本发明一实施例提供的另一种数据处理的方法的步骤流程图;
图7是本发明一实施例提供一种的数据处理的装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在数据仓库中,数据模型可以围绕着星形模型和雪花模型来设计,由于星形模型在多维数据查询或分析中,可以通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能,即在有限数据冗余情况下能够实现更高的效率,且支持动态扩展维表,则本发明采用了星形模型进行设计。
星形模型是一种多维的数据关系,如图1,它可以由一个事实表和多个维表组成,多个维表可以与事实表直接连接,每个维表可以将一个维度作为主键,如维度可以为文字、时间等类型的数据,由全部维表的主键可以组合成事实表的主键。而事实表的非主键属性称为事实,其可以是数值或其它能够进行计算的数据。
通过星形模型的方式组织数据,可以按照不同的维度(事实表部分主键或全部主键),采用事实表中事实数据进行求和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算或分析,从而可以通过多个维度分析业务主题的情况。
在实际应用中,可以将“星形模型”的设计应用至自定义客户群架构,以构建一个双层的星形模型,如图2所示,双层的星形模型可以包括数仓层、转换层、展示层。
其中,数仓层可以具有实体-关系星形模型,其由客户实体表与多个维度表组成;展示层可以具有客户-标签星形模型,其是通过将“客户”作为主表,并围绕客户的标签设计不同维度以形成的星形模型,从而使得展示层具有星形模型的高效查询、灵活扩展的特性。上述两个星形模型可以各自分布于数仓层和展示层,属于不同的物理层。
而且,双层星形模型可以通过转换层(如关联逻辑Mapping层)实现相互之间的数据通信,可以将数仓层的星形模型映射至展示层的星形模型,如将数仓层“事实表-维度”数据映射至展示层“客户-标签”数据。
基于此,双层的星形模型能够具有“事实-维度表”灵活扩展的特性,随着业务需求的新增和变更,可以在原有主事实表的基础上,不改变总体结构,只需扩展维度表即可以支持业务维度的扩展;同时,星形模型具有少执行、效率高的特性,也能够支持更高效的满足客户需求,且通过维度映射,可以支持标签的灵活扩展。
参照图3,示出了本发明一实施例提供的一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤301,获取源数据,并根据所述源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据;
在构建双层星形模型的过程中,可以通过获取源数据,并可以根据源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,以为构建双层星形模型提供数据支持。
在实际应用中,可以通过数据仓库中ODS层(Operational Data Store,操作数据存储)获取源数据,其可以作为源数据层存在于数据仓库体系结构中,例如,数据仓库可以具有第一数据层、第二数据层,以及第三数据层,第一数据层可以用于存储源数据。
步骤302,根据所述一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型;
在实际应用中,可以根据得到的一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型,如第一层星形模型可以为实体-关系星形模型。
具体的,在第一层星形模型中,每个第一用户实体数据可以对应第一层星形模型中一主表,每个维度的业务数据可以对应第一层星形模型中与主表关联的维度表。
在一示例中,如图2所示,分布于数仓层的第一层星形模型可以由一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据组成,每个第一用户实体数据可以对应第一层星形模型中一主表(如客户实体表),每个维度的业务数据可以对应第一层星形模型中与主表关联的维度表(如不同维度表),其中,客户实体表可以与一个或多个维度表连接,其可以包括客户类型维度表、充电桩维度表、社区发帖维度表、社区评论维度表、维修履历维度表、车辆维度表、订单维度表等。
步骤303,对所述第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
在构建第一层星形模后,可以对第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,进而可以得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,如可以通过预设映射关系,将第一层星形模型中数据按照映射关系进行同步映射,以得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据。
例如,双层星形模型中第一层星形模型可以具有多个充电的明细数据,如具体字段:车架号、充电起始时间、充钱起始电量、充电耗时、充电结束时间、充电结束电量等,但这些明细数据无法直观的说明一个客户的充电偏好,则可以加工出针对客户的充电SOC(State of charge,荷电状态)偏好标签。
通过参照mapping定义的转换逻辑进行加工,可以采用mapping描述充电SOC转换逻辑为过去30天充电SOC的平均值,然后可以参照设置的mapping逻辑,查到到一个客户过去30天内所有充电的明细数据,进而可以通过对充电SOC字段值进行平均处理,得到一个客户充电SOC偏好标签。
步骤304,根据所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建双层星形模型中第二层星形模型。
在实际应用中,可以根据一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建第二层星形模型,如客户-标签星形模型。
具体的,在第二层星形模型中,每个第二用户实体数据可以对应第二层星形模型中一主表,每个标签数据可以对应第二层星形模型中与主表关联的维度表。
在一示例中,如图2所示,分布于展示层的第二层星形模型可以由一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据组成,每个第二用户实体数据可以对应第二层星形模型中一主表(如客户实体表),每个标签数据(如该客户具有的标签)可以对应第二层星形模型中与主表关联的维度表。
其中,通过不同客户分群条件,可以得到多个客户群标签,其可以包括线索标签、社区标签、充电标签、投诉标签、敏感客户标签、车辆标签、订单标签、基础标签等,针对每一客户群标签,可以设置有客户群的标签信息,可以存储于客户群标签中。
在又一示例中,针对分布于展示层的第二层星形模型中每个标签数据,其可以对应有第二层星形模型中与主表关联的维度表,该维度表中可以具有该标签数据对应的标签信息,可以用于针对用户分群请求解析的SQL语句,通过SQL语句查询标签信息,可以确定与目标标签数据对应的目标第二用户实体数据。
例如,以充电业务为例,可以采用如下方式构建针对充电业务的双层星形模型:
1、可以将客户主表与车辆维表、充电维表、家充桩维表以及充电桩维修表组成数仓层的实体-关系星形模型(即第一层星形模型);
2、可以将客户与车辆标签、充电标签、家充桩标签、充电维修标签组成展示层的客户-标签星形模型(即第二层星形模型);
3、可以通过Mapping映射将两层星形模型进行关联,形成双层星形模型,Mapping关联方式可以包括“客户标签字段Mapping”、“逻辑关联Mapping”,“互斥关联”。
针对构建的双层星形模型,其第一层星形模型可以与第二层星形模型之间设置有映射关系,第一层星形模型中数据可以通过映射关系同步映射为第二层星形模型中数据,进而第一层星形模型可以为第二层星形模型提供数据支持。
在一示例中,第一层星形模型中数据可以存储于数据仓库,第二层星形模型中数据可以存储于关系型数据库,第一层星形模型和第二层星形模型可以各自分布于数仓层和展示层,属于不同的物理层。
针对数据仓库,其可以具有第一数据层、第二数据层,以及第三数据层,其中,第一数据层可以用于存储源数据,第二数据层可以用于存储一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,第三数据层可以用于存储一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,该第三数据层可以为关系型数据库提供数据支持。
具体的,如图4所示,基于双层星形模型的自定义客户分群的整体数据架构可以由源系统层、ODPS数据仓库层、展示层三个结构组成,其中,源系统层可以包括客户相关的业务系统,如官方渠道、用户中心、CRM系统、售后OAS系统、APP、社区、充电管理平台、金融系统、客服系统等,其可以提供数据来源。
ODPS数据仓库层可以进行数据收集、加载、清洗以及处理,其可以具有ODS层-源数据层(即第一数据层),用于存储源数据;DP层-共享数据平台层(即第二数据层),用于存储双层星形模型中第一层星形模型的数据;UP层-客户标签集成层(即第三数据层),用于存储双层星形模型中第二层星形模型的数据,并可以为关系型数据库提供数据支持。
展示层可以为针对客户标签的可视化工具,其可以为双层星形模型中第二层星形模型,可以存储有第二层星形模型(如客户-标签星形模型)的数据,其数据来源可以包括数据仓库层的UP层和人工打标签的数据。
在本发明实施例中,通过获取源数据,并根据源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,然后根据一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型,对第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,进而根据一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建双层星形模型中第二层星形模型,实现了基于双层星形模型构建自定义客户分群工具,提高了数据需求的处理效率,使得无技术背景的业务人员也可以零门槛使用自定义客户分群工具,具备灵活性、可扩展性、易用性。
参照图5,示出了本发明一实施例提供的另一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤501,获取源数据,对所述源数据进行预处理;
在实际应用中,可以通过获取源数据,并可以对该源数据进行预处理,如针对源数据的整理可以分为三步进行:源系统梳理、数据收集、数据加载。
针对源系统梳理,其可以通过客户流量数据、客户线索数据、客户商机数据、准车主数据、车主数据、售后服务数据进行客户相关数据收集,以完善双层星形模型中第一层星形模型(如实体-关系星形模型)的结构数据。
针对数据收集,其可以通过指定统一的数据收集模板,然后可以下发至相关系统,以按照数据收集模板提供详细的数据结构,进而可以进行统一配置,编写数据加载脚本。
针对数据加载,其可以在收集完成相关源系统的数据结构,并具有相关数据加载权限后,开始进行源数据加载,可以通过使用ODPS数据仓库对应的数据加载工具dataX(异构数据源离线同步工具)加载数据,可以将源系统数据通过数据同步工具抽取到数据仓库中,并可以经过抽取、加载、转换、清洗处理,得到原始数据,进而可以保存至数据仓库的ODS源数据层,以支持数据仓库的数据汇总及数据统计。
步骤502,根据所述源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据;
步骤503,根据所述一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型;
步骤504,对所述第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
步骤505,根据所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建双层星形模型中第二层星形模型;
步骤506,响应于基于一个或多个目标标签数据的用户分群请求,从所述第二层星形模型的一个或多个第二用户实体数据中,确定与所述一个或多个目标标签数据对应的一个或多个目标第二用户实体数据。
在得到双层星形模型后,可以响应于基于一个或多个目标标签数据的用户分群请求,进而可以从第二层星形模型的一个或多个第二用户实体数据中,确定与一个或多个目标标签数据对应的一个或多个目标第二用户实体数据,以反馈针对客户分群的数据查询需求。
例如,可以通过可视化UI,在页面上采用拖拽的方式选择查询条件,并可以得到基于一个或多个目标标签数据的用户分群请求,如需要获取北京地区充电焦虑客户群,则可以选择查询条件为充电焦虑标签SOC值大于50%,并将地域标签拖拽到操作区以选择北京,进而可以通过点击“执行”按钮,即可获取北京地区充电焦虑客户群的数据。
在一示例中,通过响应于基于一个或多个目标标签数据的用户分群请求,如由客户标签、车辆标签和充电标签组成的标签语音公式,该标签语音公式可以表示为“获取2010年9月份充电soc标签大于50%的充电焦虑客户群”,可以进行解析处理,进而可以解析为数据库对应的脚本语言,并可以优化脚本后反馈结果给展示层。
参照图6,示出了本发明一实施例提供的另一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤601,获取源数据,并确定所述源数据所属的主题域;
在双层星形模型的数仓层数据存储过程中,可以通过获取源数据,并可以确定该源数据所属的主题域。
其中,主题域可以为一抽象概念,其是在较高层次上将系统中的数据综合、归类并进行分析利用的抽象,每一个主题域可以对应一个宏观的分析领域所涉及的分析对象,主题域中包含的数据可以为联系较为紧密的数据集合,如针对客户相关的主题域。
步骤602,按照所述主题域,对所述源数据进行归类;
在确定源数据所属的主题域后,可以按照该主题域,对源数据进行归类,例如,可以通过将客户相关数据分为客户域、营销域、车辆域、充电与、客服域以及社区域,进而可以将数据仓库中ODS层数据归类至相应的主题域。
在一示例中,可以从数据仓库ODS层依照数据整合的原则,将源数据加载至数据仓库DP层中不同主题域,其中,ODS层为贴源的各源系统数据,其与源系统基本相同;DP层为共享数据层,其可以按照标准数仓方式对源数据进行轻量级的汇总集成,从而可以为应用层提供准确的、完整的、可信任的基础数据支持,通过将所有业务数据汇集至数据仓库存储,能够方便管理数据和使用数据。
步骤603,对每个主题域中的源数据进行数据整合,得到一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据;
在对源数据进行归类后,可以对每个主题域中的源数据进行数据整合,进而可以得到一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据。
具体的,在源数据按照主题域进行归类后,可以进行详细的数据整合,通过针对不同数据源中数据的整合,可以对外提供统一的数据视图,数据整合的本质为整合数据源,其可以针对多个数据源中字段的语义差异、结构差异、字段间的关联关系,以及数据的冗余重复进行数据整合,并整合至一个数据库中。
作为一示例,数据整合的方式可以包括以下任一种或多种:
对字段名称进行规范化、对数据结构进行规范化、过滤重复数据、筛选存在冲突的数据。
在一示例中,可以从数据仓库的DP层,根据业务规则进行数据加载、汇总至数据仓库的UP层,该UP层可以为根据客户标签的高共用和高复用特性进行设计的星形汇总结构表,针对业务规则,其可以为根据企业实际处理业务所总结归纳出的可量化规则,或者业界标准指标公式等组成的细则,在定义业务规则后,可以按照双层星形模型中第一层星形模型,如实体-关系星形模型的数据结构,将数据加工并存储到UP层;数据仓库的DP层可以为客户标签集成层,其可以用于存储经过加工的标签数据和加工标签后的客户数据,可以将DP层再加工的标签数据存储至UP层。
在一示例中,为避免出现两个业务线得出的客户标签不一致,可以将高复用的客户标签存储在双层星形模型中第一层星形模型数据结构的“客户实体表”中。
步骤604,根据所述一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型;
步骤605,对所述第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
步骤606,根据所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建双层星形模型中第二层星形模型。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图7,示出了本发明一实施例提供的一种数据处理的装置的结构示意图,具体可以包括如下模块:
源数据获取模块701,用于获取源数据,并根据所述源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据;
第一层星形模型构建模块702,用于根据所述一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型;
标签数据得到模块703,用于对所述第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;
第二层星形模型构建模块704,用于根据所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建双层星形模型中第二层星形模型。
在本发明一实施例中,还包括:
目标第二用户实体数据确定模块,用于响应于基于一个或多个目标标签数据的用户分群请求,从所述第二层星形模型的一个或多个第二用户实体数据中,确定与所述一个或多个目标标签数据对应的一个或多个目标第二用户实体数据。
在本发明一实施例中,所述第一层星形模型与所述第二层星形模型之间设置有映射关系,所述第一层星形模型中数据通过所述映射关系同步映射为所述第二层星形模型中数据。
在本发明一实施例中,所述源数据获取模块701包括:
主题域确定子模块,用于确定所述源数据所属的主题域;
源数据归类子模块,用于按照所述主题域,对所述源数据进行归类;
数据整合子模块,用于对每个主题域中的源数据进行数据整合,得到一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据。
在本发明一实施例中,所述数据整合的方式包括以下任一种或多种:
对字段名称进行规范化、对数据结构进行规范化、过滤重复数据、筛选存在冲突的数据。
在本发明一实施例中,还包括:
源数据预处理模块,用于对所述源数据进行预处理。
在本发明一实施例中,所述第一层星形模型中数据存储于数据仓库,所述第二层星形模型中数据存储于关系型数据库。
在本发明一实施例中,所述数据仓库具有第一数据层、第二数据层,以及第三数据层,所述第一数据层用于存储所述源数据,所述第二数据层用于存储所述一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,所述第三数据层用于存储所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,所述第三数据层为所述关系型数据库提供数据支持。
在本发明实施例中,通过获取源数据,并根据源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,然后根据一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型,对第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,进而根据一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建双层星形模型中第二层星形模型,实现了基于双层星形模型构建自定义客户分群工具,提高了数据需求的处理效率,使得无技术背景的业务人员也可以零门槛使用自定义客户分群工具,具备灵活性、可扩展性、易用性。
本发明一实施例还提供了一种服务器,可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上数据处理的方法。
本发明一实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上数据处理的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对所提供的一种数据处理的方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种数据处理的方法,其特征在于,所述方法包括:
获取源数据,并根据所述源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据;
根据所述一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型;
对所述第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射及加工,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;其中,所述标签数据还包括:用户偏好标签;
根据所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建双层星形模型中第二层星形模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
响应于基于一个或多个目标标签数据的用户分群请求,从所述第二层星形模型的一个或多个第二用户实体数据中,确定与所述一个或多个目标标签数据对应的一个或多个目标第二用户实体数据。
3.根据权利要求1所述的方法,其特征在于,所述第一层星形模型与所述第二层星形模型之间设置有映射关系,所述第一层星形模型中数据通过所述映射关系同步映射为所述第二层星形模型中数据。
4.根据权利要求1或2或3所述的方法,其特征在于,所述根据所述源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,包括:
确定所述源数据所属的主题域;
按照所述主题域,对所述源数据进行归类;
对每个主题域中的源数据进行数据整合,得到一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据。
5.根据权利要求4所述的方法,其特征在于,所述数据整合的方式包括以下任一种或多种:
对字段名称进行规范化、对数据结构进行规范化、过滤重复数据、筛选存在冲突的数据。
6.根据权利要求1所述的方法,其特征在于,在所述根据所述源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据之前,还包括:
对所述源数据进行预处理。
7.根据权利要求1所述的方法,其特征在于,所述第一层星形模型中数据存储于数据仓库,所述第二层星形模型中数据存储于关系型数据库。
8.根据权利要求7所述的方法,其特征在于,所述数据仓库具有第一数据层、第二数据层,以及第三数据层,所述第一数据层用于存储所述源数据,所述第二数据层用于存储所述一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,所述第三数据层用于存储所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,所述第三数据层为所述关系型数据库提供数据支持。
9.一种数据处理的装置,其特征在于,所述装置包括:
源数据获取模块,用于获取源数据,并根据所述源数据,确定一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据;
第一层星形模型构建模块,用于根据所述一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据,构建双层星形模型中第一层星形模型;
标签数据得到模块,用于对所述第一层星形模型中一个或多个第一用户实体数据及每个第一用户实体数据对应的一个或多个维度的业务数据进行映射及加工,得到一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据;其中,所述标签数据还包括:用户偏好标签;
第二层星形模型构建模块,用于根据所述一个或多个第二用户实体数据及每个第二用户实体数据对应的一个或多个标签数据,构建双层星形模型中第二层星形模型。
10.一种服务器,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据处理的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的数据处理的方法。
CN202011406979.4A 2020-12-04 2020-12-04 一种数据处理的方法和装置 Active CN112732841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011406979.4A CN112732841B (zh) 2020-12-04 2020-12-04 一种数据处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011406979.4A CN112732841B (zh) 2020-12-04 2020-12-04 一种数据处理的方法和装置

Publications (2)

Publication Number Publication Date
CN112732841A CN112732841A (zh) 2021-04-30
CN112732841B true CN112732841B (zh) 2024-07-19

Family

ID=75599181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011406979.4A Active CN112732841B (zh) 2020-12-04 2020-12-04 一种数据处理的方法和装置

Country Status (1)

Country Link
CN (1) CN112732841B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913188A (zh) * 2016-04-13 2016-08-31 苏州大成电子科技有限公司 一种rfid供应链的多维管理系统及方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2429907A1 (en) * 2003-05-27 2004-11-27 Cognos Incorporated Modelling of a multi-dimensional data source in an entity-relationship model
CN101197876B (zh) * 2006-12-06 2012-02-29 中兴通讯股份有限公司 一种对消息类业务数据进行多维分析的方法和系统
US9495429B2 (en) * 2010-07-09 2016-11-15 Daniel Paul Miranker Automatic synthesis and presentation of OLAP cubes from semantically enriched data sources
US9298787B2 (en) * 2011-11-09 2016-03-29 International Business Machines Corporation Star and snowflake schemas in extract, transform, load processes
CN103679309B (zh) * 2012-09-13 2017-11-03 国网湖北省电力公司 一种电力数据仓库业务智能统计分析方法
CN103631911B (zh) * 2013-11-27 2017-11-03 中国人民大学 基于数组存储和向量处理的olap查询处理方法
CN108520008A (zh) * 2018-03-15 2018-09-11 链家网(北京)科技有限公司 数据仓库模型的构建方法及构建装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913188A (zh) * 2016-04-13 2016-08-31 苏州大成电子科技有限公司 一种rfid供应链的多维管理系统及方法

Also Published As

Publication number Publication date
CN112732841A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN110618983B (zh) 基于json文档结构的工业大数据多维分析与可视化方法
Hui et al. Data mining for customer service support
CN110674228A (zh) 数据仓库模型构建和数据查询方法、装置及设备
CN110007913A (zh) 可视化的数据处理流程设置方法、装置、设备及存储介质
CN109739878B (zh) 大数据查询方法、装置、服务器及存储介质
CN105139281A (zh) 一种电力营销大数据的处理方法及系统
CN110647512B (zh) 一种数据存储和分析方法、装置、设备和可读介质
CN103425740B (zh) 一种面向物联网的基于语义聚类的物资信息检索方法
CN106066895A (zh) 一种智能查询系统
CN113722383A (zh) 一种基于时序情报调查装置及方法
CN112527920A (zh) 一种数据处理的方法和装置
CN104281891A (zh) 一种时间序列数据挖掘方法及系统
CN116450908B (zh) 基于数据湖的自助式数据分析方法、装置和电子设备
CN106897898A (zh) 一种电商平台智能赠送的方法及系统
CN115309749A (zh) 一种用于科技服务的大数据实验系统
CN112435022B (zh) 基于用户实时数据的动态检索系统、及方法
CN112527918A (zh) 一种数据处理的方法和装置
CN112732841B (zh) 一种数据处理的方法和装置
CN110826845A (zh) 一种多维组合成本分摊装置及方法
CN116204728A (zh) 一种基于大数据处理的协同过滤智能推荐系统
Chereja et al. Operationalizing analytics with NewSQL
CN114911769A (zh) 支持自定义动态标签构建的数据管理方法和系统
CN114358812A (zh) 一种基于运维大数据的多维度电力营销分析方法及系统
CN113342844A (zh) 工业智能搜索系统
CN113886465A (zh) 一种用于汽车物流的大数据分析平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant