CN113407604A

CN113407604A - 数据整合方法、系统及计算机可读存储介质

Info

Publication number: CN113407604A
Application number: CN202110562395.4A
Authority: CN
Inventors: 廖星培; 陈慧; 吴开宇; 黄燕清; 郭水萍
Original assignee: SAIC GM Wuling Automobile Co Ltd
Current assignee: SAIC GM Wuling Automobile Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-09-17

Abstract

本发明公开了一种数据整合方法、系统及计算机可读存储介质，所述数据整合方法包括：获取各子系统的源数据；分别对所述各子系统的源数据进行标准化处理，得到标准化数据；对所述标准化数据进行数据清洗；对各子系统清洗后的标准化数据进行整合。本发明能够解决现有的多系统数据整合方法人工工作量大、处理效率较低的问题。

Description

数据整合方法、系统及计算机可读存储介质

技术领域

本发明涉及数据整合技术领域，尤其涉及一种数据整合方法、系统及计算机可读存储介质。

背景技术

随着企业发展及信息系统基础建设的升级，企业的数据可能会被分割在多个单一子系统中运行管理或者无法做全量数据迁移。因此，在需要对数据进行统计分析时，需从多个子系统中导出数据，然后通过人工方式对数据进行整合处理。上述方式需人工从多个子系统中导出数据，进而对数据进行处理，此人工方式对数据处理存在步骤繁琐、整合困难的问题，从而导致人工工作量大，处理效率较低。

发明内容

本发明的主要目的在于提供一种数据整合方法，旨在解决现有的多系统数据整合方法人工工作量大、处理效率较低的问题。

为实现上述目的，本发明提供一种数据整合方法，所述数据整合方法包括：

获取各子系统的源数据；

分别对所述各子系统的源数据进行标准化处理，得到标准化数据；

对所述标准化数据进行数据清洗；

对各子系统清洗后的标准化数据进行整合。

可选地，所述分别对所述各子系统的源数据进行标准化处理，得到标准化数据的步骤包括：

根据预设标准标签，分别检测所述各子系统的源数据的标签中是否存在非标准标签；

若所述源数据的标签中存在非标准标签，则将所述源数据中的非标准标签与所述预设标准标签进行匹配，得到对应的目标标准标签；

将所述源数据中的非标准标签替换为对应的目标标准标签，得到标准化数据。

可选地，所述对所述标准化数据进行数据清洗的步骤包括：

根据预设数据主键，检测所述标准化数据中各类数据的关键标准标签对应的标签值是否存在空缺；

若存在空缺，则将关键标准标签对应的标签值存在空缺的标准化数据删除。

可选地，所述对所述标准化数据进行数据清洗的步骤包括：

根据预设数据主键，检测同类数据中是否存在多个同一主体的标准化数据；

若存在，则判断所述多个同一主体的标准化数据中对应关键标准标签的标签值是否相同；

若不相同，将所述多个同一主体的标准化数据中对应的不同标签值取并集合并在对应关键标准标签中，并将所述多个同一主体数据对应的相同标签值取交集合并在对应关键标准标签中。

可选地，所述对所述标准化数据进行数据清洗的步骤包括：

检测所述标准化数据中的标签值是否存在异常名称或者异常格式；

若存在异常名称，则根据预设标准标签值，将所述标准化数据中的异常名称转换为对应的目标标准名称；

若存在异常格式，则根据预设标准标签值，将所述标准化数据中的异常格式转换为对应的目标标准格式。

可选地，所述对所述标准化数据进行数据清洗的步骤之前，还包括：

对所述源数据的标签进行统计，将统计结果发送至工作端；

接收所述工作端基于所述统计结果反馈的所述预设数据主键。

可选地，所述对各子系统清洗后的标准化数据进行整合的步骤包括：

获取各子系统清洗后的标准化数据的数据标识；

根据所述数据标识确定各子系统清洗后的标准化数据所属的类别；

根据确定得到的类别对各子系统清洗后的标准化数据进行整合。

可选地，所述数据整合方法还包括：

每隔预设时间获取各子系统的实时数据；

将所述实时数据与所述源数据进行比对，以检测各子系统是否存在新增数据；

若存在，则获取所述新增数据，并对所述新增数据进行标准化处理和数据清洗，得到处理后的新增数据；

根据所述处理后的新增数据对已整合的数据进行更新。

此外，为实现上述目的，本发明还提供一种数据整合系统，所述数据整合系统包括存储器、处理器、以及存储在所述存储器上并可在所述处理器上运行的数据整合程序，所述数据整合程序被处理器执行时实现如上述的数据整合方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据整合程序，所述数据整合程序被处理器执行时实现如上所述的数据整合方法的步骤。

本发明提供一种数据整合方法、系统及计算机可读存储介质。获取各子系统的源数据；分别对所述各子系统的源数据进行标准化处理，得到标准化数据；对所述标准化数据进行数据清洗；对各子系统清洗后的标准化数据进行整合。通过上述方式，当需要对多个子系统的数据进行整合分析时，通过从各子系统中获取数据，并对数据进行数据清洗和标准化处理，将处理完成后的各子系统数据整合分类统一输出，可实现数据自动化的导出和整合，相比于现有技术中人工进行多系统数据的处理，可显著提高数据处理效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明数据整合方法第一实施例的流程示意图；

图3为本发明数据整合方法第三实施例的流程示意图；

图4为本发明实施例方案涉及的一应用场景的系统示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以为PC(personal computer，个人计算机)，也可以是平板电脑、便携计算机、服务器等终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU(Central Processing Unit，中央处理器)，通信总线1002，网络接口1003，存储器1004。其中，通信总线1002用于实现这些组件之间的连接通信。网络接口1003可选的可以包括标准的有线接口(如USB接口)、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块以及数据整合程序。

在图1所示的终端中，网络接口1003主要用于连接各子系统，与各子系统进行数据通信；处理器1001可以用于调用存储器1004中存储的数据整合程序，并执行以下操作：

获取各子系统的源数据；

对所述标准化数据进行数据清洗；

对各子系统清洗后的标准化数据进行整合。

进一步地，处理器1001可以调用存储器1004中存储的数据整合程序，还执行以下操作：

若存在异常名称，则根据预设标准名称，将所述标准化数据中的异常名称转换为对应的目标标准名称；

若存在异常格式，则根据预设标准格式，将所述标准化数据中的异常格式转换为对应的目标标准格式。

对所述源数据的标签进行统计，将统计结果发送至工作端；

获取各子系统清洗后的标准化数据的数据标识；

每隔预设时间获取各子系统的实时数据；

根据所述处理后的新增数据对已整合的数据进行更新。

基于上述硬件结构，提出本发明数据整合方法各个实施例。

本发明提供一种数据整合方法。

参照图2，图2为本发明数据整合方法第一实施例的流程示意图。

在本实施例中，如图2，所述数据整合方法包括：

步骤S10，获取各子系统的源数据；

在本实施例中，该数据整合方法应用于数据整合系统，该数据整合系统可搭载于PC、平板电脑、便携计算机、服务器等终端设备中。

首先，获取各子系统的源数据，以基于购车意向用户数据的多系统数据整合为例，如图4，其中，数据整合系统可以为IT数据中台，子系统包括促销管理系统、骏客营销系统和CDMP(Customer Data Management Platform，用户数据管理平台)系统，获取促销管理系统、骏客营销系统和CDMP系统的意向用户源数据，为便于后续对数据的处理，将各子系统的数据分组存放在IT数据中台的ODS(Operational Data Store，操作数据存储)层。

在本实施例中，各子系统的源数据的获取过程可以为：通过ETL(ExtractTransform Load，数据仓库技术)和API(Application Programming Interface，应用程序接口)获取各子系统的源数据，当然，具体实施时也可以采用其他方式获取各子系统的源数据。

步骤S20，分别对所述各子系统的源数据进行标准化处理，得到标准化数据；

然后，分别对各子系统的源数据进行标准化处理，得到标准化数据。

进一步地，步骤S20包括：

步骤a21，根据预设标准标签，分别检测所述各子系统的源数据的标签中是否存在非标准标签；

根据预设标准标签，分别检测各子系统的源数据的标签中是否存在非标准标签，以促销管理系统为例，促销管理系统的源数据包括线索类、潜客类、客流类、试驾类、订单类五类源数据，根据促销管理系统中各类源数据对应的预设标准标签，分别检测各类源数据的标签中是否存在与对应预设标准标签不同的非标准标签。其中，预设标准标签为针对各类源数据(如：线索类、潜客类、客流类、试驾类、订单类)预先设定好的标准标签。

步骤a22，若所述源数据的标签中存在非标准标签，则将所述源数据中的非标准标签与所述预设标准标签进行匹配，得到对应的目标标准标签；

步骤a23，将所述源数据中的非标准标签替换为对应的目标标准标签，得到标准化数据。

若源数据的标签中存在非标准标签，则将检测到的源数据中存在的非标准标签与预设标准标签进行匹配，得到对应的目标标准标签，然后，将源数据中的非标准标签替换为对应的目标标准标签，得到标准化数据。

例如上述例中，在促销管理系统中，以线索类源数据为例，若检测到线索类源数据的标签中存在与对应线索类源数据的预设标准标签不同的非标准标签，则将该线索类源数据中的非标准标签与对应的预设标准标签进行匹配，得到对应的目标标准标签。将该线索类源数据中的非标准标签与对应的预设标准标签进行匹配的方式可以包括但不限于：1)将该非标准标签与对应的预设标准标签进行相似度匹配，将匹配得到的相似度最高的预设标准标签作为目标标准标签；2)对该非标准标签与对应的预设标准标签进行近义词匹配，得到对应的目标标准标签。例如，该线索类源数据中的非标准标签为“名称”，则将该“名称”标签与对应的预设标准标签中的标签进行相似度匹配或者近义词匹配，检测得出与该“名称”标签对应的目标标准标签为“姓名”标签。然后，将该非标准标签(“名称”标签)替换为对应的目标标准标签(“姓名”标签)。

在本实施例中，通过对数据进行标准化处理，将源数据中表示同一含义的标签名称进行统一，以便于后续的数据清洗步骤。

步骤S30，对所述标准化数据进行数据清洗；

对标准化数据进行数据清洗，数据清洗可以包括：删除关键标签值缺失的标准化数据、对同一主体的标准化数据进行合并去重、对异常标签值进行替换。具体的清洗过程可参照下述的第二实施例，此处不作赘述。

在本实施例中，各子系统的源数据可能会存在关键标签值缺失的脏数据或者大量的重复数据，因此对数据进行数据清洗去重，可提高整体数据整合结果的准确性，然后对数据进行同一结构输出，便于用户进行查询。

步骤S40，对各子系统清洗后的标准化数据进行整合。

最后，对各子系统清洗后的标准化数据进行整合。

进一步地，步骤S40包括：

步骤a41，获取各子系统清洗后的标准化数据的数据标识；

步骤a42，根据所述数据标识确定各子系统清洗后的标准化数据所属的类别；

获取各子系统清洗后的标准化数据的数据标识，根据数据标识确定各子系统清洗后的标准化数据所属的类别；其中，数据标识为各子系统标准化数据的分类标识，如促销管理系统的标准化数据中包括线索类、潜客类、客流类、试驾类、订单类，该五类数据分别标记有不同的数据标识。例如，在促销管理系统中，根据数据标识，确定促销管理系统清洗后的标准化数据所属的类别，比如，将数据标识为线索的标准化数据确定为线索类数据。

步骤a43，根据确定得到的类别对各子系统清洗后的标准化数据进行整合。

确定各子系统的标准化数据所属类别之后，根据确定得到的类别，对各子系统清洗后的标准化数据进行整合，将各子系统中属于同一类别的数据整合为一类，例如：将促销管理系统、骏客营销系统和CDMP系统中属于线索类的标准化数据整合为一类，以及将三个子系统中其他类别数据分别整合在一起，最后三个子系统可按分类整合得到五个分类数据集合。

在本实施例中，通过对各子系统清洗后的标准化数据按照分类进行整合，可便于业务人员对数据的分类查询。

进一步地，在数据整合完成后，可将整合后的数据通过预先建立好的数据获取渠道(用于为分析人员提供统一数据获取出口)输出在数据展示平台，以便于工作人员查看。

本发明提供一种数据整合方法、系统及计算机可读存储介质。获取各子系统的源数据；分别对所述各子系统的源数据进行标准化处理，得到标准化数据；对所述标准化数据进行数据清洗；对各子系统清洗后的标准化数据进行整合。通过上述方式，当需要对多个系统的数据进行整合分析时，通过从各子系统中获取数据，并对数据进行数据清洗、结构化和整合去重处理，将处理完成后的各子系统数据整合分类统一输出，可实现数据自动化的导出和整合，相比于现有技术中人工进行多系统数据的处理，可显著提高数据处理效率。

进一步地，基于上述第一实施例，提出本发明数据整合方法的第二实施例。

在本实施例中，步骤S30可以包括：

步骤a31，根据预设数据主键，检测所述标准化数据中各类数据的关键标准标签对应的标签值是否存在空缺；

步骤a32，若存在空缺，则将关键标准标签对应的标签值存在空缺的标准化数据删除。

根据预设数据主键，检测标准化数据中各类数据的关键标准标签对应的标签值是否存在空缺，例如：先从预设数据主键中获取线索类数据对应的数据主键，记为关键标准标签，然后检测标准化数据中线索类数据的对应关键标准标签(如姓名、电话号码、意向车型)的标签值是否存在空缺，若至少一个关键标准标签对应的标签值存在空缺，则将关键标准标签对应的标签值存在空缺的标准化数据删除。

在本实施例中，通过将关键标准标签对应的标签值存在空缺的标准化数据删除，实现了对缺少关键字段的脏数据的清除。

进一步地，步骤S30还可以包括：

步骤a33，根据预设数据主键，检测同类数据中是否存在多个同一主体的标准化数据；

根据预设数据主键，检测同类数据中是否存在多个同一主体的标准化数据。同一主体，是指同一用户，可用唯一确定同一用户的关键标准标签进行表征，例如身份证号、电话号码等标签，则同一主体为关键标准标签中电话号码的标签值相一致的用户，此时，根据预设数据主键中对应线索类数据的关键标准标签，检测线索类数据中是否存在多个同一电话号码标签值的标准化数据。

步骤a34，若存在，则判断所述多个同一主体的标准化数据中对应关键标准标签的标签值是否相同；

若存在，则判断多个同一主体的标准化数据中对应关键标准标签的标签值是否相同。例如上述例中，若存在多个同一电话号码的标准化数据，则判断该多个同一电话号码的标准数据中对应的关键标准标签的标签值是否相同。例如，在促销管理系统的线索类数据中存在两个同一电话号码的标准数据，则判断该两个标准数据中对应的关键标准标签(姓名、意向车型)的标签值是否相同。

步骤a35，若不相同，将所述多个同一主体的标准化数据中对应的不同标签值取并集合并在对应关键标准标签中，并将所述多个同一主体数据对应的相同标签值取交集合并在对应关键标准标签中。

若多个同一主体的标准化数据中对应关键标准标签的标签值中存在不相同的情况，将多个同一主体的标准化数据中对应的不同标签值取并集合并在对应关键标准标签中，并将多个同一主体数据对应的相同标签值取交集合并在对应关键标准标签中。再例如，若上述两个标准数据中对应的意向车型的标签值不相同，对应的姓名的标签值相同，将对应的意向车型的标签值取并集合并在对应意向车型的关键标准标签中，并对应的姓名的标签值取交集合并在对应姓名的关键标准标签中。

在本实施例中，由于一个主体可能在一个子系统中存有多个相同类别的数据，通过将多个同一主体的数据进行合并，避免保留多条重复数据，从而避免在数据量较大的情况下影响整体数据的统计结果。

进一步地，步骤S30还可以包括：

步骤a36，检测所述标准化数据中的标签值是否存在异常名称或者异常格式；

在本实施例中，根据业务规则设定一个标准名称库和标准格式库，检测标准化数据中的标签值是否存在与标准名称不同的异常名称或与标准格式不同的异常格式。其中，标准名称库为根据业务规则设定的各种标签值所对应的标准名称集合，标准格式库为根据业务规则设定的各种标签值所对应的标准格式集合。

步骤a37，若存在异常名称，则根据预设标准名称，将所述标准化数据中的异常名称转换为对应的目标标准名称；

步骤a38，若存在异常格式，则根据预设标准格式，将所述标准化数据中的异常格式转换为对应的目标标准格式。

若存在异常名称，则根据预设标准名称，将该异常名称与预设标准名称进行匹配，得到对应的目标标准名称，将标准化数据中的异常名称转换为对应的目标标准名称；若存在异常格式，则根据预设标准格式，将该异常名称与预设标准格式进行匹配，得到对应的目标标准格式，将标准化数据中的异常格式转换为对应的目标标准格式。其中，该匹配方式与上述非标准标签与对应的预设标准标签进行匹配的过程类似，当然，具体实施时，也可以采用其他的方式将异常格式或者异常名称进行转换。

本实施例中，通过上述方式，分别对各子系统的标准化数据进行清洗，清除脏数据，处理重复数据，便于提高整体数据整合结果的准确性。

进一步地，基于上述第二实施例，在上述步骤S30之前，该数据整合方法还包括：

步骤A，对所述源数据的标签进行统计，将统计结果发送至工作端；

步骤B，接收所述工作端基于所述统计结果反馈的所述预设数据主键。

在本实施例中，预设数据主键的建立过程如下：对各子系统的源数据的标签进行统计整合，得到各类数据中所包括的标签，进而将统计结果发送至工作端，工作端接收该统计结果之后，可使得工作人员基于该统计结果确定出预设数据主键，进而通过工作端将该预设数据主键反馈至数据整合系统。其中，预设数据主键为根据业务需求，对不同类别数据确定对应的关键标准标签，从而建立的预设数据主键，后续可根据不同类别数据对应的预设数据主键，对各类别数据进行数据清洗。例如：以对线索类数据的预设数据主键的构建为例，可对促销管理系统、骏客营销系统和CDMP系统3个子系统中线索类数据的标签进行统计，之后工作端基于该统计结果确定出关于线索类数据的关键标准标签(如：姓名、电话号码、意向车型)。同样的，对3个子系统中其他类数据的标签也分别进行统计，以供工作端基于统计结果确定出关于其他类数据的关键标准标签。最终，可基于各数据类别及其对应的关键标准标签，建立得到预设数据主键。

在本实施例中，通过建立预设数据主键，可便于在清洗的过程中，根据预设数据主键查询标准化数据对应的关键标准标签，从而进行清洗步骤。

进一步地，基于上述第一和第二实施例，提出本发明数据整合方法的第三实施例。

参照图3，图3为本发明数据整合方法第三实施例的流程示意图。

在本实施例中，在上述步骤S40之后，该数据整合方法还包括：

步骤S50，每隔预设时间获取各子系统的实时数据；

步骤S60，将所述实时数据与所述源数据进行比对，以检测各子系统是否存在新增数据；

步骤S70，若存在，则获取所述新增数据，并对所述新增数据进行标准化处理和数据清洗，得到处理后的新增数据；

步骤S80，根据所述处理后的新增数据对已整合的数据进行更新。

由于各系统数据会实时更新，因此每隔预设时间获取各子系统的实时数据，将实时数据与源数据进行比对，比对实时数据与源数据是否相同，以检测各子系统是否存在新增数据；若实时数据与源数据不相同，则存在新增数据，此时，获取新增数据。其中，新增数据的获取方式可以包括但不限于：1)将实时数据与源数据各条数据的日期进行比对，以获取源数据中不存在的日期所对应的数据，即为新增数据；2)将实时数据与源数据进行内容比对，得到与源数据不同的数据，即为新增数据。然后，对新增数据进行标准化处理和数据清洗，得到处理后的新增数据，其中，标准化处理和数据清洗的过程和上述对源数据进行标准化处理和数据清洗的过程一致。根据处理后的新增数据对已整合的数据进行更新，将处理后的新增数据按照分类整合至对应的已整合数据中。其中，若实时数据与源数据相同，则认为不存在新增数据。

本实施例中，通过上述方式，当各子系统更新录入新数据时，可及时对新增数据进行整合更新。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据整合程序，所述数据整合程序被处理器执行时实现如以上任一项实施例所述的数据整合方法的步骤。

本发明计算机可读存储介质的具体实施例与上述数据整合方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据整合方法，其特征在于，所述数据整合方法包括：

获取各子系统的源数据；

对所述标准化数据进行数据清洗；

对各子系统清洗后的标准化数据进行整合。

2.如权利要求1所述的数据整合方法，其特征在于，所述分别对所述各子系统的源数据进行标准化处理，得到标准化数据的步骤包括：

3.如权利要求1所述的数据整合方法，其特征在于，所述对所述标准化数据进行数据清洗的步骤包括：

4.如权利要求1所述的数据整合方法，其特征在于，所述对所述标准化数据进行数据清洗的步骤包括：

5.如权利要求1所述的数据整合方法，其特征在于，所述对所述标准化数据进行数据清洗的步骤包括：

6.如权利要求3至5中任一项所述的数据整合方法，其特征在于，所述对所述标准化数据进行数据清洗的步骤之前，还包括：

对所述源数据的标签进行统计，将统计结果发送至工作端；

7.如权利要求1至5中任一项所述的数据整合方法，其特征在于，所述对各子系统清洗后的标准化数据进行整合的步骤包括：

获取各子系统清洗后的标准化数据的数据标识；

8.如权利要求1至5中任一项所述的数据整合方法，其特征在于，所述数据整合方法还包括：

每隔预设时间获取各子系统的实时数据；

根据所述处理后的新增数据对已整合的数据进行更新。

9.一种数据整合系统，其特征在于，所述数据整合系统包括存储器、处理器、以及存储在所述存储器上并可在所述处理器上运行的数据整合程序，所述数据整合程序被处理器执行时实现如权利要求1至8中任一项所述的数据整合方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据整合程序，所述数据整合程序被处理器执行时实现如权利要求1至8中任一项所述的数据整合方法的步骤。