CN106708873A

CN106708873A - 数据整合方法和装置

Info

Publication number: CN106708873A
Application number: CN201510784834.0A
Authority: CN
Inventors: 李梦溪
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-11-16
Filing date: 2015-11-16
Publication date: 2017-05-24

Abstract

本申请公开了一种数据整合方法和装置。其中，该方法包括：获取待整合的第一监测数据和第二监测数据，判断第一监测数据和第二监测数据之间是否存在内容相同的字段，在判断第一监测数据和第二监测数据之间存在内容相同的字段时，利用内容相同的字段对第一监测数据和第二监测数据进行整合。本申请解决了由于现有技术中对监测数据进行简单拼接造成监测数据本质上仍是零散的数据的技术问题。

Description

数据整合方法和装置

技术领域

本申请涉及数据处理领域，具体而言，涉及一种数据整合方法和装置。

背景技术

近年来，互联网飞速发展，对互联网的数据监测，成为对网络行为分析的重点。由于监测工具的不同，监测的对象的差异等导致网络监测的数据指标和维度存在差异。然而，在网络行为分析过程中，也要把监测数据联合起来进行分析，获得用户从前至后一系列互联网行为的表现，因此，需要先对各个方面的监测数据进行整合。数据整合是数据分析的基础。

现有的数据整合通常是对数据的简单拼接，而这种简单拼接在一定程度上，并不能让我们充分利用所有的数据，其得到的数据本质上还是零散的，这使得数据分析师在进行数据分析时，难以对这些数据相关联，以进行整体分析。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数据整合方法和装置，以至少解决由于现有技术中对监测数据进行简单拼接造成监测数据本质上仍是零散的数据的技术问题。

根据本申请实施例的一个方面，提供了一种数据整合方法，包括：获取待整合的第一监测数据和第二监测数据；判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段；以及在判断所述第一监测数据和所述第二监测数据之间存在内容相同的字段时，利用内容相同的字段对所述第一监测数据和所述第二监测数据进行整合。

进一步地，判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段包括：以所述第一监测数据中的字段作为索引，在所述第二监测数据中进行查询；在查询到与所述第一监测数据中的字段相同的字段时，确定所述第一监测数据和所述第二监测数据之间存在内容相同的字段。

进一步地，获取待整合的第一监测数据和第二监测数据包括：根据业务需求选择需要导出的监测数据，其中，所述监测数据包括所述第一监测数据和所述第二监测数据；确定所述第一监测数据所在的数据库，以及所述第二监测数据所在的数据库；从所述第一监测数据所在的数据库中获取所述第一监测数据，从所述第二监测数据所在的数据库获取所述第二监测数据；在利用内容相同的字段对所述第一监测数据和所述第二监测数据进行整合之后，所述方法还包括：导出整合后的数据。

进一步地，在根据业务需求选择需要导出的监测数据之后，以及判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段之前，所述方法还包括：判断所述第一监测数据与所述第二监测数据是否来自同一数据库；在判断出判断所述第一监测数据与所述第二监测数据来自不同数据库时，判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段；在判断出判断所述第一监测数据与所述第二监测数据来自同一数据库时，直接导出所述第一监测数据和所述第二监测数据。

进一步地，所述方法还包括：在判断所述第一监测数据和所述第二监测数据之间不存在内容相同的字段时，导出所述第一监测数据和所述第二监测数据。

根据本申请实施例的另一方面，还提供了一种数据整合装置，包括：获取单元，用于获取待整合的第一监测数据和第二监测数据；第一判断单元，用于判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段；以及整合单元，用于在判断所述第一监测数据和所述第二监测数据之间存在内容相同的字段时，利用内容相同的字段对所述第一监测数据和所述第二监测数据进行整合。

进一步地，所述第一判断单元包括：查询模块，用于以所述第一监测数据中的字段作为索引，在所述第二监测数据中进行查询；第一确定模块，用于在查询到与所述第一监测数据中的字段相同的字段时，确定所述第一监测数据和所述第二监测数据之间存在内容相同的字段。

进一步地，所述获取单元包括：选择模块，用于根据业务需求选择需要导出的监测数据，其中，所述监测数据包括所述第一监测数据和所述第二监测数据；第二确定模块，用于确定所述第一监测数据所在的数据库，以及所述第二监测数据所在的数据库；获取模块，用于从所述第一监测数据所在的数据库中获取所述第一监测数据，从所述第二监测数据所在的数据库获取所述第二监测数据；所述装置还包括：导出单元，用于在利用内容相同的字段对所述第一监测数据和所述第二监测数据进行整合之后，导出整合后的数据。

进一步地，所述装置还包括：第二判断单元，用于在根据业务需求选择需要导出的监测数据之后，以及判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段之前，判断所述第一监测数据与所述第二监测数据是否来自同一数据库；其中，所述第一判断单元用于在判断出判断所述第一监测数据与所述第二监测数据来自不同数据库时，判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段；所述导出单元用于在判断出判断所述第一监测数据与所述第二监测数据来自同一数据库时，直接导出所述第一监测数据和所述第二监测数据。

进一步地，所述导出单元用于在判断所述第一监测数据和所述第二监测数据之间不存在内容相同的字段时，导出所述第一监测数据和所述第二监测数据。

根据本申请实施例，通过获取待整合的第一监测数据和第二监测数据，判断第一监测数据和第二监测数据之间是否存在内容相同的字段，在判断第一监测数据和第二监测数据之间存在内容相同的字段时，利用内容相同的字段对第一监测数据和第二监测数据进行整合，从而将不同的监测数据基于内容相同的字段进行整合，这样，可以通过整合后的监测数据进行数据分析，相对现有技术中的简单拼接，本申请的技术方案更能能够体现数据之间的联系，便于对数据进行整体分析，解决了由于现有技术中对监测数据进行简单拼接造成监测数据本质上仍是零散的数据的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的数据整合方法的流程图；

图2是根据本申请优选实施例的数据整合方法的流程图；

图3是根据本申请实施例的数据整合装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种数据整合方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的数据整合方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取待整合的第一监测数据和第二监测数据。

可选地，步骤S102可以是获取待整合的多个监测数据，该多个监测数据包括第一监测数据和第二监测数据。本实施例中，第一监测数据可以是对第一类维度和指标进行监测的一份数据，第二监测数据可以是对第二类维度和指标进行监测的一份数据，二者可以是对不同对象进行监测得到的监测数据，或者是对同一对象的不同指标进行监测得到的监测数据。上述多个监测数据还可以包括第三监测数据、第四监测数据……、第N监测数据(其中N为大于零)其整合原理同第一监测数据与第二监测数据的整合。

步骤S104，判断第一监测数据和第二监测数据之间是否存在内容相同的字段。

具体地，可以是将第一监测数据中的字段作为索引，在第二监测数据中查询，如果查询到相同的字段，则存在内容相同的字段，反之，则没有。也可以是将第一监测数据中的字段与第二监测数据中的字段进行匹配，匹配到，则存在相同内容的字段。

步骤S106，在判断第一监测数据和第二监测数据之间存在内容相同的字段时，利用内容相同的字段对第一监测数据和第二监测数据进行整合。在判断第一监测数据和第二监测数据之间不存在内容相同的字段时，导出所述第一监测数据和所述第二监测数据。

由于监测数据存在通常都存在多个维度，因此各监测数据之间可能存在监测的维度相同，即内容相同的字段，但是指标数据不同的情况。本申请实施例中，当需要整合第一监测数据和第二监测数据时，获取该第一监测数据和第二监测数据，并判断二者之间是否存在内容相同的字段，如表1和表2所示，其中，维度ID的值相同，表示其对应的内容相同。如果需要将表1和表2的数据整合时，判断二者之间是否存在内容相同的字段，由表1和表2可知，字段“维度ID”的内容相同，因此，可以基于该内容相同的字段将二者整合成一份数据。

表1

维度ID	曝光	点击
			1	100	3
2	120	5

表2

维度ID	点击率
		1	3.00％
2	2.50％

优选地，判断第一监测数据和第二监测数据之间是否存在内容相同的字段包括：以第一监测数据中的字段作为索引，在第二监测数据中进行查询；如果查询到与第一监测数据中的字段相同的字段时，确定第一监测数据和第二监测数据之间存在内容相同的字段。

本申请实施例中，以第一监测数据中的字段作为索引，在第二监测数据中进行查询，如果查询到相同的字段，则认为该字段为第一监测数据和第二监测数据中内容相同的字段；如果未查询到相同的字段，则用下一个字段进行查询，直到查询到内容相同的字段为止。如果都未查询到相同的字段，则表明第一监测数据和第二监测数据之间不存在内容相同的字段。

优选地，获取待整合的第一监测数据和第二监测数据包括：根据业务需求选择需要导出的监测数据，其中，监测数据包括第一监测数据和第二监测数据；确定第一监测数据所在的数据库，以及第二监测数据所在的数据库；从第一监测数据所在的数据库中获取第一监测数据，从第二监测数据所在的数据库获取第二监测数据；在利用内容相同的字段对第一监测数据和第二监测数据进行整合之后，方法还包括：导出整合后的数据。

本申请实施例中，对于待整合的监测数据，需要根据需求来确定，例如，当需要分析全国用户使用微博的情况时，可以从记录有全国各省份的微博用户的监测数据的服务器上分别提取出监测数据，以进行整合。在将获取到监测数据之后，对监测数据进行整合，并导出整合后的数据以便于分析人员对整合后的数据进行数据分析和解读。

优选地，在根据业务需求选择需要导出的监测数据之后，以及判断第一监测数据和第二监测数据之间是否存在内容相同的字段之前，方法还包括：判断第一监测数据与第二监测数据是否来自同一数据库；在判断出判断第一监测数据与第二监测数据来自不同数据库时，判断第一监测数据和第二监测数据之间是否存在内容相同的字段；在判断出判断第一监测数据与第二监测数据来自同一数据库时，直接导出第一监测数据和第二监测数据。

本申请实施例中，在根据业务需求选择需要导出的监测数据即第一监测数据和第二监测数据后，判断二者是否来自同一数据库，若二者来自同一数据库，则无需进行数据整合，可以直接导出数据；反之，则进行内容相同的字段的判断过程。

由于数据分析过程中，数据的选择具有不确定性，因此，通过预先判断数据的来源，可以避免不必要的性能损耗。

需要说明的是，本申请实施例中，整合的监测数据还可以包括第三监测数据、第四监测数据、……，其中，无论是两份监测数据的整合还是多份数据的整合，其原理相同，均在本申请的保护范围内，这里并没有不当限定。

下面以数据源A和数据源B为例并结合图2来描述本申请实施例中的一种可选实施方式，其中数据源A和数据源B均为监测数据。如图2所示，包括：

步骤S202，根据业务需求选择需导出的监测数据，包括数据源A和数据源B。

步骤S204，判断监测数据是否来自于同一数据库。如果是，则执行步骤S210，反之，执行步骤S206。

步骤S206，判断是否有相同匹配字段。如果有，则执行步骤S208，反之，则执行步骤S210。具体地，先从数据源A和数据源B中分别提取相应的数据，提取的数据中需包含内容相同的可用来做整合的匹配字段[C]。

步骤S208，根据相同匹配字段对数据进行整合。通过[C]整合A和B的数据，得到最终的整合结果D。

步骤S210，导出整合后的数据。导出整合后的数据D，以便于工作人员运用D来进行数据分析和解读。

用户在进行“数据整合”时，只需要参与步骤S202中数据源的选择和步骤S206中的[C]字段的指定即可，只要做了这两项配置，即可导出整合后的数据，便于普通的分析师分析和解读数据，加快数据分析的效率和准确性。

本申请实施例还提供了一种数据整合装置，该装置可以用于执行本申请实施例的数据整合方法，如图3所示，该装置包括：获取单元10、第一判断单元20和整合单元30。

获取单元10用于获取待整合的第一监测数据和第二监测数据。

可选地，获取单元10可以用于获取待整合的多个监测数据，该多个监测数据包括第一监测数据和第二监测数据。

本实施例中，第一监测数据可以是对第一类维度和指标进行监测的一份数据，第二监测数据可以是对第二类维度和指标进行监测的一份数据，二者可以是对不同对象进行监测得到的监测数据，或者是对同一对象的不同指标进行监测得到的监测数据。上述多个监测数据还可以包括第三监测数据、第四监测数据……、第N监测数据(其中N为大于零)其整合原理同第一监测数据与第二监测数据的整合。

第一判断单元20用于判断第一监测数据和第二监测数据之间是否存在内容相同的字段。

整合单元30用于在判断第一监测数据和第二监测数据之间存在内容相同的字段时，利用内容相同的字段对第一监测数据和第二监测数据进行整合。

由于监测数据存在通常都存在多个维度，因此各监测数据之间可能存在监测的维度相同，即内容相同的字段，但是指标数据不同的情况。本申请实施例中，当需要整合第一监测数据和第二监测数据时，获取该第一监测数据和第二监测数据，并判断二者之间是否存在内容相同的字段，如表1和表2所示，其中，维度I D的值相同，表示其对应的内容相同。如果需要将表1和表2的数据整合时，判断二者之间是否存在内容相同的字段，由表1和表2可知，字段“维度I D”的内容相同，因此，可以基于该内容相同的字段将二者整合成一份数据。

优选地，第一判断单元包括：查询模块，用于以第一监测数据中的字段作为索引，在第二监测数据中进行查询；第一确定模块，用于在查询到与第一监测数据中的字段相同的字段时，确定第一监测数据和第二监测数据之间存在内容相同的字段。

优选地，获取单元包括：选择模块，用于根据业务需求选择需要导出的监测数据，其中，监测数据包括第一监测数据和第二监测数据；第二确定模块，用于确定第一监测数据所在的数据库，以及第二监测数据所在的数据库；获取模块，用于从第一监测数据所在的数据库中获取第一监测数据，从第二监测数据所在的数据库获取第二监测数据；装置还包括：导出单元，用于在利用内容相同的字段对第一监测数据和第二监测数据进行整合之后，导出整合后的数据。

优选地，装置还包括：第二判断单元，用于在根据业务需求选择需要导出的监测数据之后，以及判断第一监测数据和第二监测数据之间是否存在内容相同的字段之前，判断第一监测数据与第二监测数据是否来自同一数据库；其中，第一判断单元用于在判断出判断第一监测数据与第二监测数据来自不同数据库时，判断第一监测数据和第二监测数据之间是否存在内容相同的字段；导出单元用于在判断出判断第一监测数据与第二监测数据来自同一数据库时，直接导出第一监测数据和第二监测数据。

进一步地，导出单元用于在判断第一监测数据和第二监测数据之间不存在内容相同的字段时，导出第一监测数据和第二监测数据。

所述数据整合装置包括处理器和存储器，上述获取单元10、第一判断单元20和整合单元30等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来整合监测数据。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取待整合的第一监测数据和第二监测数据，判断第一监测数据和第二监测数据之间是否存在内容相同的字段，在判断第一监测数据和第二监测数据之间存在内容相同的字段时，利用内容相同的字段对第一监测数据和第二监测数据进行整合。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据整合方法，其特征在于，包括：

获取待整合的第一监测数据和第二监测数据；

判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段；以及

在判断所述第一监测数据和所述第二监测数据之间存在内容相同的字段时，利用内容相同的字段对所述第一监测数据和所述第二监测数据进行整合。

2.根据权利要求1所述的方法，其特征在于，判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段包括：

以所述第一监测数据中的字段作为索引，在所述第二监测数据中进行查询；

在查询到与所述第一监测数据中的字段相同的字段时，确定所述第一监测数据和所述第二监测数据之间存在内容相同的字段。

3.根据权利要求1所述的方法，其特征在于，

获取待整合的第一监测数据和第二监测数据包括：根据业务需求选择需要导出的监测数据，其中，所述监测数据包括所述第一监测数据和所述第二监测数据；确定所述第一监测数据所在的数据库，以及所述第二监测数据所在的数据库；从所述第一监测数据所在的数据库中获取所述第一监测数据，从所述第二监测数据所在的数据库获取所述第二监测数据；

在利用内容相同的字段对所述第一监测数据和所述第二监测数据进行整合之后，所述方法还包括：导出整合后的数据。

4.根据权利要求3所述的方法，其特征在于，在根据业务需求选择需要导出的监测数据之后，以及判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段之前，所述方法还包括：

判断所述第一监测数据与所述第二监测数据是否来自同一数据库；

在判断出判断所述第一监测数据与所述第二监测数据来自不同数据库时，判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段；

在判断出判断所述第一监测数据与所述第二监测数据来自同一数据库时，直接导出所述第一监测数据和所述第二监测数据。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在判断所述第一监测数据和所述第二监测数据之间不存在内容相同的字段时，导出所述第一监测数据和所述第二监测数据。

6.一种数据整合装置，其特征在于，包括：

获取单元，用于获取待整合的第一监测数据和第二监测数据；

第一判断单元，用于判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段；以及

整合单元，用于在判断所述第一监测数据和所述第二监测数据之间存在内容相同的字段时，利用内容相同的字段对所述第一监测数据和所述第二监测数据进行整合。

7.根据权利要求6所述的装置，其特征在于，所述第一判断单元包括：

查询模块，用于以所述第一监测数据中的字段作为索引，在所述第二监测数据中进行查询；

第一确定模块，用于在查询到与所述第一监测数据中的字段相同的字段时，确定所述第一监测数据和所述第二监测数据之间存在内容相同的字段。

8.根据权利要求6所述的装置，其特征在于，

所述获取单元包括：选择模块，用于根据业务需求选择需要导出的监测数据，其中，所述监测数据包括所述第一监测数据和所述第二监测数据；第二确定模块，用于确定所述第一监测数据所在的数据库，以及所述第二监测数据所在的数据库；获取模块，用于从所述第一监测数据所在的数据库中获取所述第一监测数据，从所述第二监测数据所在的数据库获取所述第二监测数据；

所述装置还包括：导出单元，用于在利用内容相同的字段对所述第一监测数据和所述第二监测数据进行整合之后，导出整合后的数据。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二判断单元，用于在根据业务需求选择需要导出的监测数据之后，以及判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段之前，判断所述第一监测数据与所述第二监测数据是否来自同一数据库；

其中，所述第一判断单元用于在判断出判断所述第一监测数据与所述第二监测数据来自不同数据库时，判断所述第一监测数据和所述第二监测数据之间是否存在内容相同的字段；

所述导出单元用于在判断出判断所述第一监测数据与所述第二监测数据来自同一数据库时，直接导出所述第一监测数据和所述第二监测数据。

10.根据权利要求8所述的装置，其特征在于，

所述导出单元用于在判断所述第一监测数据和所述第二监测数据之间不存在内容相同的字段时，导出所述第一监测数据和所述第二监测数据。