CN110532254A

CN110532254A - 融合数据表的方法和装置

Info

Publication number: CN110532254A
Application number: CN201810515355.2A
Authority: CN
Inventors: 张思为
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2019-12-03
Also published as: WO2019223598A1

Abstract

本公开是关于一种融合数据表的方法和装置，属于电子技术领域。所述方法包括：获取至少两个子数据表；建立融合数据表，将各子数据表中包括的各数据项，设置在融合数据表中；对于各子数据表中不同的数据项，将不同的数据项在所属的子数据表中的数据，分别添加到融合数据表中；对于属于不同子数据表的相同数据项，如果相同数据项是单值数据项，基于各子数据表的优先级，在包含相同数据项的各子数据表中，确定优先级最高的目标子数据表，将相同数据项在目标子数据表中的数据，添加到融合数据表中。采用本公开，可以提高融合数据表中的数据的准确性。

Description

融合数据表的方法和装置

技术领域

本公开是关于电子技术领域，尤其是关于一种融合数据表的方法和装置。

背景技术

在现有技术中，可以通过多种渠道获取多个数据表，例如外来人口数据表、当地案件数据表、走访记录数据表等。可以基于数据分析方法对多个数据表中的数据进行分析，获得分析结果，例如对外来人口数据表、当地案件数据表、走访记录数据表中的数据进行分析，确定待查找人员的范围等。

在基于数据分析方法对多个数据表中的数据进行分析之前，需要对多个数据表进行融合。这样，在对多个数据表中的数据进行分析的过程中，省去从单个数据表读取数据的过程，利于提高对数据分析的效率。

在实现本公开的过程中，发明人发现至少存在以下问题：

在现有技术中，在对多个数据表进行融合的过程中，如果检测到相同数据项中的数据不匹配时，会随机选择一个数据进行保存。例如，在外来人口数据表中某人的姓名登记为“张三”，在走访记录数据表中同一人的姓名登记为“张四”，在融合时，可以基于主键如身份证号码进行融合，即将相同主键对应的外来人口数据表和走访记录数据表进行融合。由于外来人口数据表中的姓名和走访记录数据表中的姓名不匹配，系统会随机选择“张三”或者“张四”中的一个数据进行保存。如果选择了错误的数据进行保存，会降低数据表中的数据的准确性。

发明内容

为了克服相关技术中存在的问题，本公开提供了以下技术方案：

根据本公开实施例的第一方面，提供一种融合数据表的方法，所述方法包括：

获取至少两个子数据表；

建立融合数据表，将各子数据表中包括的各数据项，设置在所述融合数据表中；

对于各子数据表中不同的数据项，将所述不同的数据项在所属的子数据表中的数据，分别添加到所述融合数据表中；

对于属于不同子数据表的相同数据项，如果所述相同数据项是单值数据项，基于各子数据表的优先级，在包含所述相同数据项的各子数据表中，确定优先级最高的目标子数据表，将所述相同数据项在所述目标子数据表中的数据，添加到所述融合数据表中。

可选地，所述对于属于不同子数据表的相同数据项，如果所述相同数据项是单值数据项，基于各子数据表的优先级，在包含所述相同数据项的各子数据表中，确定优先级最高的目标子数据表，将所述相同数据项在所述目标子数据表中的数据，添加到所述融合数据表中，包括：

对于属于不同子数据表的相同数据项，如果所述相同数据项是单值数据项，且所述相同数据项在不同子数据表中的数据不同，则基于各子数据表的优先级，在包含所述相同数据项的各子数据表中，确定优先级最高的目标子数据表，将所述相同数据项在所述目标子数据表中的数据，添加到所述融合数据表中。

可选地，所述方法还包括：

对于属于不同子数据表的相同数据项，如果所述相同数据项是多值数据项，且所述相同数据项在不同子数据表中的数据不同，则将所述相同数据项在不同子数据表中的不同数据，添加到所述融合数据表中。

可选地，在获取至少两个子数据表之前，所述方法还包括：

获取各子数据表的数据来源信息；

基于预设的数据来源信息和子数据表的优先级的对应关系，以及所述各子数据表的数据来源信息，确定各子数据表的优先级；

存储确定得到的各子数据表的优先级。

可选地，所述方法还包括：

在所述融合数据表中添加所述至少两个子数据表的标识。

根据本公开实施例的第二方面，提供一种融合数据表的装置，所述装置包括：

第一获取模块，用于获取至少两个子数据表；

设置模块，用于建立融合数据表，将各子数据表中包括的各数据项，设置在所述融合数据表中；

第一添加模块，用于对于各子数据表中不同的数据项，将所述不同的数据项在所属的子数据表中的数据，分别添加到所述融合数据表中；

第一确定模块，用于对于属于不同子数据表的相同数据项，如果所述相同数据项是单值数据项，基于各子数据表的优先级，在包含所述相同数据项的各子数据表中，确定优先级最高的目标子数据表，将所述相同数据项在所述目标子数据表中的数据，添加到所述融合数据表中。

可选地，所述第一确定模块用于：

可选地，所述装置还包括：

第二添加模块，用于对于属于不同子数据表的相同数据项，如果所述相同数据项是多值数据项，且所述相同数据项在不同子数据表中的数据不同，则将所述相同数据项在不同子数据表中的不同数据，添加到所述融合数据表中。

可选地，所述装置还包括：

第二获取模块，用于获取各子数据表的数据来源信息；

第二确定模块，用于基于预设的数据来源信息和子数据表的优先级的对应关系，以及所述各子数据表的数据来源信息，确定各子数据表的优先级；

存储模块，用于存储确定得到的各子数据表的优先级。

可选地，所述装置还包括：

第三添加模块，用于在所述融合数据表中添加所述至少两个子数据表的标识。

根据本公开实施例的第三方面，提供一种计算机设备，所述计算机设备包括处理器、通信接口、存储器和通信总线，其中：

所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序，以实现上述融合数据表的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述融合数据表的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

通过本公开实施例提供的方法，属于不同子数据表的相同数据项，如果相同数据项是单值数据项，可以基于各子数据表的优先级，在包含相同数据项的各子数据表中，确定优先级最高的目标子数据表，将相同数据项在目标子数据表中的数据，添加到融合数据表中。这样，可以对数据准确性较高的子数据表设置较高的优先级，根据各子数据表的优先级，在各子数据表中选择优先级最高的目标子数据表记录的相同数据项的数据，从而可以提高融合数据表中的数据的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。在附图中：

图1是根据一示例性实施例示出的一种融合数据表的方法的流程图示意图；

图2是根据一示例性实施例示出的一种融合数据表的方法的融合示意图；

图3是根据一示例性实施例示出的一种融合数据表的方法的融合示意图；

图4是根据一示例性实施例示出的一种融合数据表的方法的融合示意图；

图5是根据一示例性实施例示出的一种融合数据表的装置的结构示意图；

图6是根据一示例性实施例示出的一种计算机设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供了一种融合数据表的方法，该方法可以由计算机设备如服务器实现。

服务器可以包括处理器、存储器等部件。处理器，可以为CPU(Central ProcessingUnit，中央处理单元)等，可以用于对于属于不同子数据表的相同数据项，如果相同数据项是单值数据项，基于各子数据表的优先级，在包含相同数据项的各子数据表中，确定优先级最高的目标子数据表，将相同数据项在目标子数据表中的数据，添加到融合数据表中，等处理。存储器，可以为RAM(Random Access Memory，随机存取存储器)，Flash(闪存)等，可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等，如数据表等。

服务器还可以包括收发器等。收发器，可以用于与终端或者其他服务器进行数据传输，收发器可以包括蓝牙部件、WiFi(Wireless-Fidelity，无线高保真技术)部件、天线、匹配电路、调制解调器等。

本公开一示例性实施例提供了一种融合数据表的方法，如图1所示，该方法的处理流程可以包括如下的步骤：

步骤S110，获取至少两个子数据表。

在实施中，子数据表可以是具有相同主键的不同应用领域的数据表。其中，数据表可以是用Spark SQL(Structured Query Language，结构化查询语言)编写的数据表，可以通过HDFS(Hadoop Distributed File System，分布式文件系统)文件系统对多个数据表进行管理。例如，通话记录数据表、案件数据表、购票信息数据表、外来人口数据表、走访记录数据表等。上述数据表的主键可以是“姓名”或者“身份证号码”等。其中，通话记录数据表可以是从通信服务公司获取的，案件数据表、外来人口数据表、走访记录数据表可以是从相关机构获取的，购票信息数据表可以是从交通部门获取的，这些数据表的来源不同，但是数据表中记录的内容都可以与同一用户相关。而用于标识该同一用户的信息可以称作主键。

假如需要确定某一待查找人员的范围，首先可以调取来源于不同机构的子数据表，由于这些子数据表中记录的内容不同，但是其中都具有某种联系，即都可能属于同一用户，因此可以将属于同一用户的不同子数据表基于主键进行融合。当然，除了以同一用户为主键进行融合之外，还可以根据实际应用需求，以其他主键进行融合，例如以同一地点为主键等。

可选地，可以去除至少两个子数据表中的冗余数据。

可以去除至少两个子数据表中的数据项为空的数据。例如，数据项“手机号码”中的数据为空，并没有实际的手机号码存入，这个数据就属于冗余数据，可以将这些冗余数据去除。

可选地，可以对至少两个子数据表中的数据项中的数据进行格式转换。

例如，在通话记录数据表中的时间数据项是“年/月/日”形式的，而在购票信息数据表中的时间数据项是“日/月/年”形式的，可以对这些数据项中的数据进行格式转换，以进行格式的统一。

步骤S120，建立融合数据表，将各子数据表中包括的各数据项，设置在融合数据表中。

在实施中，可以新建立融合数据表，在建立初始阶段，该融合数据表中为空，接着，可以将各子数据表中包括的各数据项设置在融合数据表中。具体可以将各子数据表中包括的各数据项的数据名称如“姓名”、“年龄”设置在融合数据表中。

步骤S130，对于各子数据表中不同的数据项，将不同的数据项在所属的子数据表中的数据，分别添加到融合数据表中。

在实施中，如果各子数据表中不同的数据项是单值数据项，即不同的数据项只包括一个数据，各子数据表中不同的数据项只包括一个数据，则将不同的数据项在所属的子数据表中的数据，分别添加到融合数据表中。

例如，如图2所示，在通话记录数据表中，记录了用户“张三”的通话记录详情，在外来人口数据表中，记录了用户“张三”是何时来到何地的。但是，在通话记录数据表中，没有记录关于用户“张三”是何时来到何地的信息的，在外来人口数据表中，也没有记录关于用户“张三”的通话记录详情的。因此用户“张三”的通话记录详情和用户“张三”是何时来到何地的信息，属于不同的数据项，将这些不同的数据项都添加到融合数据表中。这样，关于用户“张三”的各种个人情况，都会被记录在融合数据表中，融合数据表中的数据较为全面。

通过融合数据表，可以了解到用户“张三”在来到何地之前，都和那些人通过话，在来到何地之后，又和谁联系过等情况。这样，可以对用户“张三”的行踪有较为全面的了解，有利于分析案件事实。

步骤S140，对于属于不同子数据表的相同数据项，如果相同数据项是单值数据项，基于各子数据表的优先级，在包含相同数据项的各子数据表中，确定优先级最高的目标子数据表，将相同数据项在目标子数据表中的数据，添加到融合数据表中。

在实施中，如果属于不同子数据表的相同数据项是单值数据项，即相同数据项只有唯一数据，在融合数据表中也只能包括唯一数据，此时就需要在属于不同子数据表的相同数据项中选择一个数据作为该相同数据项在融合数据表中的数据。选择的依据可以是各子数据表的优先级，即选择优先级最高的目标子数据表中的相同数据项的数据作为该相同数据项在融合数据表中的数据。

例如，如图3所示，在案件数据表中，用户“张三”的年龄是“47”，在购票信息数据表中，用户“张三”的年龄是“40”，但是用户“张三”的年龄是唯一的。此时，可以基于案件数据表和购票信息数据表的优先级，来确定在融合数据表中，相同数据项年龄，是添加“47”还是“40”。由于案件数据表的优先级较高，则可以在融合数据表中，给相同数据项年龄添加“47”。

可选地，在获取至少两个子数据表之前，本公开实施例提供的方法还包括：获取各子数据表的数据来源信息；基于预设的数据来源信息和子数据表的优先级的对应关系，以及各子数据表的数据来源信息，确定各子数据表的优先级；存储确定得到的各子数据表的优先级。

在实施中，各子数据表的优先级可以是基于子数据表的数据来源信息确定的。数据来源信息可以指示子数据表中的数据的可靠性，例如从A机构获取的数据就可以认为具有较高可靠性，因此可以给来源于A机构的数据表设置较高的优先级。而从普通单位如通信服务公司获取的数据就可以认为并不具有较高的可靠性，因此可以给来源于普通单位的数据表设置较低的优先级。可以基于预设的数据来源信息和子数据表的优先级的对应关系，以及各子数据表的数据来源信息，确定各子数据表的优先级。其中，对应关系可以是记录有数据来源信息和子数据表的优先级的对应关系的列表。

或者，可以在数据来源信息和数据的准确度之间设置一个对应关系，这样在确定了数据来源信息的情况下，就可以确定从该来源获得的数据的准确度是多少。在确定了准确度的情况下，就可以确定子数据表的优先级了。

或者，还可以对数据表中的不同数据项进行优先级的设置，这样优先级的划分粒度更小，应用起来更加灵活。可以通过手动的方式对数据表中不同数据项进行优先级的设置，这样，对于属于不同子数据表的相同数据项，如果相同数据项是单值数据项，基于各子数据表中各数据项的优先级，在包含相同数据项的各子数据表中，确定优先级最高的子数据表中的目标数据项，将子数据表中的目标数据项的数据，添加到融合数据表中。

可选地，步骤S140可以包括：对于属于不同子数据表的相同数据项，如果相同数据项是单值数据项，且相同数据项在不同子数据表中的数据不同，则基于各子数据表的优先级，在包含相同数据项的各子数据表中，确定优先级最高的目标子数据表，将相同数据项在目标子数据表中的数据，添加到融合数据表中。

在实施中，如果各子数据表中相同数据项是单值数据项，但是相同数据项在不同子数据表中的数据却不同，可以基于各子数据表的优先级，在包含相同数据项的各子数据表中，确定优先级最高的目标子数据表，将相同数据项在目标子数据表中的数据，添加到融合数据表中。

对于属于不同子数据表的相同数据项，如果相同数据项是单值数据项，在执行基于各子数据表的优先级，在包含相同数据项的各子数据表中，确定优先级最高的目标子数据表，将相同数据项在目标子数据表中的数据，添加到融合数据表中的步骤之前，可以预先判断相同数据项在不同子数据表中的数据是否相同。如果不同，再执行上述步骤；如果相同，就没有必要执行上述步骤了。

可选地，本公开实施例提供的方法还包括：对于属于不同子数据表的相同数据项，如果相同数据项是多值数据项，且相同数据项在不同子数据表中的数据不同，则将相同数据项在不同子数据表中的不同数据，添加到融合数据表中。

在实施中，由于某些数据项的值不唯一，例如“曾用名”、“手机号码”这些数据项，明显可以包括多个不同数据，因此，可以设置这些数据项为多值数据项。

如果子数据表中的数据项都有单值或者多值的属性，可以直接将子数据表中的数据项的属性沿用到融合数据表中。或者，可以基于子数据表中的数据项的属性，生成记录融合数据表的数据项的属性的数据表，可以一一排查数据表中各数据项的属性是否正确，如果不正确则进行更正。接着，基于更正后的数据表，设置融合数据表的数据项的属性。

例如，如图4所示，在购票信息数据表中记录的用户“张三”的“手机号码”是“123456789”，在外来人口数据表中记录的用户“张三”的“手机号码”是“456879245”用户“张三”可能拥有两个手机号码，在不同的环境使用不同的手机号码。因此，可以将这两个手机号码都添加到融合数据表中的“手机号码”数据项中。这样，保留的信息更加全面，假如确认用户“张三”是待查找人员，为了和用户“张三”取得联系，可以尝试拨打“123456789”以及“456879245”。进而，可以提高联系到用户“张三”的几率。除了手机号码的情况之外，当融合数据表中的信息较为全面时，也可以提高数据分析的准确性。

可选地，本公开实施例提供的方法还包括：在融合数据表中添加至少两个子数据表的标识。

在实施中，可以在融合数据表中增加一个数据项，增加的数据项用于记录至少两个子数据表的标识，这样，基于融合数据表中数据，可以确定融合数据表是融合了哪几个子数据表的。进而，可以确定融合数据表中的数据的数据来源，确定融合数据表中的数据的可靠性。或者基于融合数据表中的数据的数据来源，确定如何设定数据分析方案。再或者在进行数据分析之后，如果得到的分析结果与用户设想的相差较大，可以回溯数据来源，以调整数据分析的具体过程。

可选地，如果数据表是用Spark SQL编写的数据表，可以使用SQL查询命令，查询数据表中的目标数据项中的数据。

可选地，如果子数据表中的数据是会被更新的，可以按照预设的周期，基于更新后的子数据表中的数据项，对融合数据表进行更新。

可以进行全量更新以及增量更新。其中，全量更新是在预设的周期到达时，将子数据表中的所有数据项都重新添加到融合数据表中。增量更新是在预设的周期到达时，检测子数据表中的哪些数据项发生了变化，只在融合数据表中查找对应的数据项，将子数据表中变化的数据项添加到融合数据表中。

可选地，还可以将融合过程的相关信息存储在数据库如元数据库(适合存储数据量较小的数据的数据库)中，例如创建融合数据表的时间，融合数据表中数据项的数量，全量更新之后融合数据表的标识，增量更新之后融合数据表的标识。

本公开又一示例性实施例提供了一种融合数据表的装置，如图5所示，该装置包括：

第一获取模块410，用于获取至少两个子数据表；

设置模块420，用于建立融合数据表，将各子数据表中包括的各数据项，设置在所述融合数据表中；

第一添加模块430，用于对于各子数据表中不同的数据项，将所述不同的数据项在所属的子数据表中的数据，分别添加到所述融合数据表中；

第一确定模块440，用于对于属于不同子数据表的相同数据项，如果所述相同数据项是单值数据项，基于各子数据表的优先级，在包含所述相同数据项的各子数据表中，确定优先级最高的目标子数据表，将所述相同数据项在所述目标子数据表中的数据，添加到所述融合数据表中。

可选地，所述第一确定模块440用于：

可选地，所述装置还包括：

第二获取模块，用于获取各子数据表的数据来源信息；

存储模块，用于存储确定得到的各子数据表的优先级。

可选地，所述装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

通过本公开实施例提供的装置，属于不同子数据表的相同数据项，如果相同数据项是单值数据项，可以基于各子数据表的优先级，在包含相同数据项的各子数据表中，确定优先级最高的目标子数据表，将相同数据项在目标子数据表中的数据，添加到融合数据表中。这样，可以对数据准确性较高的子数据表设置较高的优先级，根据各子数据表的优先级，在各子数据表中选择优先级最高的目标子数据表记录的相同数据项的数据，从而可以提高融合数据表中的数据的准确性。

需要说明的是：上述实施例提供的融合数据表的装置在融合数据表时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的融合数据表的装置与融合数据表的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6示出了本公开一个示例性实施例提供的计算机设备1900的结构示意图。该计算机设备1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)1910和一个或一个以上的存储器1920。其中，所述存储器1920中存储有至少一条指令，所述至少一条指令由所述处理器1910加载并执行以实现上述实施例所述的融合数据表的方法。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种融合数据表的方法，其特征在于，所述方法包括：

获取至少两个子数据表；

2.根据权利要求1所述的方法，其特征在于，所述对于属于不同子数据表的相同数据项，如果所述相同数据项是单值数据项，基于各子数据表的优先级，在包含所述相同数据项的各子数据表中，确定优先级最高的目标子数据表，将所述相同数据项在所述目标子数据表中的数据，添加到所述融合数据表中，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在获取至少两个子数据表之前，所述方法还包括：

获取各子数据表的数据来源信息；

存储确定得到的各子数据表的优先级。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述融合数据表中添加所述至少两个子数据表的标识。

6.一种融合数据表的装置，其特征在于，所述装置包括：

第一获取模块，用于获取至少两个子数据表；

7.根据权利要求6所述的装置，其特征在于，所述第一确定模块用于：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取各子数据表的数据来源信息；

存储模块，用于存储确定得到的各子数据表的优先级。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器、通信接口、存储器和通信总线，其中：

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序，以实现权利要求1-5任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。