CN111651438A

CN111651438A - 基于MapDB的结构化数据去重方法、装置、设备及介质

Info

Publication number: CN111651438A
Application number: CN202010351001.6A
Authority: CN
Inventors: 王超群; 李建元; 刘飞黄; 于德军; 王丰
Original assignee: Enjoyor Co Ltd
Current assignee: Enjoyor Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-09-11

Abstract

本发明公开了一种基于MapDB的结构化数据去重方法，涉及数据处理技术领域，增加了数据去重的效率。该方法包括以下步骤：获取消息和所述消息的去重条件；根据去重条件生成Key值，遍历一级索引，若遍历到一级索引存储的记录，则根据所述Key值对应的消息与所述消息进行去重处理；否则，全局指针自增，将自增后的全局指针作为所述Key值关联的Value值，将所述key值以及关联的Value值存储至一级索引，并将所述Value值和所述消息以Key‑Value形式存储至二级存储。本发明还公开了一种基于MapDB的结构化数据去重装置、电子设备和计算机存储介质。

Description

基于MapDB的结构化数据去重方法、装置、设备及介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于MapDB的结构化数据去重方法、装置、设备及介质。

背景技术

随着数字经济时代的到来，数字业务化已逐渐成为重心，众多行业均已实现数字业务化。然而，业务数字化却导致了大量数据孤岛，成为了继续发展数字业务化的共性痛点，各行业迫切需要数据集成，打通并规避数据孤岛，整合数据资源，从而有效开发数据间的关联价值。

整合异构数据源是数据集成经常面临的问题，在整合数据资源过程中，数据去重是常见的处理步骤。而在现有技术中，一般采用Kettle技术基于内存的方式进行数据去重，但是当数据量超过内存容量时会造成数据集成作业异常，导致数据集成失败；另外一种数据去重方式是采用数据源端进行去重，这种方式对源数据库造成较大压力，特别是处理一些比较大的源数据时，存在系统宕机的风险。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种基于MapDB的结构化数据去重方法，借助MapDB数据库引擎，采用二级存储机制，将去重条件和数据分开存储，从而将去重过程和数据读取过程分开，在一级索引中通过去重条件就能完成去重处理，提高去重处理效率，满足数据集成需求。

本发明的目的之一采用以下技术方案实现：

基于MapDB的结构化数据去重方法，包括以下步骤：

获取消息和所述消息的去重条件；

根据所述去重条件生成第一Key值以遍历一级索引，若在一级索引存储的Key-Value记录中查询到所述第一Key值，则将所述第一key值对应的消息与所述消息进行去重处理；

否则，全局指针自增，将自增后的全局指针作为所述第一Key值关联的第一Value值，将所述第一key值以及关联的第一Value值存储至一级索引；并将所述第一Value值和所述消息分别作为第二Key值和第二Value值关联存储至二级存储。

进一步地，将所述第一key值对应的消息与所述消息进行去重处理，包括：

根据去重规则，对所述第一Key值对应的消息和所述消息进行去重处理，包括：

保留所述第一Key值对应的消息，丢弃所述消息；

或，

全局指针自增，根据自增后的全局指针，更新所述第一key值关联的第一Value值，将更新后的所述第一Value值和所述消息分别作为第二key值和第二Value值存储至二级存储；

其中，所述第一Key值对应的消息为：二级存储中的Value值对应的消息，所述Value值关联的Key值为所述第一Key值关联的第一Value值。

进一步地，所述全局指针指向内存地址。

进一步地，所述消息包括若干字段，所述消息的去重条件包括所述若干字段中的任意字段或任意字段组合。

进一步地，根据所述去重条件生成所述第一Key值，包括：

将所述若干字段中的任意字段或任意字段组合拼接成字符串，所述字符串即为所述第一Key值。

进一步地，所述消息作为第二Value值关联存储至二级存储，包括：

调用序列化函数对所述消息进行处理，得到序列化消息，将所述序列化消息作为第二Value值存储至二级存储。

进一步地，还包括以下步骤：

遍历所述一级索引，根据遍历得到第一Value值，遍历所述二级存储，读取第二Value值对应的序列化消息；

调用反序列化函数处理所述序列化消息，发送反序列化后的消息。

本发明的目的之二在于提供一种基于MapDB的结构化数据去重装置，旨在采用两级存储机制，采用两级索引遍历数据以实现数据去重，提高数据的处理效率。

本发明的目的之二采用以下技术方案实现：

基于MapDB的结构化数据去重装置，其包括：

数据获取模块，用于获取消息和所述消息的去重条件；

数据去重模块，用于根据所述去重条件生成第一Key值以遍历一级索引，若在一级索引存储的Key-Value记录中查询到所述第一Key值，则将所述第一key值对应的消息与所述消息进行去重处理；否则，全局指针自增，将自增后的全局指针作为所述第一Key值关联的第一Value值，将所述第一key值以及关联的第一Value值存储至一级索引；并将所述第一Value值和所述消息分别作为第二Key值和第二Value值关联存储至二级存储。

本发明的目的之三在于提供执行发明目的之一的电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，所述计算机程序被处理器执行时实现上述的基于MapDB的结构化数据去重方法。

本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于MapDB的结构化数据去重方法。

相比现有技术，本发明的有益效果在于：

本发明采用MapDB数据存储数据，基于内存映射文件的原理，采用两级存储机制，将去重条件和数据分开存储，并通过遍历和操作一级索引进行去重处理，不用操作二级存储中的具体数据，避免数据读取产生的提高了数据的处理效率，且处理效果不受内存大小的限制，满足数据集成的需求。

附图说明

图1是本发明基于MapDB的结构化数据去重方法的流程原理图；

图2是实施例1中的数据存储规则；

图3是实施例1中的数据读取流程图；

图4是实施例2中的基于MapDB的结构化数据去重装置的结构框图；

图5是实施例3的电子设备的结构框图。

具体实施方式

以下将结合附图，对本发明进行更为详细的描述，需要说明的是，参照附图对本发明进行的描述仅是示意性的，而非限制性的。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。

实施例1

本实施例提供了一种基于MapDB的结构化数据去重方法，借助MapDB数据库，将需要处理的数据采用磁盘进行缓存，利用内存映射技术，直接从内存映射地址找到磁盘上对应的地址，在保证读取速度的同时，摆脱内存容量的限制，避免因数据量超过内存时出现数据集成失败的问题。同时，对待处理数据进行缓存时，采用二级存储的处理机制，基于内存映射文件原理，通过两级索引映射磁盘中的线性空间，且使用操作系统的临时文件作为两级索引的物理存储介质，不仅能增加数据调用和处理效率，还能在程序异常时，触发回收机制处理临时文件，避免产生僵尸文件。

根据上述原理，对基于MapDB的结构化数据去重方法进行介绍，如图1所示，基于MapDB的结构化数据去重方法，具体包括以下步骤：

获取消息和所述消息的去重条件；

在数据集成作业中，数据流是以消息的形式进行流程和处理的。本实施例在进行数据去重时，是对消息进行处理，所述消息由消息编号、消息源、消息头、消息体和监视器组成。所述消息编号由分布式系统中的唯一编号进行表示；所述消息源表示消息来源，可以是数据库中表名，或者消息队列的列名；所述消息头是消息源的额外描述信息，指的是消息来源的网络地址；所述消息体承载具体户数，所述消息体支持结构化数据、无模式数据、json、XML、二进制流；所述监视器是指向消息中植入的监听程序，用于监听消息的流转信息。本实施例所述消息的消息体承载的是结构化数据，对消息进行处理实现结构化数据的去重。

需要注意的是，本实施例采用二级存储机制，上述一级索引指的是一级存储，主要存储的索引信息；二级存储，主要存储的具体数据，即消息。需要注意的是，所述一级索引和二级存储均以Key-Value形式存储相关数据，写入规则如图2所示，一级索引的Key值(第一Key值)和Value值(第一Value值)分别为去重条件和全局指针值，二级存储的Key值(第二Key值)和Value值(第二Value值)分别为一级索引的Value值和消息。

在本实施例中，调用MapDB写入接口将所述消息和所述消息的去重条件写入到存储中，写入规则如图2所示，从而实现消息和去重条件的获取。获取到的消息和消息的去重条件后，进行去重处理：根据去重条件生成第一Key值，根据第一Key值遍历一级索引，即调用MapDB读取接口读取一级索引存储的内容，若以第一Key值为键值在一级索引中读取到记录，则进行去重处理，需要注意的是，本实施例在进行去重处理时，不需要遍历二级存储获取第一Key值对应的具体消息，直接进行去重操作即可，即无需在去重时读取二级存储的数据，增加去重处理效率。若以第一Key值为键值在一级索引中未读取到记录，说明原始记录中不存在相同消息，则全局指针自增，自增后的全局指针作为第一Value值，调用MapDB的写入接口将所述第一Key值和第一Value值写入一级索引存储中，并将该第一Value值作为第二Key值，所述消息作为第二Value值，将所述第二Key值和第二Value值写入二级存储中。针对写入的消息，均进行上述去重处理，该处理方法不受数据量的限制，且不会造成内存溢出，且采用二级存储的处理机制，能减少数据处理过程中的数据调用次数，在去重时无需读取数据，提高去重处理效率。

在本实施例中，使用操作系统的临时文件作为两级索引的物理存储介质，能增加数据调用和处理效率，还能在程序异常时，触发回收机制处理临时文件，避免产生僵尸文件。

优选地，将所述第一Key值对应的消息与所述消息进行去重处理，包括：

保留所述第一Key值对应的消息，丢弃所述消息；

或，

全局指针自增，根据自增后的全局指针，更新所述第一key值关联的第一Value值，将更新后的所述第一Value值和所述消息分别作为第二key值和第二Value值存储至二级存储。

所述去重规则包括保留第一条消息和保留最后一条消息。

若去重规则为保留第一消息，则在去重时，保留二级存储存储的消息，丢弃新获取的消息。

若去重规则为保留最后一条消息，则在去重时，每获取到一条重复消息，均使全局指针自增一次，指向新的内存地址，将自增后的全局指针作为一级索引的Value值和二级存储的Key值，而新获取到的消息作为二级存储的Value值，从而通过遍历一级索引的Key值时，得到的Value值总是指向新获取的消息。

上述第一Key值对应的消息为二级存储中存储的消息，即以一级索引中的第一Value值为二级存储的Key值，第一Key值对应消息为该Key值在二级存储中关联的Value值对应的消息。且在上述重处理过程中，从始至终都不会读取二级存储中的存储的消息，只在遍历一级索引的基础上进行处理，以实现数据去重，从而提高了数据去重效率。

需要注意的是，在本实施例中，调用MapDB更新接口更新所述第一key值关联的第一Value值。

优选地，所述全局指针指向内存地址，通过全局指针自增，可以自动扩展用于存储消息的内存地址，即自增后的全局指针指向一个新的内存地址，该新的内存地址可以用于存储新获取的消息，不用在去重处理之前为消息存储分配固定的内存地址或内存空间，因此不会出现当数据量超过内存的情况，避免内存溢出造成数据处理失败。

优选地，所述消息包括若干字段，所述消息的去重条件包括所述若干字段中的任意字段或任意字段组合。

一条消息包括多个字段，例如所述消息包括字段1、字段2、字段3、字段4、字段5、字段6，针对该消息如果提前设置去重条件为字段1和字段3(随机设置)，即表示每获取一条消息，均会比较消息的字段1和字段3。

在本实施例中，所述消息和所述消息的去重条件通过MapDB写入接口写入到存储中。

优选地，根据所述去重条件生成所述第一Key值，包括：

在本实施例中，若去重条件为字段1和字段3，那么第一Key值＝字段1+字段3组成的一个字符串，当然在其他实施例中，第一Key值＝idx+字段1+字段3组成的一个字符串，idx为字符串，idx的取值不会影响去重条件的应用，因此在此不限定idx的取值。

优选地，所述消息作为第二Value值关联存储至二级存储，包括：

将所述消息进行序列化处理，方便存储和传输。

优选地，将消息进行去重处理后，如图3所示，还包括以下步骤：

通过MapDB读取接口遍历一级索引的索引记录，根据一级索引记录中的第一Value值(即指针值)，获取二级存储中的序列化消息，然后将序列化消息反序列化，还原成消息(原来的数据格式)，从而实现数据读取，直至一级索引遍历结束，数据读取流程即结束，读取效率快，读取的数据可以用于后续处理。

实施例2

本实施例对应实施例1的基于MapDB的结构化数据去重方法，公开了一种基于MapDB的结构化数据去重的装置，为上述实施例1的虚拟装置结构，如图4所示，包括：

数据获取模块410，用于获取消息和所述消息的去重条件；

数据去重模块420，用于根据所述去重条件生成第一Key值以遍历一级索引，若在一级索引存储的Key-Value记录中查询到所述第一Key值，则将所述第一key值对应的消息与所述消息进行去重处理；否则，全局指针自增，将自增后的全局指针作为所述第一Key值关联的第一Value值，将所述第一key值以及关联的第一Value值存储至一级索引；并将所述第一Value值和所述消息分别作为第二Key值和第二Value值关联存储至二级存储。

在本实施例中，所述第一Key值对应的消息为：二级存储中的Value值对应的消息，其中，该Value值关联的Key值为所述第一Key值在一级索引中关联的第一Value值。

实施例3

图5为本发明实施例3提供的一种电子设备的结构示意图，如图5所示，该电子设备包括处理器510、存储器520、输入装置530和输出装置540；电子设备中处理器510的数量可以是一个或多个，图5中以一个处理器510为例；电子设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于MapDB的结构化数据去重方法对应的程序指令/模块(例如，基于MapDB的结构化数据去重装置中的数据获取模块410、数据去重模块420)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现实施例1的基于MapDB的结构化数据去重方法。

存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器520可进一步包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的去重条件等。输出装置540可为显示屏等显示设备。

实施例4

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行基于MapDB的结构化数据去重方法，该方法包括：

获取消息和所述消息的去重条件；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的基于MapDB的结构化数据去重方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述基于MapDB的结构化数据去重装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于MapDB的结构化数据去重方法，其特征在于，包括以下步骤：

获取消息和所述消息的去重条件；

否则，全局指针自增，将自增后的全局指针作为所述第一Key值关联的第一Value值，将所述第一key值以及关联的第一Value值存储至一级索引，并将所述第一Value值和所述消息分别作为第二Key值和第二Value值关联存储至二级存储。

2.如权利要求1所述的基于MapDB的结构化数据去重方法，其特征在于，将所述第一key值对应的消息与所述消息进行去重处理，包括：

保留所述第一Key值对应的消息，丢弃所述消息；

或，

3.如权利要求1或2所述的基于MapDB的结构化数据去重方法，其特征在于，所述全局指针指向内存地址。

4.如权利要求1所述的基于MapDB的结构化数据去重方法，其特征在于，所述消息包括若干字段，所述消息的去重条件包括所述若干字段中的任意字段或任意字段组合。

5.如权利要求4所述的基于MapDB的结构化数据去重方法，其特征在于，根据所述去重条件生成所述第一Key值，包括：

6.如权利要求1或2所述的基于MapDB的结构化数据去重方法，其特征在于，所述消息作为第二Value值关联存储至二级存储，包括：

7.如权利要求6所述的基于MapDB的结构化数据去重方法，其特征在于，还包括以下步骤：

8.一种基于MapDB的结构化数据去重装置，其特征在于，包括：

数据获取模块，用于获取消息和所述消息的去重条件；

数据去重模块，用于根据所述去重条件生成第一Key值以遍历一级索引，若在一级索引存储的Key-Value记录中查询到所述第一Key值，则将所述第一Key值对应的消息与所述消息进行去重处理；否则，全局指针自增，将自增后的全局指针作为所述第一Key值关联的第一Value值，将所述第一key值以及关联的第一Value值存储至一级索引，并将所述第一Value值和所述消息分别作为第二Key值和第二Value值关联存储至二级存储。

9.一种电子设备，其包括处理器、存储介质以及计算机程序，所述计算机程序存储于存储介质中，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于MapDB的结构化数据去重方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于MapDB的结构化数据去重方法。