CN111858534A

CN111858534A - 一种增加日志大数据量排序方法

Info

Publication number: CN111858534A
Application number: CN202010729406.9A
Authority: CN
Inventors: 杨贵柽; 王庆明; 李国涛; 胡清
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-10-30

Abstract

本发明涉及大数据ETL领域，具体提供了一种增加日志大数据量排序方法，多线程解析Redo日志后的多批次无序数据，通过路径文件命名、落盘和抓取的方式进行排序后，以正确有序的队列向后传输至目标源中，用于完成数据的同步。与现有技术相比，本发明的可以使用多线程解析，致使同步数据量达到T级别。满足绝大部分业务的增量需求，且该处理器配置简单、开发成本低、运行稳定、操作难度低，具有良好的推广价值。

Description

一种增加日志大数据量排序方法

技术领域

本发明涉及大数据ETL领域，具体提供一种增加日志大数据量排序方法。

背景技术

现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。目前来看，随着信息化越来越普遍，业务中的每天增量数据已经不仅仅局限于几百KB或者几百G的数据量，更多的业务增量redo日志日增数据量达到了T级别。于是这就产生了另一个问题，解析日志的速度达不到redo日志的产生速度。

由于要保证数据的一致性，即数据DML一致，之前解析redo日志文件是以单线程运行的，即按照redo日志的生成时间逐个解析。这种解析方式无法并发导致速度无法达到日志生成速度，从而多线程对日志的解析方案就呼之欲出。但是多线程的方式速度达到了，然而各个线程解析日志文件后的数据是杂乱无章的，如何将这些数据以正确有序的方式重新排列成了本领域技术人员面临的技术难题。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的增加日志大数据量排序方法。

本发明解决其技术问题所采用的技术方案是：

一种增加日志大数据量排序方法，多线程解析Redo日志后的多批次无序数据，通过路径文件命名、落盘和抓取的方式进行排序后，以正确有序的队列向后传输至目标源中，用于完成数据的同步。

进一步的，解析Redo日志之前先需要在FetchOracleRedoLogFile获取某一时间段的所有redo日志文件名称，按照日志生成的时间给每个日志文件名称依次加上current.index(1,2,3...)属性。

进一步的，多线程解析Redo日志时，ExecuteOracleLogMiner为解析日志文件处理器，每个线程处理一个日志文件，每10000条生成一个数据流向后传输，同时设置上FragmentNumber与NextFragmentNumber属性，当FragmentNumber与NextFragmentNumber相同时，则说明该日志文件已解析完毕。

进一步的，多批无序数据使用处理器FetchRedoBySequential进行数据的传输，先查看所述处理器中有无该数据表保存的状态，如果状态中未查询到该数据表的状态，则采取初始化状态Initial sequence(1-1)。

作为优选，所述数据表中键列为用户名和数据表，值列为所期待的序号批次数据。

进一步的，所述处理器FetchRedoBySequential为单线程执行，若传输的数据流不能识别，则采取的逻辑即将其落盘，路径为用户所配置的路径(/indata/disk_0/nifi/datas+“/用户名/数据表/current.index”),文件名为FragmentNumber+NextFragmentNumber。

进一步的，当所期待的数据流传输来后，首先将其向后传输，其次，便去磁盘中扫描是否存在下一个数据流文件；数据流传输后，获取其NextFragmentNumber属性，这时分为两种情况：

1)、当FragmentNumber与NextFragmentNumber相同时，则说明当前current.index的日志文件已排序完毕，接下来扫描/indata/disk_0/nifi/datas/user1/tableA/current.index+1路径下的以1开头的文件名。

2)当FragmentNumber与NextFragmentNumber不同时。则说明当前current.index的日志文件还未排序完毕。扫描当前/indata/disk_0/nifi/datas/user1/tableA/current.index路径下的以NextFragmentNumber开头的文件名。

如若扫描到所期待的文件，则获取该文件并向后传输并循环上述1)、2)步骤直至扫描不到所期待文件，则说明所期待文件还未传输到该处理器。此时更新该处理器user1.tableA状态为所期待的数据流对应的属性(current.index+FragmentNumber)，等待着该数据流的流入。

进一步的，当从磁盘扫描文件，一个current.index路径扫描完毕后，则可以设置Delete Disk File属性为true来将这个路径删除。

进一步的，若从磁盘中取出文件出错时，抛出异常的同时，将状态更新到出错文件的前一批次状态并生成一个新的数据流回滚。

本发明的一种增加日志大数据量排序方法和现有技术相比，具有以下突出的有益效果：

本发明的一种增加日志大数据量排序方法，提供了对数据属性的解析、落盘路径和文件名称等，解决了单线程无法匹配Redo日志增量的大数据量问题。可以使用多线程解析，致使同步数据量达到T级别。满足绝大部分业务的增量需求，且该处理器配置简单、开发成本低、运行稳定、操作难度低，使数据信息排列成有效的数据信息，具有广泛的应用场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种增加日志大数据量排序方法中采集增量redo日志的流程示意图；

附图2是一种增加日志大数据量排序方法中FetchRedoBySequential配置参数的示意图；

附图3是一种增加日志大数据量排序方法中FetchRedoBySequential保存状态的示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1所示，本实施例中的增加日志大数据量排序方法，主要为多线程解析Redo日志后的多批次无序数据，通过路径文件命名、落盘和抓取的方式进行排序后，以正确有序的队列向后传输至目标源中，用于完成数据的同步。

通过以下步骤具体实现：

FetchOracleRedoLogFile获取某一时间段的所有redo日志文件名称，按照日志生成的时间给每个日志文件名称依次加上current.index(1,2,3...)属性。

ExecuteOracleLogMiner为解析日志文件处理器(可设置为多线程)，每个线程处理一个日志文件，每10000条生成一个数据流向后传输，避免内存溢出。同时设置上FragmentNumber(当前redo文件的当前批次序号1,2,3...)与NextFragmentNumber(当前redo日志文件的下一个批次序号1,2,3...)属性，当FragmentNumber与NextFragmentNumber相同时，则说明该日志文件已解析完毕。

如图2所示，多批无序数据使用处理器FetchRedoBySequential进行数据的传输，先查看所述处理器中有无该数据表保存的状态，如果状态中未查询到该数据表的状态，则采取初始化状态Initial sequence(1-1)。

其中数据表中键列为用户名和数据表，值列为所期待的序号批次数据。

如图3所示，第5012个redo日志文件的第一批次序号。如果状态中未查询到该数据表的状态，则采取初始化状态Initial sequence(1-1)。

处理器FetchRedoBySequential为单线程执行。由于前一个处理器为多线程运行，传输进来的数据为无序的。以user1.tableA为例。开始运行时所期待的数据流为1-1，即current.index属性为1、FragmentNumber属性为1的数据流。然而通常传过来的数据流并不是自己所期待的，可能为2-2或者1-2。此时采取的逻辑即将其落盘，路径为用户所配置的路径(/indata/disk_0/nifi/datas+“/用户名/数据表/current.index”),文件名FragmentNumber+NextFragmentNumber。

如：/indata/disk_0/nifi/datas/user1/tableA/2/2-3。

当所期待的数据流1-1传输过来后，首先将其向后传输，其次便去磁盘中扫描是否存在下一个数据流文件。数据流1-1传输后，获取其NextFragmentNumber属性。这时分为两种情况：

1)当FragmentNumber与NextFragmentNumber相同时，则说明当前current.index的日志文件已排序完毕，接下来扫描/indata/disk_0/nifi/datas/user1/tableA/current.index+1路径下的以1开头的文件名。

如若扫描到所期待的文件，则获取该文件并向后传输并循环上述1、2步骤直至扫描不到所期待文件，则说明所期待文件还未传输到该处理器。此时更新该处理器user1.tableA状态为所期待的数据流对应的属性(current.index+FragmentNumber)，等待着该数据流的流入。

当从磁盘扫描文件，一个current.index路径扫描完毕后，则可以设置DeleteDisk File属性为true来将这个路径删除。

当从磁盘中取文件出错时，抛出异常的同时。将状态更新到出错文件的前一批次状态并生成一个新的数据流回滚。例如：取current.index为2的文件名为3-4文件出错时，则状态设置为current.index为2，FragmentNumber为2，即为2-2。同时生成一个数据流，其属性current.index为2，FragmentNumber为2，NextFragmentNumber为3回滚流回自己，再次触发。

通过以上逻辑来完成对多批次无序数据进行排序传输。

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种增加日志大数据量排序方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种增加日志大数据量排序方法，其特征在于，多线程解析Redo日志后的多批次无序数据，通过路径文件命名、落盘和抓取的方式进行排序后，以正确有序的队列向后传输至目标源中，用于完成数据的同步。

2.根据权利要求1所述的一种增加日志大数据量排序方法，其特征在于，解析Redo日志之前先需要在FetchOracleRedoLogFile获取某一时间段的所有redo日志文件名称，按照日志生成的时间给每个日志文件名称依次加上current.index(1,2,3...)属性。

3.根据权利要求2所述的一种增加日志大数据量排序方法，其特征在于，多线程解析Redo日志时，ExecuteOracleLogMiner为解析日志文件处理器，每个线程处理一个日志文件，每10000条生成一个数据流向后传输，同时设置上FragmentNumber与NextFragmentNumber属性，当FragmentNumber与NextFragmentNumber相同时，则说明该日志文件已解析完毕。

4.根据权利要求3所述的一种增加日志大数据量排序方法，其特征在于，多批无序数据使用处理器FetchRedoBySequential进行数据的传输，先查看所述处理器中有无该数据表保存的状态，如果状态中未查询到该数据表的状态，则采取初始化状态Initial sequence(1-1)。

5.根据权利要求4所述的一种增加日志大数据量排序方法，其特征在于，所述数据表中键列为用户名和数据表，值列为所期待的序号批次数据。

6.根据权利要求5所述的一种增加日志大数据量排序方法，其特征在于，所述处理器FetchRedoBySequential为单线程执行，若传输的数据流不能识别，则采取的逻辑即将其落盘，路径为用户所配置的路径(/indata/disk_0/nifi/datas+“/用户名/数据表/current.index”),文件名为FragmentNumber+NextFragmentNumber。

7.根据权利要求6所述的一种增加日志大数据量排序方法，其特征在于，当所期待的数据流传输来后，首先将其向后传输，其次，便去磁盘中扫描是否存在下一个数据流文件；数据流传输后，获取其NextFragmentNumber属性，这时分为两种情况：

8.根据权利要求7所述的一种增加日志大数据量排序方法，其特征在于，当从磁盘扫描文件，一个current.index路径扫描完毕后，则可以设置Delete Disk File属性为true来将这个路径删除。

9.根据权利要求8所述的一种增加日志大数据量排序方法，其特征在于，若从磁盘中取出文件出错时，抛出异常的同时，将状态更新到出错文件的前一批次状态并生成一个新的数据流回滚。