CN113312194B

CN113312194B - 一种业务数据采集方法及装置

Info

Publication number: CN113312194B
Application number: CN202110650144.1A
Authority: CN
Inventors: 李湘滨; 乔玉洁; 隋华懿; 庞少勇; 蔡盛
Original assignee: China Travelsky Technology Co Ltd
Current assignee: China Travelsky Technology Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2024-01-23
Anticipated expiration: 2041-06-10
Also published as: CN113312194A

Abstract

本发明提供了一种业务数据采集方法及装置，通过实时采集主机系统中每个主机的变化日志，后续按序列号单调递增的顺序读取和存储每个主机的变化日志中的块数据，实现主机系统中所有主机更新数据的同步，解决了异步采集日志导致的漏采、错采问题，极大提高了数据采集的完备性和准确性。

Description

一种业务数据采集方法及装置

技术领域

本发明涉及计算机技术领域，更具体的，涉及一种业务数据采集方法及装置。

背景技术

大数据技术已广泛应用于各个领域，但是，有很多机构的主要业务系统仍然部署在传统主机上，由于主机是个不开源且与现在开放平台技术不互通的技术体系，因此，主机系统的数据处理无法采用大数据技术。

为了便于对主机系统中的数据进行处理，目前通过实时采集主机cmtlog数据(主机系统日志的简化版，只包含数据库变化的位置，不包含变化内容)，可以得到主机数据实时变化的精简信息，如哪个数据文件的哪条记录发生了变化，然后再根据cmtlog读取主机磁盘数据，但是，这是一种异步的数据采集模式。

由于cmtlog的写操作与磁盘数据的写操作并没有严格的一致性，这种异步的数据采集模式无法实现数据读取的顺序性、及时性与完备性，必然存在数据漏采、错采的情况。

发明内容

有鉴于此，本发明提供了一种业务数据采集方法及装置，通过采集主机完整audit日志来获取主机完整数据更新快照，解决了异步采集的漏采、错采问题，数据采集的完备性与准确性都得到极大提高。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种业务数据采集方法，包括：

分别读取主机系统中每个主机的变化日志，变化日志中每个块数据分别对应一个全局唯一且全局递增的序列号；

分别对每个所述主机的变化日志进行预处理，并将预处理后的每个所述主机的变化日志分别发送到相应的消息队列中；

读取每个所述消息队列中的变化日志，按照序列号对块数据进行递增排序，并将递增排序后的块数据输出到kafka的预设主题中；

读取kafka中的序列号递增的块数据，并将其分别存储到每个主机文件对应的HBase表中。

一种业务数据采集装置，包括：

日志采集单元，用于分别读取主机系统中每个主机的变化日志，变化日志中每个块数据分别对应一个全局唯一且全局递增的序列号；

日志预处理单元，用于分别对每个所述主机的变化日志进行预处理，并将预处理后的每个所述主机的变化日志分别发送到相应的消息队列中；

归并排序单元，用于读取每个所述消息队列中的变化日志，按照序列号对块数据进行递增排序，并将递增排序后的块数据输出到kafka的预设主题中；

数据存储单元，用于读取kafka中的序列号递增的块数据，并将其分别存储到每个主机文件对应的HBase表中。

相对于现有技术，本发明的有益效果如下：

本发明公开的一种业务数据采集方法，通过实时采集主机系统中每个主机的变化日志，后续按序列号单调递增的顺序读取和存储每个主机的变化日志中的块数据，实现主机系统中所有主机更新数据的同步，解决了异步采集日志导致的漏采、错采问题，极大提高了数据采集的完备性和准确性。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本发明实施例公开的一种业务数据采集方法的流程示意图；

图2为本发明实施例公开的一种数据归并排序方法的流程示意图；

图3为本发明实施例公开的一种数据整合与推送方法的流程示意图；

图4为本发明实施例公开的PR、PN记录链表示意图；

图5为本发明实施例公开的一种业务数据采集装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

发明人经过研究发现，现有的异步数据采集模式，由于cmtlog的写操作与磁盘数据的写操作并没有严格的一致性，这种异步的数据采集模式无法实现数据读取的顺序性、及时性与完备性，必然存在数据漏采、错采的情况，如：

1、数据第一次产生时的漏采，因为cmtlog产生时，磁盘数据可能还没写入。

2、中间数据被漏采，因为数据变化间隔过短，如两次变化发生在毫秒间，这种异步方式无法采集到如此高频变化的数据，可能采集两次相同的数据而漏掉其中一次数据。

3、主机操作系统在一笔交易中写入多个数据时可以保证数据的一致性，如写入多个文件的多条记录，但通过ANT读取磁盘时是不能保证数据一致性的，可能读到的记录并不是一笔交易产生的，而是多笔交易产生的，这些数据在进行整合时必然可能出现错误，导致后续数据处理失败。

在用户对数据质量要求越来越高的情况下，这种数据采集方案的缺陷越来越突出，影响了用户体验。

为了解决上述技术问题，本发明实施例公开了一种业务数据采集方法，请参阅图1，该方法具体包括以下步骤：

S101：分别读取主机系统中每个主机的变化日志，变化日志中每个块数据分别对应一个全局唯一且全局递增的序列号。

具体的，调用日志采集单元读取主机系统中每个主机的变化日志，每个主机分别对应一个日志采集单元。

变化日志为audit文件，即主机系统中每个主机某个应用及数据库变化的日志。

具体的，根据主机日志文件名，获取该日志文件的最新cycle数，cycle为audit文件物理存储单位，一个audit文件有32个cycle(编号1-999循环使用)，每个cycle存储量大约10GB。

在日志文件的cycle数为最新cycle数的情况下，读取最新cycle中日志文件每个块数据block，在读取时需要从第一个block开始顺序读取所有最新cycle中日志文件所有block。

S102：分别对每个主机的变化日志进行预处理，并将预处理后的每个主机的变化日志分别发送到相应的消息队列中。

块数据block分为control block(控制块)与data block(数据块)两类，预处理过程需要过滤掉control block，保留data block，并对data block中的record进行判断与筛选，保留Commit Sequence Number(CSN)Audit Record和TIP File Control AuditRecords。

其中，Commit Sequence Number(CSN)Audit Record记录了csn信息，也就是前文提到过的主机每次提交的唯一序列号。TIP File Control Audit Records记录了这次提交涉及的所有文件的更新记录(record)，如这次提交更新了IV文件的位置为key1的record及PN文件的位置为key2的record。

需要说明的是，业务数据采集是一个实时循环执行的操作，在将预处理后的每个主机的变化日志分别发送到相应的消息队列中之后，返回S102，继续读取下一个block。如果读不到新数据，则先判断是否读到这个cycle的末尾，如果没有读到这个cycle的末尾则等待指定时长后继续读这个cycle，如果已经读到这个cycle的末尾，则返回S101，获取下一个cycle。

S103：读取每个消息队列中的变化日志，按照序列号对块数据进行递增排序，并将递增排序后的块数据输出到kafka的预设主题中。

假设主机系统有N个主机，则预处理后的变化日志会输出N个消息队列，每个队列中的序列号csn是递增的，但队列间csn无固定顺序。

请参阅图2，本实施例公开的一种数据归并排序方法包括如下步骤：

步骤一：假定队列1为基准队列，每次归并排序都以队列1中的数据作为基础。设定数据处理窗口宽度为M，则窗口中的数据的csn为：

csn_1,M>csn_1,M-1>csn_1,M-2>...>csn_1,1

这M个数据作为数组1。

步骤二：从队列2中顺序取出数据，当csn大于步骤一的csn_1,M时，停止取数，设此时的csn为csn_2,N，将csn_2,1...csn_2,N-1个数据作为数组2。

重复步骤二，由队列3得到数组3，队列4得到数组4，对这4个数组进行排序，得到csn最大值为csn_1,M的一个数组，将该数组写入指定kafka topic。

1个partition可以保证数据的顺序性。

kafka的topic只创建一个分区，这样才能保证数据写入与读取都是单调递增的。

S104：读取kafka中的序列号递增的块数据，并将其分别存储到每个主机文件对应的HBase表中。

预先会根据主机文件名创建HBase表，每个主机文件对应一个HBase表。

读取kafka中topic分区的序列号递增的块数据，按csn增序获取数据，根据块数据的数据内容构造key-value形式的数据结构，其中，key为主机文件名和更新记录的组合，value为块数据内容。

根据主机文件名的不同将上述key-value写入不同HBase表。相同key的数据会被覆盖更新。

进一步，在HBase上创建两张表，表名为：PN和PR，顺序读取kafkatopic分区中的数据，每个数据包含一个csn记录和若干个PN记录和若干个(可能为0)PR记录，解析PN记录中的key，并作为HBase表的key，解析PN记录中的二进制数据，作为HBase表的value，将上述key-value插入PN表中，缓存PN文件的每一条记录，实现数据镜像的功能。同样，解析PR记录中的key，并作为HBase表的key，解析PR记录中的二进制数据，作为HBase表的value，将上述key-value插入PR表中，缓存PR文件的每一条记录。数据缓存模块的目的是保证HBase表中始终保存主机PN、PR文件的最新、全量内容。

进一步，预先根据业务数据种类不同创建不同的kafka topic，每类业务数据对应一个topic。本实施例还可以对采集到的数据进行整合与推送，请参阅图3，本实施例公开的一种数据整合与推送方法包括以下步骤：

S201：读取kafka中的序列号递增的块数据；

S202：根据业务规则对读取的序列号递增的块数据进行整合；

S203：在整合过程中判断是否存在数据缺失；

若存在数据缺失，S204：通过读取HBase表获取缺失的数据，以进行整合；

S205：对整合好的数据进行预设编码，并按数据类型的不同写入预先创建的不同kafka主题中。

主机编码为36位时，预设编码为36位to32位的编码。

若不存在数据缺失，执行S205。

在整合过程中，本例中数据记录包含PN、PR记录，PN记录以链表的形式链接到PR记录，PR记录可能还链接到后续的PR记录，如图4所示。

以PN记录为基准，在数据中搜索第一个PR记录，将两个记录按规则整合在一起，再判断第一个PR记录是否链接了下一个PR记录，如果有，则继续搜索下一个PR记录，并整合数据，整合过程中如发现PR记录缺失，则根据PR记录的key读取HBase的PR表获取对应记录，完成数据整合。之后对整合好的数据进行36位to 32位的编码，写入PNR topic。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

基于上述实施例公开的一种业务数据采集方法，本实施例对应公开了一种业务数据采集装置，描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。请参阅图5，该装置包括：

日志采集单元100，用于分别读取主机系统中每个主机的变化日志，变化日志中每个块数据分别对应一个全局唯一且全局递增的序列号；

日志预处理单元200，用于分别对每个所述主机的变化日志进行预处理，并将预处理后的每个所述主机的变化日志分别发送到相应的消息队列中；

归并排序单元300，用于读取每个所述消息队列中的变化日志，按照序列号对块数据进行递增排序，并将递增排序后的块数据输出到kafka的预设主题中；

数据存储单元400，用于读取kafka中的序列号递增的块数据，并将其分别存储到每个主机文件对应的HBase表中。

可选的，所述日志采集单元100，具体用于：

分别获取主机系统中每个所述主机的日志文件的cycle数；

在日志文件的cycle数为最新cycle数的情况下，读取最新cycle中日志文件每个块数据。

可选的，所述日志预处理单元200，具体用于：

分别过滤掉每个所述主机的变化日志中的控制块数据；

提取每个主机的变化日志中数据块数据中的序列号和更新记录。

可选的，所述数据存储单元400，具体用于：

读取kafka中的序列号递增的块数据；

根据块数据的数据内容构造key-value形式的数据结构，其中，key为主机文件名和更新记录的组合，value为块数据内容；

分别将key-value形式的数据结构的块数据存储到每个主机文件对应的HBase表中。

可选的，所述装置还包括数据整合与推送单元，具体用于：

读取kafka中的序列号递增的块数据；

根据业务规则对读取的序列号递增的块数据进行整合；

在整合过程中判断是否存在数据缺失；

若不存在数据缺失，对整合好的数据进行预设编码，并按数据类型的不同写入预先创建的不同kafka主题中；

若存在数据缺失，通过读取HBase表获取缺失的数据，以进行整合，并对整合好的数据进行预设编码，并按数据类型的不同写入预先创建的不同kafka主题中。

本实施例公开的一种业务数据采集装置，通过实时采集主机系统中每个主机的变化日志，后续按序列号单调递增的顺序读取和存储每个主机的变化日志中的块数据，实现主机系统中所有主机更新数据的同步，解决了异步采集日志导致的漏采、错采问题，极大提高了数据采集的完备性和准确性。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

根据本公开的一个或多个实施例，提供了一种业务数据采集方法，包括：

可选的，所述分别读取主机系统中每个主机的变化日志，包括：

分别获取主机系统中每个所述主机的日志文件的cycle数；

可选的，所述分别对每个所述主机的变化日志进行预处理，包括：

分别过滤掉每个所述主机的变化日志中的控制块数据；

可选的，所述读取kafka中的序列号递增的块数据，并将其分别存储到每个主机文件对应的HBase表中，包括：

读取kafka中的序列号递增的块数据；

可选的，在所述读取kafka中的序列号递增的块数据，并将其分别存储到每个主机文件对应的HBase表中之后，所述方法还包括：

读取kafka中的序列号递增的块数据；

根据业务规则对读取的序列号递增的块数据进行整合；

在整合过程中判断是否存在数据缺失；

根据本公开的一个或多个实施例，提供了一种业务数据采集装置，包括：

可选的，所述日志采集单元，具体用于：

分别获取主机系统中每个所述主机的日志文件的cycle数；

可选的，所述日志预处理单元，具体用于：

分别过滤掉每个所述主机的变化日志中的控制块数据；

可选的，所述数据存储单元，具体用于：

读取kafka中的序列号递增的块数据；

可选的，所述装置还包括数据整合与推送单元，具体用于：

读取kafka中的序列号递增的块数据；

根据业务规则对读取的序列号递增的块数据进行整合；

在整合过程中判断是否存在数据缺失；

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种业务数据采集方法，其特征在于，包括：

调用日志采集单元分别读取主机系统中每个主机的变化日志，变化日志中每个块数据分别对应一个全局唯一且全局递增的序列号；其中，每个主机分别对应一个日志采集单元；所述变化日志为audit文件；

读取每个所述消息队列中的变化日志，按照序列号对块数据进行递增排序，并将递增排序后的块数据输出到kafka的预设主题中；其中，若所述主机系统有N个主机，则输出N个消息队列，将第一队列作为基准队列，每次归并排序都以第一队列中的数据作为基础，设定数据处理窗口宽度为M，则窗口中的数据的序列号为：csn_1,M>csn_1,M-1>csn_1,M-2>...>csn_1,1，构成数组1；针对第二消息队列，从第二队列中顺序取出数据，当数据的序列号大于csn_1,M时，停止取数，将当前大于csn_1,M的序列号作为csn_2,N，将csn_2,1...csn_2,N-1作为数组2；对剩余的N-2个消息队列，分别执行如所述第二消息队列的操作，对应的得到N-2个数组；对N个数组进行排序，得到序列号最大值为csn_1,M的一个数组，将该数组写入指定kafka的预设主题中；

2.根据权利要求1所述的方法，其特征在于，所述分别读取主机系统中每个主机的变化日志，包括：

分别获取主机系统中每个所述主机的日志文件的cycle数；

3.根据权利要求1所述的方法，其特征在于，所述分别对每个所述主机的变化日志进行预处理，包括：

分别过滤掉每个所述主机的变化日志中的控制块数据；

4.根据权利要求3所述的方法，其特征在于，所述读取kafka中的序列号递增的块数据，并将其分别存储到每个主机文件对应的HBase表中，包括：

读取kafka中的序列号递增的块数据；

5.根据权利要求1所述的方法，其特征在于，在所述读取kafka中的序列号递增的块数据，并将其分别存储到每个主机文件对应的HBase表中之后，所述方法还包括：

读取kafka中的序列号递增的块数据；

根据业务规则对读取的序列号递增的块数据进行整合；

在整合过程中判断是否存在数据缺失；

6.一种业务数据采集装置，其特征在于，包括：

日志采集单元，用于分别读取主机系统中每个主机的变化日志，变化日志中每个块数据分别对应一个全局唯一且全局递增的序列号；其中，每个主机分别对应一个日志采集单元；所述变化日志为audit文件；

归并排序单元，用于读取每个所述消息队列中的变化日志，按照序列号对块数据进行递增排序，并将递增排序后的块数据输出到kafka的预设主题中；其中，若所述主机系统有N个主机，则输出N个消息队列，将第一队列作为基准队列，每次归并排序都以第一队列中的数据作为基础，设定数据处理窗口宽度为M，则窗口中的数据的序列号为：csn_1,M>csn_1,M-1>csn_1,M-2>...>csn_1,1，构成数组1；针对第二消息队列，从第二队列中顺序取出数据，当数据的序列号大于csn_1,M时，停止取数，将当前大于csn_1,M的序列号作为csn_2,N，将csn_2,1...csn_2,N-1作为数组2；对剩余的N-2个消息队列，分别执行如所述第二消息队列的操作，对应的得到N-2个数组；对N个数组进行排序，得到序列号最大值为csn_1,M的一个数组，将该数组写入指定kafka的预设主题中；

7.根据权利要求6所述的装置，其特征在于，所述日志采集单元，具体用于：

分别获取主机系统中每个所述主机的日志文件的cycle数；

8.根据权利要求6所述的装置，其特征在于，所述日志预处理单元，具体用于：

分别过滤掉每个所述主机的变化日志中的控制块数据；

9.根据权利要求8所述的装置，其特征在于，所述数据存储单元，具体用于：

读取kafka中的序列号递增的块数据；

10.根据权利要求6所述的装置，其特征在于，所述装置还包括数据整合与推送单元，具体用于：

读取kafka中的序列号递增的块数据；

根据业务规则对读取的序列号递增的块数据进行整合；

在整合过程中判断是否存在数据缺失；