CN114661513A

CN114661513A - 分布式多源数据的采集方法、系统、设备及存储介质

Info

Publication number: CN114661513A
Application number: CN202210404012.5A
Authority: CN
Inventors: 胡必文; 石志杰; 李国雄
Original assignee: Guangzhou Purun Information Technology Co ltd
Current assignee: Guangzhou Purun Information Technology Co ltd
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-06-24
Anticipated expiration: 2042-04-18
Also published as: CN114661513B

Abstract

本发明涉及一种分布式多源数据的采集方法、系统、计算机设备及存储介质，其技术方案要点是：将多个数据库和多个采集端建立多对多的关联关系；判断是否有采集端出现故障，是则确定第一数据库集合和第一采集端集合，其中，第一数据库集合为该出现故障的采集端对应的所有数据库的集合，第一采集端集合为除该出现故障的采集端之外的第一数据库集合中所有数据库对应的采集端的集合；根据预设的第一配置规则、第一数据库集合、第一采集端集合和关联关系生成第二配置规则，各个采集端根据第二配置规则获取对应的数据库的日志数据；本申请具有出现故障的情况下，将该采集端对应的数据库分配给正常运行的其他采集端采集，以保证数据正常采集的效果。

Description

分布式多源数据的采集方法、系统、设备及存储介质

技术领域

本发明涉及数据采集技术领域，更具体地说，它涉及一种分布式多源数据的采集方法、系统、设备及存储介质。

背景技术

在众多的医疗系统实时数据采集的过程中，譬如把数据通过ETL工具同步到目标端的时候，存在多个数据源，多个目标端的情况，一家综合医院的所有系统加起来往往多达上百个数据库，再加上如xml、json、pdf、test、csv等非结构化数据源可能存在上千个采集任务。

现有技术的分布式多源数据的采集方法通常会通过采集端对数据库的数据进行采集，但是这些采集方法通常具有单一性限制，在采集端出现故障的情况下，会影响与该采集端对应的数据库的采集任务。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种分布式多源数据的采集方法、系统、设备及存储介质，具有在采集端出现故障的情况下，将该采集端对应的数据库分配给正常运行的其他采集端采集，以保证数据正常采集的功能优点。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种分布式多源数据的采集方法，包括：

将多个数据库和多个用于对所述数据库的日志数据进行解析和标准化的采集端建立多对多的关联关系；

判断所有所述采集端中是否有采集端出现故障，若为是，则根据预设的第一配置规则和该出现故障的采集端确定第一数据库集合，根据所述第一数据库集合、关联关系和该出现故障的采集端确定第一采集端集合，其中，所述第一数据库集合为该出现故障的采集端根据所述第一配置规则对应的所有数据库的集合，所述第一采集端集合为除该出现故障的采集端之外的所述第一数据库集合中所有数据库根据关联关系对应的采集端的集合；

根据所述第一配置规则、第一数据库集合、第一采集端集合和关联关系生成第二配置规则，各个所述采集端根据第二配置规则获取对应的数据库的日志数据；

若为否，则各个所述采集端根据第一配置规则获取对应的数据库的日志数据。

可选的，所述将多个数据库和多个用于对所述数据库的日志数据进行解析和标准化的采集端建立多对多的关联关系，包括：

将各个数据库与至少一采集端建立第一关联；

将各个采集端与至少一数据库建立第二关联。

可选的，所述根据预设的第一配置规则和该出现故障的采集端确定第一数据库集合，根据所述第一数据库集合、关联关系和该出现故障的采集端确定第一采集端集合，包括：

根据所述第一配置规则选出出现故障的采集端对应的所有数据库确定第一数据库集合；

根据所述第一关联将所有采集端进行划分得到多个分类组；

根据所述第一关联筛选出所述第一数据库集合中的各个数据库对应的分类组，从该分类组中任选一除该出现故障的采集端之外的采集端确定第一采集端；

将所述第一数据库集合中的所有数据库对应的所有第一采集端汇集确定第一采集端集合。

可选的，所述根据所述第一配置规则、第一数据库集合、第一采集端集合和关联关系生成第二配置规则，包括：

所述第一配置规则为各个采集端根据第二关联与至少一数据库建立第三关联，且在所述第三关联中各个数据库对应唯一的采集端；

在所述第三关联的基础上取消第一数据库集合中的所有数据库与出现故障的采集端的关联；

根据所述第一关联将第一数据库集合中的各个数据库和第一采集端集合中与其对应的采集端建立关联形成第二配置规则。

可选的，所述采集端对所述数据库的日志数据进行解析和标准化，包括：

将日志数据以json格式发送至kafka队列缓存，然后采用StreamSets工具将缓存在Kafka队列上的日志数据实时写入到数据仓库。

可选的，所述获取对应的数据库的日志数据，包括：

通过JDBC通用协议获取对应的数据库的日志数据，所述日志数据包括：增加数据、修改数据和删除数据。

一种分布式多源数据的采集系统，包括：

建立关联模块，用于将多个数据库和多个用于对所述数据库的日志数据进行解析和标准化的采集端建立多对多的关联关系；

判断采集模块，用于判断所有所述采集端中是否有采集端出现故障，若为是，则根据预设的第一配置规则和该出现故障的采集端确定第一数据库集合，根据所述第一数据库集合、关联关系和该出现故障的采集端确定第一采集端集合，其中，所述第一数据库集合为该出现故障的采集端根据所述第一配置规则对应的所有数据库的集合，所述第一采集端集合为除该出现故障的采集端之外的所述第一数据库集合中所有数据库根据关联关系对应的采集端的集合；根据所述第一配置规则、第一数据库集合、第一采集端集合和关联关系生成第二配置规则，各个所述采集端根据第二配置规则获取对应的数据库的日志数据；若为否，则各个所述采集端根据第一配置规则获取对应的数据库的日志数据。

可选的，所述建立关联模块包括：

第一关联单元，用于将各个数据库与至少一采集端建立第一关联；

第二关联单元，用于将各个采集端与至少一数据库建立第二关联；

所述判断采集模块包括:

第一确定单元，用于根据所述第一配置规则选出出现故障的采集端对应的所有数据库确定第一数据库集合；

分类单元，用于根据第一关联将所有采集端进行划分得到多个分类组；

第二确定单元，用于根据所述第一关联筛选出所述第一数据库集合中的各个数据库对应的分类组，从该分类组中任选一除该出现故障的采集端之外的采集端确定第一采集端；

第三确定单元，用于将所述第一数据库集合中的所有数据库对应的所有第一采集端汇集确定第一采集端集合。

一种计算机设备,包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

综上所述，本发明具有以下有益效果：将多个数据库和多个采集端建立多对多的关联关系，解决了单一性的限制，并能够在有一采集端出现出现故障的情况下，能够根据第一配置规则得到出现故障的采集端在出现故障之前所采集的所有数据库，然后将除出现故障的采集端之外第一数据库集合中的所有数据库对应的采集端筛选出来，以在有采集端出现故障的情况下，能够将该采集端对应的数据库分配给正常运行的其他采集端采集，以保证数据正常采集。

附图说明

图1是本发明提供的分布式多源数据的采集方法的流程示意图；

图2是本发明提供的分布式多源数据的采集系统的结构框图；

图3是本发明实施例中计算机设备的内部结构图。

具体实施方式

为使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

下面结合附图和实施例，对本发明进行详细描述。

本发明提供了一种分布式多源数据的采集方法,如图1所示，包括：

步骤100、将多个数据库和多个用于对所述数据库的日志数据进行解析和标准化的采集端建立多对多的关联关系；

步骤200、判断所有所述采集端中是否有采集端出现故障，若为是，则执行步骤300，若为否，则执行步骤500；

步骤300、根据预设的第一配置规则和该出现故障的采集端确定第一数据库集合，根据所述第一数据库集合、关联关系和该出现故障的采集端确定第一采集端集合，其中，所述第一数据库集合为该出现故障的采集端根据所述第一配置规则对应的所有数据库的集合，所述第一采集端集合为除该出现故障的采集端之外的所述第一数据库集合中所有数据库根据关联关系对应的采集端的集合；

步骤400、根据所述第一配置规则、第一数据库集合、第一采集端集合和关联关系生成第二配置规则，各个所述采集端根据第二配置规则获取对应的数据库的日志数据；

步骤500、各个所述采集端根据预设的配置规则获取对应的数据库的日志数据。其中，所述日志数据包括：增加数据、修改数据和删除数据，也就是在医院系统的数据产生增加、修改或删除的情况下，其日志会对应的产生增加数据、修改数据或删除数据，以便于实时采集更新。

在实际应用中，本采集方法主要应用于医院，医院具有各种系统，如医院信息系统(Hospital Information System,HIS)、实验室信息管理系统(Laboratory InformationManagement System,LIS)、放射信息管理系统(Radioiogy Information System,RIS)、医学影像存档与通讯系统(Picture archiving and communication Systems,PACS)、电子病历(Electronic Medical Record,EMR)等，这些系统数据通常会存储在多个不同服务器的数据库上，也通常会采用多个采集端对多个不同服务器的数据库的数据进行采集，采集端为采集服务器，本申请中通过JDBC通用协议与数据库平台对接，在对接后，采用CDC(ChangeData Capture，变化数据采集)数据采集方式采集数据库中的数据，具体的，本实施例采用日志方式采集数据库中的数据，其中，CDC是一种实现数据的增量抽取解决方案，基于日志的CDC会把每个插入、更新、删除操作记录到日志里。

另外，本申请将多个数据库和多个采集端建立多对多的关联关系，解决了单一性的限制，并能够在有一采集端出现出现故障的情况下，能够根据第一配置规则将该采集端对应的所有数据库筛选出来得到第一数据库集合，也就是得到出现故障的采集端在出现故障之前所采集的所有数据库，然后将第一数据库集合中的各个数据库对应的其他采集端，也就是除出现故障的采集端之外第一数据库集合中的所有数据库对应的采集端筛选出来，然后根据预设的第一配置规则、第一数据库集合、第一采集端集合和关联关系形成第二配置规则，也就是将第一数据库集合中的各个数据库分配给第一采集端集合中对应的采集端采集，以在采集端出现故障的情况下，将该采集端对应的数据库分配给正常运行的其他采集端采集，以保证数据正常采集。

进一步地，所述将多个数据库和多个用于对所述数据库的日志数据进行解析和标准化的采集端建立多对多的关联关系，包括：

将各个数据库与至少一采集端建立第一关联；

将各个采集端与至少一数据库建立第二关联。

在实际应用中，将各个数据库与至少一采集端建立第一关联，如将A数据库与a采集端、b采集端和c采集端建立第一关联，也就是a采集端、b采集端和c采集端均能够采集A数据库的日志数据，以便于在a采集端、b采集端或c采集端出现出现故障的情况下，选择未出现故障的采集端对A数据库进行数据采集；将采集端与多个数据库建立第二关联，如将a采集端与A数据库、B数据库和C数据库建立第二关联，也就是a采集端能够采集A数据库、B数据库和C数据库的日志数据，使得采集端能够对多个数据库的数据进行采集。

进一步地，所述根据预设的第一配置规则和该出现故障的采集端确定第一数据库集合，根据所述第一数据库集合、关联关系和该出现故障的采集端确定第一采集端集合，包括：

根据第一关联将所有采集端进行划分得到多个分类组；

根据所述第一关联筛选出所述第一数据库集合中的各个数据库对应的分类组，从该分类组中任选一除该出现故障的采集端之外的采集端确定第一采集端；如在第一配置规则下a采集端对应采集A数据库和B数据库的日志数据的情况下，且在A数据库与a采集端、b采集端和c采集端建立第一关联，B数据库与b采集端和c采集端建立第一关联的情况下，根据第一关联进行分类得到两个分类组，分别为a采集端、b采集端和c采集端组成的一分类组、b采集端和c采集端组成的另一分类组，在a采集端出现故障时，则第一数据库集合为A数据库和B数据库组成的集合，能够将A数据库所对应的分类组(也就是a采集端、b采集端和c采集端组成的分类组)中剔除a采集端，从b采集端和c采集端中任选一采集端作为第一采集端，然后将B数据库所对应的分类组(也就是b采集端和c采集端组成的分类组)中从b采集端和c采集端中任选一采集端作为第一采集端；

将所述第一数据库集合中的所有数据库对应的所有第一采集端汇集确定第一采集端集合，如在A数据库对应的第一采集端为b采集端、B数据库对应的第一采集端为c采集端的情况下，第一采集端集合则为b采集端和c采集端组成的集合，在A数据库对应的第一采集端为c采集端、B数据库对应的第一采集端为c采集端的情况下，第一采集端集合则为c采集端组成的集合。

进一步地，所述根据所述第一配置规则、第一数据库集合、第一采集端集合和关联关系生成第二配置规则，包括：

所述第一配置规则为各个采集端根据第二关联与至少一数据库建立第三关联，且在所述第三关联中各个数据库对应唯一的采集端；如在a采集端与A数据库、B数据库和C数据库建立第二关联，b采集端与B数据库和C数据库建立第二关联，c采集端与B数据库和D数据库建立第二关联的情况下，第一配置规则可为a采集端在A数据库、B数据库和C数据库中选取A数据库和B数据库建立第三关联，b采集端在B数据库和C数据库中选取C数据库建立第三关联，c采集端在C数据库和D数据库中选取D数据库建立第三关联，也就是a采集端采集A数据库和B数据库的日志数据，b采集端采集C数据库的日志数据，c采集端采集D数据库的日志数据；

在所述第三关联的基础上取消第一数据库集合中的所有数据库与出现故障的采集端的关联，根据所述第一关联将第一数据库集合中的各个数据库和第一采集端集合中与其对应的采集端建立关联形成第二配置规则，如在第一数据库集合为A数据库和B数据库，第一采集端集合为b采集端和c采集端的情况下，则先取消第一配置规则中a采集端分别与A数据库和B数据库建立的第三关联，然后将A数据库和与其对应的第一采集端(也就是b采集端)建立关联，将B数据库和与其对应的第一采集端(也就是c采集端)建立关联，形成的第二配置规则为b采集端与A数据库和C数据库建立关联，c采集端与B数据库和D数据库建立关联，保证了在有采集端出现故障的情况下，能将该采集端根据第一配置规则对应的所有数据库分配给其他采集端采集，以保证对所有数据库的正常采集，且避免了对多个采集端对同一数据库的重复采集。

进一步地，所述采集端对所述日志数据进行解析和标准化，包括：

将所述日志数据以json格式发送至kafka队列缓存；

采用StreamSets工具将缓存在Kafka队列上的日志数据实时写入到数据仓库，在写入到仓库后以便于用户通过外部应用查看数据变化。

具体的，StreamSets是一款大数据实时采集的ETL工具，采用可视化界面操作，实现不写代码完成数据的采集和流转，且可实时查看数据流传输的基本信息和数据的质量，在其他实施例中也可以直接采用StreamSets工具将日志数据写入到数据仓库。

本发明的分布式多源数据的采集方法，将多个数据库和多个采集端建立多对多的关联关系，解决了单一性的限制，并能够在有一采集端出现出现故障的情况下，能够将该采集端根据第一配置规则所对应的所有数据库筛选出来得到第一数据库集合，然后将第一数据库集合中的各个数据库对应的其他采集端筛选出来得到第一采集端集合，然后将第一数据库集合中的各个数据库分配给第一采集端集合中对应的第一采集端采集，以该采集端对应的数据库分配给正常运行的其他采集端采集，以保证数据正常采集。

如图2所示，本发明还提供了一种分布式多源数据的采集系统，包括：

建立关联模块10，用于将多个数据库和多个用于对所述数据库的日志数据进行解析和标准化的采集端建立多对多的关联关系；

判断采集模块20，用于判断所有所述采集端中是否有采集端出现故障，若为是，则根据预设的第一配置规则和该出现故障的采集端确定第一数据库集合，根据所述第一数据库集合、关联关系和该出现故障的采集端确定第一采集端集合，其中，所述第一数据库集合为该出现故障的采集端根据所述第一配置规则对应的所有数据库的集合，所述第一采集端集合为除该出现故障的采集端之外的所述第一数据库集合中所有数据库根据关联关系对应的采集端的集合；根据所述第一配置规则、第一数据库集合、第一采集端集合和关联关系生成第二配置规则，各个所述采集端根据第二配置规则获取对应的数据库的日志数据；若为否，则各个所述采集端根据第一配置规则获取对应的数据库的日志数据。

在一个实施例中，所述建立关联模块包括：

所述判断采集模块包括:

关于分布式多源数据的采集系统的具体限定可以参见上文中对于分布式多源数据的采集方法的限定，在此不再赘述。上述分布式多源数据的采集系统的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种分布式多源数据的采集方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备,包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行计算机程序时实现以下步骤：

在一个实施例中，所述将多个数据库和多个用于对所述数据库的日志数据进行解析和标准化的采集端建立多对多的关联关系，包括：

将各个数据库与至少一采集端建立第一关联；

将各个采集端与至少一数据库建立第二关联。

在一个实施例中，所述根据预设的第一配置规则和该出现故障的采集端确定第一数据库集合，根据所述第一数据库集合、关联关系和该出现故障的采集端确定第一采集端集合，包括：

根据所述第一关联将所有采集端进行划分得到多个分类组；

在一个实施例中，所述根据所述第一配置规则、第一数据库集合、第一采集端集合和关联关系生成第二配置规则，包括：

在一个实施例中，所述采集端对所述数据库的日志数据进行解析和标准化，包括：

在一个实施例中，所述获取对应的数据库的日志数据，包括：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

将各个数据库与至少一采集端建立第一关联；

将各个采集端与至少一数据库建立第二关联。

根据所述第一关联将所有采集端进行划分得到多个分类组；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。。

Claims

1.一种分布式多源数据的采集方法，其特征在于，包括：

2.根据权利要求1所述的分布式多源数据的采集方法，其特征在于，所述将多个数据库和多个用于对所述数据库的日志数据进行解析和标准化的采集端建立多对多的关联关系，包括：

将各个数据库与至少一采集端建立第一关联；

将各个采集端与至少一数据库建立第二关联。

3.根据权利要求2所述的分布式多源数据的采集方法，其特征在于，所述根据预设的第一配置规则和该出现故障的采集端确定第一数据库集合，根据所述第一数据库集合、关联关系和该出现故障的采集端确定第一采集端集合，包括：

根据所述第一关联将所有采集端进行划分得到多个分类组；

4.根据权利要求2所述的分布式多源数据的采集方法，其特征在于，所述根据所述第一配置规则、第一数据库集合、第一采集端集合和关联关系生成第二配置规则，包括：

5.根据权利要求1-4任一项所述的分布式多源数据的采集方法，其特征在于，所述采集端对所述数据库的日志数据进行解析和标准化，包括：

6.根据权利要求5所述的分布式多源数据的采集方法，其特征在于，所述获取对应的数据库的日志数据，包括：

7.一种分布式多源数据的采集系统，其特征在于，包括：

8.根据权利要求7所述的一种分布式多源数据的采集系统，其特征在于，所述建立关联模块包括：

所述判断采集模块包括:

9.一种计算机设备,包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。