CN108133017A

CN108133017A - 一种多数据源采集配置方法及装置

Info

Publication number: CN108133017A
Application number: CN201711410383.XA
Authority: CN
Inventors: 杨锐恒; 李俊
Original assignee: Guangzhou Shen Di Computer System Co Ltd
Current assignee: Guangzhou Shen Di Computer System Co Ltd
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-06-08

Abstract

本发明公开了一种多数据源采集配置方法及装置，涉及数据自动化采集领域。用以解决现有的数据采集流程效率低，且操作方式单一的问题。包括：根据数据源配置入口获取到的配置信息，确定数据源在服务器内的存储路径，根据展示数据源阈值以及数据源在存储路径的起始位置，确定获取第一数据源；根据数据格式化命令对第一数据源进行格式化，根据字段重命名命令对第二数据源包括的多个字段进行重命名，并对多个重命名的字段进行字段类型识别；根据数据源命名命令，对第二数据源进行重命名，得到第三数据源，并根据存储方式命令设置第三数据源对应的存储路径；将配置文件发送至数据采集进程，以使数据采集进程根据配置文件进行数据采集。

Description

一种多数据源采集配置方法及装置

技术领域

本发明涉及数据自动化采集领域，更具体的涉及一种多数据源采集配置方法及装置。

背景技术

在大数据的时代，数据即价值。程序日志，业务数据等分散不同的机器，以不同的数据格式存在，需要一套高效的采集方案，把数据进行初步的格式化、清洗过滤后，汇聚到数据中心，做进一步的分析挖掘。

目前，通常采用以下方案将数据进行汇聚并进行分析：1)、根据特定的数据源，开发特定的数据采集程序；2)、选择收费的数据采集工具或者服务，例如阿里云的日志服务；3)、选择开源的数据采集工具，例如flume、logstash等。采用特定的数据源，开发特定的数据采集程序，这种做法既有一定的开发周期和人力成本，而且效率和稳定性难以保证；选择收费的数据采集工具或者服务，需要软件费用和学习成本，信息安全性也难以保障；选择开源的数据采集工具，例如flume和Logstash，由于Flume的使用涉及部分功能的自定义开发，相比而言，logstash内置了几十个插件，配置灵活，基本能实现免编程的使用，但logstash需要手工编写配置文件，效率还是不高。

发明内容

本发明实施例提供一种多数据源采集配置方法及装置，用以解决现有的数据采集流程效率低，且操作方式单一的问题。

本发明实施例提供了一种多数据源采集配置方法，包括：

根据数据源配置入口获取到的配置信息，确定与所述配置信息对应的数据源在服务器内的存储路径以及所述数据源在所述存储路径的起始位置；

根据展示数据源阈值以及所述数据源在所述存储路径的起始位置，确定获取第一数据源；

根据接收到数据格式化命令对所述第一数据源进行格式化，得到第二数据源；根据接收到的字段重命名命令对所述第二数据源包括的多个字段进行重命名，并对多个重命名的所述字段进行字段类型识别；根据数据源命名命令，对所述第二数据源进行重命名，得到第三数据源，并根据接收到存储方式命令设置所述第三数据源对应的存储路径；

将所述配置信息，所述展示数据源阈值，所述数据格式化命令，所述字段重命名命令，所述数据源命名命令和所述存储方式命令按照格式拼接成配置文件，将所述配置文件发送至数据采集进程，以使所述数据采集进程根据所述配置文件进行数据采集。

优选地，包括WEB装置和AGENT装置；

所述根据数据源配置入口获取到的配置信息之前，还包括：

所述AGENT装置向所述WEB装置发送心跳信息，以使所述WEB装置确定所述AGENT装置并将所述AGENT装置添加到AGENT装置列表内，并通过监听端口，接收所述WEB装置发送的指令；

所述指令包括所述配置信息，所述展示数据源阈值，所述数据格式化命令，所述字段重命名命令，所述数据源命名命令，所述存储方式命令中的一个或多个。

优选地，所述根据接收到数据格式化命令对所述第一数据源进行格式化，具体包括：

根据接收到的列分隔符命令对所述第一数据源进行格式化；和/或

根据接收到的行分隔正则表达式命令对所述第一数据源进行格式化。

优选地，所述字段类型识别包括以下一种或多种组合：整数，小数，字符串，时间；

所述对多个重命名的所述字段进行字段类型识别，具体包括：

通过正则表达式对所述字段内包括的每一列以及每一列中包括的每一行进行类型识别，将每一列内出现数量最多的类型确定为该列的字段类型。

优选地，所述根据数据源配置入口获取到的配置信息之前，还包括：

所述数据采集进程确认数据采集配置文件目录和开启所述数据采集进程的配置的自动重载功能；

所述数据采集配置文件目录用于存储所述配置文件，所述自动重载功能用于按照设定时间确认所述数据采集配置文件目录下所述配置文件的状态。

本发明实施例提供了一种多数据源采集配置装置，包括：

第一确定单元，用于根据数据源配置入口获取到的配置信息，确定与所述配置信息对应的数据源在服务器内的存储路径以及所述数据源在所述存储路径的起始位置；

第二确定单元，用于根据展示数据源阈值以及所述数据源在所述存储路径的起始位置，确定获取第一数据源；

处理单元，用于根据接收到数据格式化命令对所述第一数据源进行格式化，得到第二数据源；根据接收到的字段重命名命令对所述第二数据源包括的多个字段进行重命名，并对多个重命名的所述字段进行字段类型识别；根据数据源命名命令，对所述第二数据源进行重命名，得到第三数据源，并根据接收到存储方式命令设置所述第三数据源对应的存储路径；

拼接单元，用于将所述配置信息，所述展示数据源阈值，所述数据格式化命令，所述字段重命名命令，所述数据源命名命令和所述存储方式命令按照格式拼接成配置文件，将所述配置文件发送至数据采集进程，以使所述数据采集进程根据所述配置文件进行数据采集。

优选地，包括WEB装置和AGENT装置；

所述第一确定单元还用于：

优选地，所述处理单元具体用于：

所述处理单元具体用于：

优选地，所述第一确定单元还用于：

本发明实施例提供了一种多数据源采集配置方法，包括：根据数据源配置入口获取到的配置信息，确定与所述配置信息对应的数据源在服务器内的存储路径以及所述数据源在所述存储路径的起始位置；根据展示数据源阈值以及所述数据源在所述存储路径的起始位置，确定获取第一数据源；根据接收到数据格式化命令对所述第一数据源进行格式化，得到第二数据源；根据接收到的字段重命名命令对所述第二数据源包括的多个字段进行重命名，并对多个重命名的所述字段进行字段类型识别；根据数据源命名命令，对所述第二数据源进行重命名，得到第三数据源，并根据接收到存储方式命令设置所述第三数据源对应的存储路径；将所述配置信息，所述展示数据源阈值，所述数据格式化命令，所述字段重命名命令，所述数据源命名命令和所述存储方式命令按照格式拼接成配置文件，将所述配置文件发送至数据采集进程，以使所述数据采集进程根据所述配置文件进行数据采集。上述方法中，数据源配置入口设置在WEB装置上，用户在WEB装置上根据从服务器内获取到的数据源，针对数据源的特征，分别输入展示数据源阈值，数据格式化命令，字段重命名命令，数据源命名命令和存储方式命令，再根据上述命令即可以生成数据采集进程的配置文件，数据采集进程根据上述配置文件进行数据采集。该方法解决了现有数据采集流程效率低，且操作方式比较单一的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多数据源采集配置方法流程示意图；

图2为本发明实施例提供的一种多数据源采集配置方法架构示意图；

图3为本发明实施例提供的一种多数据源采集配置装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示例性的示出了本发明实施例提供的一种多数据源采集配置方法流程示意图。该方法主要包括以下步骤：

步骤101，根据数据源配置入口获取到的配置信息，确定与所述配置信息对应的数据源在服务器内的存储路径以及所述数据源在所述存储路径的起始位置；

步骤102，根据展示数据源阈值以及所述数据源在所述存储路径的起始位置，确定获取第一数据源；

步骤103，根据接收到数据格式化命令对所述第一数据源进行格式化，得到第二数据源；根据接收到的字段重命名命令对所述第二数据源包括的多个字段进行重命名，并对多个重命名的所述字段进行字段类型识别；根据数据源命名命令，对所述第二数据源进行重命名，得到第三数据源，并根据接收到存储方式命令设置所述第三数据源对应的存储路径；

步骤104，将所述配置信息，所述展示数据源阈值，所述数据格式化命令，所述字段重命名命令，所述数据源命名命令和所述存储方式命令按照格式拼接成配置文件，将所述配置文件发送至数据采集进程，以使所述数据采集进程根据所述配置文件进行数据采集。

在实际应用中，由于数据源存储在多台服务器内，而数据采集进程是分布式部署，为了能够使得数据采集进程分别与WEB装置和服务器进行消息发送，在本发明实施例中，还提供了AGENT装置，该AGENT装置一方面充当了web装置和数据采集进程之间的通信桥梁，另一方面充当了web装置和服务器之间的通信桥梁。

在步骤101之前，数据采集进程需要进行以下操作：

确认数据采集配置文件目录和开启数据采集进程的配置的自动重载功能；其中，数据采集配置文件目录用于存储配置文件，自动重载功能用于按照设定时间确认数据采集配置文件目录下配置文件的状态。比如，Logstash采集程序准备数据采集配置文件目录。

再者，AGENT装置需要与WEB装置之间建立通信连接，具体包括：

AGENT装置向WEB装置发送心跳信息，当WEB装置收到AGENT装置发送的心跳信息后，根据接收到的心跳信息，将AGENT装置添加到AGENT装置列表内，然后WEB装置开通与AGENT装置之间的tcp监听端口，接收WEB装置发送的指令。在本发明实施例中，WEB装置发送的指令主要包括配置信息，展示数据源阈值，数据格式化命令，字段重命名命令，数据源命名命令和存储方式命令。

需要说明的是，在本发明实施例中，当WEB装置将AGENT装置添加到AGENT装置列表内之后，WEB装置的WEB界面会列出可选的AGENT装置列表，每个AGENT装置下面能展开此AGENT装置所在主机的文件系统树状结构，让用户选择服务器上某个文件或者目录。用户还可以设置文件名正则匹配规则，目录监控层级数。从而能监控某个文件(绝对路径)、某类文件(正则匹配)、某个目录下的子目录里面的文件。

进一步地，web界面提供数据库服务器的类型，ip，端口，账号，密码，数据查询的sql。比如，kafka、redis、rabbitmq等的数据源，也通过设置相应的连接方式，实现数据读取。

在步骤101中，采用的WEB装置，该WEB装置遵循J2EE规范，比如，使用springMVC框架，作为数据源配置入口和Logstash数据采集配置的适配器。

AGENT装置根据数据源配置入口获取到的配置信息，根据配置信息对应的数据源从服务器内获取数据源的存储路径，并且需要确认数据源在存储路径的起始位置。

图2为本发明实施例提供的一种多数据源采集配置方法架构示意图，如图2所示，在该架构中，一个AGENT装置分别与一个WEB装置，一个数据采集进程和一个服务器联接，即一个WEB装置通过一个AGENT装置与一个数据采集进程建立通信关系；一个WEB装置通过一个AGENT装置与一个服务器联接建立通信关系。

具体地，AGENT装置通过心跳信息与WEB装置进行通信，即WEB装置通过确定的心跳信息，可以确定当前有多少个AGENT装置是在运行。比如，当用户在WEB装置配置对某个数据源的采集参数的过程所需要的信息，以及配置完参数后提交确认请求后，WEB装置都会通过socket通信，把此参数发给对应的与WEB装置对应的AGENT装置。而AGENT装置在接收到WEB装置发送的指令后，会根据指令的具体要求，获取WEB装置所需要的信息；或者把指令里面的配置文件内容，写入Logstash进程的配置目录中，使Logstash进程自动执行采集任务。

需要说明的是，在本发明实施例中，数据源可以是服务器上的文件、目录，还可以是kafka、redis、rabbitmq、mysql等里面的数据。Logstash进程采集的结果，是根据配置文件的要求，写入特定的目标存储库中，例如elasticsearch、hdfs等。

在步骤102中，由于数据源在WEB界面的显示受WEB界面的大小限制，优选地，本发明实施例中，对获取到的数据源的展示数量进行了限制，即设置了展示数据源阈值，用户可以在WEB界面设置展示数据源阈值，AGENT装置根据接收到的展示数据源阈值以及数据源在存储路径的起始位置，采集与展示数据源阈值一致的数据源，并采集到的数据源确定为第一数据源。

需要说明的是，本发明实施例中所陈述的术语展示数据源阈值表示采样限定，比如，当前可以采样1000条记录，则相应地，展示数据源阈值为1000。

进一步地，为了避免发生重复采集数据源的问题，在本发明实施例中，可以对每次采集的当前位置进行记录，比如，当前采集到100行，对100行进行记录，再次进行采集时，可以根据记录信息，从101行开始采集，从而可以避免重复采集的问题。

在步骤103中，AGENT装置接收到数据格式化命令，可以根据该数据格式化命令对第一数据源进行格式化，在本发明实施例中，将格式化的第一数据源记为第二数据源，需要说明的是，在介绍本发明实施例提供的多数据源采集配置方法时，由于涉及到数据源的多种形式，为了避免混淆，以下采用第一数据源，第二数据源和第三数据源进行区别，但是，第一数据源，第二数据源和第三数据源并不进行具体的限定。

需要说明的是，在本发明实施例中，数据格式化主要包括以下几类：

1).根据接收到的列分隔符命令对第一数据源进行格式化；2).根据接收到的行分隔正则表达式命令对第一数据源进行格式化；3).根据接收到的列分隔符命令和行分隔正则表达式命令对第一数据源进行格式化。

具体地，对于按特定分隔符进行列分隔的，允许用户在web界面输入列分隔符进行数据格式化；对于按特定分隔符，或者某个特征字符串，例如日期，进行行分隔的，允许用户在web界面输入行分隔符或者行分隔正则表达式，进行数据格式化。

在实际应用中，还包括以下几种特例：对于csv或者excel等特定文件格式的，按特定文件格式进行数据提取和格式化；允许用户选择内置的常见日志格式识别的正则表达式，进行日志格式化；例如能支持apache日志、nginx日志、tomcat日志、linux系统日志、syslog日志等。支持对用户自定义的日志格式进行自动识别：自行开发一个格式自动识别模块，提取样本数据，逐行识别最佳匹配效果的正则表达式；并且分析行与行之间的内容关联，优化正则表达式；最后得出样本数据匹配率最高的前10条正则表达式。为防止系统识别能力的限制，允许用户自行修改正则表达式，以达到最佳的匹配效果。

进一步地，当AGENT装置接收到字段重命名命令后，需要对第二数据源内包括的多个字段进行重命名。具体地，用户通过web界面定义每个字段的业务含义。例如可以把英文字段名改成中文字段名，方便以后数据使用时候的可读性。

在本发明实施例中，对字段重命名命令包括的具体内容不做限定。

进一步地，当AGENT装置接收到字段类型识别命令后，需要对字段重命名后的第二数据源内包括的多个字段，进行字段类型识别。其中，字段类型识别主要包括以下一种或者多种组合：整数、小数、字符串、时间。需要说明的是，时间可以包括日期格式，比如yyyy-MM-dd。

具体地，对字段进行字段类别识别主要通过运用正则表达式匹配，对字段内包括的每一列以及每没一列中包括的每一行进行类别识别，将在每一列内出现数量最多的类型确定为该列的字段类型。

需要说明的是，由于正则识别法没有考虑业务内容，例如员工编号，是整数，但在一般会当作字符串使用，所以允许用户在web界面根据自身业务需要，对字段类型进行修改。

进一步地，当AGENT装置接收到数据源命名命令之后，需要对第二数据源进行重命名，得到第三数据源。具体地，在对数据源进行重命名是，需要对修改的命名进行校验，即不能与已经存在的采集数据的命名重复，再者，还允许用户指定数据源的类型，指定的数据源用于配置文件，若用于没有指定数据源的类型，则可以默认使用数据源命名，作为类型的值。

在本发明实施例中，需要对得到的第三数据源进行存储，而在进行存储时，也同样需要根据接收到的存储方式命令设置第三数据源对应的存储路径。比如，elasticsearch、hdfs、kafka、redis、mongodb、rabbitmq等，对于不同的存储方式，需要指定连接参数，例如服务器的ip、端口、账号、密码。

在步骤103中，将配置信息，展示数据源阈值，数据格式化命令，字段重命名命令，数据源命名命令和存储方式命令按照格式拼接成配置文件，将配置文件发送至数据采集进程的数据采集配置文件目录下，当数据采集进程确认数据采集配置文件目录下的配置文件发送变化，则可以根据该变化后的配置文件进行数据采集。

在本发明实施例中，数据采集进程按照设定的时间再次确认数据采集配置文件目录下的配置文件的状态是否发生变化，其中，配置文件的状态包括新增文件和修改文件等变化的状态。若发现配置文件的状态发送变化，既可以开始新审计的采集工作。

为了能更清楚的介绍本发明实施例提供的多数据源采集配置方法，以下以固定分隔符的文件数据源为例，再次介绍多数据源采集配置方法：

数据输入环节，生成input插件的配置信息：

以上配置生成时使用StringBuilder拼接，最后以文件形式写入到数据采集配置目录。

综上所述，本发明实施例提供了一种多数据源采集配置方法，该方法中，把数据采集进程的配置文件参数项目，分解为web装置的功能，主要包括配置信息，展示数据源阈值，数据格式化命令，字段重命名命令，数据源命名命令和存储方式命令等。再者，能够把用户在web装置上填写的参数，按格式拼接成数据采集进程配置文件内容，并通知数据采集进程按照配置文件开始采集。在进行数据格式化，能支持设置固定列分隔符、设置行分隔规则、支持特定文件格式的解析；在选择常规日志的正则表达式、自动判断日志格式的正则表达式，并允许用户修正。从而能在最大程度上，避免用户开发数据格式化的代码。通过AGENT装置，实现远程服务器数据源样本数据的读取，以及分布式数据采集进程的使用。

基于同一发明构思，本发明实施例提供了一种多数据源采集配置装置，由于该装置解决技术问题的原理与一种多数据源采集配置方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

图3为本发明实施例提供的一种多数据源采集配置装置结构示意图，如图3所示，该装置包括：第一确定单元201，第二确定单元202，处理单元203和拼接单元204。

第一确定单元201，用于根据数据源配置入口获取到的配置信息，确定与所述配置信息对应的数据源在服务器内的存储路径以及所述数据源在所述存储路径的起始位置；

第二确定单元202，用于根据展示数据源阈值以及所述数据源在所述存储路径的起始位置，确定获取第一数据源；

处理单元203，用于根据接收到数据格式化命令对所述第一数据源进行格式化，得到第二数据源；根据接收到的字段重命名命令对所述第二数据源包括的多个字段进行重命名，并对多个重命名的所述字段进行字段类型识别；根据数据源命名命令，对所述第二数据源进行重命名，得到第三数据源，并根据接收到存储方式命令设置所述第三数据源对应的存储路径；

拼接单元204，用于将所述配置信息，所述展示数据源阈值，所述数据格式化命令，所述字段重命名命令，所述数据源命名命令和所述存储方式命令按照格式拼接成配置文件，将所述配置文件发送至数据采集进程，以使所述数据采集进程根据所述配置文件进行数据采集。

优选地，包括WEB装置和AGENT装置；

所述第一确定单元201还用于：

优选地，所述处理单元203具体用于：

所述处理单元203具体用于：

优选地，所述第一确定单元201还用于：

应当理解，以上一种多数据源采集配置装置包括的单元仅为根据该设备装置实现的功能进行的逻辑划分，实际应用中，可以进行上述单元的叠加或拆分。并且该实施例提供的一种多数据源采集配置装置所实现的功能与上述实施例提供的一种多数据源采集配置方法一一对应，对于该装置所实现的更为详细的处理流程，在上述方法实施例一中已做详细描述，此处不再详细描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多数据源采集配置方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，包括WEB装置和AGENT装置；

所述根据数据源配置入口获取到的配置信息之前，还包括：

3.如权利要求1所述的方法，其特征在于，所述根据接收到数据格式化命令对所述第一数据源进行格式化，具体包括：

4.如权利要求1所述的方法，其特征在于，所述字段类型识别包括以下一种或多种组合：整数，小数，字符串，时间；

5.如权利要求1所述的方法，其特征在于，所述根据数据源配置入口获取到的配置信息之前，还包括：

6.一种多数据源采集配置装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，包括WEB装置和AGENT装置；

所述第一确定单元还用于：

8.如权利要求6所述的装置，其特征在于，所述处理单元具体用于：

9.如权利要求6所述的装置，其特征在于，所述字段类型识别包括以下一种或多种组合：整数，小数，字符串，时间；

所述处理单元具体用于：

10.如权利要求6所述的装置，其特征在于，所述第一确定单元还用于：