CN111162938A

CN111162938A - 数据处理系统及方法

Info

Publication number: CN111162938A
Application number: CN201911348906.1A
Authority: CN
Inventors: 姜尔赤
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-15

Abstract

本申请提供一种数据处理系统及方法，涉及数据处理技术领域，包括：Beats、Kafka集群、Logstash集群、Elasticsearch集群以及Kibana，其中，Kafka集群，用于接收Beats的采集数据；为采集数据按照所属的Topic确定用于存储采集数据的指定partition；并将采集数据发送给订阅Topic的Logstash集群中的服务器，并通过offset记录服务器在partition的已消费数据的消费进度；且当数据处理系统出现故障需要恢复数据时，根据记录的offset更新Logstash集群中的服务器的数据。通过该方式处理数据，提高了数据的恢复效率。

Description

数据处理系统及方法

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据处理系统及方法。

背景技术

相关技术中，许多企业都会通过部署ELK+Beats(ELK是Elasticsearch、Logstash、Kibana三大开源框架首字母大写简称)架构来满足存储和分析数据的需求，如图1所示，Beats(采集代理)分别部署在不同的服务器上收集数据，并发送至Logstash集群(收集和解析服务器)，Logstash集群对数据进行解析后发送到Elasticsearch集群(搜索服务器)，最后通过Kibana(展示平台)展示数据。

然而Logstash集群向Elasticsearch集群发送数据时，一旦发生数据解析时间过长、字段类型冲突、网络连接中断等现象，会导致数据丢失或被遗弃。故而需要技术人员登录每一台与数据相关的服务器，停掉Beats并修改相关配置信息，使其重新采集历史数据，以保证数据的完整性。通过该方式进行数据恢复，费时费力。

发明内容

本申请实施例提供一种数据处理系统及方法，用以解决相关技术中数据恢复效率低的技术问题。

第一方面本申请实施例提供数据处理系统，包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana，其中：

所述Kafka集群，用于接收所述Beats的采集数据；为所述采集数据按照所属的主题Topic确定用于存储所述采集数据的指定分区partition；并将所述采集数据发送给订阅所述Topic的所述Logstash集群中的服务器，并通过读取进度offset记录所述服务器在所述partition的已消费数据的消费进度；且当所述数据处理系统出现故障需要恢复数据时，根据记录的所述offset更新所述Logstash集群中的所述服务器的数据；

所述Logstash集群的各服务器，用于从所述Kafka集群获取订阅的采集数据；将所述采集数据及其对应指定参数发送给所述Elasticsearch集群；所述指定参数包括所述采集数据的：主题Topic、指定分区partition以及读取进度offset；

所述Elasticsearch集群，用于接收所述Logstash集群发送的采集数据及其对应指定参数；将所述采集数据及其对应的指定参数发送至所述Kibana；

所述Kibana，用于响应于在展示界面实施的用户操作，展示用户指定数据的分析结果；

所述分析结果中包括所述用户指定数据在各时间段的数据量分布、所述用户指定数据的最新一条采集数据对应的主题Topic、指定分区partition及其读取进度offset。

第二方面本申请实施例提供数据处理方法，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述方法应用于所述数据处理系统的所述Kafka集群，所述方法包括：

接收所述Beats的采集数据；

为所述采集数据按照所属的Topic(主题)确定用于存储所述采集数据的指定partition(分区)；

并将所述采集数据发送给订阅所述Topic的所述Logstash集群中的服务器，并通过offset(读取进度)记录所述服务器在所述partition的已消费数据的消费进度；

当所述数据处理系统出现故障需要恢复数据时，根据记录的所述offset更新所述Logstash集群中的所述服务器的数据。

在一个实施例中，所述当所述数据处理系统出现故障需要恢复数据时，根据记录的所述offset更新所述Logstash集群中的所述服务器的数据，包括：

接收到所述Logstash集群中的所述服务器的重新上线通知后，确定记录的所述Logstash集群中的所述服务器针对所述partition的已消费数据的offset；

根据确定的所述offset开始，向所述Logstash集群中的所述服务器发送其订阅的数据。

第三方面，本申请实施例提供一种数据处理方法，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述方法应用于所述数据处理系统的所述Logstash集群的各服务器，所述方法包括：

从所述Kafka集群获取订阅的采集数据；

将所述采集数据及其对应指定参数发送给所述Elasticsearch集群以使所述Elasticsearch集群将所述指定参数交由所述Kibana展示；所述指定参数包括所述采集数据的：主题Topic、指定分区partition以及读取进度offset。

在一个实施例中，所述将所述采集数据及其对应指定参数的发送给所述Elasticsearch集群。包括：

将所述指定参数映射成逻辑标识符，其中，每条采集数据对应唯一的所述逻辑标识符；

将所述采集数据及其对应的逻辑标识符发送给所述Elasticsearch集群。

在一个实施例中，所述将所述指定参数映射成逻辑标识符，包括：

通过Hash插件配置参数，其中，所述参数包括：数据来源以及涉及的算法；

采用配置好的参数对所述Topic、所述partition以及所述offset进行处理，获取所述逻辑标识符。

在一个实施例中，所述参数还包括：随机关键词，其中，所述随机关键词用于对所述逻辑标识符进行加密。

第四方面，本申请实施例提供一种数据处理方法，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述方法应用于所述数据处理系统的所述Elasticsearch集群，所述方法包括：

接收所述Logstash集群发送的采集数据及其对应指定参数；所述指定参数包括所述采集数据的：主题Topic、指定分区partition以及读取进度offset；

将所述采集数据及其对应的指定参数发送至所述Kibana进行展示。

在一个实施例中，所述发送至所述Kibana进行展示的数据还包括：逻辑标识符；所述逻辑标识符为所述Logstash集群基于所述指定参数生成的；

所述Elasticsearch集群中存储有数据记录，所述数据记录中存储有历史采集数据及其对应的逻辑标识符，所述方法还包括：

在所述数据记录中，查找所述采集数据对应的逻辑标识符；

若查找到，则对所述数据记录中的所述采集数据及其对应的逻辑标识符进行更新；

若未查找到，则将所述逻辑标识符及其对应的采集数据添加到所述数据记录中。

在一个实施例中，所述在所述数据记录中，查找所述采集数据对应的逻辑标识符之前，所述方法还包括：

确定满足预设的查找触发条件，所述预设的查找触发条件包括以下中的至少一种：

对所述采集数据进行分析后确定所述采集数据异常；

所述Logstash集群的上线通知的接收时间与当前时间的时间差小于预设时间差。

第五方面，本申请实施例提供一种数据处理方法，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述方法应用于所述数据处理系统的所述Kibana，所述方法包括：

响应于在展示界面实施的用户操作，展示用户指定数据的分析结果；

在一个实施例中，所述方法还包括：

对所述用户指定数据进行分析，确定是否存在接收异常；

若存在接收异常输出告警通知。

第六方面，本申请实施例提供一种数据处理装置，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述装置应用于所述数据处理系统的所述Kafka集群，所述装置包括：

接收模块，用于接收所述Beats的采集数据；

确定模块，用于为所述采集数据按照所属的主题Topic确定用于存储所述采集数据的指定分区partition；

发送模块，用于将所述采集数据发送给订阅所述Topic的所述Logstash集群中的服务器，并通过读取进度offset记录所述服务器在所述partition的已消费数据的消费进度；

更新模块，用于当所述数据处理系统出现故障需要恢复数据时，根据记录的所述offset更新所述Logstash集群中的所述服务器的数据。

在一个实施例中，所述更新模块，具体用于：

第七方面，本申请实施例提供一种数据处理装置，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述装置应用于所述数据处理系统的所述Logstash集群的各服务器，所述装置包括：

获取模块，用于从所述Kafka集群获取订阅的采集数据；

发送模块，用于将所述采集数据及其对应指定参数发送给所述Elasticsearch集群以使所述Elasticsearch集群将所述指定参数交由所述Kibana展示；所述指定参数包括所述采集数据的：主题Topic、指定分区partition以及读取进度offset。

在一个实施例中，所述发送模块具体用于：将所述指定参数映射成逻辑标识符，其中，每条采集数据对应唯一的所述逻辑标识符；

在一个实施例中，所述发送模块具体用于：

第八方面，本申请实施例提供一种数据处理装置，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述装置应用于所述数据处理系统的所述Elasticsearch集群，所述装置包括：

接收模块，用于接收所述Logstash集群发送的采集数据及其对应指定参数；所述指定参数包括所述采集数据的：主题Topic、指定分区partition以及读取进度offset；

发送模块，用于将所述采集数据及其对应的指定参数发送至所述Kibana进行展示。

在一个实施例中，所述发送至所述Kibana进行展示的数据还包括：逻辑标识符；所述逻辑标识符为所述Logstash集群基于所述指定参数生成的；所述Elasticsearch集群中存储有数据记录，所述数据记录中存储有历史采集数据及其对应的逻辑标识符，所述装置还包括：

查找模块，用于在所述数据记录中，查找所述采集数据对应的逻辑标识符；

在一个实施例中，所述装置还包括：

确定模块，用于确定满足预设的查找触发条件，所述预设的查找触发条件包括以下中的至少一种：

对所述采集数据进行分析后确定所述采集数据异常；

第九方面，本申请实施例提供一种数据处理装置，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述装置应用于所述数据处理系统的所述Kibana，所述装置包括：

展示模块，用于响应于在展示界面实施的用户操作，展示用户指定数据的分析结果；

在一个实施中，所述装置还包括：

告警模块，用于对所述用户指定数据进行分析，确定是否存在接收异常；

若存在接收异常输出告警通知。

第十方面，本申请实施例还提供一种计算设备，包括：

存储器以及处理器；

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序第一方面或第二方面或第三方面或第四方面任一项所述的数据处理方法。

第十一方面，本申请实施例还提供一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行本申请实施例中的任一数据处理方法。

本申请实施例提供的一种数据处理系统及方法，包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana，其中：Kafka集群，用于接收Beats的采集数据；为采集数据按照所属的主题Topic确定用于存储采集数据的指定分区partition；并将采集数据发送给订阅Topic的Logstash集群中的服务器，并通过读取进度offset记录服务器在partition的已消费数据的消费进度；且当数据处理系统出现故障需要恢复数据时，根据记录的offset更新Logstash集群中的服务器的数据；Logstash集群的各服务器，用于从Kafka集群获取订阅的采集数据；将采集数据及其对应指定参数发送给Elasticsearch集群；指定参数包括采集数据的：主题Topic、指定分区partition以及读取进度offset；Elasticsearch集群，用于接收Logstash集群发送的采集数据及其对应指定参数；将采集数据及其对应的指定参数发送至Kibana；Kibana，用于响应于在展示界面实施的用户操作，展示用户指定数据的分析结果；分析结果中包括用户指定数据在各时间段的数据量分布、用户指定数据的最新一条采集数据对应的主题Topic、指定分区partition及其读取进度offset。通过该方式处理数据，在数据恢复时无需关闭所有的服务器，且根据offset更新Logstash集群中的服务器的数据，提高了数据的恢复效率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中数据处理系统的架构图；

图2为本申请实施例提供的数据处理系统的架构图；

图3为本申请实施例提供的一种数据处理方法的流程示意图；

图4为本申请实施例提供的一种数据处理方法的流程示意图；

图5为本申请实施例提供的一种数据流向示意图；

图6为本申请实施例提供的一种数据处理方法的流程示意图；

图7为本申请实施例提供的一种数据处理方法的流程示意图；

图8为本申请实施例提供的一种展示界面的示意图；

图9为本申请实施例提供的数据修改的展示界面图；

图10为本申请实施例提供的一种展示界面的示意图；

图11为本申请实施例提供的数据丢失时数据处理方法的流程示意图；

图12为本申请实施例提供的一种数据处理装置的结构示意图；

图13为本申请实施例提供的一种数据处理装置的结构示意图；

图14为本申请实施例提供的一种数据处理装置的结构示意图；

图15为本申请实施例提供的一种数据处理装置的结构示意图；

图16为本申请实施例提供一种计算设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

发明人发现，如背景技术所述，相关技术中，当数据异常时，需要技术人员登录每一台与数据相关的服务器，停掉Beats并修改相关配置信息，需要Beats重新采集数据，才能保证数据的完整性。那么Beats将会重复采集数据，导致Beats执行重复操作，增加时间成本和浪费处理资源。相应的，由于Beats重复采集数据，后续的设备如Logstash集群、Elasticsearch集群以及展示平台Kibana都会对重复采集的数据做同样的重复操作，也将会导致处理资源的浪费。故此，每台服务器的运行状况不相同，工作量繁重复杂、不稳定因素过多，而且重新采集的过程势必会出现大量重复数据。为了恢复数据的完整性，却带来了数据重复冗余的副作用，运维成本太高。

基于此，本申请提供了一种新的数据处理方法，该方法无需登录到数据源的每台服务器修改相关配置，且恢复数据完整性的同时不会造成数据重复冗余，降低工作量、减少运维成本，避免人为操作导致数据集不可控的风险，例如配置太多导致手动配置出错，然后会执行错误的配置从而带来系统无法正常运行，还有排查错误等。

参阅图2为本申请实施例提供的一种数据处理系统，包括：所述数据处理系统中包括：采集代理Beats、Kafka(卡夫卡)集群、Logstash集群、Elasticsearch集群以及展示平台Kibana。图2中，示出了多个Beats、Kafka集群、Logstash集群、Elasticsearch集群以及1个Kibana。

其中，Beats用于进行数据采集，得到采集数据；并作为消息生产者，将采集数据发送给Kafka集群；Logstash集群中的各服务器作为消息消费者，用于从Kafka集群中获取订阅的采集数据；并将获取的采集数据发送给Elasticsearch集群；Elasticsearch集群用于对获取的采集数据进行分析后交由展示平台Kibana展示分析结果；分析结果中包括各采集数据与指定参数的对应关系，指定参数包括最新一条采集数据的Topic、指定分区partition以及读取进度offset。

相对于图1所示的相关技术，Beats采集数据后，将数据发送给Kafka集群，通过Kafka集群向Logstash集群分发订阅数据，可应用于多个生产者和消费者，对数据的处理更加高效。

基于图2中的数据处理系统，在进行数据处理时，可通过如下程序代码更改Beats的配置参数，使Beats连接Kafka集群，但并不限定这种方式配置参数，凡是可使Beats连接Kafka集群的配置参数方法均适用于本申请：

output.kafka:

hosts:[“kafka_ip:kafka_port”]//配置连接kafka集群连接kafka端口

topic:“topic_name”//配置采集数据传输的topic

当然，也可通过修改Logstash集群配置的方法使得Logstash集群连接到Kafka集群从而获得到Beats采集到的数据。

虽然，上面的配置也可以由人工完成，但仅需配置一次即可，无需在发生故障时不断的人工配置。从而减少人工参与的环节，提高系统的整体性能。

实施时，可参阅图3所示的方法流程示意图，在Kafka集群执行步骤301：接收Beats的采集数据。然后在步骤302中：为采集数据按照所属的主题Topic确定用于存储采集数据的指定分区partition。

需要说明的是，同一Topic可能对应多个partition，当获取采集数据后，可根据Kafka集群中预制的规则为采集数据分配partition，可通过下述示例A说明如：采集数据1为A地区今日突发6级地震，Kafka集群中Topic包括：新闻、美食、旅游，那么采集数据1对应的Topic可能为新闻，假定新闻包括：财经、生活、实事、国际4个partition，则可将采集数据1添加到实事partition中。

步骤303：将采集数据发送给订阅Topic的Logstash集群中的服务器，并通过读取进度offset记录所述服务器在所述partition的已消费数据的消费进度。

需要说明的是，参照上述示例A，假定Logstash集群订阅Topic为新闻，offset则记录数据的读取进度，读取到了哪个partition，如数据读取到了生活这类数据，则下一步将要读取实事这一类数据。

步骤304：当数据处理系统出现故障需要恢复数据时，根据记录的offset更新Logstash集群中的服务器的数据。由于offset记录了数据的读取进度，故而数据异常需要恢复数据时，可获取offset重新更新Logstash集群中的服务器的数据。

在一个实施例中，在执行步骤304时，可在接收到Logstash集群中的服务器的重新上线通知后，确定记录的所述Logstash集群中的服务器针对partition的已消费数据的offset之后，根据确定的offset开始，向Logstash集群中的服务器发送其订阅的数据。

通过该方式进行数据处理无需在数据异常时，停掉所有运行的服务器，提高了数据的恢复效率。

在数据处理时，Logstash集群的各服务器可参阅图4所示的方法，执行步骤401：从Kafka集群获取订阅的采集数据。

步骤402：将采集数据及其对应指定参数发送给Elasticsearch集群以使Elasticsearch集群将指定参数交由Kibana展示；所述指定参数包括所述采集数据的：主题Topic、指定分区partition以及读取进度offset。

在一个实施例中，Logstash集群的各服务器可将指定参数映射成逻辑标识符，并将采集数据及其对应的逻辑标识符发送给Elasticsearch集群，其中，每条采集数据对应唯一的逻辑标识符。

需要说明的是，Logstash集群的各服务器可传送指定变量和逻辑标识符给Elasticsearch集群，以便Elasticsearch集群进行数据的收集和解析。也可以仅仅传送逻辑标识符，通过Elasticsearch集群将逻辑标识符进行解析得到各指定变量。但是，直接发送指定变量和逻辑标识符，更加直观，更便于Elasticsearch集群进行数据的处理操作。

通过将Topic、partition以及offset映射成逻辑标识符，且每条采集数据对应唯一的逻辑标识符，可采用唯一的逻辑标识符仅需查重，从而避免数据恢复时，数据更新造成的冗余。

在一个实施例中，可通过Hash插件配置参数，其中，所述参数包括：数据来源以及涉及的算法；然后采用配置好的参数对所述Topic、所述partition以及所述offset进行处理，获取所述逻辑标识符。其中，数据来源用于确定数据来源，针对本申请是用于确定Topic、partition以及offset的数据来源，由于是通过Hash插件配置参数，涉及的算法可能为SHA1算法、SHA2算法、SHA3算法，但是实际应用的时候并不限定，只有可将Topic、partition以及offset变换成一个逻辑标识符的算法均适用。

需要说明的是，Hash插件可设置在Logstash集群的各服务器上，如图5所示，采集数据发送给kafka集群,Logstash集群从kafka集群获取采集数据，通过Hash插件对Topic、partition以及offset三个参数进行处理得到唯一的逻辑标识符，每条采集数据携带其对应的逻辑标识符进入到Elasticsearch集群。

在一个实施例中，所述参数还包括：随机关键词，其中，所述随机关键词用于对所述逻辑标识符进行加密；采用配置好的参数对Topic、partition、offset以及随机关键词进行处理，获取所述逻辑标识符。表1示出本申请中kafka集群以及Hash插件的作用、涉及的算法以及相关参数，在执行时，可选用相关参数编写程序将Topic、partition、offset以及随机关键词进行哈希运算，并将哈希结果赋值给逻辑标识符。其中，source用于表示数据来源，method为选择的算法类型，key用于指示随机关键词。

在具体执行时，可参照如下的程序代码来执行，但是但并不限定这种方式配置参数，凡是可通过Hash插件将Topic、partition、offset以及随机关键词生成逻辑标识符配置参数方法均适用于本申请：

source＝>[“[kafka][topic]”,“[kafka][offset]”,“[kafka][partition]”]//数据来源于kafka集群

concatenate_sources＝>true//确定源数据正常

method＝>“SHA1”//选择SHA1算法

key＝>“0123”//随机关键词为0123

通过该方式获取的逻辑标识符，在数据恢复时，可避免数据的冗余。

接下来，参阅图6所示的方法，Elasticsearch集群在数据处理时，可执行步骤601：接收Logstash集群发送的采集数据及其对应指定参数；所述指定参数包括采集数据的：主题Topic、指定分区partition以及读取进度offset。

步骤602：将采集数据及其对应的指定参数发送至Kibana进行展示。

在一个实施例中，发送至所述Kibana进行展示的数据还包括：逻辑标识符；所述逻辑标识符为所述Logstash集群基于所述指定参数生成的；Elasticsearch集群中存储有数据记录，所述数据记录中存储有历史采集数据及其对应的逻辑标识符，在数据记录中，查找采集数据对应的逻辑标识符；若查找到，则对所述数据记录中的所述采集数据及其对应的逻辑标识符进行更新；若未查找到，则将所述逻辑标识符及其对应的采集数据添加到所述数据记录中。

基于kafka集群能订阅和及时推送采集的数据，故此能够及时获得采集的数据进行分析，基于kafka集群能够很好的记录消费的数据的偏移量，故此在故障恢复时，能够减少甚至避免重复采集数据。

在一个实施例中，在数据记录中，查找采集数据对应的逻辑标识符之前，还要确定满足预设的查找触发条件，所述预设的查找触发条件包括以下中的至少一种：

对采集数据进行分析后确定采集数据异常。

Logstash集群的上线通知的接收时间与当前时间的时间差小于预设时间差。

当采集数据异常时，才触发Elasticsearch集群查找所述采集数据对应的逻辑标识符，亦或者Logstash集群的上线通知的接收时间与当前时间时间差较小，则证明Logstash集群出现异常，均需要查找采集数据对应的逻辑标识符，通过该方式可以避免数据更新时数据的冗余。

接下来，参阅图7提供Kibana的数据处理方法，Kibana可执行步骤701：响应于在展示界面实施的用户操作，展示用户指定数据的分析结果。所述分析结果中包括所述用户指定数据在各时间段的数据量分布、所述用户指定数据的最新一条采集数据对应的主题Topic、指定分区partition及其读取进度offset。需要说明的是，该Kibana还可对所述用户指定数据进行分析，确定是否存在接收异常；若存在接收异常输出告警通知。

通过该方式以便数据处理系统及时调整配置参数，及时恢复数据。

展示界面如图8所示，该展示界面展示数据在17:50到18:00之间的数据丢失了，该数据丢失可通过该数据处理系统实时监控提醒用户哪个时间段的数据是缺失的，也可为相关技术人员在调用数据量分布时，人为确定的那个时间段的数据是缺失，当用户选择某个时间段的数据量分布时，会显示该数据量分布对应的Topic、partition及其offset。其中，一个Topic对应一个数据分布，如图8中，一条直方图为一个数据分布，一个数据分布对应一个Topic。

如丢失数据的Topic为“jt_tkys”，数据发生丢失前，partition为0，offset是1326317760，如界面图8中椭圆形圆圈所示的区域。此时，关闭与丢失数据相关的Logstash集群的服务器，并在Kafka集群上修改topic:jt_tkys的partition:0的offset，使其小于等于1326317760，重启Logstash。如图9所示，将offset修改为1326317759，直至offset为1326317780，停止数据更新，数据恢复完整如图10所示。

此外，还要说明的是，丢失的数据存入Elasticsearch集群，同时因为逻辑标识符相同的数据会更新，没有造成数据冗余，如：topic:jt_tkys&partition:0&offset:1326317780的数据之前已存入Elasticsearch集群，且逻辑标识符为“rkgqxk323qK/X8egE/TTatmQNV0＝”。当再次采集数据时，此条数据的topic、partition、offset三个参数不变，则其逻辑标识符依旧为“rkgqxk323qK/X8egE/TTatmQNV0＝”。

参阅图11为本申请实施例提供的数据丢失时数据处理方法的流程示意图，当步骤1101中确定数据丢失后，先执行步骤1102关闭相关的Logstash集群的服务器，之后执行步骤1103通过Kafka集群调整Topic每个partition的offset，再者执行步骤1104重新启动相关的Logstash集群的服务器，步骤1105确定逻辑标识符是否存在，若存在，执行步骤1106Elasticsearch集群自动更新采集数据及其对应的逻辑标识符，若不存在，执行步骤1107Elasticsearch集群存储将逻辑标识符及其对应的采集数据。

该方式恢复丢失数据不会造成数据的冗余，且技术人员不必再依次登录到每一台服务器上逐一修改配置，提升工作效率。技术人员只需对Kafka集群中的参数进行修改，无需修改其他参数，减少了人为失误的概率。

参阅图12为本申请实施例提供的一种数据处理装置，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述装置应用于所述数据处理系统的所述Kafka集群，所述装置包括：接收模块120、确定模块121、发送模块122以及更新模块123。

接收模块120，用于接收所述Beats的采集数据；

确定模块121，用于为所述采集数据按照所属的主题Topic确定用于存储所述采集数据的指定分区partition；

发送模块122，用于将所述采集数据发送给订阅所述Topic的所述Logstash集群中的服务器，并通过读取进度offset记录所述服务器在所述partition的已消费数据的消费进度；

更新模块123，用于当所述数据处理系统出现故障需要恢复数据时，根据记录的所述offset更新所述Logstash集群中的所述服务器的数据。

在一个实施例中，所述更新模块，具体用于：

参阅图13为本申请实施例提供的一种数据处理装置，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述装置应用于所述数据处理系统的所述Logstash集群的各服务器，所述装置包括：获取模块130以及发送模块131。

获取模块130，用于从所述Kafka集群获取订阅的采集数据；

发送模块131，用于将所述采集数据及其对应指定参数发送给所述Elasticsearch集群以使所述Elasticsearch集群将所述指定参数交由所述Kibana展示；所述指定参数包括所述采集数据的：主题Topic、指定分区partition以及读取进度offset。

在一个实施例中，所述发送模块具体用于：

参阅图14为本申请实施例提供的一种数据处理装置，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述装置应用于所述数据处理系统的所述Elasticsearch集群，所述装置包括：接收模块140以及发送模块141。

接收模块140，用于接收所述Logstash集群发送的采集数据及其对应指定参数；所述指定参数包括所述采集数据的：主题Topic、指定分区partition以及读取进度offset；

发送模块141，用于将所述采集数据及其对应的指定参数发送至所述Kibana进行展示。

在一个实施例中，所述装置还包括：

对所述采集数据进行分析后确定所述采集数据异常；

参阅图15为本申请实施例提供的一种数据处理装置，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述装置应用于所述数据处理系统的所述Kibana，所述装置包括：展示模块150。

展示模块150，用于响应于在展示界面实施的用户操作，展示用户指定数据的分析结果；

在一个实施中，所述装置还包括：

若存在接收异常输出告警通知。

在一些可能的实施方式中，根据本申请的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的数据处理方法中的步骤。例如，处理器可以执行如图3中所示的步骤301-步骤303或如图4所示的步骤401-步骤402或如图6所示的步骤601-步骤602或如图7所示的骤701。

下面参照图16来描述根据本申请的这种实施方式的计算设备130。图16显示的计算设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图16所示，计算设备130以通用计算装置的形式表现。计算设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，和/或与使得该计算设备130能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，计算设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于计算设备130的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的终端的位置信息处理方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在计算机设备上运行时，计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的数据处理方法中的步骤，例如，计算机设备可以执行如图3中所示的步骤301-步骤303或如图4所示的步骤401-步骤402或如图6所示的步骤601-步骤602或如图7所示的骤701。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于参数处理的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在目标对象计算装置上执行、部分地在目标对象设备上执行、作为一个独立的软件包执行、部分在目标对象计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中，远程计算装置可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到目标对象计算装置，或者，可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数据处理系统，其特征在于，包括：Kafka集群，用于接收所述Beats的采集数据；为所述采集数据按照所属的主题Topic确定用于存储所述采集数据的指定分区partition；并将所述采集数据发送给订阅所述Topic的所述Logstash集群中的服务器；

Logstash集群的各服务器，用于从所述Kafka集群获取订阅的采集数据；将所述采集数据及其对应指定参数发送给所述Elasticsearch集群；所述指定参数包括所述采集数据的：主题Topic、指定分区partition以及读取进度offset；

Elasticsearch集群，用于接收所述Logstash集群发送的采集数据及其对应指定参数；将所述采集数据及其对应的指定参数发送至所述Kibana；

Kibana，用于响应于在展示界面实施的用户操作，展示用户指定数据的分析结果；

2.根据权利要求1所述的系统，其特征在于，所述Kafka集群在执行当所述数据处理系统出现故障需要恢复数据时，用于：

3.根据权利要求1所述的系统，其特征在于，所述Logstash集群在执行将所述采集数据及其对应指定参数的发送给所述Elasticsearch集群时，用于：

4.根据权利要求3所述的系统，其特征在于，所述Logstash集群在执行将所述指定参数映射成逻辑标识符时，用于：

5.根据权利要求4所述的系统，其特征在于，所述参数还包括：随机关键词，其中，所述随机关键词用于对所述逻辑标识符进行加密。

6.根据权利要求1所述的系统，其特征在于，所述Elasticsearch集群在执行发送至所述Kibana进行展示的数据还包括：逻辑标识符；所述逻辑标识符为所述Logstash集群基于所述指定参数生成的；所述Elasticsearch集群中存储有数据记录，所述数据记录中存储有历史采集数据及其对应的逻辑标识符，用于：

在所述数据记录中，查找所述采集数据对应的逻辑标识符；

7.根据权利要求6所述的系统，其特征在于，所述Elasticsearch集群在执行在所述数据记录中，查找所述采集数据对应的逻辑标识符之前，用于：

对所述采集数据进行分析后确定所述采集数据异常；

8.根据权利要求1所述的系统，其特征在于，所述Kibana还用于：

对所述用户指定数据进行分析，确定是否存在接收异常；

若存在接收异常输出告警通知。

9.一种数据处理方法，其特征在于，应用于数据处理系统，所述数据处理系统中包括：采集代理Beats、Kafka集群、Logstash集群、Elasticsearch集群以及展示平台Kibana；所述Beats作为消息生产者，将采集的信息发送给所述Kafka集群，所述Logstash集群中的各服务器作为消息消费者，用于从所述Kafka集群中获取订阅的消息，所述Elasticsearch集群用于从所述Logstash集群获取数据并对获取的数据进行分析后交由所述展示平台Kibana展示分析结果，所述方法应用于所述数据处理系统的所述Logstash集群的各服务器，所述方法包括：

从所述Kafka集群获取订阅的采集数据；

10.根据权利要求9所述的方法，其特征在于，所述将所述采集数据及其对应指定参数的发送给所述Elasticsearch集群，包括：