CN113722194A

CN113722194A - 日志统计方法、装置、设备及存储介质

Info

Publication number: CN113722194A
Application number: CN202110883702.9A
Authority: CN
Inventors: 危江月; 魏玉璋; 李若影; 石少东; 林甜甜
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-11-30
Anticipated expiration: 2041-08-02
Also published as: CN113722194B

Abstract

本发明公开了一种日志统计方法、装置、设备及存储介质，涉及数据处理技术领域，方法包括：获取增量日志数据；根据预设统计规则对增量日志数据进行分析处理，获得分析处理后的增量日志数据及其对应的数据存储表，其中，预设统计规则包括基于业务需求的最小统计单元设置的统计规则与数据存储表的关联关系；根据分析处理后的增量日志数据对应的数据存储表，对分析处理后的增量日志数据进行统计，获得统计结果；根据统计结果，更新第一数据库中对应的日志统计表。本发明解决了现有技术存在效率较低的问题，实现了快速统计日志数据的目的，提高了日志数据的分析处理能力和统计效率。

Description

日志统计方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种日志统计方法、装置、设备及存储介质。

背景技术

随着各类业务系统越来越发达，数据可视化的要求也越来越高，而对日志数据进行统计是最直观地将数据可视化的方式。传统的日志统计方法是将日志数据统一入库存储，然后再调用日志数据进行聚类统计，这种方式需要处理海量的标准化日志，存在难度大、效率低的问题，导致用户体验较差。而目前的一些日志统计方法也并未很好地解决效率较低的问题。

发明内容

本发明的主要目的在于：提供一种日志统计方法、装置、设备及存储介质，旨在解决现有技术中的日志统计方法存在效率较低的技术问题。

为实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供了一种日志统计方法，所述方法包括：

获取增量日志数据；

根据预设统计规则对所述增量日志数据进行分析处理，获得分析处理后的增量日志数据及其对应的数据存储表，其中，所述预设统计规则包括基于业务需求的最小统计单元设置的统计规则与数据存储表的关联关系；

根据所述分析处理后的增量日志数据对应的数据存储表，对所述分析处理后的增量日志数据进行统计，获得统计结果；

根据所述统计结果，更新第一数据库中对应的日志统计表。

可选地，上述日志统计方法中，所述获取增量日志数据的步骤之后，所述方法还包括：

对所述增量日志数据进行过滤处理，获得过滤处理后的增量日志数据；

将所述过滤处理后的增量日志数据存储至第二数据库，所述第二数据库中存储的日志数据用于展示日志详情。

将所述增量日志数据存储至第三数据库，所述第三数据库中存储的日志数据用于恢复对应的操作行为。

可选地，上述日志统计方法中，所述根据预设统计规则对所述增量日志数据进行分析处理，获得分析处理后的增量日志数据及其对应的数据存储表的步骤之前，所述方法还包括：

获取业务需求并进行拆分，获得所述业务需求的最小统计单元；

基于所述最小统计单元，设置对应的统计规则和数据存储表；

关联所述统计规则和所述数据存储表，获得预设统计规则。

可选地，上述日志统计方法中，所述根据预设统计规则对所述增量日志数据进行分析处理，获得分析处理后的增量日志数据及其对应的数据存储表的步骤之后，所述方法还包括：

基于时间维度或时间颗粒度，将所述分析处理后的增量日志数据存储至所述第一数据库中对应的数据存储表。

可选地，上述日志统计方法中，所述根据所述统计结果，更新第一数据库中对应的日志统计表的步骤之后，所述方法还包括：

在获取到数据查询请求时，判断所述数据查询请求的需求类型；

根据所述需求类型，在对应的数据库中进行数据查询，获得数据查询结果。

可选地，上述日志统计方法中，所述根据所述需求类型，在对应的数据库中进行数据查询，获得数据查询结果的步骤，具体包括：

当所述需求类型为查询统计数据时，在所述第一数据库中对所述日志统计表进行汇总分析，获得数据查询结果。

第二方面，本发明提供了一种日志统计装置，所述装置包括：

日志获取模块，用于获取增量日志数据；

日志分析模块，用于根据预设统计规则对所述增量日志数据进行分析处理，获得分析处理后的增量日志数据及其对应的数据存储表，其中，所述预设统计规则包括基于业务需求的最小统计单元设置的统计规则与数据存储表的关联关系；

日志统计模块，用于根据所述分析处理后的增量日志数据对应的数据存储表，对所述分析处理后的增量日志数据进行统计，获得统计结果；

日志存储模块，用于根据所述统计结果，更新第一数据库中对应的日志统计表。

第三方面，本发明提供了一种日志统计设备，所述设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如上述的日志统计方法。

第四方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序可被一个或多个处理器执行，以实现如上述的日志统计方法。

本发明提供的上述一个或多个技术方案，可以具有如下优点或至少实现了如下技术效果：

本发明提出的一种日志统计方法、装置、设备及存储介质，通过根据预设统计规则对增量日志数据进行分析处理，获得可以存储该增量日志数据的数据存储表，进行中间数据缓存；再根据数据存储表对增量日志数据进行统计，并根据统计结果更新第一数据库中对应的日志统计表，以累加的方式对增量日志数据进行统计，不需要调用历史日志数据即可实现准实时日志数据统计，实现了快速统计日志数据的目的，提高了日志数据的分析处理能力和统计效率；其中，包括基于业务需求的最小统计单元设置的统计规则与数据存储表的关联关系的预设统计规则，可以实现对同一增量日志数据同时进行多维度统计和存储，方便后续对应业务需求进行相应数据查询时，提高查询速率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的这些附图获得其他的附图。

图1为本发明日志统计方法第一实施例的流程示意图；

图2为本发明涉及的日志统计设备的硬件结构示意图；

图3为本发明日志统计方法第二实施例的流程示意图；

图4为本发明日志统计方法第二实施例的另一流程示意图；

图5为本发明日志统计装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，在本发明中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。另外，在本发明中，若有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在本发明中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。另外，各个实施例的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

随着各类业务系统越来越发达，数据可视化的要求也越来越高，而对日志数据进行统计是最直观地将数据可视化的方式。传统的日志统计方法是将日志数据统一入库存储，然后再调用日志数据进行聚类统计，这种方式需要处理海量的标准化日志，比如Nginx日志，存在难度大、效率低的问题。如何快速准确的从日志数据中提取所需数据并进行展示，是目前研究的主要方向。

对现有技术的分析发现，目前的一些日志处理方案并不能很好地解决问题，比如：

1、ELK日志分析系统。该日志分析系统由Elasticsearch、Logstash、Kibana三部分组件组成，Elasticsearch用来存储各类日志，Logstash用来搜集日志，Kibana用来查寻和可视化日志；通过Logstash切分日志后存入Elasticsearch集群，使用时根据搜索条件对Elasticsearch中的原始日志进行聚合计算，再输出日志统计结果。这种方案存在的问题是，在日志总量较少，比如百万级的时候，响应速度很快，但当日志总量到达亿级后，日志查询将非常慢，响应时间甚至超过30秒，即使对Elasticsearch集群进行扩容也无明显效果，因为聚合计算需遍历所有统计文件，当统计文件很多的时候，会占用较大内存，导致查询效率较低，用户体验较差。

2、分段统计方案。该方案将日志数据统一存入总表，再进行数据提炼，生成简化表，后续查询时，分别在单个维度查询简化表，或将查询时间分成多个时间段分别进行查询。这种方案存在的问题是，简化表支持的查询维度少，无法满足多样化的日志统计需求，在查询时，将查询条件拆分成多个时间段分别进行查询，再对查询结果进行聚合，查询效率较低。

3、定期统计方案。该方案定期对历史日志数据进行汇总统计，根据待展示的维度对历史日志数据进行计算，并将计算结果存入简化历史表，后续查询时，对当天的日志数据和简化历史表的内容同时进行计算汇总。这种方案存在的问题是，当数据量大到一定程度后，仅对当天的数据进行聚合统计也会耗费较长时间，且历史数据的统计依赖于每天的定时任务，需要定期检查定时任务是否执行成功，因此该方案的系统维护成本较高；并且，简化历史表支持的查询维度少，无法满足多样化的日志统计需求。

鉴于现有技术中的日志统计方法存在效率较低，导致用户体验较差的技术问题，本发明提供了一种日志统计方法，总体思路如下：

获取增量日志数据；根据预设统计规则对所述增量日志数据进行分析处理，获得分析处理后的增量日志数据及其对应的数据存储表，其中，所述预设统计规则包括基于业务需求的最小统计单元设置的统计规则与数据存储表的关联关系；根据所述分析处理后的增量日志数据对应的数据存储表，对所述分析处理后的增量日志数据进行统计，获得统计结果；根据所述统计结果，更新第一数据库中对应的日志统计表。

通过上述技术方案，根据预设统计规则对增量日志数据进行分析处理，获得可以存储该增量日志数据的数据存储表，进行中间数据缓存；再根据数据存储表对增量日志数据进行统计，并根据统计结果更新第一数据库中对应的日志统计表，以累加的方式对增量日志数据进行统计，不需要调用历史日志数据即可实现准实时日志数据统计，实现了快速统计日志数据的目的，提高了日志数据的分析处理能力和统计效率；其中，包括基于业务需求的最小统计单元设置的统计规则与数据存储表的关联关系的预设统计规则，可以实现对同一增量日志数据同时进行多维度统计和存储，方便后续对应业务需求进行相应数据查询时，提高查询速率。

实施例一

参照图1的流程示意图，提出本发明日志统计方法的第一实施例，该日志统计方法应用于日志统计设备。

所述日志统计设备是指能够实现网络连接的终端设备或网络设备，所述日志统计设备可以是手机、电脑、平板电脑、嵌入式工控机等终端设备，也可以是服务器、云平台等网络设备。

如图2所示，为日志统计设备的硬件结构示意图。所述设备可以包括：处理器1001，例如CPU(Central Processing Unit，中央处理器)，通信总线1002，用户接口1003，网络接口1004，存储器1005。

本领域技术人员可以理解，图2中示出的硬件结构并不构成对本发明日志统计设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

具体的，通信总线1002用于实现这些组件之间的连接通信；

用户接口1003用于连接客户端，与客户端进行数据通信，用户接口1003可以包括输出单元，如显示屏、输入单元，如键盘，可选的，用户接口1003还可以包括其他输入/输出接口，比如标准的有线接口、无线接口；

网络接口1004用于连接后台服务器，与后台服务器进行数据通信，网络接口1004可以包括输入/输出接口，比如标准的有线接口、无线接口，如Wi-Fi接口；

存储器1005用于存储各种类型的数据，这些数据例如可以包括该日志统计设备中任何应用程序或方法的指令，以及应用程序相关的数据，存储器1005可以是高速RAM存储器，也可以是稳定的存储器，例如磁盘存储器，可选的，存储器1005还可以是独立于所述处理器1001的存储装置；

具体的，继续参照图2，存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序，其中，网络通信模块主要用于连接服务器，与服务器进行数据通信；

处理器1001用于调用存储器1005中存储的计算机程序，并执行以下操作：

获取增量日志数据；

根据所述统计结果，更新第一数据库中对应的日志统计表。

基于上述的日志统计设备，下面结合图1所示的流程示意图，对本实施例的日志统计方法进行详细描述。所述方法可应用于缓存服务器，比如Kafka服务器，通过Spark计算引擎实现该方法，所述方法可以包括以下步骤：

步骤S10：获取增量日志数据。

具体的，增量日志数据可以通过日志收集系统，比如Flume系统根据预设时间定期获取新增的日志数据，也可以是当收集到新增的日志数据后，自动传输的增量日志数据。

步骤S30：根据预设统计规则对所述增量日志数据进行分析处理，获得分析处理后的增量日志数据及其对应的数据存储表，其中，所述预设统计规则包括基于业务需求的最小统计单元设置的统计规则与数据存储表的关联关系。

具体的，对日志数据进行统计的目的一般基于实际的业务需求对应设定，比如，当需要统计网站受攻击情况，对应需要统计不同攻击类型及其次数，受攻击的不同IP地址及其次数，以及受攻击的不同区域及其次数等等；针对这几种业务需求，对应具有不同的最小统计单元，比如，针对不同攻击类型的统计时，最小统计单元可以是攻击类型；针对受攻击的不同IP地址的统计时，最小统计单元可以是IP地址；针对受攻击的不同区域的统计时，最小统计单元可以是网站。然后，基于该最小统计单元建立对应的数据存储表，并关联相应的统计规则和数据存储表，获得预设统计规则。获取到增量日志数据后，调用该预设统计规则对增量日志数据进行分析处理，即可知晓该增量日志数据需要存储的对应的数据存储表。

步骤S50：根据所述分析处理后的增量日志数据对应的数据存储表，对所述分析处理后的增量日志数据进行统计，获得统计结果。

具体的，根据步骤S30获得的增量日志数据需要存储的对应的数据存储表，可以对同一增量日志数据分别存储到不同的数据存储表，该数据存储表位于缓存服务器上；当数据存储表的内容增加时，对应的统计结果，比如次数也相应进行累加，获得统计结果。

步骤S70：根据所述统计结果，更新第一数据库中对应的日志统计表。

具体的，根据步骤S50的统计结果，存储该统计结果到第一数据库，比如MongoDB数据库，该第一数据库中建立有日志统计表，该日志统计表对应于业务需求建立，在步骤S50获得增量日志数据的统计结果后，更新对应的日志统计表，比如，不同攻击类型及其次数的日志统计表，受攻击的不同IP地址及其次数的日志统计表，以及受攻击的不同区域及其次数的日志统计表，从而实现了根据增量日志数据对所有日志数据进行全面统计的目的，且可以保证实时性，具有全面性。

本实施例提供的日志统计方法，通过根据预设统计规则对增量日志数据进行分析处理，获得可以存储该增量日志数据的数据存储表，进行中间数据缓存；再根据数据存储表对增量日志数据进行统计，并根据统计结果更新第一数据库中对应的日志统计表，以累加的方式对增量日志数据进行统计，不需要调用历史日志数据即可实现准实时日志数据统计，实现了快速统计日志数据的目的，提高了日志数据的分析处理能力和统计效率；其中，包括基于业务需求的最小统计单元设置的统计规则与数据存储表的关联关系的预设统计规则，可以实现对同一增量日志数据同时进行多维度统计和存储，方便后续对应业务需求进行相应数据查询时，提高查询速率。

实施例二

基于同一发明构思，参照图3至图4，提出本发明日志统计方法的第二实施例，该日志统计方法应用于日志统计设备。

下面结合图3所示的流程示意图和图4所示的基于架构的另一流程示意图，对本实施例的日志统计方法进行详细描述。所述方法可应用于缓存服务器，比如Kafka服务器，通过Spark计算引擎实现该方法，所述方法可以包括以下步骤：

步骤S10：获取增量日志数据。

具体的，网络设备、系统及服务程序等，在运作时都会产生一个叫日志(log)的事件记录，其记载着日期、时间、使用者及动作等相关操作的描述，比如应用程序日志，安全日志、系统日志、Scheduler服务日志、FTP日志、WWW日志、DNS服务器日志等等，日志数据对于实现网络安全极其重要。

Flume(日志收集系统)是高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据。

本实施例中，以Flume为例，具体包括Flume客户端和Flume服务端，Flume服务端与本实施例的缓存服务器即Kafka服务器连接；从Flume客户端采集到日志数据，日志数据通过Flume边缘节点进入公网，进行加密传输，到达Flume服务端，Flume服务端将日志数据写入Kafka服务器，Kafka服务器即获得日志数据。本实施例中获得的日志数据具体可以是根据预设时间定期获取的增量日志数据，比如，每隔一分钟采集一次，看是否有新增的日志数据，若有，该新增的日志数据即为增量日志数据，并传输给Kafka服务器；也可以是采集到有新增的日志数据后，自动传输的日志数据，即不需要定期采集，一旦发现有新增的日志数据则立即传输给Kafka服务器，传输的新增的日志数据即为增量日志数据。

步骤S20：设置预设统计规则。

在具体实施时，可以将预设统计规则存储在MySQL(关系型数据库管理系统)中，每次启动本方法时，用户可以进行自定义设置，包括设置本次日志采集的用途，也就是业务需求，设置完成的预设统计规则保存在Redis(Remote Dictionary Server，远程字典服务)存储系统中，与Spark引擎连接，由Spark引擎定期或自动从Redis中获取最新的统计规则。以对增量日志数据进行分析处理。

具体的，所述步骤S20，可以包括：

步骤S21：获取业务需求并进行拆分，获得所述业务需求的最小统计单元；

步骤S22：基于所述最小统计单元，设置对应的统计规则和数据存储表；

步骤S23：关联所述统计规则和所述数据存储表，获得预设统计规则。

在具体实施时，拆分业务需求，找到最小统计单元，在此基础上，设置统计规则和数据存储表，要保证可以通过数据存储表快速查询出所需结果。可以将同一日志数据存入多张数据存储表，在设置预设统计规则时，对同一日志数据可以设置多条统计规则，并对应关联多个数据存储表。

本实施例中，以统计网站受攻击情况的业务需求为例，要统计网站受攻击情况，则需要对每个网站的每种攻击类型，以及相应的受攻击地址或区域进行日志采集。因此，该业务需求可以拆分为统计不同攻击类型及其次数，受攻击的不同IP地址及其次数，以及受攻击的不同区域及其次数等等子业务需求，针对每个子业务需求，对应的最小统计单元是不同的，比如，针对不同攻击类型的统计时，最小统计单元可以是攻击类型；针对受攻击的不同IP地址的统计时，最小统计单元可以是IP地址；针对受攻击的不同区域的统计时，最小统计单元可以是网站。

然后，针对每个子业务需求的最小统计单元，设置对应的统计规则和数据存储表，比如，针对攻击类型的统计，对每种攻击类型，对其攻击对象、受攻击对象、攻击持续时长等等进行统计即为统计规则，并针对这些内容建立数据存储表，该统计规则和对应建立的数据存储表具有关联关系，从而完成自定义设置，获得预设统计规则。

步骤S30：根据预设统计规则对所述增量日志数据进行分析处理，获得分析处理后的增量日志数据及其对应的数据存储表，其中，所述预设统计规则包括基于业务需求的最小统计单元设置的统计规则与数据存储表的关联关系；

本实施例中，在该Kafka服务器上，可以通过Spark计算引擎进行分析处理；根据步骤S20设置的预设统计规则可以知道，当获取到增量日志数据后，需要对该条增量日志数据进行三条统计规则的分析处理，处理后获得中间结果，即知晓该条增量日志数据的攻击类型、受攻击的IP地址、受攻击的区域等等内容，以及应当将这些内容分别存入的对应的数据存储表信息。此时，获得的分析处理后的增量日志数据及其对应的数据存储表，尚未将对应的内容存入数据存储表，只是知晓其具体应当存入哪个数据存储表，类似于有了计划，但尚未实施。

步骤S40：基于时间维度或时间颗粒度，将所述分析处理后的增量日志数据存储至所述第一数据库中对应的数据存储表。

具体的，步骤S40可以包括：

步骤S41：基于时间维度，将所述分析处理后的增量日志数据存储至所述第一数据库中对应的数据存储表。

步骤S42：基于时间颗粒度，将所述分析处理后的增量日志数据存储至所述第一数据库中对应的数据存储表。

具体的，在步骤S30知晓应当将增量日志数据的哪些内容存入对应的哪个数据存储表之后，本步骤就可以进行相应的实施了。具体实施时，可以基于时间维度进行，也可以基于时间颗粒度进行。

其中，时间维度包括断续的某段时间或持续的累计时间，比如，可以统计每天的增量日志数据，该时间间隔还可设定为一段时间，也可以统计最近60天的所有增量日志数据，具体时长可根据实际设定。对应的，其数据存储表可以有详情表和累计表。本实施例以需要统计指定的20个网站在最近60天内每天的访问日志数据进行说明，对同一条新增的访问日志数据，通过步骤S30知晓其应当存入的数据存储表有哪些之后，分别将同一数据内容存入详情表和累计表。此处，详情表记录每个网站每天的访问情况，可用于最近60天内每天的访问数据查询，字段包括：hostname(主机名)、count(访问次数)、date(日期)；累计表记录每个网站的累计访问情况，可用于最近60天内总的访问数据查询，字段包括：hostname(主机名)、count(访问次数)。

时间颗粒度是管理时间的基本单位，针对不同的业务需求，可以同时有几种不同的时间颗粒度，比如，要统计今天的每分钟数据、这一周的每小时数据、最近三个月的每天数据，对应的时间颗粒度为分钟、小时、天，从而可以建立三个数据存储表，即分钟表、小时表、天表，这些数据存储表的过期时间分别为24小时、一周、三个月。这样，对于处理后的日志访问数据，可以分别进行三次存储，存入多个数据存储表。

上述将分析处理后的增量日志数据存储至相应的数据存储表的操作，仍然在缓存服务器即Kafka服务器上进行，具体可以由分析平台进行这些存储操作，而存储的目的地可以是第一数据库，本实施例的第一数据库采用MongoDB数据库。需要说明，上述操作可以单独基于时间维度或者基于时间颗粒度，将所述分析处理后的增量日志数据存储至所述第一数据库中对应的数据存储表，即本实施例可以对处理后的日志数据分别进行两次存储或三次存储；也可以同时基于时间维度和时间颗粒度，将所述分析处理后的增量日志数据存储至所述第一数据库中对应的数据存储表，即本实施例可以同时对处理后的日志数据进行五次存储。

多维度和多粒度的存储和统计，满足多样化的需求，自定义统计维度和颗粒度，将数据存入到不同的数据存储表中，适用性强。

步骤S50：根据所述分析处理后的增量日志数据对应的数据存储表，对所述分析处理后的增量日志数据进行统计，获得统计结果；

具体的，知晓增量日志数据应当存储的数据存储表后，相当于知晓了该统计规则对应的统计主题，比如，本实施例中，进行分析处理后，知晓了本次增量日志数据中有两个A攻击类型的动作，有一个B攻击类型的动作，三次攻击均为对同一IP的攻击，对应的数据存储表则有A攻击类型的数据存储表、B攻击类型的数据存储表和该IP的数据存储表；然后对这些情况进行统计，即A攻击类型累计2，B攻击类型累计1，该IP累计3。

具体的，根据步骤S50得到的统计结果，对第一数据库中相应的日志统计表进行更新，本实施例中，会对MongoDB数据库中的攻击类型日志统计表进行更新，具体为A攻击类型的攻击次数加2，B攻击类型的攻击次数加1，还会对MongoDB数据库中的受攻击IP的日志统计表进行更新，具体为该IP地址的攻击次数加3。

如此，即实现了对增量日志数据的采集、初步分析、日志数据存储、统计和统计数据存储，以此可以不断地对增量日志数据进行统计，统计数据写入到第一数据库，以备后续查询或调用，本实施例实现了将Kafka不同统计规则的增量数据实时批量更新至MongoDB的相应表包括数据存储表和日志统计表中。该方法数据处理及时，可以无压力应对亿级日志，具有数据准实时处理，延迟小，处理能力强的优点。

在一种实施方式中，所述步骤S10之后，所述方法还包括：

步骤S110：对所述增量日志数据进行过滤处理，获得过滤处理后的增量日志数据；

步骤S120：将所述过滤处理后的增量日志数据存储至第二数据库，所述第二数据库中存储的日志数据用于展示日志详情。

具体的，在Kafka服务器上，对日志进行统计是一方面，具体实施时，还可以对获取的增量日志数据进行内容存储，比如，通过Logstash进行过滤处理，比如对增量日志数据进行切分、丢弃不必要的字段或进行格式转换等等，再存入到第二数据库比如Elasticsearch集群，实现保存某一段时间的日志数据的目的。本实施例中，可以保存最近三个月的日志数据，保存在第二数据库中的日志数据可具体用于后续用户调用以展示日志详情，了解设备具体进行过哪些有效操作。

在另一种实施方式中，所述步骤S10之后，所述方法还包括：

步骤S210：将所述增量日志数据存储至第三数据库，所述第三数据库中存储的日志数据用于恢复对应的操作行为。

具体的，还可以对获取的增量日志数据进行原始日志存储，即不做任何分析或处理，直接将采集的增量日志数据存入到第三数据库比如HDFS(Hadoop Distributed FileSystem，分布式文件系统)数据库。当然，存储时可以设定周期，比如可以按天存储，存储的总时长相比第二数据库存储的时间可以更长，具体存储时长可以根据实际业务需求设定，比如本实施例可以保存最近六个月的日志数据。保存在第三数据库中的日志数据可具体用于后续用户调用以恢复对应的操作，该恢复操作可以是用户手动选择某一天的日志数据。

本实施例中，步骤S10-S70、步骤S110-S120和步骤S210可以同步进行，也就是对获取的每份增量日志数据进行三次处理，即日志统计到第一数据库、过滤日志存储到第二数据库和原始日志存储到第三数据库，可以满足多种用户需求。

在根据所述统计结果，更新第一数据库中对应的日志统计表的步骤之后，可以按顺序执行如下步骤S80～S90，从而实现在统计日志后继续进行数据查询的目的；也可以步骤S80～S90为独立执行的步骤分支，从而实现调用数据库已存储信息进行数据查询的目的。

在又一种实施方式中，所述方法还可以包括：

步骤S80：在获取到数据查询请求时，判断所述数据查询请求的需求类型。

具体的，因为实际实施中，日志的用途可以有多种，包括使用户了解操作情况、向用户展示操作详情和按需手动恢复操作等。本实施例对日志数据进行统计和存储后，存储在第一数据库的数据存储表和日志统计表、以及存储在第二数据库和第三数据库的日志数据均可以用于用户调用，以查看、展示或恢复操作。当用户需要用到这些日志统计数据或日志数据时，在客户端或用户平台上生成相应的请求，该请求包括数据查询请求。比如，需要查看日志详情时，则调用第二数据库的日志数据，需要查看日志统计情况时，则调用第一数据库的日志统计数据。本实施例中，当用户需要查询日志统计情况时，比如请求查询某攻击类型的次数或受某些攻击类型攻击的总次数等等。对应的，判断得到该数据查询请求的需求类型为日志统计数据查询，具体是查询攻击类型数据统计表。

步骤S90：根据所述需求类型，在对应的数据库中进行数据查询，获得数据查询结果。

具体的，所述步骤S90，可以包括：

步骤S91：当所述需求类型为查询统计数据时，在所述第一数据库中对所述日志统计表进行汇总分析，获得数据查询结果。

具体实施时，需要查询统计数据，即为对第一数据库中的日志统计表进行查询，由于该日志统计表是基于最小统计单元的，可能存在与实际的数据查询请求的需求不完全一致，此时，则需要对这些日志统计表进行简单运算，包括分组、求和、排序等统计操作，从而获取用户需要的查询结果。本实施例则可以对A攻击类型的数据统计表中的统计次数和B攻击类型的数据统计表中的统计次数进行求和，即可展示用户需要的查询日志统计情况。

根据查询内容请求不同的数据库，针对不同需求调用不同的数据库，防止因内容过多，调用信息时占用内存大，影响查询效率。本实施例将日志统计数据写入MongoDB数据库，查询的时候对MongoDB数据库中数据进行简单运算，避免了大量的聚合操作，查询效率高，响应时间短。且根据查询内容分库、分表，进一步减轻了计算压力。

本实施例提供的日志统计方法，通过根据预设统计规则对所述增量日志数据进行分析处理，获得分析处理后的增量日志数据及其对应的数据存储表，再根据所述分析处理后的增量日志数据对应的数据存储表，对所述分析处理后的增量日志数据进行统计，以更新第一数据库中对应的日志统计表；数据处理及时，可以无压力应对亿级日志，具有数据准实时处理，延迟小，处理能力强的优点。并通过基于时间维度或时间颗粒度，将所述分析处理后的增量日志数据存储至所述第一数据库中对应的数据存储表；多维度和多粒度的存储和统计，满足多样化的需求，自定义统计维度和颗粒度，将数据存入到不同的数据存储表中，适用性强。还通过根据数据查询请求的需求类型，在对应的数据库中进行数据查询，获得数据查询结果；避免了大量的聚合操作，查询效率高，响应时间短。且根据查询内容分库、分表，进一步减轻了计算压力。

实施例三

基于同一发明构思，参照图5，提出本发明日志统计装置的第一实施例，该日志统计装置可以为虚拟装置，应用于日志统计设备。

下面结合图5所示的功能模块示意图，对本实施例提供的日志统计装置进行详细描述，所述装置可以包括：

日志获取模块，用于获取增量日志数据；

进一步地，所述装置还可以包括：

日志过滤模块，用于对所述增量日志数据进行过滤处理，获得过滤处理后的增量日志数据；

日志详情存储模块，用于将所述过滤处理后的增量日志数据存储至第二数据库，所述第二数据库中存储的日志数据用于展示日志详情。

进一步地，所述装置还可以包括：

日志恢复存储模块，用于将所述增量日志数据存储至第三数据库，所述第三数据库中存储的日志数据用于恢复对应的操作行为。

进一步地，所述装置还可以包括：

规则设置模块，用于获得预设统计规则。

更进一步地，所述规则设置模块可以包括：

单位确认单元，用于获取业务需求并进行拆分，获得所述业务需求的最小统计单元；

规则设置单元，用于基于所述最小统计单元，设置对应的统计规则和数据存储表；

关联设置单元，用于关联所述统计规则和所述数据存储表，获得预设统计规则。

进一步地，所述装置还可以包括：

日志缓存模块，用于基于时间维度或时间颗粒度，将所述分析处理后的增量日志数据存储至所述第一数据库中对应的数据存储表。

进一步地，所述装置还可以包括：

请求获取模块，用于在获取到数据查询请求时，判断所述数据查询请求的需求类型；

数据查询模块，用于根据所述需求类型，在对应的数据库中进行数据查询，获得数据查询结果。

更进一步地，所述数据查询模块可以包括：

统计数据查询单元，用于当所述需求类型为查询统计数据时，在所述第一数据库中对所述日志统计表进行汇总分析，获得数据查询结果。

需要说明，本实施例提供的日志统计装置中各个模块可实现的功能和对应达到的技术效果可以参照本发明日志统计方法各个实施例中具体实施方式的描述，为了说明书的简洁，此处不再赘述。

实施例四

基于同一发明构思，参照图2，为本发明各实施例涉及的日志统计设备的硬件结构示意图。本实施例提供了一种日志统计设备，所述设备可以包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现本发明日志统计方法各个实施例的全部或部分步骤。

具体的，所述日志统计设备是指能够实现网络连接的终端设备或网络设备，可以是手机、电脑、平板电脑、便携计算机等终端设备，也可以是服务器、云平台等网络设备。

可以理解，所述设备还可以包括通信总线，用户接口和网络接口。

其中，通信总线用于实现这些组件之间的连接通信。

用户接口用于连接客户端，与客户端进行数据通信，用户接口可以包括输出单元，如显示屏、输入单元，如键盘，可选的，用户接口还可以包括其他输入/输出接口，比如标准的有线接口、无线接口。

网络接口用于连接后台服务器，与后台服务器进行数据通信，网络接口可以包括输入/输出接口，比如标准的有线接口、无线接口，如Wi-Fi接口。

存储器用于存储各种类型的数据，这些数据例如可以包括该日志统计设备中任何应用程序或方法的指令，以及应用程序相关的数据。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random AccessMemory，简称SRAM)，可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘，可选的，存储器还可以是独立于所述处理器的存储装置。

处理器用于调用存储器中存储的计算机程序，并执行如上述的日志统计方法，处理器可以是专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital SignalProcessing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件，用于执行如上述日志统计方法各个实施例的全部或部分步骤。

实施例五

基于同一发明构思，本实施例提供了一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，所述存储介质上存储有计算机程序，所述计算机程序可被一个或多个处理器执行，所述计算机程序被处理器执行时可以实现本发明日志统计方法各个实施例的全部或部分步骤。

需要说明，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均包括在本发明的专利保护范围内。

Claims

1.一种日志统计方法，其特征在于，所述方法包括：

获取增量日志数据；

根据所述统计结果，更新第一数据库中对应的日志统计表。

2.如权利要求1所述的日志统计方法，其特征在于，所述获取增量日志数据的步骤之后，所述方法还包括：

3.如权利要求1所述的日志统计方法，其特征在于，所述获取增量日志数据的步骤之后，所述方法还包括：

4.如权利要求1所述的日志统计方法，其特征在于，所述根据预设统计规则对所述增量日志数据进行分析处理，获得分析处理后的增量日志数据及其对应的数据存储表的步骤之前，所述方法还包括：

关联所述统计规则和所述数据存储表，获得预设统计规则。

5.如权利要求1所述的日志统计方法，其特征在于，所述根据预设统计规则对所述增量日志数据进行分析处理，获得分析处理后的增量日志数据及其对应的数据存储表的步骤之后，所述方法还包括：

6.如权利要求1至5中任一项所述的日志统计方法，其特征在于，所述根据所述统计结果，更新第一数据库中对应的日志统计表的步骤之后，所述方法还包括：

7.如权利要求6所述的日志统计方法，其特征在于，所述根据所述需求类型，在对应的数据库中进行数据查询，获得数据查询结果的步骤，具体包括：

8.一种日志统计装置，其特征在于，所述装置包括：

日志获取模块，用于获取增量日志数据；

9.一种日志统计设备，其特征在于，所述设备包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的日志统计方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序可被一个或多个处理器执行，以实现如权利要求1至7中任一项所述的日志统计方法。