CN116226071A

CN116226071A - 数据统计方法、装置、设备及存储介质

Info

Publication number: CN116226071A
Application number: CN202211607327.6A
Authority: CN
Inventors: 孙方臣; 黄志鹏; 曹立霞
Original assignee: China United Network Communications Group Co Ltd; Unicom Digital Technology Co Ltd; Unicom Cloud Data Co Ltd
Current assignee: China United Network Communications Group Co Ltd; Unicom Digital Technology Co Ltd; Unicom Cloud Data Co Ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-06-06

Abstract

本申请公开了一种数据统计方法、装置、设备及存储介质，涉及数据处理技术领域，用于提高数据统计的效率。包括：获取每次访问存储集群时生成的日志信息，并基于日志信息确定多个文件中每个文件对应的第一信息，第一信息包括以下至少一项：文件的数据量、访问类型；将多个第一信息发送至kafka集群，通过多个第一信息确定存储集群包括的多个存储空间中的每个存储空间对应的第二信息，第二信息包括以下至少一项：存储空间的内存变化量、存储空间包括的文件数量；基于存储集群包括的多个存储空间中的每个存储空间对应的第二信息，确定存储集群对应的第三信息，第三信息用于指示以下至少一项：存储集群的内存使用量、存储集群包括的文件总数量。

Description

数据统计方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据统计方法、装置、设备及存储介质。

背景技术

随着信息技术的不断发展，信息数据量越来越大，数据的存储方式也越来越多样化，在相关技术中，可以通过分布式对象存储集群实现数据的存储。在分布式对象存储集群中，存储空间中存储对象的数量以及存储空间的使用量，作为分布式对象存储集群中的关键数据，在数据存储的过程中需要及时进行统计。当前，对分布式对象存储集群的计量方式主要通过后台定时扫描每个bucket，从而确定分布式对象存储集群中存储对象的数量以及存储空间的使用量。

在上述方法中，当数据量较大时(如存储空间中的存储对象超过10亿时)，由于元数据的数据量太大，每次扫描占用较多的计算资源，并且还需要等待较长时间才能得到扫描结果，不能及时的统计出真实的存储对象的数量以及存储空间的使用量，还会影响正常业务的运行。因此，当前对存储空间中存储的文件进行统计的效率较差。

发明内容

本申请提供了一种数据统计方法、装置、设备及存储介质，用于提高数据统计的效率。

为达到上述目的，本申请采用如下技术方案：

第一方面，提供了一种数据统计方法，该方法包括：获取每次访问存储集群时生成的日志信息，并基于日志信息确定多个文件中每个文件对应的第一信息，存储集群包括多个存储空间，多个文件为访问存储集群时对应的文件，多个文件中的一个文件对应一个第一信息，一个第一信息对应多个存储空间中的一个存储空间，一个第一信息包括以下至少一项：文件的数据量、访问类型；将多个第一信息发送至kafka集群，通过多个第一信息确定存储集群包括的多个存储空间中的每个存储空间对应的第二信息，第二信息包括以下至少一项：存储空间的内存变化量、存储空间包括的文件数量；基于存储集群包括的多个存储空间中的每个存储空间对应的第二信息，确定存储集群对应的第三信息，第三信息用于指示以下至少一项：存储集群的内存使用量、存储集群包括的文件总数量。

在一种设计中，kafka集群包括多个kafka分区，多个kafka分区中的一个kafka分区对应多个存储空间中的一个存储空间；将多个第一信息发送至kafka集群，包括：针对多个第一信息中的任一第一信息，确定任一第一信息对应的目标存储空间；将任一第一信息发送至kafka集群中目标存储空间对应的目标kafka分区。

在一种设计中，通过多个第一信息确定存储集群包括的多个存储空间中的每个存储空间对应的第二信息，包括：针对多个kafka分区中的目标kafka分区，基于目标kafka分区对应的至少一个第一信息，确定目标存储空间对应的第二信息；将多个存储空间中的每个存储空间对应的第二信息发送至管理kafka，管理kafka对应存储集群。

在一种设计中，基于存储集群包括的多个存储空间中的每个存储空间对应的第二信息，确定存储集群对应的第三信息，包括：对管理kafka包括的多个存储空间中的每个存储空间对应的第二信息进行汇总，得到存储集群对应的第三信息。

第二方面，提供了一种数据统计装置，该装置包括：获取单元、确定单元、发送单元；获取单元，用于获取每次访问存储集群时生成的日志信息；确定单元，用于基于日志信息确定多个文件中每个文件对应的第一信息，存储集群包括多个存储空间，多个文件为访问存储集群时对应的文件，多个文件中的一个文件对应一个第一信息，一个第一信息对应多个存储空间中的一个存储空间，一个第一信息包括以下至少一项：文件的数据量、访问类型；发送单元，用于将多个第一信息发送至kafka集群；确定单元，用于通过多个第一信息确定存储集群包括的多个存储空间中的每个存储空间对应的第二信息，第二信息包括以下至少一项：存储空间的内存变化量、存储空间包括的文件数量；确定单元，用于基于存储集群包括的多个存储空间中的每个存储空间对应的第二信息，确定存储集群对应的第三信息，第三信息用于指示以下至少一项：存储集群的内存使用量、存储集群包括的文件总数量。

在一种设计中，kafka集群包括多个kafka分区，多个kafka分区中的一个kafka分区对应多个存储空间中的一个存储空间；确定单元，用于针对多个第一信息中的任一第一信息，确定任一第一信息对应的目标存储空间；发送单元，用于将任一第一信息发送至kafka集群中目标存储空间对应的目标kafka分区。

在一种设计中，确定单元，用于针对多个kafka分区中的目标kafka分区，基于目标kafka分区对应的至少一个第一信息，确定目标存储空间对应的第二信息；发送单元，用于将多个存储空间中的每个存储空间对应的第二信息发送至管理kafka，管理kafka对应存储集群。

在一种设计中，确定单元，用于对管理kafka包括的多个存储空间中的每个存储空间对应的第二信息进行汇总，得到存储集群对应的第三信息。

第三方面，提供了一种电子设备，包括：处理器以及存储器；其中，存储器用于存储一个或多个程序，一个或多个程序包括计算机执行指令，当电子设备运行时，处理器执行存储器存储的计算机执行指令，以使电子设备执行如第一方面的一种数据统计方法。

第四方面，提供了一种存储一个或多个程序的计算机可读存储介质，该一个或多个程序包括指令，上述指令当被计算机执行时使计算机执行如第一方面的一种数据统计方法。

本申请提供了一种数据统计方法、装置、设备及存储介质，应用于确定存储集群中的文件量的场景中。首先获取每次访问包括多个存储空间的存储集群时生成的日志信息，并基于日志信息确定访问存储集群时对应的多个文件中每个文件对应的，包括文件的数据量、访问类型的第一信息。并将多个第一信息发送至kafka集群，以通过多个第一信息确定存储集群包括的多个存储空间中的每个存储空间对应的，包括存储空间的内存变化量、存储空间包括的文件数量的第二信息。进而基于存储集群包括的多个存储空间中的每个存储空间对应的第二信息，确定存储集群对应的，用于指示存储集群的内存使用量、存储集群包括的文件总数量的第三信息。通过上述方法，能够基于每次访问存储集群时生成的日志信息，确定出第一信息，并通过对第一信息进行汇总，最终得到能够指示存储集群的内存使用量、存储集群包括的文件数量的第三信息，实现对存储集群中相关数据的实时统计，提高数据统计的效率。

附图说明

图1为本申请的实施例提供的一种数据统计系统结构示意图；

图2为本申请的实施例提供的一种数据统计方法流程示意图一；

图3为本申请的实施例提供的一种数据统计方法流程示意图二；

图4为本申请的实施例提供的一种数据统计方法流程示意图三；

图5为本申请的实施例提供的一种数据统计方法流程示意图四；

图6为本申请的实施例提供的一种数据统计方法流程示意图五；

图7为本申请的实施例提供的一种数据统计装置结构示意图；

图8为本申请的实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

在本申请的描述中，除非另有说明，“/”表示“或”的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。此外，“至少一个”“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

本申请实施例提供的一种数据统计方法，可以适用于数据统计系统。图1示出了该数据统计系统的一种结构示意图。如图1所示，数据统计系统20包括：服务器21、电子设备22。服务器21与电子设备22连接。

数据统计系统20可以用于物联网，数据统计系统20可以包括多个中央处理器(central processing unit，CPU)、多个内存、存储有多个操作系统的存储装置等硬件。

服务器21可以为存储集群对应的服务器，用于实现数据的存储，例如服务器21可以存储有用户访问存储集群时生成的日志信息，并将该日志信息发送至电子设备22，以使得电子设备22实现数据的处理。

电子设备22可以用于物联网，用于实现数据的处理，例如电子设备22可以通过第二基站服务器21进行交互，获取每次访问存储集群时生成的日志信息，进而通过日志信息，确定出存储集群对应的第三信息。

下面结合附图对本申请实施例提供的一种数据统计方法进行描述。

如图2所示，本申请实施例提供的一种数据统计方法，包括S201-S203：

S201、获取每次访问存储集群时生成的日志信息，并基于日志信息确定多个文件中每个文件对应的第一信息。

其中，存储集群包括多个存储空间，多个文件为访问存储集群时对应的文件，多个文件中的一个文件对应一个第一信息，一个第一信息对应多个存储空间中的一个存储空间，一个第一信息包括以下至少一项：文件的数据量、访问类型。

可选的，第一信息还可以包括调用访问类型、上行流量、下行流量等信息。

需要说明的是，调用访问类型，指该次访问所对应的类型，如文件上传、文件下载、文件修改等访问类型；上行流量，指上传文件的流量信息，下行流量，指下载文件的流量信息。

可选的，在存储服务中，可以根据每次访问存储集群对应的应用程序界面(Application Program Interface，API)访问信息、生命周期(lifecycle)删除信息、存储空间访问日志(bucket logging)信息等信息，生成存储有日志信息的日志文件。

需要说明的是，一个日志文件，对应存储集群的使用用户的一个动作。

示例性的，当用户在存储集群中上传一个文件时，会生成该次文件上传所对应的日志信息，得到一个日志文件。

需要说明的是，当用户批量处理多个文件时(如批量上传文件、批量删除文件等)，会生成多个日志文件，每个日志文件对应一个文件的动作(如一个文件的上传、一个文件的删除等)，得到多个第一信息。

可选的，可以通过对日志信息中的相关参数进行解析，得到第一信息。

S202、将多个第一信息发送至kafka集群，通过多个第一信息确定存储集群包括的多个存储空间中的每个存储空间对应的第二信息。

其中，第二信息包括以下至少一项：存储空间的内存变化量、存储空间包括的文件数量。

可选的，针对存储集群包括的多个存储空间中的任一存储空间，可以确定该任一存储空间对应的所有第一信息，并根据该任一存储空间对应的所有第一信息，确定该任一存储空间对应的第二信息。

可选的，可以通过对任一存储空间对应的所有第一信息进行统计汇总，得到该任一存储空间对应的第二信息。

S203、基于存储集群包括的多个存储空间中的每个存储空间对应的第二信息，确定存储集群对应的第三信息。

其中，第三信息用于指示以下至少一项：存储集群的内存使用量、存储集群包括的文件总数量。

可选的，可以通过对存储集群包括的多个存储空间中的每个存储空间对应的第二信息进行统计汇总，得到该存储集群对应的第三信息。

可选的，第三信息还可以包括用户使用API访问次数、上行流量、下行流量。

本申请实施例中，首先获取每次访问包括多个存储空间的存储集群时生成的日志信息，并基于日志信息确定访问存储集群时对应的多个文件中每个文件对应的，包括文件的数据量、访问类型的第一信息。并将多个第一信息发送至kafka集群，以通过多个第一信息确定存储集群包括的多个存储空间中的每个存储空间对应的，包括存储空间的内存变化量、存储空间包括的文件数量的第二信息。进而基于存储集群包括的多个存储空间中的每个存储空间对应的第二信息，确定存储集群对应的，用于指示存储集群的内存使用量、存储集群包括的文件总数量的第三信息。通过上述方法，能够基于每次访问存储集群时生成的日志信息，确定出第一信息，并通过对第一信息进行汇总，最终得到能够指示存储集群的内存使用量、存储集群包括的文件数量的第三信息，实现对存储集群中相关数据的实时统计，提高数据统计的效率。

在一种设计中，kafka集群包括多个kafka分区，多个kafka分区中的一个kafka分区对应多个存储空间中的一个存储空间，如图3所示，本申请实施例提供的一种数据统计方法中，上述S202中的“将多个第一信息发送至kafka集群”，包括S301-S302：

S301、针对多个第一信息中的任一第一信息，确定任一第一信息对应的目标存储空间。

需要说明的是，在分布式对象存储集群中，会有多个存储空间(bucket)，用户在访问存储集群时，单次访问(单个日志文件)仅涉及一个存储空间。

可选的，可以通过日志文件对应的标识信息，确定日志文件所对应的存储空间，从而得到该日志文件对应的第一信息所对应的目标存储空间。

可选的，kafka分区的数量可以根据存储集群中的存储空间的数量进行调整。

示例性的，当存储集群中包括10个存储空间时，可以设置有10个kafka分区。

S302、将任一第一信息发送至kafka集群中目标存储空间对应的目标kafka分区。

可选的，每个kafka分区负责记录对应的存储空间的信息。

可选的，可以为每个kafka分区设置对应标识，通过kafka分区的对应标识，确定该kafka分区所对应的存储空间。

可选的，可以将多个第一消息异步发送到该多个第一消息中的每个第一消息对应的kafka分区，从而实现消息的分布式处理。

本申请实施例中，针对存储集群中的不同存储空间所对应的第一信息，使用不同的kafka分区进行统计，并通过异步消息实现纤细的分布式处理，从而提高数据统计的效率。

在一种设计中，如图4所示，本申请实施例提供的一种数据统计方法中，上述S202中的“通过多个第一信息确定存储集群包括的多个存储空间中的每个存储空间对应的第二信息”，包括S401-S402：

S401、针对多个kafka分区中的目标kafka分区，基于目标kafka分区对应的至少一个第一信息，确定目标存储空间对应的第二信息。

可选的，可以基于消息类型，根据第一信息对目标存储空间的内存变化量、目标存储空间包括的文件数量进行统计，得到目标存储空间对应的第二信息。

可选的，还可以对目标存储空间对应的API访问次数、上行流量、下行流量进行统计。

可选的，存储空间的内存变化量，可以理解为存储空间使用量的变化量。

可选的，可以每间隔预设周期(如10秒、1分钟等)，对目标kafka分区对应的第一信息进行汇总，得到目标存储空间对应的第二信息。

可选的，还可以持续对第一信息进行汇总，即每接收到第一信息时，根据第一信息更新汇总的第二信息。

S402、将多个存储空间中的每个存储空间对应的第二信息发送至管理kafka。

其中，管理kafka对应存储集群。

可选的，管理kafka，可以为汇总kafka，用于对多个kafka分区的消息进行汇总。

可选的，可以每间隔预设周期(如30秒、5分钟等)，将第二信息发送至管理kafka。

可选的，当第一信息的数量超出预设阈值时，直接将此时汇总的第二信息发送至管理kafka。

示例性的，当目标kafka分区记录的第一信息共有100条时，直接将这些第一信息汇总后得到的第二信息发送至管理kafka。

可选的，当第第二信息中的某一信息超出预设阈值时，可以直接将此时汇总的第二信息发送至管理kafka。

示例性的，当第二信息中的存储空间包括的文件数量与上次统计的存储空间包括的文件数量的差值大于100时，可以将此时汇总的第二信息发送至管理kafka。

本申请实施例中，通过对kafka分区中的第一信息进行汇总统计，从而通过多个kafka分区对应的多个第二信息，确定多个存储空间的文件数据信息，以提高数据统计的准确性。

在一种设计中，如图5所示，本申请实施例提供的一种数据统计方法中，上述S203，包括S501：

S501、对管理kafka包括的多个存储空间中的每个存储空间对应的第二信息进行汇总，得到存储集群对应的第三信息。

可选的，可以对第二信息进行汇总得到第三信息，并定时(间隔一定周期)将第三信息落盘写入到预设数据库中，预设数据库用于指示当前存储集群的容量信息，如存储集群中存储空间使用量、文件数量、API访问次数、上行流量、下行流量等信息。

可选的，当第二信息的数量超出预设阈值时，直接将此时汇总的第三信息写入到预设数据库中。

示例性的，当多个存储空间中的所有存储空间对应的第二信息共有1000条时，直接将这些第二信息汇总后得到的第三信息落盘写入数据库。

可选的，落盘写入数据库，至将第三信息写入预设数据库对应的磁盘，以防止由于重启、意外中断所导致的数据丢失。

可选的，可以每间隔预设时间段对第二信息进行汇总，也可以每次接收到第二信息时累加至当前汇总的第三信息中。

可选的，当第第三信息中的某一信息超出预设阈值时，可以直接将此时汇总的第三信息写入到预设数据库中。

示例性的，当第三信息中的存储空间包括的文件数量与上次统计的存储空间包括的文件数量的差值大于500时，可以将此时汇总的第三信息写入到预设数据库中。

需要说明的是，本申请实施例中，对于周期、阈值的具体取值，可以根据具体的使用需要确定，不同步骤所采用的周期、阈值，不需要保持一致。

示例性的，第二信息可以每1分钟发送一次，第三信息可以每2分钟发送一次。

可选的，在本申请实施例中，对信息的处理可以通过计量服务实现。

示例性的，可以通过计量服务根据日志文件确定该日志文件对应的第一信息，通过多个计量服务对多个kafka分区对应的第一信息进行消费，从而得到多个存储空间对应的第二信息，通过计量汇总服务对对汇总kafka中的第三信息进行消费，并将第三信息写入到预设数据库中。

可选的，计量过程可以采用无锁化处理，以增强功能时效性和健壮性。

在一种设计中，在确定第二信息、确定第三信息时，均可以记录有对应的消费offset值，用于指示当前信息的消费进度。以在计量服务重启后，能够直接从记录的offset的位置开始消费信息，从而保证信息消费的精准性。

示例性的，如图6所示，本申请实施例中，首先基于lifecycle调用信息、API调用信息和bucket logging调用信息，确定本次调用的使用量变化量、上下行流量等信息，得到第一信息，并将该第一信息发送到kafka集群，通过消息异步发送到多个kafka分区，实现消息的分布式处理。

示例性的，存储集群中存在16个存储空间，则kafka集群中设置有16个kafka分区，将每个存储空间对应的第一消息发送至对应的kafka分区。进一步的，消费每个kafka分区中的第一信息，得到增量信息(第二信息)，定时发送该第二信息，并记录当前的消费offset。

对16个kafka分区的消息进行归并，计算当前的计量值(变化量)，得到汇总信息(第三信息)，并记录汇总信息的消费offset。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对一种数据统计装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。可选的，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图7为本申请实施例提供的一种数据统计装置的结构示意图。如图7所示，数据统计装置40用于提高数据统计的效率，例如用于执行图2所示的一种数据统计方法。该数据统计装置40包括：获取单元401、确定单元402、发送单元403。

获取单元401，用于获取每次访问存储集群时生成的日志信息。

确定单元402，用于基于日志信息确定多个文件中每个文件对应的第一信息，存储集群包括多个存储空间，多个文件为访问存储集群时对应的文件，多个文件中的一个文件对应一个第一信息，一个第一信息对应多个存储空间中的一个存储空间，一个第一信息包括以下至少一项：文件的数据量、访问类型。

发送单元403，用于将多个第一信息发送至kafka集群。

确定单元402，用于通过多个第一信息确定存储集群包括的多个存储空间中的每个存储空间对应的第二信息，第二信息包括以下至少一项：存储空间的内存变化量、存储空间包括的文件数量。

确定单元402，用于基于存储集群包括的多个存储空间中的每个存储空间对应的第二信息，确定存储集群对应的第三信息，第三信息用于指示以下至少一项：存储集群的内存使用量、存储集群包括的文件总数量。

在一种设计中，kafka集群包括多个kafka分区，多个kafka分区中的一个kafka分区对应多个存储空间中的一个存储空间；

确定单元402，用于针对多个第一信息中的任一第一信息，确定任一第一信息对应的目标存储空间。

发送单元403，用于将任一第一信息发送至kafka集群中目标存储空间对应的目标kafka分区。

在一种设计中，确定单元402，用于针对多个kafka分区中的目标kafka分区，基于目标kafka分区对应的至少一个第一信息，确定目标存储空间对应的第二信息。

发送单元403，用于将多个存储空间中的每个存储空间对应的第二信息发送至管理kafka，管理kafka对应存储集群。

在采用硬件的形式实现上述集成的模块的功能的情况下，本申请实施例提供了上述实施例中所涉及的电子设备的另外一种可能的结构示意图。如图8所示，一种电子设备70，用于提高数据统计的效率，例如用于执行图2所示的一种数据统计方法。该电子设备70包括处理器701，存储器702以及总线703。处理器701与存储器702之间可以通过总线703连接。

处理器701是通信装置的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器701可以是一个通用中央处理单元(central processing unit，CPU)，也可以是其他通用处理器等。其中，通用处理器可以是微处理器或者是任何常规的处理器等。

作为一种实施例，处理器701可以包括一个或多个CPU，例如图8中所示的CPU 0和CPU 1。

存储器702可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

作为一种可能的实现方式，存储器702可以独立于处理器701存在，存储器702可以通过总线703与处理器701相连接，用于存储指令或者程序代码。处理器701调用并执行存储器702中存储的指令或程序代码时，能够实现本申请实施例提供的一种数据统计方法。

另一种可能的实现方式中，存储器702也可以和处理器701集成在一起。

总线703，可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外围设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

需要指出的是，图8示出的结构并不构成对该电子设备70的限定。除图8所示部件之外，该电子设备70可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

作为一个示例，结合图7，数据统计装置40中的获取单元401、确定单元402、发送单元403实现的功能与图8中的处理器701的功能相同。

可选的，如图8所示，本申请实施例提供的电子设备70还可以包括通信接口704。

通信接口704，用于与其他设备通过通信网络连接。该通信网络可以是以太网，无线接入网，无线局域网(wireless local area networks，WLAN)等。通信接口704可以包括用于接收数据的接收单元，以及用于发送数据的发送单元。

在一种设计中，本申请实施例提供的电子设备中，通信接口还可以集成在处理器中。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元的划分进行举例说明。在实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将装置的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当计算机执行该指令时，该计算机执行上述方法实施例所示的方法流程中的各个步骤。

本申请的实施例提供一种包含指令的计算机程序产品，当指令在计算机上运行时，使得计算机执行上述方法实施例中的一种数据统计方法。

其中，计算机可读存储介质，例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘。随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任一合适的组合、或者本领域数值的任何其他形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(应用程序lication Specific Integrated Circuit，ASIC)中。在本申请实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

由于本申请的实施例中的电子设备、计算机可读存储介质、计算机程序产品可以应用于上述方法，因此，其所能获得的技术效果也可参考上述方法实施例，本申请实施例在此不再赘述。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种数据统计方法，其特征在于，所述方法包括：

获取每次访问存储集群时生成的日志信息，并基于所述日志信息确定多个文件中每个文件对应的第一信息，所述存储集群包括多个存储空间，所述多个文件为访问所述存储集群时对应的文件，所述多个文件中的一个文件对应一个第一信息，一个第一信息对应所述多个存储空间中的一个存储空间，一个第一信息包括以下至少一项：文件的数据量、访问类型；

将多个第一信息发送至kafka集群，通过所述多个第一信息确定所述存储集群包括的多个存储空间中的每个存储空间对应的第二信息，所述第二信息包括以下至少一项：存储空间的内存变化量、存储空间包括的文件数量；

基于所述存储集群包括的多个存储空间中的每个存储空间对应的第二信息，确定所述存储集群对应的第三信息，所述第三信息用于指示以下至少一项：所述存储集群的内存使用量、所述存储集群包括的文件总数量。

2.根据权利要求1所述的数据统计方法，其特征在于，所述kafka集群包括多个kafka分区，所述多个kafka分区中的一个kafka分区对应所述多个存储空间中的一个存储空间；

所述将多个第一信息发送至kafka集群，包括：

针对所述多个第一信息中的任一第一信息，确定所述任一第一信息对应的目标存储空间；

将所述任一第一信息发送至所述kafka集群中所述目标存储空间对应的目标kafka分区。

3.根据权利要求2所述的数据统计方法，其特征在于，所述通过所述多个第一信息确定所述存储集群包括的多个存储空间中的每个存储空间对应的第二信息，包括：

针对所述多个kafka分区中的所述目标kafka分区，基于所述目标kafka分区对应的至少一个第一信息，确定所述目标存储空间对应的所述第二信息；

将所述多个存储空间中的每个存储空间对应的所述第二信息发送至管理kafka，所述管理kafka对应所述存储集群。

4.根据权利要求3所述的数据统计方法，其特征在于，所述基于所述存储集群包括的多个存储空间中的每个存储空间对应的第二信息，确定所述存储集群对应的第三信息，包括：

对所述管理kafka包括的所述多个存储空间中的每个存储空间对应的所述第二信息进行汇总，得到所述存储集群对应的第三信息。

5.一种数据统计装置，其特征在于，所述装置包括：获取单元、确定单元、发送单元；

所述获取单元，用于获取每次访问存储集群时生成的日志信息；

所述确定单元，用于基于所述日志信息确定多个文件中每个文件对应的第一信息，所述存储集群包括多个存储空间，所述多个文件为访问所述存储集群时对应的文件，所述多个文件中的一个文件对应一个第一信息，一个第一信息对应所述多个存储空间中的一个存储空间，一个第一信息包括以下至少一项：文件的数据量、访问类型；

所述发送单元，用于将多个第一信息发送至kafka集群；

所述确定单元，用于通过所述多个第一信息确定所述存储集群包括的多个存储空间中的每个存储空间对应的第二信息，所述第二信息包括以下至少一项：存储空间的内存变化量、存储空间包括的文件数量；

所述确定单元，用于基于所述存储集群包括的多个存储空间中的每个存储空间对应的第二信息，确定所述存储集群对应的第三信息，所述第三信息用于指示以下至少一项：所述存储集群的内存使用量、所述存储集群包括的文件总数量。

6.根据权利要求5所述的数据统计装置，其特征在于，所述kafka集群包括多个kafka分区，所述多个kafka分区中的一个kafka分区对应所述多个存储空间中的一个存储空间；

所述确定单元，用于针对所述多个第一信息中的任一第一信息，确定所述任一第一信息对应的目标存储空间；

所述发送单元，用于将所述任一第一信息发送至所述kafka集群中所述目标存储空间对应的目标kafka分区。

7.根据权利要求6所述的数据统计装置，其特征在于，所述确定单元，用于针对所述多个kafka分区中的所述目标kafka分区，基于所述目标kafka分区对应的至少一个第一信息，确定所述目标存储空间对应的所述第二信息；

所述发送单元，用于将所述多个存储空间中的每个存储空间对应的所述第二信息发送至管理kafka，所述管理kafka对应所述存储集群。

8.根据权利要求7所述的数据统计装置，其特征在于，所述确定单元，用于对所述管理kafka包括的所述多个存储空间中的每个存储空间对应的所述第二信息进行汇总，得到所述存储集群对应的第三信息。

9.一种电子设备，其特征在于，包括：处理器以及存储器；其中，所述存储器用于存储一个或多个程序，所述一个或多个程序包括计算机执行指令，当所述电子设备运行时，处理器执行所述存储器存储的所述计算机执行指令，以使所述电子设备执行权利要求1-4中任一项所述的一种数据统计方法。

10.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当被计算机执行时使所述计算机执行权利要求1-4中任一项所述的一种数据统计方法。