CN115599792B

CN115599792B - 一种物联网大数据分类存储方法

Info

Publication number: CN115599792B
Application number: CN202211592233.6A
Authority: CN
Inventors: 赵魏来; 王茂林; 郑崇智
Original assignee: Shenzhen Runxin Data Technology Co ltd
Current assignee: Shenzhen Runxin Data Technology Co ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-03-10
Anticipated expiration: 2042-12-13
Also published as: CN115599792A

Abstract

本发明涉及电数字数据处理技术领域，具体涉及一种物联网大数据分类存储方法。方法包括：根据各用户在目标时间段内访问数据的次数得到各用户的活跃度；根据访问各数据的用户的活跃度和各用户访问各数据的次数，计算各数据的调节系数；根据各数据与其它数据的关联性，计算各数据与其它数据的关联程度；根据调节系数和关联程度得到重要程度；根据重要程度，得到重要数据构成的数据段和不重要数据构成的数据段；计算各数据段对应的初始长度；根据所述初始长度和所述初始长度的中心点到聚类中心的距离，计算各数据段自适应缩减时分布式存储数据的长度；根据所述分布式存储数据的长度，对各数据段进行存储。本发明实现了数据的智能化分类整合。

Description

一种物联网大数据分类存储方法

技术领域

本发明涉及电数字数据处理技术领域，具体涉及一种物联网大数据分类存储方法。

背景技术

随着社会信息化进度的日益加快，越来越多的企业通过互联网等信息技术来进行生产数据的记录存储与传输使用。无论是企业内部的部门与部门之间，还是企业内部与企业外部之间，在通过信息技术交流记录的过程中都会产生大量的生产数据，这些生产数据中部分数据极为重要，需要经常使用并长期保存，有的数据是一般类型的数据，使用频率小，重要程度低，此类数据仅需进行存储，即使丢失也不会造成太大影响。

信息化时代的数据量是庞大的，如果不对这些生产数据进行分类处理，会导致数据运行混乱，存储系统工作负荷大，运行缓慢，同时对重要数据的保存会不当，容易造成重要数据的丢失。现有技术中往往是人为的对这些生产数据进行分类整合，但这种人为的分类方式效率较低。

发明内容

为了解决基于人工的方式对生产数据进行分类整合存在效率较低的问题，本发明的目的在于提供一种物联网大数据分类存储方法，所采用的技术方案具体如下：

本发明提供了一种物联网大数据分类存储方法，该方法包括以下步骤：

获取目标时间段内不同用户对临时存储系统中数据的访问信息；所述访问信息包括访问次数、用户访问的数据对象；

根据各用户在目标时间段内访问临时存储系统中数据的次数和各用户在目标时间段内访问临时存储系统中数据类型的总数，得到各用户的活跃度；根据访问各数据的用户的活跃度和各用户访问各数据的次数，计算各数据对应的调节系数；根据各数据与其它数据的关联性，计算各数据与其它数据的关联程度；根据所述各数据对应的调节系数和各数据与其它数据的关联程度，得到各数据的重要程度；根据各数据的重要程度，对各数据进行分类，得到重要数据构成的数据段和不重要数据构成的数据段；

根据重要数据在临时存储系统中的占比和待分布式存储的各数据段的数据总长，得到各数据段对应的分布式存储数据的初始长度；对临时存储系统中的各数据段进行聚类，根据各数据段对应的分布式存储数据的初始长度和各数据段对应的分布式存储数据的初始长度的中心点到聚类中心的距离，计算各数据段对应的自适应缩减时分布式存储数据的长度；根据各数据段对应的自适应缩减时分布式存储数据的长度，对各数据段进行存储。

优选的，所述根据各用户在目标时间段内访问临时存储系统中数据的次数和各用户在目标时间段内访问临时存储系统中数据类型的总数，得到各用户的活跃度，包括：

获取目标时间段内临时存储系统中数据的总访问次数和临时存储系统中数据的总类型数；

根据各用户在目标时间段内访问临时存储系统中数据的次数、各用户在目标时间段内访问临时存储系统中数据类型的总数、目标时间段内临时存储系统中数据的总访问次数和临时存储系统中数据的总类型数，采用如下公式计算各用户的活跃度：

其中，

为第

个用户的活跃度，

为第

个用户在目标时间段内访问临时存储系统中数据的次数，

为目标时间段内临时存储系统中数据的总访问次数，

为第

个用户在目标时间段内访问临时存储系统中数据类型的总数，

为临时存储系统中数据的总类型数。

优选的，采用如下公式计算各数据对应的调节系数：

其中，

为第

个数据对应的调节系数，

为目标时间段内访问第

个数据的用户数量，

为访问第

个数据的第

个用户的活跃度，

为目标时间段内访问第

个数据的第

个用户的访问次数。

优选的，所述根据各数据与其它数据的关联性，计算各数据与其它数据的关联程度，包括：

对于第

个数据：

判断访问第

个数据对应的时间段内是否访问过第

个数据，若访问过，则判定第

个数据与第

个数据的关联性为1，将第

个数据和第

个数据作为一个数据对，统计

数据对的总访问次数；若未访问过，则判定第

个数据与第

个数据的关联性为0，不将第

个数据和第

个数据作为一个数据对；所述第

个数据对应的时间段为：访问第

个数据的时刻对应的预设邻域范围内的各时刻构成的集合；

采用如下公式计算该数据与其它数据的关联程度：

其中，

为第

个数据与第

个数据的关联程度，

为访问

数据对的第

个用户的活跃度，

为访问

数据对的用户数量，

为

数据对的总访问次数。

优选的，所述根据所述各数据对应的调节系数和各数据与其它数据的关联程度，得到各数据的重要程度，包括：

对于第

个数据：

采用如下公式计算该数据的关联重要程度：

其中，

为第

个数据的关联重要程度，

为第

个数据的关联数据的个数，

为第

个数据与

个关联数据中第

个数据的关联程度；

计算该数据对应的调节系数和该数据的关联重要程度的乘积，将所述乘积作为该数据的重要程度。

优选的，所述根据重要数据在临时存储系统中的占比和待分布式存储的各数据段的数据总长，得到各数据段对应的分布式存储数据的初始长度，包括：

对于任一数据段：计算重要数据在临时存储系统中的占比和待分布式存储的该数据段的数据总长的乘积，将所述乘积作为该数据段对应的分布式存储数据的初始长度。

优选的，采用如下公式计算各数据段对应的自适应缩减时分布式存储数据的长度：

其中，

为任一数据段对应的自适应缩减时的分布式存储数据的长度，

为该数据段对应的分布式存储数据的初始长度，

为重要数据的长度，

为聚类类数，

为该数据段对应的分布式存储数据的初始长度的中心点到第

个聚类中心的距离，

为以

为底的指数函数，

为超参数。

优选的，采用均值漂移聚类算法对临时存储系统中的各数据段进行聚类。

本发明具有如下有益效果：本发明首先获取了目标时间段内不同用户对临时存储系统中数据的访问信息；考虑到访问各数据的用户整体活跃度越高，说明对应数据的使用频率越高，故其重要程度也越高；各数据与其它数据的关联程度越高，也说明对应数据越重要；因此本发明根据访问各数据的用户的活跃度和各用户访问各数据的次数，计算各数据对应的调节系数；根据各数据与其它数据的关联性，计算各数据与其它数据的关联程度；然后基于各数据对应的调节系数和各数据与其它数据的关联程度，得到各数据的重要程度；根据各数据的重要程度，对各数据进行分类，得到不同重要程度对应的数据段。本发明采用分布式存储，自适应存储各数据段的长度，再基于各数据段的重要程度对各数据段进行缩减，进而对各数据段进行存储。本发明提供的方法能够对不同重要程度的数据给予不同的存储数据长度，确保系统正常运行的同时减小存储空间，实现了数据的智能化分类整合，提高了效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明提供的一种物联网大数据分类存储方法的流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种物联网大数据分类存储方法进行详细说明如下。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种物联网大数据分类存储方法的具体方案。

一种物联网大数据分类存储方法实施例

现有的基于人工的方式对生产数据进行分类整合存在效率较低的问题。为了解决上述问题，本实施例提出了一种物联网大数据分类存储方法，如图1所示，本实施例的一种物联网大数据分类存储方法包括以下步骤：

步骤S1，获取目标时间段内不同用户对临时存储系统中数据的访问信息；所述访问信息包括访问次数、用户访问的数据对象。

现在企业一般都通过互联网等信息技术来对生产数据进行记录存储与传输使用，但是面对数据的急剧膨胀，企业如果不对这些生产数据进行分类处理，只是不断购置大量的存储设备来应对不断增长的存储需求，单纯地提高存储容量，这似乎并不能从根本解决问题，存储设备的采购预算越来越高，大多数企业难以承受如此巨大的开支，而且如果不对这些生产数据进行分类处理，可能会导致数据混乱，存储系统工作负荷大，运行缓慢，同时对重要数据的保存会不当，容易造成重要数据的丢失。

数据初始产生时重要程度是相同的，初始产生时数据不存在用户访问，此时对数据的存储是一视同仁的，即采用常规的存储手段，不对数据进行分类，所有的数据均存储在临时存储系统中，初始时刻的临时存储系统存储空间大，存储空间的占用率低，随着数据的不断存入，临时存储系统的存储空间占用率逐步提高，同时存在数据的访问，当临时存储系统的存储量达到预设临界点时，需要对存储数据进行转移，进行分类存储，统计临时存储系统中数据的访问信息，本实施例将临时存储系统中产生数据的时刻和临时存储系统的存储量达到预设临界点的时刻之间的时间段记为目标时间段，即获取目标时间段内临时存储系统中数据的访问信息，所述访问信息包括访问次数、用户访问的数据对象。在具体应用中，目标时间段实施者可自行选取。

步骤S2，根据各用户在目标时间段内访问临时存储系统中数据的次数和各用户在目标时间段内访问临时存储系统中数据类型的总数，得到各用户的活跃度；根据访问各数据的用户的活跃度和各用户访问各数据的次数，计算各数据对应的调节系数；根据各数据与其它数据的关联性，计算各数据与其它数据的关联程度；根据所述各数据对应的调节系数和各数据与其它数据的关联程度，得到各数据的重要程度；根据各数据的重要程度，对各数据进行分类，得到重要数据构成的数据段和不重要数据构成的数据段。

数据的访问频率越高，说明需要经常对该类数据进行使用，因此该类数据需要较快的解压速率；数据的访问频率越低，说明数据很少被用到，该类数据应当占用较小的存储空间。考虑到部分数据存在虚假的访问量，即部分数据统计的访问量较大，但该类数据使用率较低。若在较短时间内访问了两个数据，则说明这两个数据在很大程度上具有较强的关联性，即说明这两个数据越重要。本实施例通过获取用户的活跃性与数据间的关联性计算数据的重要程度，根据重要程度对数据进行分类，采用不同的存储器进行分类存储。

具体的，对临时存储系统中的数据访问量进行访问频率排序，通过访问频率对数据的重要程度进行预排序。正常情况下，数据的访问频率越高，数据越重要，但由于数据寄存在临时存储系统中时，是通过时间先后进行存储的，用户在访问某个目标数据时，可能会连带访问其附近的数据，这样导致部分访问量为虚假的访问量，考虑到若两个数据具有关联性，说明在较短时间内访问了这两个数据，即说明这两个数据较为重要。基于此，本实施例需要通过访问用户的活跃情况以及数据之间的关联性对预排序数据进行重要程度修正。

用户在对数据进行访问时会留下自身的IP，通过用户的IP获取在目标时间段内访问数据的所有用户的访问次数，用户访问的数据量越多、访问频率越高，说明用户的活跃度越高，即：

其中，

为第

个用户的活跃度，

为第

个用户在目标时间段内访问临时存储系统中数据的次数，

为目标时间段内临时存储系统中数据的总访问次数，

为第

为临时存储系统中数据的总类型数。用户访问数据的次数越多且用户访问的数据覆盖类型越多，说明用户的活跃程度越高。

接下来本实施例统计用户对临时存储系统中各数据的访问情况，对于临时存储系统中的第

个数据而言，会有不同的用户进行访问，访问该数据的用户整体活跃度越高，则说明该数据的使用频率越高，故其重要程度也越高，本实施例根据目标时间段内访问第

个数据的用户的活跃程度和第

个数据的访问次数，计算第

个数据对应的调节系数

，即：

其中，

为第

个数据对应的调节系数，

为目标时间段内访问第

个数据的用户数量，

为访问第

个数据的第

个用户的活跃度，

为目标时间段内访问第

个数据的第

个用户的访问次数。

至此，采用上述方法能够得到临时存储系统中各数据对应的调节系数。

考虑到数据与数据之间往往存在着某种联系，即在获取某一数据时，对另外某一数据同样进行获取，某一数据的关联数据越多且关联性越强，说明该数据越重要，即该数据的重要程度越高。基于此，本实施例获取数据之间的关联性，用户在对第

个数据进行获取时，在短时间内对第k个数据也进行了访问，若不同的用户均在短时间内获取了这两个数据，则说明这两个数据是存在关联的，同时获取这一对数据的用户越多且频次越高，说明这一对数据的关联性越强。对于第

个数据：本实施例获取该数据对应的时间段，设定预设时间段的长度为

，将访问第

个数据的时刻作为该数据对应的时间段的中心时刻，将与中心时刻差值的绝对值小于等于

的时刻构成的集合作为第

个数据对应的时间段，本实施例将在第

个数据对应的时间段内获取的数据判定为与第

个数据存在关联，即在访问第

个数据的前后

时间范围内访问的数据，判定其与第

个数据存在关联，即：

其中，

为第

个数据与第

个数据的关联性，

为获取第

个数据的时刻，

为获取第

个数据的时刻，

为预设时间段的长度。若获取的第

个数据的时间在获取第

个数据前后

时间范围内，则判定第

个数据与第

个数据存在关联性；若获取的第

个数据的时间不在获取第

个数据前后

时间范围内，则判定第

个数据与第

个数据不存在关联性。

第

个数据的关联数据越多，关联性越强，则说明第

个数据越重要，本实施例根据第

个数据与第

个数据的关联性，计算第

个数据与第

个数据的关联程度，即：

其中，

为第

个数据与第

个数据的关联程度，

为访问

数据对的第

个用户的活跃度，

为访问

数据对的用户数量，

为

数据对的总访问次数（即总关联性）。访问

数据对的用户活跃度越高、访问频率越大，则

数据对的关联程度越强。总关联性

的获取过程为：将目标时间段内访问

数据对的次数记为总关联性

，需要说明的是：该次数为这两个数据具有关联性（即

）的次数。

第

个数据可能与一个或多个数据存在关联，本实施例计算第

个数据的关联重要程度，即：

其中，

为第

个数据的关联重要程度，

为第

个数据的关联数据的个数，

为第

个数据与

个关联数据中第

个数据的关联程度，

的值越大，说明第

个数据越重要。

对于第j个数据来说，对该数据访问的用户活跃程度越高且该数据与其它数据的关联程度越大时，说明该数据的重要程度越高，故有：

其中，

为第

个数据的重要程度，

为第

个数据对应的调节系数，

为第

个数据的关联重要程度。

至此，采用上述方法，得到临时存储系统中所有数据的重要程度。

本实施例首先基于临时存储系统中各数据的重要程度，对临时存储系统中的所有数据进行重新排列，设定重要程度阈值，根据设定的重要程度阈值，按照数据的重要程度对数据进行分类，将临时存储系统中的数据划分为重要数据和非重要数据两类，得到重要数据构成的数据段和不重要数据构成的数据段。然后对不同重要程度的数据段进行不同程度的压缩，对于重要程度大的数据，其使用频率高，搜索与其关联的数据时用到该数据的概率大，故对于此类数据进行压缩时压缩程度应当较低；对于重要程度小的数据，其使用频率低，搜索与其关联的数据时用到该数据的概率小，故对于此类数据进行压缩时压缩程度应当较大；为了提高压缩程度，可以采用重压缩。在具体应用中，实施者可自行设定重要程度阈值的值。

步骤S3，根据重要数据在临时存储系统中的占比和待分布式存储的各数据段的数据总长，得到各数据段对应的分布式存储数据的初始长度；对临时存储系统中的各数据段进行聚类，根据各数据段对应的分布式存储数据的初始长度和各数据段对应的分布式存储数据的初始长度的中心点到聚类中心的距离，计算各数据段对应的自适应缩减时分布式存储数据的长度；根据各数据段对应的自适应缩减时分布式存储数据的长度，对各数据段进行存储。

对于重要的数据而言，其被使用的频率较高，用户经常对其进行搜索使用，因此对于此类数据，期望对其搜索时获取速度尽可能快，同时需要保证此类数据不丢失，传统的单服务器对数据进行读取时，需要从头读取，例如有0、1、2、3、4、5、6、7、8、9十个数，读取一个数需要1秒，那么获取10个数需要10秒，且当服务器崩溃时，系统即发生瘫痪，无法运行。采用分布式存储时，能够大大降低读取速度，节省用户的时间。

对于临时存储系统中的数据，数据的重要程度越高，重要数据的比例越高，则分类存储时每个服务器存储数据的长度越长，对于任一数据段：本实施例根据该数据段的比例，自适应分布式存储数据的初始长度，即：

其中，

为该数据段对应的分布式存储数据的初始长度，

为临时存储系统中待分布式存储的该数据段的数据总长，

为临时存储系统中重要数据的数量（根据阈值区分重要数据与非重要数据），

为临时存储系统中数据的总量，

为重要数据在临时存储系统中的占比。

至此采用上述方法得到各数据段对应的分布式存储数据的初始长度。

考虑到每一个服务器中存储的数据量是一样的，但由于不同数据段的重要程度不同，存在部分服务器中所存储的数据的整体重要程度低，为了减小服务器的存储量，本实施例对数据进行自适应缩减。首先采用均值漂移聚类算法对数据进行聚类，获取多个重要程度大的数据段；然后根据各数据段对应的分布式存储数据的初始长度和各数据段对应的分布式存储数据的初始长度对应的中心点到聚类中心的距离，计算各数据段对应的自适应缩减时的分布式存储数据的长度，即：

其中，

为该数据段对应的分布式存储数据的初始长度，

为重要数据的长度，

为聚类类数，

为该数据段对应的分布式存储数据的初始长度的中心点到第

个聚类中心的距离，

为以

为底的指数函数，

为超参数，本实施例设置

，在具体应用中，实施者可自行设置。均值漂移聚类算法为现有技术，此处不再赘述。

采用本实施例提供的方法能够得到各段数据对应的自适应缩减时的分布式存储数据的长度，基于各段数据对应的自适应缩减时的分布式存储数据的长度，对各段数据进行自适应缩减、存储。

本实施例首先获取了目标时间段内不同用户对临时存储系统中数据的访问信息；考虑到访问各数据的用户整体活跃度越高，说明对应数据的使用频率越高，故其重要程度也越高；各数据与其它数据的关联程度越高，也说明对应数据越重要；因此本实施例根据访问各数据的用户的活跃度和各用户访问各数据的次数，计算各数据对应的调节系数；根据各数据与其它数据的关联性，计算各数据与其它数据的关联程度；然后基于各数据对应的调节系数和各数据与其它数据的关联程度，得到各数据的重要程度；根据各数据的重要程度，对各数据进行分类，得到不同重要程度对应的数据段。本实施例采用分布式存储，自适应存储各数据段的长度，再基于各数据段的重要程度对各数据段进行缩减，进而对各数据段进行存储。本实施例提供的方法能够对不同重要程度的数据给予不同的存储数据长度，确保系统正常运行的同时减小存储空间，实现了数据的智能化分类整合，提高了效率。

需要说明的是：以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种物联网大数据分类存储方法，其特征在于，该方法包括以下步骤：

根据重要数据在临时存储系统中的占比和待分布式存储的各数据段的数据总长，得到各数据段对应的分布式存储数据的初始长度；对临时存储系统中的各数据段进行聚类，根据各数据段对应的分布式存储数据的初始长度和各数据段对应的分布式存储数据的初始长度的中心点到聚类中心的距离，计算各数据段对应的自适应缩减时分布式存储数据的长度；根据各数据段对应的自适应缩减时分布式存储数据的长度，对各数据段进行存储；

所述根据各用户在目标时间段内访问临时存储系统中数据的次数和各用户在目标时间段内访问临时存储系统中数据类型的总数，得到各用户的活跃度，包括：