CN114647386A

CN114647386A - 基于人工智能的大数据分布式存储方法

Info

Publication number: CN114647386A
Application number: CN202210351890.5A
Authority: CN
Inventors: 杨玉豪; 许文熙
Original assignee: Nanjing Dachang Intelligent Technology Co ltd
Current assignee: Shuifa Technology Information Shandong Co ltd
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-06-21
Anticipated expiration: 2042-04-02
Also published as: CN114647386B

Abstract

本发明涉及人工智能领域，具体涉及一种基于人工智能的大数据分布式存储方法。包括：将数据拆分为多个数据单元，获取多个类别的数据单元；计算同一类别中两两数据单元的相关系数，获取每个类别的综合指标数据；将每个类别中的数据单元划分为多个窗口区域，计算每个窗口区域中的数据异常程度，获取该数据单元的异常数据片段；计算每个类别中各个数据单元的异常影响程度值；根据异常影响程度值计算其读取频率，根据读取频率对每个类别中的数据单元划分存储单元。根据本发明提出的技术手段，通过对数据进行分类处理并分析数据之间的相关性，同时考虑到异常数据对读取频率的影响，进而根据读取频率控制数据进行分布式存储，提高了数据的读取速度。

Description

基于人工智能的大数据分布式存储方法

技术领域

本发明涉及人工智能领域，具体涉及一种基于人工智能的大数据分布式存储方法。

背景技术

随着社会经济的发展、信息化水平的提高，产生的数据量越来越大，如何实现数据的合理化的存储，提高后续信息使用的便利性，成为数据存储的研究重点。分布式存储作为一种新型存储方式，该存储方式是通过将数据分散的存储在各个设备上，提高一种分布式缓存系统，减少网络压力，从而增加数据读取的效率，而设置分布式存储规则的好坏直接影响后续的数据读取效率，因而应该充分考虑数据的特性来设置一种分布式存储规则。

在设置分布式提取规则时，需要考虑数据的相关性，即将一些相关的数据进行连续存储，同时还需要考虑数据的提取频率，一些数据提取频率高的数据应该将其存储在查询优先级高的设备中，提高其读取的效率。在考虑数据相关性时，通过进行相关性分析，将相关性高的同类别数据连续存储，防止增加客户的提取难度。

在考虑数据的读取频率时，需分析客户对哪些数据更感兴趣，通常情况下人们一般对综合指标类的信息更关注，因为这类信息能够综合的反应系统的运行情况，例如设备数据中的异常亮灯信息数据。同时客户对造成系统运行异常的异常异常指标数据感兴趣，这类指标信息的异常会造成系统异常的概率较大，因而这两种信息被提取的频率一般相对较高，因而基于这两种数据特征对数据进行处理计算出数据的读取频率，将根据读取频率对数据进行存储，并设置各存储模块的查询优先级。

本发明通过对数据进行分析进而判断数据可能的读取频率，进而根据读取频率控制分布式存储规则。

发明内容

本发明提供一种基于人工智能的大数据分布式存储方法，以解决现有的问题，包括：将数据拆分为多个数据单元，获取多个类别的数据单元；计算同一类别中两两数据单元的相关系数，获取每个类别的综合指标数据；将每个类别中的数据单元划分为多个窗口区域，计算每个窗口区域中的数据异常程度，获取该数据单元的异常数据片段；计算每个类别中各个数据单元的异常影响程度值；根据异常影响程度值计算其读取频率，根据读取频率对每个类别中的数据单元划分存储单元。

根据本发明提出的技术手段，通过将数据进行分类处理，从而对每个类别中的数据单元进行相关性分析，将相关性高的数据进行存储，同时考虑到数据异常对读取频率的影响，进而计算每个数据单元的读取频率，从而根据读取频率设置存储规则，实现了数据的分布式存储，提高了数据的读取速度。

本发明采用如下技术方案：一种基于人工智能的大数据分布式存储方法，包括：

将待存储数据拆分为多个数据单元，计算两两数据单元的相关系数，根据每个数据单元的相关系数对所有数据单元进行分类。

计算同一类别中每个数据单元与同类别所有数据单元的相关系数均值，分别对各个类别中所有数据单元的相关系数均值进行密度聚类，将聚类结果中相关系数均值期望值最大的一类作为每个类别的综合指标数据。

将同类别中每个数据单元划分为多个窗口，计算每个窗口数据的异常程度，将异常程度大于预设阈值的窗口数据作为该数据单元的异常数据片段。

获取每个数据单元中异常数据片段的占比；对同一类别中两两数据单元的异常数据片段进行关联性分析，获取两两数据单元的关联置信度。

根据每个类别中各个数据单元的异常数据片段与综合指标数据对应片段的相关系数、该数据单元中异常数据片段的占比、以及两两数据单元的关联置信度计算每个类别中各个数据单元的异常影响程度值。

根据每个类别中各个数据单元的异常影响程度值计算其读取频率，根据读取频率分别对每个类别中的数据单元划分存储单元。

进一步的，一种基于人工智能的大数据分布式存储方法，对所有数据单元进行分类的方法为：

对两两数据单元进行相关性计算得到两两数据单元的相关系数，以每个数据为节点，以相关系数为对应两个数据的边权值，建立所有数据单元的相关性图谱，对所述相关性图谱进行谱聚类，得到多个类别，每个类别中包含多个数据单元。

进一步的，一种基于人工智能的大数据分布式存储方法，计算每个窗口区域中的数据异常程度的方法为：

将该窗口数据遮挡，利用其他数据拟合整个数据单元的规律，根据规律拟合遮挡的窗口数据值，根据拟合数据与实际数据的偏差值计算该窗口数据的异常程度值，表达式为：

其中，P_i,j表示第i个数据单元第j个窗口数据的偏差值，

表示第i个数据单元所有窗口数据的平均拟合偏差值，Y_i,j表示第i个数据单元第j个窗口数据的异常程度值。

进一步的，一种基于人工智能的大数据分布式存储方法，所述每个类别中各个数据单元的异常数据片段与综合指标数据对应片段的相关系数为：

获取该数据单元同类别中的每个综合指标数据与该数据单元的异常数据片段对应区域的数据段，计算该数据单元的异常数据片段与同类别中每个综合指标数据对应数据段之间的相关系数。

进一步的，一种基于人工智能的大数据分布式存储方法，计算每个类别中各个数据单元的异常影响程度值的方法为：

对每个类别中两两数据单元的异常数据片段进行关联性分析，得到两两数据单元的的关联置信度；

获取每个数据单元中异常数据片段的个数占比作为该数据单元的异常发生概率；

计算每个数据单元的异常程度值的表达式为：

其中，C_i表示第i个数据单元的异常程度值，X_i,z表示第i个数据单元中的异常数据片段与第z个综合指标数据对应片段的相关系数，G_i表示第i个数据单元的异常发生概率，Z_i,y表示第i个数据单元与同类别中第y个数据单元之间的关联置信度，X_y,z表示同类别中与第i个数据单元不同的第y个数据单元的异常数据片段与第z个综合指标数据对应片段的相关性系数,N表示第i个数据单元所在的类别中共有N个综合指标数据，M表示该类别中共有M个数据单元。

进一步的，一种基于人工智能的大数据分布式存储方法，计算读取频率的表达式为：

L_i＝γ*C_i

其中，C_i表示第i个数据单元的异常影响程度，γ表示调整系数，L_i表示第i个数据单元的读取频率。

进一步的，一种基于人工智能的大数据分布式存储方法，根据读取频率对每个类别中的数据单元划分存储单元的方法为：

根据每个类别中数据单元的数量确定存储设备的个数α，将每个类别中的所有综合指标数据存储在一个设备中；

将每个类别中的其他数据单元按照读取频率从大到小依次排序，将读取频率值排在前

的数据存储在一个设备中；其中，Q表示该类别中所有数据单元的数据量；

将读取频率值排在

之间的数据单元存储在一个设备中，依次根据读取频率的降低对每个类别中的数据单元分配存储设备；

每个类别中综合指标数据的查询优先级最高，每个数据单元的查询优先级根据读取频率的递减依次降低。

本发明的有益效果是：根据本发明提出的技术手段，通过将数据进行分类处理，从而对每个类别中的数据单元进行相关性分析，将相关性高的数据进行存储，同时考虑到数据异常对读取频率的影响，进而计算每个数据单元的读取频率，从而根据读取频率设置存储规则，实现数据的分布式存储，同时设定不同读取频率数据的查询优先级，提高了数据的读取速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种基于人工智能的大数据分布式存储方法结构示意图；

图2为图1中计算各个数据单元的异常影响程度值的方法结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，给出了本发明实施例的一种基于人工智能的大数据分布式存储方法结构示意图，包括：

101.将数据拆分为多个数据单元，计算两两数据单元的相关系数，根据每个数据单元的相关系数获取多个类别的数据单元。

本发明所针对的情景为：将待存储的数据输入进该系统中，系统通过分析数据之间的关系，以及数据可能的读取频率，自动控制存储方式，完成数据存储，提高数据读取的效率。

本发明需根据数据之间的关系和数据的可能频率进行数据划分，实现分布式存储，因而需对数据预处理，将数据划分成一些独立的数据单元，具体如下：

由于独立的数据之间有数据分界线，根据数据边界对数据进行拆分，得到若干个独立的分割单元。

本发明中，每个独立的数据单元都是具有时序排列的数据，即每个数据单元中的数据按照时序获得，因此，在对单个数据单元进行分析时，每个数据单元中的每个数据片段都对应有一个时序。

正常情况下相关的数据存储在一起能够更方便数据查阅，因而需对数据进行相关性分析，将相关性较高的数据存储在一个连通设备系统中。

获取多个类别的数据单元的方法为：

对两两数据单元进行相关性计算得到两两数据单元的相关系数，以每个数据为节点，以相关系数为对应两个数据的边权值，建立所有数据单元的相关性图谱，对所述相关性图谱进行谱聚类，得到多个类别的数据单元。

102.计算同一类别中两两数据单元的相关系数，获取该类别中每个数据单元与同类别所有数据单元的相关系数均值，分别对各个类别中所有数据单元的相关系数均值进行密度聚类，获取每个类别的综合指标数据。

由于每类数据中各数据的读取频率不同，其中综合指标性数据相较于其他数据更能综合性的反应系统信息，因而人们只需花费较少的时间就能宏观的把握整个系统运行情况，因而这种数据相较于其他数据的读取频率更高，需通过相关性分析获取综合指标数据。

基于同类数据进行分析，计算同一类数据单元中两两数据单元的相关性系数。

以一个数据单元为基础，将该数据单元与同类别其他数据单元的相关系数求均值，通过该方式得到各数据与本类别内其他的综合相关性值。

对相关系数均值进行密度聚类，获取相关系数均值期望值最大的数据为该类别的综合指标数据。

103.将每个类别中的数据单元划分为多个窗口区域，计算每个窗口数据的异常程度，将异常程度大于预设阈值的窗口作为该数据单元的异常数据片段。

对每个独立的数据单元进行分析，判断各数据的时序异常率，通过高斯平滑对数据进行平滑性处理去除数据的小型波动，得到平滑的数据。

本发明中，每个数据单元都是具有完整时序的数据，根据所有时序作为该数据单元的长度，以每个数据单元的长度作为窗口尺寸n，利用1*n的窗口将数据划分成若干个窗口区域,为了说明单个窗口内数据是否存在趋势异常，因而将该窗口内的数据遮挡，利用其他的数据拟合出整个数据的规律，进而利用数据规律来拟合出窗口内各数据值，通过判断拟合数据与实际数据的偏差作为该窗口内数据的异常偏差。

计算每个窗口区域中的数据异常程度的方法为：

将该窗口内的数据遮挡，利用其他的数据拟合出整个数据的规律，利用数据规律拟合窗口内各数据值，根据拟合数据与实际数据的偏差值计算该窗口内数据的异常程度值，表达式为：

其中，P_i,j表示第i个数据单元第j个窗口内数据片段的偏差值，

表示第i个数据单元窗口的平均拟合偏差值，Y_i,j表示第i个数据单元第j个窗口的异常程度值。

将异常程度大于δ的窗口筛选出来，筛选出的数据为异常数据片段，本发明中δ的取值为1.5。

104.根据每个类别中各个数据单元的异常数据片段与综合指标数据对应片段的相关系数、该数据单元中异常数据片段的占比、以及该数据单元中两两异常数据片段的关联置信度计算每个类别中各个数据单元的异常影响程度值。

为了说明各数据发生异常时对综合指标的影响，此处通过分析各数据的异常片段与综合指标数据的异常相关性。

在综合指标数据中获取与异常数据相同部分的数据段，计算异常数据段与各综合指标数据段之间的相关性得到相关性系数。

其中，综合指标数据与异常数据相同部分的片段为数据单元中对应时序下的数据片段，通过获取综合指标数据中雨异常数据相同部分片段对应的所有时序，得到每个综合指标数据对应的片段，计算对应片段的相关性。

通过该方式得到各数据异常数据段与综合指标数据的异常相关性。

由于不同指标数据之间不完全独立，即一个指标数据的可能会造成其他数据出现异常，因而需进一步分析各数据异常时的关联性。

1041.获取该数据单元对应的类别中，综合指标数据与该数据单元的异常数据片段对应区域的数据段，计算该数据单元的异常数据片段与该类别中各个综合指标数据对应数据段之间的相关系数。

1042.利用Apriori算法对每个类别中两两数据单元的异常数据片段进行关联性分析，

得到两两数据单元的的关联置信度；

1043.获取该数据单元中异常数据片段的个数占比作为该数据单元的异常发生概率；

1044.计算该数据单元的异常程度值的表达式为：

其中，X_i,z表示第i个数据单元中的异常数据片段与第z个综合指标数据对应片段的相关系数，该数据异常片段与综合指标数据的相关性越大，说明该数据产生异常时对综合指标数据的影响越大，G_i表示第i个数据单元的异常发生概率，该数据异常片段与综合指标数据的相关性越大，说明该数据产生异常时对综合指标数据的影响越大，通过异常概率来反应该数据发生异常的频繁情况，该数据频繁发生异常，同时还影响综合指标，说明该数据的异常影响程度较大，X_y,z表示同类别中与第i个数据单元不同的第y个数据单元的异常数据片段与第z个综合指标数据对应片段的相关性系数，N表示第i个数据单元所在的类别中共有N个综合指标数据，M表示该类别中共有M个数据单元，Z_i,y表示第i个数据单元与同类别中第y个数据单元之间的关联置信度，通过该值来说明该数据产生异常时会不会影响其他指标数据也出现异常，该数据产生异常会造成很多数据也出现异常，这是该数据的异常影响会扩展至多个数据的影响，因而需综合的分析该数据的综合影响，具体通过该式

反应，通过该式来说明第i个数据发生异常造成连锁反应引发异常影响的综合情况。

105.根据每个类别中各个数据单元的异常影响程度值计算其读取频率，根据读取频率对每个类别中的数据单元划分存储单元。

计算读取频率的表达式为：

L_i＝γ*C_i

根据读取频率对每个类别中的数据单元划分存储单元的方法为：

根据每个类别中数据单元的数量确定存储设备的个数α，其中α可根据该类的数据量确定，通常为数据量乘以调整系数ε，本发明中ε为10^-8。

由于人们更关注这种综合指标数据，因而这种数据的读取频率相对较高，因而将单个类别内综合指标数据存储在一起，这类数据的查询优先级最高。将每个类别中的所有综合指标数据存储在一个设备中，每个类别中综合指标数据的查询优先级最高，每个数据单元的查询优先级根据读取频率的递减依次降低；

将其他数据单元按照读取频率从大到小依次排序，将读取频率值排在前

将读取频率值排在

之间的数据单元存储在一个设备中，依次根据读取频率的降低对每个类别中的数据单元分配存储设备。

根据本发明提出的技术手段，通过将数据进行分类处理，从而对每个类别中的数据单元进行相关性分析，将相关性高的数据进行存储，同时考虑到数据异常对读取频率的影响，进而计算每个数据单元的读取频率，从而根据读取频率设置存储规则，实现数据的分布式存储，同时设定不同读取频率数据的查询优先级，提高了数据的读取速度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。