CN114647386A - 基于人工智能的大数据分布式存储方法 - Google Patents

基于人工智能的大数据分布式存储方法 Download PDF

Info

Publication number
CN114647386A
CN114647386A CN202210351890.5A CN202210351890A CN114647386A CN 114647386 A CN114647386 A CN 114647386A CN 202210351890 A CN202210351890 A CN 202210351890A CN 114647386 A CN114647386 A CN 114647386A
Authority
CN
China
Prior art keywords
data
category
abnormal
units
data unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210351890.5A
Other languages
English (en)
Other versions
CN114647386B (zh
Inventor
杨玉豪
许文熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuifa Technology Information Shandong Co ltd
Original Assignee
Nanjing Dachang Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Dachang Intelligent Technology Co ltd filed Critical Nanjing Dachang Intelligent Technology Co ltd
Priority to CN202210351890.5A priority Critical patent/CN114647386B/zh
Publication of CN114647386A publication Critical patent/CN114647386A/zh
Application granted granted Critical
Publication of CN114647386B publication Critical patent/CN114647386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能领域,具体涉及一种基于人工智能的大数据分布式存储方法。包括:将数据拆分为多个数据单元,获取多个类别的数据单元;计算同一类别中两两数据单元的相关系数,获取每个类别的综合指标数据;将每个类别中的数据单元划分为多个窗口区域,计算每个窗口区域中的数据异常程度,获取该数据单元的异常数据片段;计算每个类别中各个数据单元的异常影响程度值;根据异常影响程度值计算其读取频率,根据读取频率对每个类别中的数据单元划分存储单元。根据本发明提出的技术手段,通过对数据进行分类处理并分析数据之间的相关性,同时考虑到异常数据对读取频率的影响,进而根据读取频率控制数据进行分布式存储,提高了数据的读取速度。

Description

基于人工智能的大数据分布式存储方法
技术领域
本发明涉及人工智能领域,具体涉及一种基于人工智能的大数据分布式存储方法。
背景技术
随着社会经济的发展、信息化水平的提高,产生的数据量越来越大,如何实现数据的合理化的存储,提高后续信息使用的便利性,成为数据存储的研究重点。分布式存储作为一种新型存储方式,该存储方式是通过将数据分散的存储在各个设备上,提高一种分布式缓存系统,减少网络压力,从而增加数据读取的效率,而设置分布式存储规则的好坏直接影响后续的数据读取效率,因而应该充分考虑数据的特性来设置一种分布式存储规则。
在设置分布式提取规则时,需要考虑数据的相关性,即将一些相关的数据进行连续存储,同时还需要考虑数据的提取频率,一些数据提取频率高的数据应该将其存储在查询优先级高的设备中,提高其读取的效率。在考虑数据相关性时,通过进行相关性分析,将相关性高的同类别数据连续存储,防止增加客户的提取难度。
在考虑数据的读取频率时,需分析客户对哪些数据更感兴趣,通常情况下人们一般对综合指标类的信息更关注,因为这类信息能够综合的反应系统的运行情况,例如设备数据中的异常亮灯信息数据。同时客户对造成系统运行异常的异常异常指标数据感兴趣,这类指标信息的异常会造成系统异常的概率较大,因而这两种信息被提取的频率一般相对较高,因而基于这两种数据特征对数据进行处理计算出数据的读取频率,将根据读取频率对数据进行存储,并设置各存储模块的查询优先级。
本发明通过对数据进行分析进而判断数据可能的读取频率,进而根据读取频率控制分布式存储规则。
发明内容
本发明提供一种基于人工智能的大数据分布式存储方法,以解决现有的问题,包括:将数据拆分为多个数据单元,获取多个类别的数据单元;计算同一类别中两两数据单元的相关系数,获取每个类别的综合指标数据;将每个类别中的数据单元划分为多个窗口区域,计算每个窗口区域中的数据异常程度,获取该数据单元的异常数据片段;计算每个类别中各个数据单元的异常影响程度值;根据异常影响程度值计算其读取频率,根据读取频率对每个类别中的数据单元划分存储单元。
根据本发明提出的技术手段,通过将数据进行分类处理,从而对每个类别中的数据单元进行相关性分析,将相关性高的数据进行存储,同时考虑到数据异常对读取频率的影响,进而计算每个数据单元的读取频率,从而根据读取频率设置存储规则,实现了数据的分布式存储,提高了数据的读取速度。
本发明采用如下技术方案:一种基于人工智能的大数据分布式存储方法,包括:
将待存储数据拆分为多个数据单元,计算两两数据单元的相关系数,根据每个数据单元的相关系数对所有数据单元进行分类。
计算同一类别中每个数据单元与同类别所有数据单元的相关系数均值,分别对各个类别中所有数据单元的相关系数均值进行密度聚类,将聚类结果中相关系数均值期望值最大的一类作为每个类别的综合指标数据。
将同类别中每个数据单元划分为多个窗口,计算每个窗口数据的异常程度,将异常程度大于预设阈值的窗口数据作为该数据单元的异常数据片段。
获取每个数据单元中异常数据片段的占比;对同一类别中两两数据单元的异常数据片段进行关联性分析,获取两两数据单元的关联置信度。
根据每个类别中各个数据单元的异常数据片段与综合指标数据对应片段的相关系数、该数据单元中异常数据片段的占比、以及两两数据单元的关联置信度计算每个类别中各个数据单元的异常影响程度值。
根据每个类别中各个数据单元的异常影响程度值计算其读取频率,根据读取频率分别对每个类别中的数据单元划分存储单元。
进一步的,一种基于人工智能的大数据分布式存储方法,对所有数据单元进行分类的方法为:
对两两数据单元进行相关性计算得到两两数据单元的相关系数,以每个数据为节点,以相关系数为对应两个数据的边权值,建立所有数据单元的相关性图谱,对所述相关性图谱进行谱聚类,得到多个类别,每个类别中包含多个数据单元。
进一步的,一种基于人工智能的大数据分布式存储方法,计算每个窗口区域中的数据异常程度的方法为:
将该窗口数据遮挡,利用其他数据拟合整个数据单元的规律,根据规律拟合遮挡的窗口数据值,根据拟合数据与实际数据的偏差值计算该窗口数据的异常程度值,表达式为:
Figure BDA0003580912060000031
其中,Pi,j表示第i个数据单元第j个窗口数据的偏差值,
Figure BDA0003580912060000032
表示第i个数据单元所有窗口数据的平均拟合偏差值,Yi,j表示第i个数据单元第j个窗口数据的异常程度值。
进一步的,一种基于人工智能的大数据分布式存储方法,所述每个类别中各个数据单元的异常数据片段与综合指标数据对应片段的相关系数为:
获取该数据单元同类别中的每个综合指标数据与该数据单元的异常数据片段对应区域的数据段,计算该数据单元的异常数据片段与同类别中每个综合指标数据对应数据段之间的相关系数。
进一步的,一种基于人工智能的大数据分布式存储方法,计算每个类别中各个数据单元的异常影响程度值的方法为:
对每个类别中两两数据单元的异常数据片段进行关联性分析,得到两两数据单元的的关联置信度;
获取每个数据单元中异常数据片段的个数占比作为该数据单元的异常发生概率;
计算每个数据单元的异常程度值的表达式为:
Figure BDA0003580912060000033
其中,Ci表示第i个数据单元的异常程度值,Xi,z表示第i个数据单元中的异常数据片段与第z个综合指标数据对应片段的相关系数,Gi表示第i个数据单元的异常发生概率,Zi,y表示第i个数据单元与同类别中第y个数据单元之间的关联置信度,Xy,z表示同类别中与第i个数据单元不同的第y个数据单元的异常数据片段与第z个综合指标数据对应片段的相关性系数,N表示第i个数据单元所在的类别中共有N个综合指标数据,M表示该类别中共有M个数据单元。
进一步的,一种基于人工智能的大数据分布式存储方法,计算读取频率的表达式为:
Li=γ*Ci
其中,Ci表示第i个数据单元的异常影响程度,γ表示调整系数,Li表示第i个数据单元的读取频率。
进一步的,一种基于人工智能的大数据分布式存储方法,根据读取频率对每个类别中的数据单元划分存储单元的方法为:
根据每个类别中数据单元的数量确定存储设备的个数α,将每个类别中的所有综合指标数据存储在一个设备中;
将每个类别中的其他数据单元按照读取频率从大到小依次排序,将读取频率值排在前
Figure BDA0003580912060000041
的数据存储在一个设备中;其中,Q表示该类别中所有数据单元的数据量;
将读取频率值排在
Figure BDA0003580912060000042
之间的数据单元存储在一个设备中,依次根据读取频率的降低对每个类别中的数据单元分配存储设备;
每个类别中综合指标数据的查询优先级最高,每个数据单元的查询优先级根据读取频率的递减依次降低。
本发明的有益效果是:根据本发明提出的技术手段,通过将数据进行分类处理,从而对每个类别中的数据单元进行相关性分析,将相关性高的数据进行存储,同时考虑到数据异常对读取频率的影响,进而计算每个数据单元的读取频率,从而根据读取频率设置存储规则,实现数据的分布式存储,同时设定不同读取频率数据的查询优先级,提高了数据的读取速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种基于人工智能的大数据分布式存储方法结构示意图;
图2为图1中计算各个数据单元的异常影响程度值的方法结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,给出了本发明实施例的一种基于人工智能的大数据分布式存储方法结构示意图,包括:
101.将数据拆分为多个数据单元,计算两两数据单元的相关系数,根据每个数据单元的相关系数获取多个类别的数据单元。
本发明所针对的情景为:将待存储的数据输入进该系统中,系统通过分析数据之间的关系,以及数据可能的读取频率,自动控制存储方式,完成数据存储,提高数据读取的效率。
本发明需根据数据之间的关系和数据的可能频率进行数据划分,实现分布式存储,因而需对数据预处理,将数据划分成一些独立的数据单元,具体如下:
由于独立的数据之间有数据分界线,根据数据边界对数据进行拆分,得到若干个独立的分割单元。
本发明中,每个独立的数据单元都是具有时序排列的数据,即每个数据单元中的数据按照时序获得,因此,在对单个数据单元进行分析时,每个数据单元中的每个数据片段都对应有一个时序。
正常情况下相关的数据存储在一起能够更方便数据查阅,因而需对数据进行相关性分析,将相关性较高的数据存储在一个连通设备系统中。
获取多个类别的数据单元的方法为:
对两两数据单元进行相关性计算得到两两数据单元的相关系数,以每个数据为节点,以相关系数为对应两个数据的边权值,建立所有数据单元的相关性图谱,对所述相关性图谱进行谱聚类,得到多个类别的数据单元。
102.计算同一类别中两两数据单元的相关系数,获取该类别中每个数据单元与同类别所有数据单元的相关系数均值,分别对各个类别中所有数据单元的相关系数均值进行密度聚类,获取每个类别的综合指标数据。
由于每类数据中各数据的读取频率不同,其中综合指标性数据相较于其他数据更能综合性的反应系统信息,因而人们只需花费较少的时间就能宏观的把握整个系统运行情况,因而这种数据相较于其他数据的读取频率更高,需通过相关性分析获取综合指标数据。
基于同类数据进行分析,计算同一类数据单元中两两数据单元的相关性系数。
以一个数据单元为基础,将该数据单元与同类别其他数据单元的相关系数求均值,通过该方式得到各数据与本类别内其他的综合相关性值。
对相关系数均值进行密度聚类,获取相关系数均值期望值最大的数据为该类别的综合指标数据。
103.将每个类别中的数据单元划分为多个窗口区域,计算每个窗口数据的异常程度,将异常程度大于预设阈值的窗口作为该数据单元的异常数据片段。
对每个独立的数据单元进行分析,判断各数据的时序异常率,通过高斯平滑对数据进行平滑性处理去除数据的小型波动,得到平滑的数据。
本发明中,每个数据单元都是具有完整时序的数据,根据所有时序作为该数据单元的长度,以每个数据单元的长度作为窗口尺寸n,利用1*n的窗口将数据划分成若干个窗口区域,为了说明单个窗口内数据是否存在趋势异常,因而将该窗口内的数据遮挡,利用其他的数据拟合出整个数据的规律,进而利用数据规律来拟合出窗口内各数据值,通过判断拟合数据与实际数据的偏差作为该窗口内数据的异常偏差。
计算每个窗口区域中的数据异常程度的方法为:
将该窗口内的数据遮挡,利用其他的数据拟合出整个数据的规律,利用数据规律拟合窗口内各数据值,根据拟合数据与实际数据的偏差值计算该窗口内数据的异常程度值,表达式为:
Figure BDA0003580912060000061
其中,Pi,j表示第i个数据单元第j个窗口内数据片段的偏差值,
Figure BDA0003580912060000062
表示第i个数据单元窗口的平均拟合偏差值,Yi,j表示第i个数据单元第j个窗口的异常程度值。
将异常程度大于δ的窗口筛选出来,筛选出的数据为异常数据片段,本发明中δ的取值为1.5。
104.根据每个类别中各个数据单元的异常数据片段与综合指标数据对应片段的相关系数、该数据单元中异常数据片段的占比、以及该数据单元中两两异常数据片段的关联置信度计算每个类别中各个数据单元的异常影响程度值。
为了说明各数据发生异常时对综合指标的影响,此处通过分析各数据的异常片段与综合指标数据的异常相关性。
在综合指标数据中获取与异常数据相同部分的数据段,计算异常数据段与各综合指标数据段之间的相关性得到相关性系数。
其中,综合指标数据与异常数据相同部分的片段为数据单元中对应时序下的数据片段,通过获取综合指标数据中雨异常数据相同部分片段对应的所有时序,得到每个综合指标数据对应的片段,计算对应片段的相关性。
通过该方式得到各数据异常数据段与综合指标数据的异常相关性。
由于不同指标数据之间不完全独立,即一个指标数据的可能会造成其他数据出现异常,因而需进一步分析各数据异常时的关联性。
1041.获取该数据单元对应的类别中,综合指标数据与该数据单元的异常数据片段对应区域的数据段,计算该数据单元的异常数据片段与该类别中各个综合指标数据对应数据段之间的相关系数。
1042.利用Apriori算法对每个类别中两两数据单元的异常数据片段进行关联性分析,
得到两两数据单元的的关联置信度;
1043.获取该数据单元中异常数据片段的个数占比作为该数据单元的异常发生概率;
1044.计算该数据单元的异常程度值的表达式为:
Figure BDA0003580912060000071
其中,Xi,z表示第i个数据单元中的异常数据片段与第z个综合指标数据对应片段的相关系数,该数据异常片段与综合指标数据的相关性越大,说明该数据产生异常时对综合指标数据的影响越大,Gi表示第i个数据单元的异常发生概率,该数据异常片段与综合指标数据的相关性越大,说明该数据产生异常时对综合指标数据的影响越大,通过异常概率来反应该数据发生异常的频繁情况,该数据频繁发生异常,同时还影响综合指标,说明该数据的异常影响程度较大,Xy,z表示同类别中与第i个数据单元不同的第y个数据单元的异常数据片段与第z个综合指标数据对应片段的相关性系数,N表示第i个数据单元所在的类别中共有N个综合指标数据,M表示该类别中共有M个数据单元,Zi,y表示第i个数据单元与同类别中第y个数据单元之间的关联置信度,通过该值来说明该数据产生异常时会不会影响其他指标数据也出现异常,该数据产生异常会造成很多数据也出现异常,这是该数据的异常影响会扩展至多个数据的影响,因而需综合的分析该数据的综合影响,具体通过该式
Figure BDA0003580912060000081
反应,通过该式来说明第i个数据发生异常造成连锁反应引发异常影响的综合情况。
105.根据每个类别中各个数据单元的异常影响程度值计算其读取频率,根据读取频率对每个类别中的数据单元划分存储单元。
计算读取频率的表达式为:
Li=γ*Ci
其中,Ci表示第i个数据单元的异常影响程度,γ表示调整系数,Li表示第i个数据单元的读取频率。
根据读取频率对每个类别中的数据单元划分存储单元的方法为:
根据每个类别中数据单元的数量确定存储设备的个数α,其中α可根据该类的数据量确定,通常为数据量乘以调整系数ε,本发明中ε为10-8
由于人们更关注这种综合指标数据,因而这种数据的读取频率相对较高,因而将单个类别内综合指标数据存储在一起,这类数据的查询优先级最高。将每个类别中的所有综合指标数据存储在一个设备中,每个类别中综合指标数据的查询优先级最高,每个数据单元的查询优先级根据读取频率的递减依次降低;
将其他数据单元按照读取频率从大到小依次排序,将读取频率值排在前
Figure BDA0003580912060000082
的数据存储在一个设备中;其中,Q表示该类别中所有数据单元的数据量;
将读取频率值排在
Figure BDA0003580912060000083
之间的数据单元存储在一个设备中,依次根据读取频率的降低对每个类别中的数据单元分配存储设备。
根据本发明提出的技术手段,通过将数据进行分类处理,从而对每个类别中的数据单元进行相关性分析,将相关性高的数据进行存储,同时考虑到数据异常对读取频率的影响,进而计算每个数据单元的读取频率,从而根据读取频率设置存储规则,实现数据的分布式存储,同时设定不同读取频率数据的查询优先级,提高了数据的读取速度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于人工智能的大数据分布式存储方法,其特征在于,包括:
将待存储数据拆分为多个数据单元,计算两两数据单元的相关系数,根据每个数据单元的相关系数对所有数据单元进行分类;
计算同一类别中每个数据单元与同类别所有数据单元的相关系数均值,分别对各个类别中所有数据单元的相关系数均值进行密度聚类,将聚类结果中相关系数均值期望值最大的一类作为每个类别的综合指标数据;
将同类别中每个数据单元划分为多个窗口,计算每个窗口数据的异常程度,将异常程度大于预设阈值的窗口数据作为该数据单元的异常数据片段;
获取每个数据单元中异常数据片段的占比;对同一类别中两两数据单元的异常数据片段进行关联性分析,获取两两数据单元的关联置信度;
根据每个类别中各个数据单元的异常数据片段与综合指标数据对应片段的相关系数、该数据单元中异常数据片段的占比、以及两两数据单元的关联置信度计算每个类别中各个数据单元的异常影响程度值;
根据每个类别中各个数据单元的异常影响程度值计算其读取频率,根据读取频率分别对每个类别中的数据单元划分存储单元。
2.根据权利要求1所述的一种基于人工智能的大数据分布式存储方法,其特征在于,对所有数据单元进行分类的方法为:
对两两数据单元进行相关性计算得到两两数据单元的相关系数,以每个数据为节点,以相关系数为对应两个数据的边权值,建立所有数据单元的相关性图谱,对所述相关性图谱进行谱聚类,得到多个类别,每个类别中包含多个数据单元。
3.根据权利要求1所述的一种基于人工智能的大数据分布式存储方法,其特征在于,计算每个窗口区域中的数据异常程度的方法为:
将该窗口数据遮挡,利用其他数据拟合整个数据单元的规律,根据规律拟合遮挡的窗口数据值,根据拟合数据与实际数据的偏差值计算该窗口数据的异常程度值,表达式为:
Figure FDA0003580912050000011
其中,Pi,j表示第i个数据单元第j个窗口数据的偏差值,
Figure FDA0003580912050000021
表示第i个数据单元所有窗口数据的平均拟合偏差值,Yi,j表示第i个数据单元第j个窗口数据的异常程度值。
4.根据权利要求1所述的一种基于人工智能的大数据分布式存储方法,其特征在于,所述每个类别中各个数据单元的异常数据片段与综合指标数据对应片段的相关系数为:
获取该数据单元同类别中的每个综合指标数据与该数据单元的异常数据片段对应区域的数据段,计算该数据单元的异常数据片段与同类别中每个综合指标数据对应数据段之间的相关系数。
5.根据权利要求1所述的一种基于人工智能的大数据分布式存储方法,其特征在于,计算每个类别中各个数据单元的异常影响程度值的方法为:
对每个类别中两两数据单元的异常数据片段进行关联性分析,得到两两数据单元的的关联置信度;
获取每个数据单元中异常数据片段的个数占比作为该数据单元的异常发生概率;
计算每个数据单元的异常程度值的表达式为:
Figure FDA0003580912050000022
其中,Ci表示第i个数据单元的异常程度值,Xi,z表示第i个数据单元中的异常数据片段与第z个综合指标数据对应片段的相关系数,Gi表示第i个数据单元的异常发生概率,Zi,y表示第i个数据单元与同类别中第y个数据单元之间的关联置信度,Xy,z表示同类别中与第i个数据单元不同的第y个数据单元的异常数据片段与第z个综合指标数据对应片段的相关性系数,N表示第i个数据单元所在的类别中共有N个综合指标数据,M表示该类别中共有M个数据单元。
6.根据权利要求5所述的一种基于人工智能的大数据分布式存储方法,其特征在于,计算读取频率的表达式为:
Li=γ*Ci
其中,Ci表示第i个数据单元的异常影响程度,γ表示调整系数,Li表示第i个数据单元的读取频率。
7.根据权利要求6所述的一种基于人工智能的大数据分布式存储方法,其特征在于,根据读取频率对每个类别中的数据单元划分存储单元的方法为:
根据每个类别中数据单元的数量确定存储设备的个数α,将每个类别中的所有综合指标数据存储在一个设备中;
将每个类别中的其他数据单元按照读取频率从大到小依次排序,将读取频率值排在前
Figure FDA0003580912050000031
的数据存储在一个设备中;其中,Q表示该类别中所有数据单元的数据量;
将读取频率值排在
Figure FDA0003580912050000032
之间的数据单元存储在一个设备中,依次根据读取频率的降低对每个类别中的数据单元分配存储设备;
每个类别中综合指标数据的查询优先级最高,每个数据单元的查询优先级根据读取频率的递减依次降低。
CN202210351890.5A 2022-04-02 2022-04-02 基于人工智能的大数据分布式存储方法 Active CN114647386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210351890.5A CN114647386B (zh) 2022-04-02 2022-04-02 基于人工智能的大数据分布式存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210351890.5A CN114647386B (zh) 2022-04-02 2022-04-02 基于人工智能的大数据分布式存储方法

Publications (2)

Publication Number Publication Date
CN114647386A true CN114647386A (zh) 2022-06-21
CN114647386B CN114647386B (zh) 2023-12-26

Family

ID=81997188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210351890.5A Active CN114647386B (zh) 2022-04-02 2022-04-02 基于人工智能的大数据分布式存储方法

Country Status (1)

Country Link
CN (1) CN114647386B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140223086A1 (en) * 2013-02-06 2014-08-07 Curiositate, Inc. Rapid reading from memory devices
GB201415248D0 (en) * 2014-08-28 2014-10-15 Ibm Storage system
US20150106578A1 (en) * 2013-10-15 2015-04-16 Coho Data Inc. Systems, methods and devices for implementing data management in a distributed data storage system
US20150378856A1 (en) * 2013-02-26 2015-12-31 Nec Corporation Storage system, storage device, control method and control program of storage device, management device, and control method and storage medium
CN106528608A (zh) * 2016-09-27 2017-03-22 中国电力科学研究院 一种云架构下的电网gis数据冷热存储方法和系统
CN107329700A (zh) * 2017-06-29 2017-11-07 郑州云海信息技术有限公司 一种分布式集群数据存储方法及系统
CN109840053A (zh) * 2019-02-13 2019-06-04 安徽大尺度网络传媒有限公司 一种基于存储系统的在线数据存储优化方法
US10523756B1 (en) * 2017-03-01 2019-12-31 Amazon Technologies, Inc. Network service for identifying infrequently accessed data in a data stream
CN110703997A (zh) * 2019-09-29 2020-01-17 北京浪潮数据技术有限公司 云存储系统及数据存储方法、装置、设备、计算机介质
CN111581209A (zh) * 2020-04-27 2020-08-25 佛山科学技术学院 一种计算机大数据存储系统、方法及存储介质
CN113822570A (zh) * 2021-09-20 2021-12-21 河南惠誉网络科技有限公司 一种基于大数据分析的企业生产数据存储方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140223086A1 (en) * 2013-02-06 2014-08-07 Curiositate, Inc. Rapid reading from memory devices
US20150378856A1 (en) * 2013-02-26 2015-12-31 Nec Corporation Storage system, storage device, control method and control program of storage device, management device, and control method and storage medium
US20150106578A1 (en) * 2013-10-15 2015-04-16 Coho Data Inc. Systems, methods and devices for implementing data management in a distributed data storage system
GB201415248D0 (en) * 2014-08-28 2014-10-15 Ibm Storage system
CN106528608A (zh) * 2016-09-27 2017-03-22 中国电力科学研究院 一种云架构下的电网gis数据冷热存储方法和系统
US10523756B1 (en) * 2017-03-01 2019-12-31 Amazon Technologies, Inc. Network service for identifying infrequently accessed data in a data stream
CN107329700A (zh) * 2017-06-29 2017-11-07 郑州云海信息技术有限公司 一种分布式集群数据存储方法及系统
CN109840053A (zh) * 2019-02-13 2019-06-04 安徽大尺度网络传媒有限公司 一种基于存储系统的在线数据存储优化方法
CN110703997A (zh) * 2019-09-29 2020-01-17 北京浪潮数据技术有限公司 云存储系统及数据存储方法、装置、设备、计算机介质
CN111581209A (zh) * 2020-04-27 2020-08-25 佛山科学技术学院 一种计算机大数据存储系统、方法及存储介质
CN113822570A (zh) * 2021-09-20 2021-12-21 河南惠誉网络科技有限公司 一种基于大数据分析的企业生产数据存储方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨文晖;袁进俊;苗放;: "面向海量空间数据的分级存储模型研究", 物探化探计算技术, no. 06 *

Also Published As

Publication number Publication date
CN114647386B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN109816221B (zh) 项目风险决策方法、装置、计算机设备和存储介质
CN115577275A (zh) 一种基于lof和孤立森林的时序数据异常监测系统及方法
CN110717535B (zh) 一种基于数据分析处理系统的自动建模方法及系统
US20190087737A1 (en) Anomaly detection and automated analysis in systems based on fully masked weighted directed
CN111314353B (zh) 一种基于混合采样的网络入侵检测方法及系统
CN111914090B (zh) 一种企业行业分类识别及其特征污染物识别的方法及装置
US11481707B2 (en) Risk prediction system and operation method thereof
US10394631B2 (en) Anomaly detection and automated analysis using weighted directed graphs
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN111626821A (zh) 基于集成特征选择实现客户分类的产品推荐方法及系统
CN115577152B (zh) 基于数据分析的在线图书借阅管理系统
CN113871009A (zh) 一种重症监护病房中脓毒症预测系统、存储介质及设备
CN115033591A (zh) 一种电费数据异常智能检测方法、系统、存储介质及计算机设备
CN114756420A (zh) 故障预测方法及相关装置
CN111984514A (zh) 基于Prophet-bLSTM-DTW的日志异常检测方法
CN116451081A (zh) 数据漂移的检测方法、装置、终端及存储介质
CN111352820A (zh) 一种高性能应用运行状态预测和监控方法、设备和装置
CN114647386A (zh) 基于人工智能的大数据分布式存储方法
CN115509784A (zh) 数据库实例的故障检测方法和装置
CN111654853B (zh) 一种基于用户信息的数据分析方法
CN111221704B (zh) 一种确定办公管理应用系统运行状态的方法及系统
CN114518988A (zh) 资源容量系统及其控制方法和计算机可读存储介质
CN113535527A (zh) 一种面向实时流数据预测性分析的降载方法及系统
US20120254176A1 (en) System and method for streak discovery and prediction
CN115511106B (zh) 基于时序数据生成训练数据的方法、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231204

Address after: Room C505-3, Building 6, Qilu Software Park, No.1 Shunhua Road, Jinan Area, China (Shandong) Pilot Free Trade Zone, Jinan City, Shandong Province, 250000

Applicant after: Shuifa Technology Information (Shandong) Co.,Ltd.

Address before: Room 1006, building B, Xingzhi Science Park, No. 6, Xingzhi Road, Nanjing Economic and Technological Development Zone, Nantong City, Jiangsu Province, 210046

Applicant before: Nanjing Dachang Intelligent Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant