CN112363992A - 一种基于人工智能的大数据访问方法及系统 - Google Patents

一种基于人工智能的大数据访问方法及系统 Download PDF

Info

Publication number
CN112363992A
CN112363992A CN202011276214.3A CN202011276214A CN112363992A CN 112363992 A CN112363992 A CN 112363992A CN 202011276214 A CN202011276214 A CN 202011276214A CN 112363992 A CN112363992 A CN 112363992A
Authority
CN
China
Prior art keywords
data
frequency component
cloud server
snapshots
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011276214.3A
Other languages
English (en)
Inventor
樊馨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011276214.3A priority Critical patent/CN112363992A/zh
Publication of CN112363992A publication Critical patent/CN112363992A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于人工智能的大数据访问方法,包括:云服务器获取海量多源异构数据,并将海量多源异构数据进行分层存储;将分层存储的海量多源异构数据进行分层快照,生成海量多源异构数据的多个快照;获取前N个时刻的读数据压力值以及前N时刻的存储容量饱和度值,计算历史数据读取强度;获取历史数据读取强度低频分量及高频分量;对低频分量进行预测,预测出第N+1时刻的第一数据读取强度;对高频分量进行预测,预测出第N+1时刻的第二数据读取强度;计算出第N+1时刻的数据读取综合强度,并基于数据读取综合强度计算所需要增加的快照数目X;依次生成X个快照数目,通过X个快照创建出X*Y个克隆,基于X*Y个克隆响应读请求。

Description

一种基于人工智能的大数据访问方法及系统
技术领域
本申请涉及数据处理技术领域,尤其涉及基于人工智能的大数据访问方法及系统。
背景技术
云存储是在云计算(cloud computing)概念上延伸和衍生发展出来的一个新的概念。云计算是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。通过云计算技术,网络服务提供者可以在数秒之内,处理数以千万计甚至亿计的信息,达到和”超级计算机”同样强大的网络服务。
云存储的概念与云计算类似,它是指通过集群应用、网格技术或分布式文件系统等功能,网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统,保证数据的安全性,并节约存储空间。云存储是将储存资源放到云上供人存取的一种新兴方案。使用者可以在任何时间、任何地方,透过任何可连网的装置连接到云上方便地存取数据。
在云存储领域,通常采用三副本冗余机制进行分布式存储,快照(snapshot)也是三副本存储,但是,热点内容的数据访问比较频繁,单位时间内访问快照(读请求)的数量激增,会导致响应缓慢,甚至出现卡死或宕机的风险。
发明内容
本申请实施例提供一种基于人工智能的大数据访问方法及系统,用于解决现有技术中对于分布式云存储系统中热点访问内容响应缓慢的问题。
本发明实施例提供一种基于人工智能的大数据访问方法,包括:
云服务器获取海量多源异构数据,并将所述海量多源异构数据进行分层存储;
所述云服务器将所述分层存储的海量多源异构数据进行分层快照,生成所述海量多源异构数据的多个快照;
所述云服务器获取前N个时刻的所有读数据压力值PN(t)以及前N时刻所述云服务器的所有存储容量饱和度值BN(t),并计算出前N个时刻的历史数据读取强度θN(t),其中θN(t)=PN(t)/BN(t),N为大于等于1的正整数;
所述云服务器将所述历史数据读取强度θN(t)进行离散傅里叶变换,获取低频分量{L1,L2,...LN}及高频分量{H1,H2,...,HN};
所述云服务器通过随机森林算法对所述低频分量{L1,L2,...LN}进行预测,预测出第N+1时刻的第一数据读取强度θ1,N+1
所述云服务器通过神经网络算法对所述高频分量{H1,H2,...,HN}进行预测,预测出第N+1时刻的第二数据读取强度θ2,N+1
所述云服务器基于所述第N+1时刻的第一数据读取强度θ1,N+1和第二数据读取强度θ2,N+1,计算出第N+1时刻的数据读取综合强度θN+1,并基于数据读取综合强度θN+1计算所需要增加的快照数目X;
所述云服务器依次生成X个所述快照数目,通过所述X个快照创建出X*Y个克隆,基于所述X*Y个克隆响应所述读请求。
可选地,所述云服务器通过神经网络算法对所述高频分量HN进行预测,预测出第N+1时刻的第二数据读取强度θ2,N+1,包括:
将所述高频分量{H1,H2,...,HN}输入对称残差网络,通过所述对称残差网络提取所述高频分量{H1,H2,...,HN}的第一特征;
通过注意力机制将所述高频分量{H1,H2,...,HN}进行局部特征权重量化,得到量化后的第二特征;
将所述量化后的第二特征输入双向长短期记忆网络,获取预测高频分量HN+1
基于所述HN+1进行离散傅里叶逆变换,获取所述第N+1时刻的第二数据读取强度θ2,N+1
可选地,所述对称残差网络中包括卷积模块和解卷积模块,所述卷积模块中包括K个残差块,所述解卷积模块中包括K个解卷积块,其中,所述K为大于或等于1的整数;
则所述将所述高频分量HN输入对称残差网络,通过所述对称残差网络提取所述高频分量{H1,H2,...,HN}的第一特征,包括:
通过所述卷积模块中的K个残差块将所述高频分量{H1,H2,...,HN}进行卷积运算,得到中间特征;
通过所述解卷积模块中的K个解卷积块将所述中间特征进行解卷积运算,得到所述高频分量{H1,H2,...,HN}的第一特征。
可选地,所述注意力机制包括读数据压力值注意力模块和存储容量饱和度注意力模块;则所述通过注意力机制将所述高频分量{H1,H2,...,HN}进行局部特征权重量化,得到量化后的第二特征,包括:
将所述第一特征输入至所述数据压力值注意力模块,得到数据压力值注意力权重;
将所述第一特征输入至所述存储容量饱和度注意力模块,得到存储容量饱和度注意力权重,并根据所述数据压力值注意力权重和所述存储容量饱和度注意力权重得到所述量化后的第二特征。
可选地,所述数据压力值注意力模块包括第一平均池化层、第一最大池化层和全连接层;将所述第一特征输入至所述数据压力值注意力模块,得到数据压力值注意力权重,包括:
将所述第一特征分别输入第一平均池化层和第一最大池化层,得到平均池化后的第三特征和最大池化后的第四特征;
将所述平均池化后的第三特征和所述最大池化后的第四特征,经过所述全连接层相加后得到所述数据压力值注意力权重;
所述存储容量饱和度注意力模块包括第二平均池化层、第二最大池化层和卷积层;所述将所述第一特征输入至所述存储容量饱和度注意力模块,得到存储容量饱和度注意力权重,包括:
将所述第一特征分别输入所述第二平均池化层和所述第二最大池化层,得到平均池化后的第五特征和最大池化后的第六特征;
通过所述卷积层将所述平均池化后的第五特征和所述最大池化后的第六特征进行卷积运算,得到存储容量饱和度注意力权重。
可选地,所述双向长短期记忆网络包括向前传播网络和向后传播网络;
所述将所述量化后的第二特征输入双向长短期记忆网络,获取预测高频分量HN+1,包括:
将所述量化后的第二特征输入所述向前传播网络,得到第一时序特征;
将所述量化后的第二特征输入所述向后传播网络,得到第二时序特征;
根据所述第一时序特征和所述第二时序特征构建得到所述高频分量HN+1
可选地,所述云服务器通过随机森林算法对所述低频分量{L1,L2,...LN}进行预测,预测出第N+1时刻的第一数据读取强度θ1,N+1,包括:
将所述低频分量{L1,L2,...LN}作为每个决策树的子样本集;
对各个子样本集分别建立分类回归树,构建N棵决策树;
每棵分类回归树从顶部到底部递归分枝生长,达到设置叶节点的最小尺寸后决策树停止生长,所有的决策树组合成为随机森林;
在随机森林模型中,利用所述N棵决策树分别对所述低频分量{L1,L2,...LN}进行预测,取每个决策树预测结果的平均值为预测值,所述预测值为所述第N+1时刻的低频分量所述预测值为LN+1
将所述预测值进行离散傅里叶逆变换,获得所述第一数据读取强度θ1,N+1
可选地,所述基于数据读取综合强度θN+1计算所需要增加的快照数目X,包括:
所述云服务器基于公式:X=aθN+1+b,X≤XMAX计算所述快照数目X,其中a和b为常数,Xmax为所述云服务器能够增加的快照的最大数目。
本发明实施例还提供一种基于人工智能的大数据访问系统,所述系统包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行上述基于人工智能的大数据访问方法。
通过本发明实施例提供的方法及系统,云服务器通过历史读数据压力值和历史的存储饱和度值,通过人工智能算法来预测未来时刻的数据压力情况,并相应新增快照数目,解决了现有技术中热点数据读取缓慢或延迟的问题,有效提升数据读取效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为一个实施例中基于人工智能的大数据访问方法及系统的流程示意图;
图2为采用随机森林算法对低频分量进行预测的流程示意图;
图3为采用神经网络算法对高频分量进行预测的流程示意图;
图4为一个实施例中电子设备的组成架构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
本发明提供了一种基于人工智能的大数据访问方法及系统,应用于分布式云存储系统中。分布式云存储系统规划设计了集约化、云架构动态配置的企业IT基础设施;一站式、多终端服务的企业信息展示交互服务等技术层,每层又包括若干成熟稳定的技术组件,各技术层,自下而上,层层支撑,各技术组件松散耦合,互联互通,科学高效,易于扩展,减少了信息孤岛,增强了系统的标准化和集约化,优化了系统的用户体验,提高工作效率。
在整体设计和实现上,依托云计算、大数据领域的知名开源项目(如Hadoop、Spark、OpenStack等)。由于遵循了业界广泛认可的事实标准,可以充分借力全球生态圈的资源,推动软硬件分层解耦,不断提升兼容性。兼容多种异构物理设备,避免厂商绑定。数据层面,支持多种数据源,包括结构化/非结构化类型的数据处理,数据本身、数据计算也都支持开放共享。优先采用先进成熟的技术组件,搭建稳定并且高效的大数据云计算管理平台,并在平台基础上实现大规模的数据采集与分析的相关业务应用。平台设计以满足当前的业务功能为主,兼顾考虑未来发展的趋势。
SNIA(Storage Networking Industry Association)对快照(snapshot)的定义是:关于指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像。快照可以是其所表示的数据的一个副本,也可以是数据的一个复制品。
快照其实是指向保存在存储设备中的数据的引用标记或指针,是数据在某一时刻的状况,其工作原理核心就是是建立一个指针列表,指示读取数据的地址,提供一个瞬时数据的影像,当数据有改变时,再进行复制。快照大致分为2种,一种叫做即写即拷(copy-on-write)快照,通常也会叫作指针型快照,VSS即属于这一种,另一种叫做分割镜像快照,常叫做镜像型快照。指针型快照占用空间小,对系统性能影响较小,但如果没有备份而原数据盘坏了,数据就无法恢复了;而镜像型快照实际就是当时数据的全镜像,会对系统性能造成一定负荷,但即使原数据损坏也不会有太大影响,不过要占用到相等容量的空间。本发明实施例主要是采用第二种镜像型快照。
分布式云存储支持分层存储,分层快照使得在某一快照的基础上为某一块设备创建多个克隆。创建克隆卷的时候通常先创建快照,然后再创建多个克隆。快照是只读的,而克隆则是可读写的。
分布式云存储系统通常采用三副本冗余机制,其快照也是三副本保存的。在分布式云存储系统中数据访问(即读数据)时,三快照都可以响应读请求,读请求通常根据一定的策略来选择要读取的快照所在的节点,这种场景下快照所能提供的读性能是跟副本数量正相关的。这种场景最典型的分布式云存储系统是HDFS、Windows Azure Storage、阿里云等。然而,对于热点数据而言,快照的数量却不能按照访问频率的增加而依次增加,会造成热点数据响应不及时,甚至会有宕机等情况发生。
图1为一个实施例中基于人工智能的大数据访问方法及系统简化流程图。部分字母在图1中未示出。
本实施例中的方法包括:
S101、云服务器获取海量多源异构数据,并将所述海量多源异构数据进行分层存储;
海量多源异构数据是海量的(以PB为计量单位)、不同结构的数据,异构数据体现在五个层次上:1.计算机体系结构的异构;数据的物理存储来源于不同体系结构的计算机中,如:大型机、小型机、工作站、PC或嵌入式系统中。2.操作系统的异构;数据的存储来源于不同的操作系统,如:Unix、Windows、Linux、OS/400等。3.数据格式的异构;数据的存储管理机制不同,可以是关系型数据库系统,如:Oracle、SQL Server、DB2等,也可以是文件行二维数据,如:txt、CSV、XLS等。4.数据存储地点异构;数据存储在分散的物理位置上,此类情况大多出现在大型机构中,如:销售数据分别存储在北京、上海、日本、韩国等多个分支机构的本地销售系统中。5.数据存储的逻辑模型异构;数据分别在不同的业务逻辑中存储和维护,从而相同意义的数据存在表现的异构;如:独立的销售系统和独立的采购系统中存在部门的编码不一致等。异构数据往往不是一个层面的异构,而是在多个层面上都存在异构。异构数据整合的目标就在于实现不同结构的数据之间的数据信息资源、硬件设备资源和人力资源的合并和共享。其中关键的一点就是以分散的局部的数据为基础,通过各种工具和处理逻辑建立全局的统一的数据或视图。
分层存储是一种常见的存储方法,它将数据存储在具有不同特性(如性能、成本和容量)的不同存储介质上。不同的存储媒介被分配到不同的层次结构中,其中最高性能的存储媒介被认为是第0层或第1层,然后是第2层、第3层等等。
典型的分层存储数据类型包括:
关键业务数据。这类数据总是需要存储在最高层的存储中,因为它需要支持高速应用程序——可能支持客户事务。访问数据的延迟可能会导致组织失去某些业务,或对盈利能力产生负面影响。对于此类数据来说,性能是最重要的。
热数据。这类数据需要较高级别的分层存储,因为它经常用于CRM、ERP甚至电子邮件等应用,并且需要用于企业的日常运行。在此类存储层中,性能很重要,但是成本也是一个考虑因素。
温数据。此类包括较早的数据,如超过几天的电子邮件或已完成事务的数据。这类数据的访问频率相对较低,但仍然要保证在需要时可以访问。在这个存储层中,最重要的考虑因素是成本,但是受制于最低的性能阈值。
冷数据。这类数据可能永远不会再被访问,但需要将其存档并保留,以符合监管或其他法律要求,或者只是因为它可能在未来某个不确定的时间具有某种价值——可能用于大数据分析。理想情况下,冷数据适合于可接受分钟或小时访问时间的最低层次的分层存储,而低成本是最重要的考虑因素。
分层存储等级
在一些已经使用存储分层一段时间的组织中,可能会将新的、比现有的第1层更快的存储层视为第0层。在本发明实施例中,第1层被假定为性能最高的存储层。
第1层:此存储层用于存储高度易失性和时间敏感的数据,这些数据需要在尽可能短的时间内可用。通常用于金融交易环境或其他业务领域,在这些领域中,可能在几分之一秒内生成或丢失比存储成本大得多的资金,存储速度需要尽可能快。因此,不管总体存储效率如何,通常都需要为实现最高性能配置非常快的固态存储介质来搭建第1层存储。
第2层:此存储层用于存储事务性数据,以支持高性能应用程序、面向客户的系统(如零售应用程序)和其他系统,在这些系统中,只能接受极短的延迟。由于所需的性能级别不像1层那么高,因此通常使用更低的成本和更高效的固态存储系统来提供2层存储解决方案。
第3层:第3层用于存储“热”数据,如CRM和ERP数据,甚至是最近的电子邮件,这些数据需要频繁访问,不能出现不必要的延迟。这意味着它需要存储在如中到高性能硬盘驱动器的介质上,与固态存储介质相比,这些介质的成本相对较低。在许多组织中,第3层的数据要比第2层或第1层的数据多得多,所以高容量的硬盘驱动器提供了一个理想的解决方案,它提供了低成本的每GB存储空间。
第4层:这个存储层用于“温”数据,比如最近完成的事务的数据、几天前的电子邮件以及其他不经常访问的数据。它还可以用来存储可能用于业务信息和数据可视化系统的数据,或者用于创建月度、季度或年度报告所需的财务数据。但是无论何时需要,都需要相对快速的访问。第4层存储需求可能非常大,由于成本是主要考虑因素,因此第4层存储的典型解决方案是大容量硬盘驱动器存储。与配置用于性能需求的高性能SAS磁盘或RAID阵列不同,第4层存储更可能使用低成本、相对低性能的SATA驱动器。
第5层:最低的存储层通常用于存档可能永远不会再次访问的“冷”数据,但仍然有一些价值(可能将来用于数据挖掘),因此值得保留。它还用于存储必须为合规性目的而保留的数据,这些数据只需要在几天或几周内访问,而不需要在几分钟或几秒内访问。
S102、所述云服务器将所述分层存储的海量多源异构数据进行分层快照,生成所述海量多源异构数据的多个快照;
本发明实施例中,分层存储的海量多源异构数据可以分层快照,每一层的海量多源异构数据与每一层的快照数据可以一一对应,同一层的海量多源异构数据可以有多个快照。
S103、所述云服务器获取前N个时刻的所有读数据压力值PN(t)以及前N时刻所述云服务器的所有存储容量饱和度值BN(t),并计算出前N个时刻的历史数据读取强度θN(t),其中θN(t)=PN(t)/BN(t),N为大于等于1的正整数;
读数据压力值代表当前云服务器的数据读取量,当一个业务终端向云服务器发送读取请求Request时,读数据压力值+1,当多个业务终端在一个时间周期内都向该云服务器发送读取请求时,读数据压力值依业务终端个数或请求次数增加,读数据压力值越大证明该数据越“热门”,云服务器的读取压力越大,越需要更多的快照分担数据读取压力,因此读数据压力值与快照数目正相关。
存储容量饱和度BN(t)代表不同时间云服务器的数据存储剩余量,越饱和则越没有能力新建更多的快照(新建快照会占用内存)来响应需求,因此饱和度BN(t)与快照的数目是负相关。
因此,本发明实施例定义了一个参数为历史数据读取强度θN(t),其中θN(t)=PN(t)/BN(t),该参数与两个变量都相关,且与快照数目正相关。
S104、所述云服务器将所述历史数据读取强度θN(t)进行离散傅里叶变换,获取低频分量{L1,L2,...LN}及高频分量{H1,H2,...,HN};
本发明实施例根据历史数据读取强度θN(t)的不同频率分量的特点,将之分为低频和高频分量两种,并采用不同的预测方法进行预测。其中,按照历史数据可知,低频分量较少,变化幅值较小,可使用随机森林预测;高频分量较多,变化幅值较大,样本数据量大,可通过神经网络算法进行预测。
S105、所述云服务器通过随机森林算法对所述低频分量{L1,L2,...LN}进行预测,预测出第N+1时刻的第一数据读取强度θ1,N+1
随机森林算法是利用多棵树对样本进行训练并预测的一种分类器。在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。
在本发明实施例中,如图2所示,采用随机森林算法对对所述低频分量{L1,L2,...LN}进行预测,具体可以为:
S21.将所述低频分量{L1,L2,...LN}作为每个决策树的子样本集;
在构建过程中,对于每个决策树的每个节点,随机采样低频分量作为子样本集,根据基尼指数最小准则从子样本集中选取最优特征进行分裂。
S22.对各个子样本集分别建立分类回归树,构建N棵决策树;
S23.每棵分类回归树从顶部到底部递归分枝生长,达到设置叶节点的最小尺寸后决策树停止生长,所有的决策树组合成为随机森林;
S24.在随机森林模型中,利用所述N棵决策树分别对所述低频分量{L1,L2,...LN}进行预测,取每个决策树预测结果的平均值为预测值,所述预测值为所述第N+1时刻的低频分量LN+1
S25.将所述预测值进行离散傅里叶逆变换,获得所述第N+1时刻的第一数据读取强度θ1,N+1
S106、所述云服务器通过神经网络算法对所述高频分量{H1,H2,...,HN}进行预测,预测出第N+1时刻的第二数据读取强度θ2,N+1
如图3所示,该方法具体为:
S31.将所述高频分量{H1,H2,...,HN}输入对称残差网络,通过所述对称残差网络提取所述高频分量{H1,H2,...,HN}的第一特征;
在其中一个实施例中,对称残差网络中包括卷积模块和解卷积模块,所述卷积模块中包括K个残差块,所述解卷积模块中包括K个解卷积块,其中,所述K为大于或等于1的整数;具体地,S31可以为:通过所述卷积模块中的K个残差块将所述高频分量{H1,H2,...,HN}进行卷积运算,得到中间特征;通过所述解卷积模块中的K个解卷积块将所述中间特征进行解卷积运算,得到所述高频分量{H1,H2,...,HN}的第一特征。
例如,对称残差神经网络由卷积模块和解卷积模块两个模块组成。卷积模块由五个残差块组成,每个残差块包括五层,前三层为残差卷积层,第四层为批标准化(BatchNormalization),最后一层是Dropout。
S32.通过注意力机制将所述高频分量{H1,H2,...,HN}进行局部特征权重量化,得到量化后的第二特征;
其中,注意力机制包括读数据压力值注意力模块和存储容量饱和度注意力模块;S32具体可以为:将所述第一特征输入至所述数据压力值注意力模块,得到数据压力值注意力权重;将所述第一特征输入至所述存储容量饱和度注意力模块,得到存储容量饱和度注意力权重,并根据所述数据压力值注意力权重和所述存储容量饱和度注意力权重得到所述量化后的第二特征。
在本发明实施例中,所述数据压力值注意力模块包括第一平均池化层、第一最大池化层和全连接层;则,其中,将所述第一特征输入至所述数据压力值注意力模块,得到数据压力值注意力权重,具体可以为:
将所述第一特征分别输入第一平均池化层和第一最大池化层,得到平均池化后的第三特征和最大池化后的第四特征;
将所述平均池化后的第三特征和所述最大池化后的第四特征,经过所述全连接层相加后得到所述数据压力值注意力权重;
所述存储容量饱和度注意力模块包括第二平均池化层、第二最大池化层和卷积层;则,其中,将所述第一特征输入至所述存储容量饱和度注意力模块,得到存储容量饱和度注意力权重,具体可以为:
将所述第一特征分别输入所述第二平均池化层和所述第二最大池化层,得到平均池化后的第五特征和最大池化后的第六特征;
通过所述卷积层将所述平均池化后的第五特征和所述最大池化后的第六特征进行卷积运算,得到存储容量饱和度注意力权重。
S33.将所述量化后的第二特征输入双向长短期记忆网络,获取预测高频分量HN+1
其中,S33具体可以为:将所述量化后的第二特征输入所述向前传播网络,得到第一时序特征;将所述量化后的第二特征输入所述向后传播网络,得到第二时序特征;根据所述第一时序特征和所述第二时序特征构建得到所述高频分量HN+1
本发明实施例中,采用双向长短期记忆网络LSTM的目的在于:当前时刻的输出不仅与之前的状态有关,还可能与未来的状态有关系,双向长短期记忆网络通过前向传播和后向传播两个方向分别对输入状态进行计算,并综合两个方向结果得到最终计算结果。
S34.基于所述HN+1进行离散傅里叶逆变换,获取所述第N+1时刻的第二数据读取强度θ2,N+1
本发明实施例中,网络模型包括对称残差网络和双向长短期记忆网络,为提高模型的识别力和鲁棒性,可以为对称残差神经网络和双向长短期记忆网络设计空间注意力机制,量化第一第二特征权重。提取的特征更具有识别力和鲁棒性,提高了特征提取的准确性。
S107、所述云服务器基于所述第N+1时刻的第一数据读取强度θ1,N+1和第二数据读取强度θ2,N+1,计算出第N+1时刻的数据读取综合强度θN+1,并基于数据读取综合强度θN+1计算所需要增加的快照数目X;
本发明实施例中,所述云服务器可以对θ1,N+1和θ2,N+1求取均值的方式计算出第N+1时刻的数据读取综合强度θN+1,或者对θ1,N+1和θ2,N+1进行累加的方式计算出θN+1
其中,所述云服务器可基于公式:X=aθN+1+b,X≤XMAX计算所述快照数目X,其中a和b为自定义常数,Xmax为所述云服务器能够增加的快照的最大数目。
S108、所述云服务器依次生成X个所述快照数目,通过所述X个快照创建出X*Y个克隆,基于所述X*Y个克隆响应所述读请求。其中Y为正整数。
通过本发明实施例提供的方法,云服务器通过历史读数据压力值和历史的存储饱和度值,通过人工智能算法来预测未来时刻的数据压力情况,并相应新增快照数目,解决了现有技术中热点数据读取缓慢或延迟的问题,有效提升数据读取效率。
本发明实施例还提供一种基于人工智能的大数据访问系统,所述系统包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行上述实施例中基于人工智能的大数据访问方法。
图4为一个实施例中基于人工智能的大数据访问系统(例如第一车载终端或第二车载终端)的硬件组成示意图。可以理解的是,图4仅仅示出了电子设备的简化设计。在实际应用中,电子设备还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出系统、处理器、控制器、存储器等,而所有可以实现本申请实施例的基于人工智能的大数据访问方法的电子设备都在本申请的保护范围之内。
存储器包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read至only memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read至only memory,CD至ROM),该存储器用于相关指令及数据。
输入系统用于输入数据和/或信号,以及输出系统用于输出数据和/或信号。输出系统和输入系统可以是独立的器件,也可以是一个整体的器件。
处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器(centralprocessing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。处理器还可以包括一个或多个专用处理器,专用处理器可以包括GPU、FPGA等,用于进行加速处理。
存储器用于存储网络设备的程序代码和数据。
处理器用于调用该存储器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。
以上上述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种基于人工智能的大数据访问方法,其特征在于,包括:
云服务器获取海量多源异构数据,并将所述海量多源异构数据进行分层存储;
所述云服务器将所述分层存储的海量多源异构数据进行分层快照,生成所述海量多源异构数据的多个快照;
所述云服务器获取前N个时刻的所有读数据压力值PN(t)以及前N时刻所述云服务器的所有存储容量饱和度值BN(t),并计算出前N个时刻的历史数据读取强度θN(t),其中θN(t)=PN(t)/BN(t),N为大于等于1的正整数;
所述云服务器将所述历史数据读取强度θN(t)进行离散傅里叶变换,获取低频分量{L1,L2,...LN}及高频分量{H1,H2,...,HN};
所述云服务器通过随机森林算法对所述低频分量{L1,L2,...LN}进行预测,预测出第N+1时刻的第一数据读取强度θ1,N+1
所述云服务器通过神经网络算法对所述高频分量{H1,H2,...,HN}进行预测,预测出第N+1时刻的第二数据读取强度θ2,N+1
所述云服务器基于所述第N+1时刻的第一数据读取强度θ1,N+1和第二数据读取强度θ2,N+1,计算出第N+1时刻的数据读取综合强度θN+1,并基于数据读取综合强度θN+1计算所需要增加的快照数目X;
所述云服务器依次生成X个所述快照数目,通过所述X个快照创建出X*Y个克隆,基于所述X*Y个克隆响应所述读请求。
2.根据权利要求1所述的方法,其特征在于,所述云服务器通过神经网络算法对所述高频分量{H1,H2,...,HN}进行预测,预测出第N+1时刻的第二数据读取强度θ2,N+1,包括:
将所述高频分量{H1,H2,...,HN}输入对称残差网络,通过所述对称残差网络提取所述高频分量{H1,H2,...,HN}的第一特征;
通过注意力机制将所述高频分量{H1,H2,...,HN}进行局部特征权重量化,得到量化后的第二特征;
将所述量化后的第二特征输入双向长短期记忆网络,获取预测高频分量HN+1
基于所述HN+1进行离散傅里叶逆变换,获取所述第N+1时刻的第二数据读取强度θ2,N+1
3.根据权利要求2所述的方法,其特征在于,所述对称残差网络中包括卷积模块和解卷积模块,所述卷积模块中包括K个残差块,所述解卷积模块中包括K个解卷积块,其中,所述K为大于或等于1的整数;
则所述将所述高频分量HN输入对称残差网络,通过所述对称残差网络提取所述高频分量{H1,H2,...,HN}的第一特征,包括:
通过所述卷积模块中的K个残差块将所述高频分量{H1,H2,...,HN}进行卷积运算,得到中间特征;
通过所述解卷积模块中的K个解卷积块将所述中间特征进行解卷积运算,得到所述高频分量{H1,H2,...,HN}的第一特征。
4.根据权利要求2所述的方法,其特征在于,所述注意力机制包括读数据压力值注意力模块和存储容量饱和度注意力模块;则所述通过注意力机制将所述高频分量{H1,H2,...,HN}进行局部特征权重量化,得到量化后的第二特征,包括:
将所述第一特征输入至所述数据压力值注意力模块,得到数据压力值注意力权重;
将所述第一特征输入至所述存储容量饱和度注意力模块,得到存储容量饱和度注意力权重,并根据所述数据压力值注意力权重和所述存储容量饱和度注意力权重得到所述量化后的第二特征。
5.根据权利要求4所述的方法,其特征在于,所述数据压力值注意力模块包括第一平均池化层、第一最大池化层和全连接层;将所述第一特征输入至所述数据压力值注意力模块,得到数据压力值注意力权重,包括:
将所述第一特征分别输入第一平均池化层和第一最大池化层,得到平均池化后的第三特征和最大池化后的第四特征;
将所述平均池化后的第三特征和所述最大池化后的第四特征,经过所述全连接层相加后得到所述数据压力值注意力权重;
所述存储容量饱和度注意力模块包括第二平均池化层、第二最大池化层和卷积层;所述将所述第一特征输入至所述存储容量饱和度注意力模块,得到存储容量饱和度注意力权重,包括:
将所述第一特征分别输入所述第二平均池化层和所述第二最大池化层,得到平均池化后的第五特征和最大池化后的第六特征;
通过所述卷积层将所述平均池化后的第五特征和所述最大池化后的第六特征进行卷积运算,得到存储容量饱和度注意力权重。
6.根据权利要求2所述的方法,其特征在于,所述双向长短期记忆网络包括向前传播网络和向后传播网络;
所述将所述量化后的第二特征输入双向长短期记忆网络,获取预测高频分量HN+1,包括:
将所述量化后的第二特征输入所述向前传播网络,得到第一时序特征;
将所述量化后的第二特征输入所述向后传播网络,得到第二时序特征;
根据所述第一时序特征和所述第二时序特征构建得到所述高频分量HN+1
7.根据权利要求1所述的方法,其特征在于,所述云服务器通过随机森林算法对所述低频分量{L1,L2,...LN}进行预测,预测出第N+1时刻的第一数据读取强度θ1,N+1,包括:
将所述低频分量{L1,L2,...LN}作为每个决策树的子样本集;
对各个子样本集分别建立分类回归树,构建N棵决策树;
每棵分类回归树从顶部到底部递归分枝生长,达到设置叶节点的最小尺寸后决策树停止生长,所有的决策树组合成为随机森林;
在随机森林模型中,利用所述N棵决策树分别对所述低频分量{L1,L2,...LN}进行预测,取每个决策树预测结果的平均值为预测值,所述预测值为LN+1
将所述预测值进行离散傅里叶逆变换,获得所述第N+1时刻的第一数据读取强度θ1,N+1
8.根据权利要求1所述的方法,其特征在于,所述基于数据读取综合强度θN+1计算所需要增加的快照数目X,包括:
所述云服务器基于公式:X=aθN+1+b,X≤XMAX计算所述快照数目X,其中a和b为常数,Xmax为所述云服务器能够增加的快照的最大数目。
9.一种基于人工智能的大数据访问系统,其特征在于,所述系统包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行权利要求1至8任一项所述的基于人工智能的大数据访问方法。
CN202011276214.3A 2020-11-16 2020-11-16 一种基于人工智能的大数据访问方法及系统 Withdrawn CN112363992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011276214.3A CN112363992A (zh) 2020-11-16 2020-11-16 一种基于人工智能的大数据访问方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011276214.3A CN112363992A (zh) 2020-11-16 2020-11-16 一种基于人工智能的大数据访问方法及系统

Publications (1)

Publication Number Publication Date
CN112363992A true CN112363992A (zh) 2021-02-12

Family

ID=74514912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011276214.3A Withdrawn CN112363992A (zh) 2020-11-16 2020-11-16 一种基于人工智能的大数据访问方法及系统

Country Status (1)

Country Link
CN (1) CN112363992A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705981A (zh) * 2021-08-03 2021-11-26 彭亮 一种基于大数据的异常监测的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705981A (zh) * 2021-08-03 2021-11-26 彭亮 一种基于大数据的异常监测的方法及装置
CN113705981B (zh) * 2021-08-03 2022-08-30 北京鼎信泰德科技有限公司 一种基于大数据的异常监测的方法及装置

Similar Documents

Publication Publication Date Title
US10715598B1 (en) Implementation of a web-scale data fabric
Muniswamaiah et al. Big data in cloud computing review and opportunities
US11949759B2 (en) Adaptive computation and faster computer operation
US10942814B2 (en) Method for discovering database backups for a centralized backup system
US20210019063A1 (en) Utilizing data views to optimize secure data access in a storage system
US20220236904A1 (en) Using data similarity to select segments for garbage collection
US9916354B2 (en) Generating multiple query access plans for multiple computing environments
US10019457B1 (en) Multi-level compression for storing data in a data store
US11977532B2 (en) Log record identification using aggregated log indexes
Lai et al. Towards a framework for large-scale multimedia data storage and processing on Hadoop platform
Chavan et al. Survey paper on big data
US11151030B1 (en) Method for prediction of the duration of garbage collection for backup storage systems
US10108644B1 (en) Method for minimizing storage requirements on fast/expensive arrays for data mobility and migration
CN105074724A (zh) 使用列式数据库中的直方图进行有效查询处理
US10108665B2 (en) Generating multiple query access plans for multiple computing environments
Merceedi et al. A comprehensive survey for hadoop distributed file system
CN112363992A (zh) 一种基于人工智能的大数据访问方法及系统
CN109947743A (zh) 一种优化的NoSQL大数据存储方法及系统
US11586598B2 (en) Data deduplication in data platforms
CN115981559A (zh) 分布式数据存储方法、装置、电子设备和可读介质
WO2022121274A1 (zh) 一种存储系统中元数据管理方法、装置及存储系统
CN113568892A (zh) 一种基于内存计算对数据源进行数据查询的方法和设备
CN112491831A (zh) 一种基于分布式云存储系统的数据访问方法
US20220129455A1 (en) Techniques for in-memory data searching
Scarfò et al. How the big data is leading the evolution of ICT technologies and processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210212

WW01 Invention patent application withdrawn after publication