CN110222022B - 智能算法优化的数据图书馆建设方法 - Google Patents

智能算法优化的数据图书馆建设方法 Download PDF

Info

Publication number
CN110222022B
CN110222022B CN201910487851.6A CN201910487851A CN110222022B CN 110222022 B CN110222022 B CN 110222022B CN 201910487851 A CN201910487851 A CN 201910487851A CN 110222022 B CN110222022 B CN 110222022B
Authority
CN
China
Prior art keywords
data
algorithm
framework
construction method
theta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910487851.6A
Other languages
English (en)
Other versions
CN110222022A (zh
Inventor
朱艺
袁烨
沈正月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Jianxin Technology Co ltd
Original Assignee
Wuhan Jianxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Jianxin Technology Co ltd filed Critical Wuhan Jianxin Technology Co ltd
Priority to CN201910487851.6A priority Critical patent/CN110222022B/zh
Publication of CN110222022A publication Critical patent/CN110222022A/zh
Application granted granted Critical
Publication of CN110222022B publication Critical patent/CN110222022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1847File system types specifically adapted to static storage, e.g. adapted to flash memory or SSD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种智能算法优化的数据图书馆建设方法,基于大数据处理框架下,包括以下步骤:步骤S1、建立数据集分布式存储体系;步骤S2、搭建深度学习框架;步骤S3、预设智能优化算法对待训练算法模型进行优化训练。本发明缩短算法优化周期,降低人工智能门槛。

Description

智能算法优化的数据图书馆建设方法
技术领域
本发明属于大数据与云计算领域。更具体地说,本发明涉及一种智能算法优化的数据图书馆建设方法。
背景技术
随着信息技术的蓬勃发展,信息化建设模式发生根本性转变,一场以云计算、大数据、物联网等技术为核心的人工智能浪潮风起云涌。数据平台建设也迅猛发展,但是目前大多数据平台基于传统的关系型数据库,服务对象为数据规模较小的中小企业,主要提供数据存储以及基本的信息交互功能,且只能满足关系型数据的存储要求,对于半结构化和非结构化数据束手无策。例如见中国专利:一种物流大数据平台,专利申请号为:CN201711260626.6,通过服务器数据中心接受数据并整合,将整合后的数据显示到显示端,集成用户和物流端的相互信息交流,提高物流端与用户端之间的信息交流;中国专利:一种智慧医疗信息集成平台,专利申请号:CN201410534797.3,包括卫生行政部门主导的区域内多家医院、社区诊所联合承建的总服务器,用于信息发布的医疗信息集成平台,用于医院、社区诊所用户登录验证发布信息的用户服务器终端,实现医疗信息实时查询;与此同时,近年兴起以hadoop、spark等分布式系统架构为核心的海量数据存储、计算的大数据平台。例如中国专利:基于Hadoop的数据处理方法,专利申请号:CN201710343155.9,主要使用异构硬件架设云基础设施服务层,基于多级容错的并行计算接口建立分布式计算架构,从而提高云计算的效率。但是此类数据平台往往作为企业大数据战略平台,其数据一般不对外开放且应用领域单一。因此实际意义上的共享数据平台少之又少,导致一方面有算法的科研机构缺少合适的试验数据,需重头获得试验数据,数据可重复利用率低,另一方面算法优化的过程中,需要人员实时跟踪、调整,费时费力。
发明内容
为了实现根据本发明的这些目的和其它优点,提供了一种智能算法优化的数据图书馆建设方法,基于大数据处理框架下,包括以下步骤:
步骤S1、建立数据集分布式存储体系;
步骤S2、搭建深度学习框架;
步骤S3、预设智能优化算法对待训练算法模型进行优化训练。
优选的是,所述步骤S1中具体步骤如下:
S11.建立基于Hadoop框架的分布式集群,优化HDFS数据分布存储阶段;
S12.根据数据集的领域进行分类、排序优化NameNode结构形成平台数据管理目录;
S13.将数据集进行分类并分为若干文件块,并分布于各个数据节点DataNode中。
优选的是,所述文件块的大小为64M,每个文件块中的内容均进行备份存储。
优选的是,建设方法中还包括数据安全处理。
优选的是,所述数据安全处理为数据脱敏、数据加密和数据权限管理中的一种或多种。
优选的是,所述步骤S2中,深度学习框架包括Tensorflow框架、Caffe框架以及Keras框架。
优选的是,所述Tensorflow框架的搭建依次包括定义添加神经层的函数、导入需要训练的数据、定义节点用于接受数据、定义神经层、定义optimizer使loss达到最小、对所有变量进行初始化并通过sess.run optimizer迭代多次进行学习;
其中,所述神经层包括隐藏层和预测层。
优选的是,Caffe框架的搭建依次包括对所有数据格式处理成caffe支持的格式、建立网络结构文件和参数文件;
其中,参数文件包括学习率、权重衰减系数、迭代次数。
优选的是,所述Keras框架搭建依次包括选择模型、构建网络层、编译、训练和预测。
优选的是,所述步骤S3中具体步骤如下:
S31.确定优化模型的假设函数hθ(x)和损失函数J(θ)分别为:
Figure BDA0002085992760000021
Figure BDA0002085992760000022
其中,θi(i=0,1,2,,...,n)为模型参数,xi(i=0,1,2,...,n)为每个样本的n个特征值;
S32.初始化参数θ0,θ1,...,θn、算法终止距离∈以及步长α;将所有θi初始化为0,将步长α初始化为1;
S33.确定当前位置的损失函数的梯度,对于θi的梯度表达式如下:
Figure BDA0002085992760000031
S34.用步长乘以损失函数的梯度,得到当前位置下降的距离如下:
Figure BDA0002085992760000032
S35.确定是否所有的θi对应的梯度下降的距离都小于ε,若小于ε则智能优化算法终止,当前所有的θi(i=0,1,...,n)为目标结果,否则转入步骤S34;
S36.将目标结果进行表达式更新如下,之后转入步骤S31中;
Figure BDA0002085992760000033
本发明至少包括以下有益效果:本发明针对现有的数据平台存在的不足,提出了一种智能算法优化的数据图书馆建设方法,该方案基于Hadoop框架的分布式集群,优化数据存储结构,建立起高容错性、数据隐私安全性的图书馆数据集“借阅”体系,在该体系的支持下,用户只需提供待优化算法,“借阅”相应数据集,配合预设的智能优化算法进行模型训练,最终输出最优算法模型,并“归还”数据集,该方案建立在现有的大数据处理框架下,提供数据端——算法端的完整优化平台,从而缩短算法优化周期,降低人工智能门槛。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1是本发明实施例一种智能算法优化的数据图书馆建设方法的流程示意图;
图2是数据分类管理、存储方案示意图分布式存储框架示意图;
图3是Hadoop搭建完成监测示意图;
图4是Tensorflow搭建深度学习神经网络流程;
图5是Keras搭建深度学习神经网络流程;
图6是Mnist数据算法训练过程中损失函数下降示意图;
图7是Mnist数据算法训练过程中各待优化参数训练示意图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
在本发明的描述中,术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1~2所示,本发明提供一种智能算法优化的数据图书馆建设方法,基于现有的大数据处理框架下,包括以下步骤:
步骤S1、建立高容错性、高效的数据集分布式存储体系;
步骤S2、搭建深度学习框架;
步骤S3、预设智能优化算法对待训练算法模型进行优化训练。从而缩短算法优化周期,降低人工智能门槛。
进一步地,在本实施例中,如图3所示,所述步骤S1中具体步骤如下:
S11.建立基于Hadoop(简称HDFS)框架的分布式集群,优化HDFS数据分布存储阶段。HDFS主要用于海量数据(主要是半结构化、非结构化数据)的批量读写,适合PB级别及以上数据的低精度操作。而关系型数据库主要应用于结构化数据的读、写和更新场景,适合GB级以内数据的高精度操作。从物理角度上,结构化数据读写的时候,运行速度取决于硬件磁盘的寻道速度,而非结构化的数据读写性能主要取决于磁盘传输速度,两者有着数量级上的差别。
对于大多数查询情况,用户期望能获得即时结果,且对其他工作负载没有影响。这意味着数据分析平台必须提高现有性能。除此之外,像HDFSHadoop分布式存储架构那样,传统数据库应该在现有的基础上提供更加合理、可预测和经济的横向可扩展优化方案。因此设计关系型数据库对Hadoop存储系统进行补充,提供更细粒化的数据操作。从技术角度来看,要满足这些期望,需要结合列式数据库架构(而不是传统数据库的基于行的非并行处理)和大规模并行处理技术(Massively Parallel Processing,MPP)。
大规模并行处理(Massively Parallel Processing,MPP)。简单来说,MPP是将任务并行地分散到多个服务器节点上,然后在每个节点完成计算后,再通过资源调度管理器将每个节点的结果汇总在一起得到最终结果(与Hadoop相似)。
而行式数据库简单理解就是把一条数据信息以行的方式写到数据库中,像excel就是一种典型的行数数据库。这样的存储方式,当要修改或者删除一行数据中的某些字段时,操作起来效率非常高。然而,往往当我们在行式数据库上做数据分析的时候,运行效率就远远不如列式数据库,尤其是在工业大数据这类数据量较大的应用场景中,实际上都是在每一行大量字段中挑选其中部分上进行操作分析,如要统计车间各产线的生产效率同期变化比、按照设备统计能源计量情况等等,行式数据库就会不分情况整条读取数据,就像在只分析产能消耗的时候,把每一台生产设备的其他信息,如订单号,产品信息,工艺流程等等也都通通读取,浪费了大量宝贵的I/O。
而列式数据库并不复杂,不像行式数据库,每新录入一条数据就会多一个索引,实际列式数据就是根据像时间、设备编号、产品代码、工艺参数等为数不多的维度字段进行编码,这些字段一般几十到几百,且基本固定不变,因此极大地提高了索引效率。
另外,列式设计可最大限度地减少I/O争用,后者是导致分析处理发生延迟的主要原因。列式设计还可提供极高的压缩率,相比于行式数据库,通常可将压缩率提高四倍或五倍。MPP数据仓库通常按比例线性扩展,这意味着如果您将双节点MPP仓库的空间翻倍,那么可有效将其性能提高一倍。列式设计和MPP的结合不仅能够大幅提高性能(通常约100倍到1000倍),还可以大幅降低数据分析处理过程的总成本。
S12.根据数据集的领域进行分类、排序优化NameNode结构形成平台数据管理目录;目录分局类型分成了若干类,例如工业数据、电网数据、医疗数据…。
S13.将数据集进行分类并分为若干文件块,并分布于各个数据节点DataNode中。
在上述的技术方案中,现有的大数据处理框架Hadoop起源于谷歌在2003年和2004年发表了GFS和MapReduce两篇论文,最开始是针对大数据处理需求提出的分布式存储技术。自2006年面世以来,Hadoop技术发展迅猛,其技术生态圈也日益壮大,从原先只有HDFS和MapReduce两个组件发展到目前的60多个组件,覆盖了从数据存储、计算引擎到数据访问框架等各个层面,目前大数据技术基本都依赖于Hadoop生态系统下的东西(除了谷歌自有系统),HDFS,Hive,HBase仍然是解决巨量数据存储和ETL的必要工具(即使是亚马逊的S3也是HDFS)。Hadoop继承了GFS和MapReduce的高效分布式计算框架,在提供了前所未有的计算能力的同时,也大大降低了计算成本,使其在大规模数据处理分析和处理,为大数据提供了一个完整的、多种选择地解决方案。
进一步地,在本实施例中,所述文件块的大小为64M,每个文件块中的内容均进行备份存储,数据块将均衡分布,建立高容错性和保护机制,保证数据或节点丢失不会影响系统使用,同时将一个的文件拆分成多个小块同时读取,也能提高数据的索引和读取的效率。同时NameNode结构能对DataNode节点进行实时监测数据和性能,DataNode相当于下面的服务器,NameNode对DataNode的硬盘、读取速度进行监控。
进一步地,在本实施例中,建设方法中还包括数据安全处理。
进一步地,在本实施例中,所述数据安全处理为数据脱敏、数据加密和数据权限管理中的一种或多种,建立起安全隐私保护机制。
在上述技术方案中,数据集分布式存储体系结合数据安全处理形成数据图书馆“借阅”体系。
进一步地,在本实施例中,所述步骤S2中,深度学习框架包括Tensorflow框架、Caffe框架以及Keras框架。
进一步地,在本实施例中,如图4所示,所述Tensorflow框架的搭建依次包括定义添加神经层的函数、导入需要训练的数据、定义节点用于接受数据、定义神经层、定义optimizer使loss达到最小、对所有变量进行初始化并通过sess.run optimizer迭代多次进行学习;其中,所述神经层包括隐藏层和预测层。
进一步地,在本实施例中,Caffe框架的搭建依次包括对所有数据格式处理成caffe支持的格式、建立网络结构文件和参数文件;其中,参数文件包括学习率、权重衰减系数、迭代次数。Caffe搭建深度学习神经网络流程见表1所示。
Figure BDA0002085992760000061
Figure BDA0002085992760000071
进一步地,在本实施例中,如图5所示,所述Keras框架搭建依次包括选择模型、构建网络层、编译、训练和预测。
进一步地,在本实施例中,所述步骤S3中具体步骤如下:
S31.确定优化模型的假设函数hθ(x)和损失函数J(θ)分别为:
Figure BDA0002085992760000072
Figure BDA0002085992760000073
其中,θi(i=0,1,2,,...,n)为模型参数,xi(i=0,1,2,...,n)为每个样本的n个特征值;
S32.初始化参数θ0,θ1,...,θn、算法终止距离∈以及步长α;将所有θi初始化为0,将步长α初始化为1;
S33.确定当前位置的损失函数的梯度,对于θi的梯度表达式如下:
Figure BDA0002085992760000081
S34.用步长乘以损失函数的梯度,得到当前位置下降的距离如下:
Figure BDA0002085992760000082
S35.确定是否所有的θi对应的梯度下降的距离都小于ε,若小于ε则智能优化算法终止,当前所有的θi(i=0,1,...,n)为目标结果,否则转入步骤S34;
S36.将目标结果进行表达式更新如下,之后转入步骤S31中,转入步骤31后,确定了假设函数hθ(x)返回给用户;
Figure BDA0002085992760000083
实施例1
实施例1中基于Hadoop服务器集群软硬件配置方案如表2所示。
表2
Figure BDA0002085992760000084
(1)将Minist手写图像数据拆分为4个文件块,并上传至数据图书馆以供用户选择使用,同时根据上述安全机制进行备份处理。
(2)用户选择Mnist数据集以及合适的机器学习框架(本次实例选择tensorflow),并上传待优化算法,包括神经网络的搭建(相关资料可自行查找)、正向传播输出预测值及其假设函数hθ(x1,x2,…,xn)=θ01x1+…+θnxn(最终优化待优化参数θ0,θ1,…θn),以及预测值与真实值的损失函数设定:
Figure BDA0002085992760000091
(3)算法相关参数初始化:主要是初始化θ0,θ1,...,θn,算法终止距离∈以及步长α。在没有任何先验知识的时候,将所有的θ的初始化为0,将步长初始化为1。
(4)确定当前位置的损失函数的梯度,对于θi,其梯度表达式如下:
Figure BDA0002085992760000092
(5)用步长乘以损失函数的梯度,损失函数下降图如图6,得到当前位置下降的距离,即
Figure BDA0002085992760000093
(6)确定是否所有的θi,梯度下降的距离都小于ε,如果小于ε则算法终止,当前所有的θi(i=0,1,...,n)为最终结果,否则转入步骤(4)。
(7)确定所有的θi,对于θi,其更新表达式如下。更新完毕后继续转入步骤(1)。
Figure BDA0002085992760000094
(8)通过上述步骤对假设函数进行最优解,对训练过程进行展示如图7所示。
(9)返回最优参数模型。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的实施例。

Claims (7)

1.一种智能算法优化的数据图书馆建设方法,基于大数据处理框架下,其特征在于,包括以下步骤:
步骤S1、建立数据集分布式存储体系;
步骤S2、搭建深度学习框架;
步骤S3、预设智能优化算法对待训练算法模型进行优化训练;
所述步骤S1中具体步骤如下:
S11.建立基于Hadoop框架的分布式集群,优化HDFS数据分布存储阶段;
S12.根据数据集的领域进行分类、排序优化NameNode结构形成平台数据管理目录;
S13.将数据集进行分类并分为若干文件块,并分布于各个数据节点DataNode中;
所述步骤S2中,深度学习框架包括Tensorflow框架、Caffe框架以及Keras框架;所述Tensorflow框架的搭建依次包括定义添加神经层的函数、导入需要训练的数据、定义节点用于接受数据、定义神经层、定义optimizer使loss达到最小、对所有变量进行初始化并通过sess.run optimizer迭代多次进行学习;
其中,所述神经层包括隐藏层和预测层。
2.如权利要求1所述的智能算法优化的数据图书馆建设方法,其特征在于,所述文件块的大小为64M,每个文件块中的内容均进行备份存储。
3.如权利要求1所述的智能算法优化的数据图书馆建设方法,其特征在于,建设方法中还包括数据安全处理。
4.如权利要求3所述的智能算法优化的数据图书馆建设方法,其特征在于,所述数据安全处理为数据脱敏、数据加密和数据权限管理中的一种或多种。
5.如权利要求1所述的智能算法优化的数据图书馆建设方法,其特征在于,Caffe框架的搭建依次包括对所有数据格式处理成caffe支持的格式、建立网络结构文件和参数文件;
其中,参数文件包括学习率、权重衰减系数、迭代次数。
6.如权利要求1所述的智能算法优化的数据图书馆建设方法,其特征在于,所述Keras框架搭建依次包括选择模型、构建网络层、编译、训练和预测。
7.如权利要求1所述的智能算法优化的数据图书馆建设方法,其特征在于,所述步骤S3中具体步骤如下:
S31.确定优化模型的假设函数hθ(x)和损失函数J(θ)分别为:
Figure FDA0002983551270000021
Figure FDA0002983551270000022
其中,θi(i=0,1,2,,...,n)为模型参数,xi(i=0,1,2,...,n)为每个样本的n个特征值;
S32.初始化参数θ0,θ1,...,θn、算法终止距离∈以及步长α;将所有θi初始化为0,将步长α初始化为1;
S33.确定当前位置的损失函数的梯度,对于θi的梯度表达式如下:
Figure FDA0002983551270000023
S34.用步长乘以损失函数的梯度,得到当前位置下降的距离如下:
Figure FDA0002983551270000024
S35.确定是否所有的θi对应的梯度下降的距离都小于ε,若小于ε则智能优化算法终止,当前所有的θi(i=0,1,...,n)为目标结果,否则转入步骤S34;
S36.将目标结果进行表达式更新如下,之后转入步骤S31中;
Figure FDA0002983551270000031
CN201910487851.6A 2019-06-05 2019-06-05 智能算法优化的数据图书馆建设方法 Active CN110222022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910487851.6A CN110222022B (zh) 2019-06-05 2019-06-05 智能算法优化的数据图书馆建设方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910487851.6A CN110222022B (zh) 2019-06-05 2019-06-05 智能算法优化的数据图书馆建设方法

Publications (2)

Publication Number Publication Date
CN110222022A CN110222022A (zh) 2019-09-10
CN110222022B true CN110222022B (zh) 2021-12-28

Family

ID=67819470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910487851.6A Active CN110222022B (zh) 2019-06-05 2019-06-05 智能算法优化的数据图书馆建设方法

Country Status (1)

Country Link
CN (1) CN110222022B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177022A (zh) * 2021-04-29 2021-07-27 东北大学 铝/铜板带材生产全流程大数据存储方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10552727B2 (en) * 2015-12-15 2020-02-04 Deep Instinct Ltd. Methods and systems for data traffic analysis
CN108399229A (zh) * 2018-02-12 2018-08-14 安徽千云度信息技术有限公司 一种基于大数据的数字图书馆数据库建设方法
CN108875808A (zh) * 2018-05-17 2018-11-23 延安职业技术学院 一种基于人工智能的图书分类方法
CN109669987A (zh) * 2018-12-13 2019-04-23 国网河北省电力有限公司石家庄供电分公司 一种大数据存储优化方法

Also Published As

Publication number Publication date
CN110222022A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN103412897B (zh) 一种基于分布式结构的并行数据处理方法
Lawler The quadratic assignment problem
US10585887B2 (en) Multi-system query execution plan
CN104205039A (zh) 使用兴趣驱动数据管线进行数据分析的兴趣驱动商业智能系统和方法
CN110222029A (zh) 一种大数据多维分析计算效率提升方法及系统
Hu et al. Evaluating the open source data containers for handling big geospatial raster data
Sohrabi et al. TSGV: a table-like structure-based greedy method for materialized view selection in data warehouses
US20200151575A1 (en) Methods and techniques for deep learning at scale over very large distributed datasets
Sebaa et al. Research in big data warehousing using Hadoop
Zhang et al. Algorithm analysis for big data in education based on depth learning
Han et al. Scatter-gather-merge: An efficient star-join query processing algorithm for data-parallel frameworks
He et al. Stylus: a strongly-typed store for serving massive RDF data
US20160203409A1 (en) Framework for calculating grouped optimization algorithms within a distributed data store
CN110222022B (zh) 智能算法优化的数据图书馆建设方法
Vrbić Data mining and cloud computing
Huang [Retracted] Research on the Revolution of Multidimensional Learning Space in the Big Data Environment
Kuo et al. A Hadoop/MapReduce based platform for supporting health big data analytics
Park et al. Parallel insertion and indexing method for large amount of spatiotemporal data using dynamic multilevel grid technique
Li et al. Efficient path query processing over massive trajectories on the cloud
Qiu et al. [Retracted] Construction of Data Resource Sharing Platform in College Students’ Ideological and Political Education Based on Deep Learning
US20220317644A1 (en) Production programming system and method based on nonlinear program model, and computer-readable storage medium
Woo et al. Market basket analysis algorithm with NoSQL DB HBase and Hadoop
CN109242301A (zh) 一种基于大数据架构的土地绩效交互式实时分析方法
CN111949743A (zh) 网点运营数据获取方法、装置及设备
Liu Research on Public Management Application Innovation Based on Spark Big Data Framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant