CN110222022B

CN110222022B - 智能算法优化的数据图书馆建设方法

Info

Publication number: CN110222022B
Application number: CN201910487851.6A
Authority: CN
Inventors: 朱艺; 袁烨; 沈正月
Original assignee: Wuhan Jianxin Technology Co ltd
Current assignee: Wuhan Jianxin Technology Co ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2021-12-28
Anticipated expiration: 2039-06-05
Also published as: CN110222022A

Abstract

本发明公开了一种智能算法优化的数据图书馆建设方法，基于大数据处理框架下，包括以下步骤：步骤S1、建立数据集分布式存储体系；步骤S2、搭建深度学习框架；步骤S3、预设智能优化算法对待训练算法模型进行优化训练。本发明缩短算法优化周期，降低人工智能门槛。

Description

智能算法优化的数据图书馆建设方法

技术领域

本发明属于大数据与云计算领域。更具体地说，本发明涉及一种智能算法优化的数据图书馆建设方法。

背景技术

随着信息技术的蓬勃发展，信息化建设模式发生根本性转变，一场以云计算、大数据、物联网等技术为核心的人工智能浪潮风起云涌。数据平台建设也迅猛发展，但是目前大多数据平台基于传统的关系型数据库，服务对象为数据规模较小的中小企业，主要提供数据存储以及基本的信息交互功能，且只能满足关系型数据的存储要求，对于半结构化和非结构化数据束手无策。例如见中国专利：一种物流大数据平台，专利申请号为：CN201711260626.6,通过服务器数据中心接受数据并整合，将整合后的数据显示到显示端，集成用户和物流端的相互信息交流，提高物流端与用户端之间的信息交流；中国专利：一种智慧医疗信息集成平台，专利申请号：CN201410534797.3，包括卫生行政部门主导的区域内多家医院、社区诊所联合承建的总服务器，用于信息发布的医疗信息集成平台，用于医院、社区诊所用户登录验证发布信息的用户服务器终端，实现医疗信息实时查询；与此同时，近年兴起以hadoop、spark等分布式系统架构为核心的海量数据存储、计算的大数据平台。例如中国专利：基于Hadoop的数据处理方法，专利申请号：CN201710343155.9，主要使用异构硬件架设云基础设施服务层，基于多级容错的并行计算接口建立分布式计算架构，从而提高云计算的效率。但是此类数据平台往往作为企业大数据战略平台，其数据一般不对外开放且应用领域单一。因此实际意义上的共享数据平台少之又少，导致一方面有算法的科研机构缺少合适的试验数据，需重头获得试验数据，数据可重复利用率低，另一方面算法优化的过程中，需要人员实时跟踪、调整，费时费力。

发明内容

为了实现根据本发明的这些目的和其它优点，提供了一种智能算法优化的数据图书馆建设方法，基于大数据处理框架下，包括以下步骤：

步骤S1、建立数据集分布式存储体系；

步骤S2、搭建深度学习框架；

步骤S3、预设智能优化算法对待训练算法模型进行优化训练。

优选的是，所述步骤S1中具体步骤如下：

S11.建立基于Hadoop框架的分布式集群，优化HDFS数据分布存储阶段；

S12.根据数据集的领域进行分类、排序优化NameNode结构形成平台数据管理目录；

S13.将数据集进行分类并分为若干文件块，并分布于各个数据节点DataNode中。

优选的是，所述文件块的大小为64M，每个文件块中的内容均进行备份存储。

优选的是，建设方法中还包括数据安全处理。

优选的是，所述数据安全处理为数据脱敏、数据加密和数据权限管理中的一种或多种。

优选的是，所述步骤S2中，深度学习框架包括Tensorflow框架、Caffe框架以及Keras框架。

优选的是，所述Tensorflow框架的搭建依次包括定义添加神经层的函数、导入需要训练的数据、定义节点用于接受数据、定义神经层、定义optimizer使loss达到最小、对所有变量进行初始化并通过sess.run optimizer迭代多次进行学习；

其中，所述神经层包括隐藏层和预测层。

优选的是，Caffe框架的搭建依次包括对所有数据格式处理成caffe支持的格式、建立网络结构文件和参数文件；

其中，参数文件包括学习率、权重衰减系数、迭代次数。

优选的是，所述Keras框架搭建依次包括选择模型、构建网络层、编译、训练和预测。

优选的是，所述步骤S3中具体步骤如下：

S31.确定优化模型的假设函数h_θ(x)和损失函数J(θ)分别为：

其中，θ_i(i＝0，1，2，，...，n)为模型参数，x_i(i＝0，1，2，...，n)为每个样本的n个特征值；

S32.初始化参数θ₀，θ₁，...，θn、算法终止距离∈以及步长α；将所有θ_i初始化为0，将步长α初始化为1；

S33.确定当前位置的损失函数的梯度，对于θ_i的梯度表达式如下：

S34.用步长乘以损失函数的梯度，得到当前位置下降的距离如下：

S35.确定是否所有的θ_i对应的梯度下降的距离都小于ε，若小于ε则智能优化算法终止，当前所有的θ_i(i＝0，1，...，n)为目标结果，否则转入步骤S34；

S36.将目标结果进行表达式更新如下，之后转入步骤S31中；

本发明至少包括以下有益效果：本发明针对现有的数据平台存在的不足，提出了一种智能算法优化的数据图书馆建设方法，该方案基于Hadoop框架的分布式集群，优化数据存储结构，建立起高容错性、数据隐私安全性的图书馆数据集“借阅”体系，在该体系的支持下，用户只需提供待优化算法，“借阅”相应数据集，配合预设的智能优化算法进行模型训练，最终输出最优算法模型，并“归还”数据集，该方案建立在现有的大数据处理框架下，提供数据端——算法端的完整优化平台，从而缩短算法优化周期，降低人工智能门槛。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1是本发明实施例一种智能算法优化的数据图书馆建设方法的流程示意图；

图2是数据分类管理、存储方案示意图分布式存储框架示意图；

图3是Hadoop搭建完成监测示意图；

图4是Tensorflow搭建深度学习神经网络流程；

图5是Keras搭建深度学习神经网络流程；

图6是Mnist数据算法训练过程中损失函数下降示意图；

图7是Mnist数据算法训练过程中各待优化参数训练示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

在本发明的描述中，术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1～2所示，本发明提供一种智能算法优化的数据图书馆建设方法，基于现有的大数据处理框架下，包括以下步骤：

步骤S1、建立高容错性、高效的数据集分布式存储体系；

步骤S2、搭建深度学习框架；

步骤S3、预设智能优化算法对待训练算法模型进行优化训练。从而缩短算法优化周期，降低人工智能门槛。

进一步地，在本实施例中，如图3所示，所述步骤S1中具体步骤如下：

S11.建立基于Hadoop(简称HDFS)框架的分布式集群，优化HDFS数据分布存储阶段。HDFS主要用于海量数据(主要是半结构化、非结构化数据)的批量读写，适合PB级别及以上数据的低精度操作。而关系型数据库主要应用于结构化数据的读、写和更新场景，适合GB级以内数据的高精度操作。从物理角度上，结构化数据读写的时候，运行速度取决于硬件磁盘的寻道速度，而非结构化的数据读写性能主要取决于磁盘传输速度，两者有着数量级上的差别。

对于大多数查询情况，用户期望能获得即时结果，且对其他工作负载没有影响。这意味着数据分析平台必须提高现有性能。除此之外，像HDFSHadoop分布式存储架构那样，传统数据库应该在现有的基础上提供更加合理、可预测和经济的横向可扩展优化方案。因此设计关系型数据库对Hadoop存储系统进行补充，提供更细粒化的数据操作。从技术角度来看，要满足这些期望，需要结合列式数据库架构(而不是传统数据库的基于行的非并行处理)和大规模并行处理技术(Massively Parallel Processing，MPP)。

大规模并行处理(Massively Parallel Processing，MPP)。简单来说，MPP是将任务并行地分散到多个服务器节点上，然后在每个节点完成计算后，再通过资源调度管理器将每个节点的结果汇总在一起得到最终结果(与Hadoop相似)。

而行式数据库简单理解就是把一条数据信息以行的方式写到数据库中，像excel就是一种典型的行数数据库。这样的存储方式，当要修改或者删除一行数据中的某些字段时，操作起来效率非常高。然而，往往当我们在行式数据库上做数据分析的时候，运行效率就远远不如列式数据库，尤其是在工业大数据这类数据量较大的应用场景中，实际上都是在每一行大量字段中挑选其中部分上进行操作分析，如要统计车间各产线的生产效率同期变化比、按照设备统计能源计量情况等等，行式数据库就会不分情况整条读取数据，就像在只分析产能消耗的时候，把每一台生产设备的其他信息，如订单号，产品信息，工艺流程等等也都通通读取，浪费了大量宝贵的I/O。

而列式数据库并不复杂，不像行式数据库，每新录入一条数据就会多一个索引，实际列式数据就是根据像时间、设备编号、产品代码、工艺参数等为数不多的维度字段进行编码，这些字段一般几十到几百，且基本固定不变，因此极大地提高了索引效率。

另外，列式设计可最大限度地减少I/O争用，后者是导致分析处理发生延迟的主要原因。列式设计还可提供极高的压缩率，相比于行式数据库，通常可将压缩率提高四倍或五倍。MPP数据仓库通常按比例线性扩展，这意味着如果您将双节点MPP仓库的空间翻倍，那么可有效将其性能提高一倍。列式设计和MPP的结合不仅能够大幅提高性能(通常约100倍到1000倍)，还可以大幅降低数据分析处理过程的总成本。

S12.根据数据集的领域进行分类、排序优化NameNode结构形成平台数据管理目录；目录分局类型分成了若干类，例如工业数据、电网数据、医疗数据…。

在上述的技术方案中，现有的大数据处理框架Hadoop起源于谷歌在2003年和2004年发表了GFS和MapReduce两篇论文，最开始是针对大数据处理需求提出的分布式存储技术。自2006年面世以来，Hadoop技术发展迅猛，其技术生态圈也日益壮大，从原先只有HDFS和MapReduce两个组件发展到目前的60多个组件，覆盖了从数据存储、计算引擎到数据访问框架等各个层面，目前大数据技术基本都依赖于Hadoop生态系统下的东西(除了谷歌自有系统)，HDFS，Hive，HBase仍然是解决巨量数据存储和ETL的必要工具(即使是亚马逊的S3也是HDFS)。Hadoop继承了GFS和MapReduce的高效分布式计算框架，在提供了前所未有的计算能力的同时，也大大降低了计算成本，使其在大规模数据处理分析和处理，为大数据提供了一个完整的、多种选择地解决方案。

进一步地，在本实施例中，所述文件块的大小为64M，每个文件块中的内容均进行备份存储，数据块将均衡分布，建立高容错性和保护机制，保证数据或节点丢失不会影响系统使用，同时将一个的文件拆分成多个小块同时读取，也能提高数据的索引和读取的效率。同时NameNode结构能对DataNode节点进行实时监测数据和性能，DataNode相当于下面的服务器，NameNode对DataNode的硬盘、读取速度进行监控。

进一步地，在本实施例中，建设方法中还包括数据安全处理。

进一步地，在本实施例中，所述数据安全处理为数据脱敏、数据加密和数据权限管理中的一种或多种，建立起安全隐私保护机制。

在上述技术方案中，数据集分布式存储体系结合数据安全处理形成数据图书馆“借阅”体系。

进一步地，在本实施例中，所述步骤S2中，深度学习框架包括Tensorflow框架、Caffe框架以及Keras框架。

进一步地，在本实施例中，如图4所示，所述Tensorflow框架的搭建依次包括定义添加神经层的函数、导入需要训练的数据、定义节点用于接受数据、定义神经层、定义optimizer使loss达到最小、对所有变量进行初始化并通过sess.run optimizer迭代多次进行学习；其中，所述神经层包括隐藏层和预测层。

进一步地，在本实施例中，Caffe框架的搭建依次包括对所有数据格式处理成caffe支持的格式、建立网络结构文件和参数文件；其中，参数文件包括学习率、权重衰减系数、迭代次数。Caffe搭建深度学习神经网络流程见表1所示。

进一步地，在本实施例中，如图5所示，所述Keras框架搭建依次包括选择模型、构建网络层、编译、训练和预测。

进一步地，在本实施例中，所述步骤S3中具体步骤如下：

S31.确定优化模型的假设函数h_θ(x)和损失函数J(θ)分别为：

S32.初始化参数θ₀，θ₁，...，θ_n、算法终止距离∈以及步长α；将所有θ_i初始化为0，将步长α初始化为1；

S36.将目标结果进行表达式更新如下，之后转入步骤S31中，转入步骤31后，确定了假设函数h_θ(x)返回给用户；

实施例1

实施例1中基于Hadoop服务器集群软硬件配置方案如表2所示。

表2

(1)将Minist手写图像数据拆分为4个文件块，并上传至数据图书馆以供用户选择使用，同时根据上述安全机制进行备份处理。

(2)用户选择Mnist数据集以及合适的机器学习框架(本次实例选择tensorflow)，并上传待优化算法，包括神经网络的搭建(相关资料可自行查找)、正向传播输出预测值及其假设函数h_θ(x₁，x₂，…，x_n)＝θ₀+θ₁x₁+…+θ_nx_n(最终优化待优化参数θ₀，θ₁，…θ_n)，以及预测值与真实值的损失函数设定：

(3)算法相关参数初始化：主要是初始化θ₀，θ₁，...，θ_n，算法终止距离∈以及步长α。在没有任何先验知识的时候，将所有的θ的初始化为0，将步长初始化为1。

(4)确定当前位置的损失函数的梯度，对于θ_i，其梯度表达式如下：

(5)用步长乘以损失函数的梯度，损失函数下降图如图6，得到当前位置下降的距离，即

(6)确定是否所有的θ_i，梯度下降的距离都小于ε，如果小于ε则算法终止，当前所有的θ_i(i＝0，1，...，n)为最终结果，否则转入步骤(4)。

(7)确定所有的θ_i，对于θ_i，其更新表达式如下。更新完毕后继续转入步骤(1)。

(8)通过上述步骤对假设函数进行最优解，对训练过程进行展示如图7所示。

(9)返回最优参数模型。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的实施例。

Claims

1.一种智能算法优化的数据图书馆建设方法，基于大数据处理框架下，其特征在于，包括以下步骤：

步骤S1、建立数据集分布式存储体系；

步骤S2、搭建深度学习框架；

步骤S3、预设智能优化算法对待训练算法模型进行优化训练；

所述步骤S1中具体步骤如下：

S13.将数据集进行分类并分为若干文件块，并分布于各个数据节点DataNode中；

所述步骤S2中，深度学习框架包括Tensorflow框架、Caffe框架以及Keras框架；所述Tensorflow框架的搭建依次包括定义添加神经层的函数、导入需要训练的数据、定义节点用于接受数据、定义神经层、定义optimizer使loss达到最小、对所有变量进行初始化并通过sess.run optimizer迭代多次进行学习；

其中，所述神经层包括隐藏层和预测层。

2.如权利要求1所述的智能算法优化的数据图书馆建设方法，其特征在于，所述文件块的大小为64M，每个文件块中的内容均进行备份存储。

3.如权利要求1所述的智能算法优化的数据图书馆建设方法，其特征在于，建设方法中还包括数据安全处理。

4.如权利要求3所述的智能算法优化的数据图书馆建设方法，其特征在于，所述数据安全处理为数据脱敏、数据加密和数据权限管理中的一种或多种。

5.如权利要求1所述的智能算法优化的数据图书馆建设方法，其特征在于，Caffe框架的搭建依次包括对所有数据格式处理成caffe支持的格式、建立网络结构文件和参数文件；

其中，参数文件包括学习率、权重衰减系数、迭代次数。

6.如权利要求1所述的智能算法优化的数据图书馆建设方法，其特征在于，所述Keras框架搭建依次包括选择模型、构建网络层、编译、训练和预测。

7.如权利要求1所述的智能算法优化的数据图书馆建设方法，其特征在于，所述步骤S3中具体步骤如下：

S31.确定优化模型的假设函数h_θ(x)和损失函数J(θ)分别为：

S36.将目标结果进行表达式更新如下，之后转入步骤S31中；