CN109919193A

CN109919193A - 一种大数据的智能分级方法、系统及终端

Info

Publication number: CN109919193A
Application number: CN201910097722.6A
Authority: CN
Inventors: 郭新军; 阮昊; 赵苗; 苏文静; 原续鹏
Original assignee: Shanghai Institute of Optics and Fine Mechanics of CAS
Current assignee: Shanghai Institute of Optics and Fine Mechanics of CAS
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-06-21
Anticipated expiration: 2039-01-31
Also published as: CN109919193B

Abstract

本发明公开了一种大数据的智能分级方法，包括：读取训练数据并将训练数据归一化；创建神经网络，设置训练参数，对神经网络进行训练；读取测试数据，将测试数据归一化；对测试数据进行识别及输出结果，实现对数据的热、温、冷智能分级。同时提供了一种智能分级系统、终端。本发明针对大数据的热、温、冷三级数据，通过多级神经网络“深度学习”，将神经网络用作分类器，克服了跨行业分类算法标准化的难题，可依据数据首、末次访问时间、访问次数和行业属性代码等将不同行业的大数据分为热数据、温数据和冷数据三大类，为大数据智能分级存储做好准备。本发明通过采用上述技术方案，对不同行业和领域的小样本数据识别准确率达到了90％以上。

Description

一种大数据的智能分级方法、系统及终端

技术领域

本发明涉及大数据分级存储技术领域，具体地，涉及一种大数据的智能分级方法、系统及终端。

背景技术

数据量爆炸性增长的大数据时代，根据访问频率数据可分为热数据、温数据和冷数据。统计结果显示，当下冷数据的数据量占比大数据已达到80％，因此大数据的存储主要是解决好冷数据存储的问题。采用光盘库存储冷数据，硬盘阵列保存温数据，固态盘和内存保存热数据的磁光电混合方式可将磁盘、固态硬盘和光盘等三类存储媒体的优点结合起来，实现长寿命(50年以上)、大容量(PB级以上)、低成本(初期建设成本减少50％，能耗降低80％)、安全可靠的方式保存大数据，又可以保证快速访问响应速度(对99.99％的I/O响应时间不超过1秒)和高速读写性能(不低于1GB/s)，成为目前大数据存储发展的主流方向。

然而不同行业的大数据对温、冷、热的划分标准具有很大的差异，如何找到高效、通用的方法来解决这个问题具有一定的难度。因此在大数据时代数据暴增的冲击之下，合理高效的对数据进行冷热划分并采取与之相对应的分级存储解决方案就成为一个新的课题。

人工智能是近年才逐渐进入人们视野的一门学科和一项技术。2017年5月27日中国围棋职业九段棋手柯洁与AlphaGo的围棋人机大战，AlphaGo最终以3比0的总比分击败当时世界排名第一的柯洁。AlphaGo是一款围棋人工智能程序，而能使它越战越勇的秘诀就是人工智能之中的“深度学习”。“深度学习”是指多层的人工神经网络(ArtificialNeural Networks， ANNs)和训练它的方法。一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出，这就像生物神经大脑的工作机理一样，通过合适的矩阵数量，将多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。

思睿嘉得公司采用人工智能技术成功地克服了跨行业算法标准化的难题，所研制的数据分类引擎已成功应用在邮件内容过滤、保密文件管理、知识挖掘、情报分析、反欺诈、电子发现和归档、数据防泄漏等领域。无论金融、电信、能源、政府、制造等任何行业用户，都可直接使用其标准版本，无需定制仍可获得满意效果。但在数据分级存储领域还没有获得应用。

决定大数据中的数据属于热、温、冷哪一类数据的因素有很多，而且不同行业对热、温、冷数据的划分标准具有很大的差异，另外在存储时要求实时做出判断数据属于哪一类以便于分级存储。采用人工智能的方法进行划分是一个可以通用且行之有效的方法。国内曾有人利用SVM(Support Vector Machine，支持向量机)进行分类，效果一直不好。尝试采用BP (Back propagation)神经网络，获得了相对较好的分类效果，但是效率和准确率仍然很低，无法满足人们对大数据智能分级进而实现自动分级存储的需求。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

针对现有技术中的上述不足，本发明的目的在于提供一种大数据的智能分级方法，采用人工智能中的“深度学习”方法，将ANNs用作分类器引入到大数据分级存储领域并编程实现，以实现对大数据的高效智能分级，小样本识别准确率达到了90％以上。

本发明是通过以下技术方案实现的。

根据本发明的第一个方面，提供了一种大数据的智能分级方法，包括如下步骤：

S1，读取训练数据，并将训练数据归一化；

S2，创建多层人工神经网络，设置多层人工神经网络的训练参数，并利用归一化后的训练数据对多层人工神经网络进行训练，得到训练后的多层人工神经网络；

S3，读取测试数据，并将测试数据归一化；

S4，通过训练后的多层人工神经网络，对测试数据进行识别及输出结果，实现对测试数据的智能分级。

优选地，所述训练数据和测试数据的数据格式中均包括：每个数据的第一次访问时间、最后一次访问时间、访问次数、行业属性代码以及数据分级。

优选地，所述第一次访问时间和最后一次访问时间的时间格式均精确到秒，如20050506192845，所表示的时间为2005年5月6号19时28分45秒；所述访问次数以正整数表示；所述行业属性代码采用2017年6月30日发布的《国民经济行业分类》(GB/T 4754-2017)的行业代码中的小类代码，如“光电子器件制造”这一类别名称的代码小类为 “3976”；所述数据分级包括热数据、温数据和冷数据三级，其中，热数据设为1，温数据设为2，冷数据设为3。对于测试数据中未分级的数据，其数据分级初始值设为0。

优选地，所述S1中，训练数据归一化的方法采用线性函数转换算法。

优选地，所述线性函数转换算法为：在Matlab程序中，使用premnmx函数的特征值对训练数据进行归一化处理。计算公式为y＝2*(x-min)/(max-min)–1，将数据归一化到[-1, 1]区间。

优选地，所述S2中，创建多层人工神经网络的神经元互联方式采用前馈神经网络、反馈神经网络和/或自组织网络中的神经网络结构；创建多层人工神经网络的传递函数采用线性函数和/或非线性函数。

优选地，常见的传递函数有“线性函数”、“对数S形转移函数”和“双曲正切S形函数”等。

优选地，“线性函数”的计算公式为f(x)＝x；

“对数S形转移函数”的公式为(0<f(x)<1)；

“双曲正切S形函数”的公式为(-1<f(x)<1)。

优选地，所述S2中，采用无导师学习算法和/或有导师学习算法，利用归一化后的训练数据对所创建的多层人工神经网络进行训练；其中，学习规则采用梯度下降自适应学习率训练算法和/或梯度下降BP训练算法。

优选地，学习函数为在Matlab程序中，使用train函数对多层人工神经网络进行训练；最终得到满足误差要求的多层人工神经网络。

优选地，所述误差要求是指多层人工神经网络的训练参数中对神经网络训练的目标误差要求；其中，对神经网络训练的目标误差要求，根据神经网络学习后的实际分类效果反复调整后确定，一般可设置为0.01；所述训练参数还包括显示中间结果的周期、最大迭代次数和学习率中的一个或多个。

优选地，所述S4中，对测试数据的智能分级是指：当多层人工神经网络对于训练数据输入所产生的输出与训练数据的误差满足要求后，再对要存储的新数据进行分级识别。

优选地，在Matlab程序中采用sim函数，利用训练好的多层人工神经网络对要存储的新数据进行分级识别。

优选地，大数据的分级包括：热数据、温数据和冷数据三级。

根据本发明的第二个方面，提供了一种用于实现上述大数据的智能分级方法的智能分级系统，包括：

训练数据处理模块：读取训练数据，并将训练数据归一化；

神经网络训练模块：创建多层人工神经网络，设置多层人工神经网络的训练参数，并利用归一化后的训练数据对多层人工神经网络进行训练，得到训练后的多层人工神经网络；

测试数据处理模块：读取测试数据，并将测试数据归一化；

智能分级模块：通过训练后的多层人工神经网络，对测试数据进行识别及输出结果，实现对测试数据的智能分级。

其中，所述训练数据和测试数据的数据格式中均包括：每个数据的第一次访问时间、最后一次访问时间、访问次数、行业属性代码以及数据分级。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时能够用于执行上述的方法。

与现有技术相比，本发明具有如下有益效果：

本发明所提供的大数据的智能分级方法，将“深度学习”的方法运用到大数据热、温、冷智能分级中，即将多层的人工神经网络(Artificial Neural Networks,ANNs)用作分类器引入到大数据存储领域，并实现对数据的高效智能分级。

本发明所提供的大数据的智能分级方法，采用多层人工神经网络以及深度学习的方法实现，可依据数据首、末次访问时间、访问次数和行业属性代码等将大数据分级为热数据、温数据和冷数据三大类，为大数据分级存储做好准备，在降低大数据存储成本的同时提高大数据访问响应速度及吞吐率。

本发明所提供的大数据的智能分级方法，采用人工智能神经网络的方法，智能分级软件对大数据热、温、冷数据识别准确率高，速度快，小样本识别准确率达到了90％以上；智能化，适用范围广，通用性强。可适用于不同的行业，如金融、银行、档案、教育、司法等，为大数据后续的分级存储、提高访问和响应速度打好基础。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明公开的一个实施例提供的一种大数据的智能分级方法的实现流程图；

图2A是本发明公开的一个实施例提供的多层神经网络的数学模型示意图；

图2B是本发明公开的一个实施例提供的多层神经网络中的某个节点的计算处理示意图；

图3是本发明公开的一个实施例提供的医疗行业大数据热、温、冷智能分级方法的分级性能示意图。

图4是本发明公开的一个实施例提供的金融行业大数据热、温、冷智能分级方法的分级性能示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

本实施例提供了一种大数据的智能分级方法，采用人工智能中的深度学习方法，将人工神经网络用作分类器引入到大数据智能分级方法中，按照特定的数据格式，在降低大数据存储成本的同时提高大数据访问响应速度及吞吐率。

所述方法，包括如下步骤：

S1，读取具有特定数据格式的训练数据，并将训练数据归一化；

S3，读取具有特定数据格式的测试数据，并将测试数据归一化；

其中，特定数据格式是指，数据格式中均包括每个数据的第一次访问时间、最后一次访问时间、访问次数、行业属性代码以及数据分级。

进一步地，

所述第一次访问时间和最后一次访问时间的时间格式均精确到秒，如20050506192845，所表示的时间为2005年5月6号19时28分45秒。

所述访问次数以正整数表示。

所述行业属性代码采用2017年6月30日发布的《国民经济行业分类》(GB/T 4754-2017) 的行业代码中的小类代码，如“光电子器件制造”这一类别名称的代码小类为“3976”。

所述数据分级包括热数据、温数据和冷数据三级，其中，热数据设为1，温数据设为2，冷数据设为3。对于测试数据中未分级的数据，其数据分级初始值设为0。

本实施例还提供了一种用于实施上述智能分级方法的智能分级系统，包括：

训练数据处理模块：读取训练数据，并将训练数据归一化；

测试数据处理模块：读取测试数据，并将测试数据归一化；

下面结合一具体应用实例，对本发明上述实施例所提供的大数据的智能分级方法进一步详细描述。

本发明上述实施例所提供的大数据智能分级方法，包括如下步骤：

在Matlab中采用textread函数读取训练数据后利用premnmx函数将训练数据进行归一化处理；

构造输出矩阵并进行初始化赋值；

采用newff函数创建2层前馈神经网络(即多层人工神经网络)，其中，第一层神经元个数为10，传递函数为对数S形转移函数“logsig”，第二层神经元个数为3，传递函数为线性函数“purelin”；训练函数为“traingdx”即“梯度下降自适应学习率训练函数”，权值/阈值学习函数和性能函数均为默认函数；2层前馈神经网络的数学模型示意图如图2A所示。

其用复合函数的公式如下：

对于第一层

f₁＝x₁*W_1-11+x₂*W_1-12+x₃*W_1-13+x₄*W_1-14+x₅*W_1-15+b_1-1

f₂＝x₁*W_1-21+x₂*W_1-22+x₃*W_1-23+x₄*W_1-24+x₅*W_1-25+b_1-2

f₃＝x₁*W_1-31+x₂*W_1-32+x₃*W_1-33+x₄*W_1-34+x₅*W_1-35+b_1-3

f₄＝x₁*W_1-41+x₂*W_1-42+x₃*W_1-43+x₄*W_1-44+x₅*W_1-45+b_1-4

f₅＝x₁*W_1-51+x₂*W_1-52+x₃*W_1-53+x₄*W_1-54+x₅*W_1-55+b_1-5

f₆＝x₁*W_1-61+x₂*W_1-62+x₃*W_1-63+x₄*W_1-64+x₅*W_1-65+b_1-6

f₇＝x₁*W_1-71+x₂*W_1-72+x₃*W_1-73+x₄*W_1-74+x₅*W_1-75+b_1-7

f₈＝x₁*W_1-81+x₂*W_1-82+x₃*W_1-83+x₄*W_1-84+x₅*W_1-85+b_1-8

f₉＝x₁*W_1-91+x₂*W_1-92+x₃*W_1-93+x₄*W_1-94+x₅*W_1-95+b_1-9

f₁₀＝x₁*w_1-101+x₂*w_1-102+x₃*w_1-103+x₄*w_1-104+x₅*w_1-105+b_1-10

然后进入到第二层，也为输出层：

最后进入最终输出层：

y＝f₁₁*W_3-11+f₁₂*W_3-12+f₁₃*W_3-13+b_3-1

每个神经元的节点的计算处理如图2B所示，计算公式为：

z＝x₁*W₁+x₂*W₂+x₃*W₃+x₄*W₄+x₅*W₅+b

上述公式中各参数的含义如下：

对于2层前馈神经网络第一层:

其中，W_i-jk为各个神经元突触对应输入分量的权值，其中i＝1～2为神经网络的层数，j＝1～10 为神经元的序号，k＝1～5为第j个神经元对应的输入向量的序号；x_k等五个输入向量分别为第一次访问时间、最后一次访问时间、访问次数、行业属性代码以及热温冷类别；b_i-j为偏置； f_j为第一层神经网络第j个神经元的传递函数。

对于2层前馈神经网络第二层:

其中，f_1m为第二层神经网络各个神经元突触对应输入分量的权值，其中m＝1～10，为第二层神经网络神经元的序号。

对于输出层：

y为所创建的2层前馈神经网络的最终输出。

对于每个神经元的节点：

W_l为该神经元突触对应输入分量的权值；b为偏置；z为该神经元的最终输出。

设置2层前馈神经网络的训练参数，训练参数中“net.trainparam.goal”即“神经网络训练的目标误差”为0.01；“net.trainparam.show”即“显示中间结果的周期”为50；“net.trainparam.epochs” 即“最大迭代次数”为500；“net.trainParam.lr”即“学习率”为0.01。

由train函数采用归一化后的训练数据对神经网络进行训练，得到训练后的2层人工神经网络；

由textread函数读取测试数据，采用premnmx函数将测试数据归一化；

通过训练后的2层前馈神经网络，对测试数据进行识别及输出结果，实现对测试数据的智能分级。

进一步地，所述的训练数据包括每个数据的第一次访问时间、最后一次访问时间、访问次数以及行业属性代码等。不同行业和领域的数据类型会有调整。

进一步地，所述的多层前馈神经网络创建采用线性和非线性函数等作为传递函数，如2 层前馈神经网络第一层采用对数S型转移函数作为传递函数；第二层采用线性函数作为传递函数。

进一步地，所述的多层前馈神经网络创建的神经元互联方式采用前馈神经网络结构。

进一步地，所述的训练数据归一化是通过线性转换算法进行归一化；

进一步地，通过无导师学习算法、有导师学习算法来实现神经网络的训练学习；学习规则采用的训练算法有“梯度下降自适应学习率训练算法”和“梯度下降BP训练算法”等。

进一步地，所述的测试数据分级是当神经网络对于训练数据输入所产生的输出与训练数据的误差满足要求后，通过网络函数对要存储的新数据进行分级识别。

本实施例所提供的一种大数据的智能分级方法，将“深度学习”的方法运用到大数据热、温、冷智能分级的方法和实现，即将多层的人工神经网络(Artificial NeuralNetworks,ANNs) 用作分类器引入到大数据存储领域，并编程实现对数据的高效智能分级。

本实施例所提供的大数据的智能分级方法，采用多层前馈神经网络、深度学习的方法实现，可依据数据首、末次访问时间、访问次数和行业属性代码等将其分为热数据、温数据和冷数据三大类，为大数据分级存储做好准备，在降低大数据存储成本的同时提高大数据访问响应速度及吞吐率。

下面结合附图，并通过一具体应用实例，对本发明上述实施例所提供的技术方案进一步详细描述。

如图1所示，本发明上述实施例提供的一种大数据的智能分级方法，包括以下步骤：

101：首先读取训练数据，训练数据包括每个数据的第一次、最后一次访问时间，访问次数，以及行业属性代码；

102：然后对训练数据进行归一化处理，通过线性函数转换算法对训练数据进行归一化处理，在Matlab程序中，使用premnmx函数的特征值归一化；

201：然后采用Matlab中的newff函数进行多层前馈神经网络的创建，所述的多层前馈神经网络创建采用常见的传递函数，在Matlab程序中，第一层采用“logsig”，为“对数S型转移函数”；第二层采用“purelin”，为“线性函数”；所述的神经网络创建的神经元互联方式使用的是前馈神经网络中(Feedforward Neural Networds)的BP(Backpropagation)神经网络；

202：接下来通过使用Matlab编程环境下的train函数对多层前馈神经网络进行训练，当多层前馈神经网络对于训练数据输入所产生的输出与训练数据的误差满足要求后，可开始下一步骤；

301、302：读取测试数据，并对测试数据归一化预处理；

401：多层前馈神经网络通过Matlab编程环境下的sim函数对要存储的新数据进行分级识别；

501：输出识别结果。

下面结合仿真对本发明的应用效果作详细的描述。

为了评估本发明的性能，下面的仿真实验采用医疗和金融两个行业的数据，分别进行4 次仿真实验，每个行业的训练数据量分别为25，50，75，100，125，测试数据量均为150，使用ANNs分类器进行分类识别。

采用newff函数创建2层前馈神经网络结构见图2。

训练时train函数中所设置的参数分别为：显示中间结果的周期net.trainparam.show＝50；最大迭代次数net.trainparam.epochs＝500；神经网络训练的目标误差net.trainparam.goal＝0.01；学习率：net.trainParam.lr＝0.01。仿真识别结果如图3和图4所示，结果显示识别率达到90％以上。可见本发明对不同行业的数据分级识别效果较好。

基于上述的一种大数据的智能分级方法和系统，本发明实施例中还提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时可用于执行上述的智能分级方法。

基于上述的一种大数据的智能分级方法和系统，本发明实施例中还提供了另外一种终端，包括存储器、处理器及存储在存储器上并可通过处理器运行的上述的智能分级系统。进一步地，所述智能分级系统可用于执行上述的智能分级方法。

需要说明的是，上述实施例中列举了基于医疗大数据分级存储与金融大数据分级存储这两个行业大数据存储的热温冷智能分级，其目的是为了具体呈现本发明的具体实施方式，并非限定本发明只能应用于这两个行业大数据的热温冷分级当中。根据本发明的原理，容易知道凡是涉及到大数据热温冷分级，均可通过本发明所述的采用ANNs作为分类器的方法实现大数据热温冷智能分级。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种大数据的智能分级方法，其特征在于，包括如下步骤：

S1，读取训练数据，并将训练数据归一化；

S3，读取测试数据，并将测试数据归一化；

S4，通过训练后的多层人工神经网络，对测试数据进行识别及输出结果，实现对测试数据的智能分级；

2.根据权利要求1所述的一种大数据的智能分级方法，其特征在于，所述第一次访问时间和最后一次访问时间的时间格式均精确到秒；

所述访问次数以正整数表示；

所述行业属性代码采用GB/T 4754-2017的行业代码中的小类代码；

所述数据分级包括热数据、温数据和冷数据三级；其中，热数据设为1，温数据设为2，冷数据设为3；对于测试数据中未分级的数据，其数据分级初始值设为0。

3.根据权利要求1所述的一种大数据的智能分级方法，其特征在于，所述S1中，训练数据归一化采用线性函数转换算法。

4.根据权利要求3所述的一种大数据的智能分级方法，其特征在于，在Matlab程序中，使用premnmx函数的特征值对训练数据进行归一化处理。

5.根据权利要求1所述的一种大数据的智能分级方法，其特征在于，所述S2中，创建多层人工神经网络的神经元互联方式采用前馈神经网络、反馈神经网络和/或自组织网络中的神经网络结构；创建多层人工神经网络的传递函数采用线性函数和/或非线性函数。

6.根据权利要求1所述的一种大数据的智能分级方法，其特征在于，所述S2中，采用无导师学习算法和/或有导师学习算法，利用归一化后的训练数据对所创建的多层人工神经网络进行训练；其中，学习规则采用梯度下降自适应学习率训练算法和/或梯度下降BP训练算法，学习函数为在Matlab程序中，使用train函数对多层人工神经网络进行训练；最终得到满足误差要求的多层人工神经网络；

所述误差要求是指多层人工神经网络的训练参数中对神经网络训练的目标误差要求；其中，对神经网络训练的目标误差要求，根据神经网络学习后的实际分类效果反复调整后确定；所述训练参数还包括显示中间结果的周期、最大迭代次数和学习率中的一个或多个。

7.根据权利要求1所述的一种大数据的智能分级方法，其特征在于，所述S4中，对测试数据的智能分级是指：当多层人工神经网络对于训练数据输入所产生的输出与训练数据的误差满足要求后，再对要存储的测试数据进行分级识别。

8.根据权利要求7所述的一种大数据的智能分级方法，其特征在于，分级识别为：在Matlab程序中采用sim函数，利用训练好的多层人工神经网络对要存储的测试数据进行分级识别。

9.一种用于实现权利要求1至8中任一项所述的大数据的智能分级方法的智能分级系统，其特征在于，包括：

训练数据处理模块：读取训练数据，并将训练数据归一化；

测试数据处理模块：读取测试数据，并将测试数据归一化；

智能分级模块：通过训练后的多层人工神经网络，对测试数据进行识别及输出结果，实现对测试数据的智能分级；

10.一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时能够用于执行权利要求1至8中任一项所述的方法。