CN109919193B - 一种大数据的智能分级方法、系统及终端 - Google Patents
一种大数据的智能分级方法、系统及终端 Download PDFInfo
- Publication number
- CN109919193B CN109919193B CN201910097722.6A CN201910097722A CN109919193B CN 109919193 B CN109919193 B CN 109919193B CN 201910097722 A CN201910097722 A CN 201910097722A CN 109919193 B CN109919193 B CN 109919193B
- Authority
- CN
- China
- Prior art keywords
- data
- neural network
- layer
- training
- artificial neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 claims abstract description 141
- 238000012549 training Methods 0.000 claims abstract description 109
- 238000012360 testing method Methods 0.000 claims abstract description 50
- 238000003860 storage Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 64
- 210000002569 neuron Anatomy 0.000 claims description 39
- 238000012546 transfer Methods 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000012886 linear function Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 210000000225 synapse Anatomy 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 abstract description 9
- 238000007635 classification algorithm Methods 0.000 abstract 1
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001312219 Amorphophallus konjac Species 0.000 description 1
- 235000001206 Amorphophallus rivieri Nutrition 0.000 description 1
- 229920002752 Konjac Polymers 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 235000010485 konjac Nutrition 0.000 description 1
- 239000000252 konjac Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000005693 optoelectronics Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000009891 weiqi Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种大数据的智能分级方法,包括:读取训练数据并将训练数据归一化;创建神经网络,设置训练参数,对神经网络进行训练;读取测试数据,将测试数据归一化;对测试数据进行识别及输出结果,实现对数据的热、温、冷智能分级。同时提供了一种智能分级系统、终端。本发明针对大数据的热、温、冷三级数据,通过多级神经网络“深度学习”,将神经网络用作分类器,克服了跨行业分类算法标准化的难题,可依据数据首、末次访问时间、访问次数和行业属性代码等将不同行业的大数据分为热数据、温数据和冷数据三大类,为大数据智能分级存储做好准备。本发明通过采用上述技术方案,对不同行业和领域的小样本数据识别准确率达到了90%以上。
Description
技术领域
本发明涉及大数据分级存储技术领域,具体地,涉及一种大数据的智能分级方法、系统 及终端。
背景技术
数据量爆炸性增长的大数据时代,根据访问频率数据可分为热数据、温数据和冷数据。 统计结果显示,当下冷数据的数据量占比大数据已达到80%,因此大数据的存储主要是解决 好冷数据存储的问题。采用光盘库存储冷数据,硬盘阵列保存温数据,固态盘和内存保存热 数据的磁光电混合方式可将磁盘、固态硬盘和光盘等三类存储媒体的优点结合起来,实现长 寿命(50年以上)、大容量(PB级以上)、低成本(初期建设成本减少50%,能耗降低80%)、 安全可靠的方式保存大数据,又可以保证快速访问响应速度(对99.99%的I/O响应时间不超 过1秒)和高速读写性能(不低于1GB/s),成为目前大数据存储发展的主流方向。
然而不同行业的大数据对温、冷、热的划分标准具有很大的差异,如何找到高效、通用 的方法来解决这个问题具有一定的难度。因此在大数据时代数据暴增的冲击之下,合理高效 的对数据进行冷热划分并采取与之相对应的分级存储解决方案就成为一个新的课题。
人工智能是近年才逐渐进入人们视野的一门学科和一项技术。2017年5月27日中国围 棋职业九段棋手柯洁与AlphaGo的围棋人机大战,AlphaGo最终以3比0的总比分击败当时 世界排名第一的柯洁。AlphaGo是一款围棋人工智能程序,而能使它越战越勇的秘诀就是人 工智能之中的“深度学习”。“深度学习”是指多层的人工神经网络(ArtificialNeural Networks, ANNs)和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取 权重,再产生另一个数据集合作为输出,这就像生物神经大脑的工作机理一样,通过合适的 矩阵数量,将多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别 物体标注图片一样。
思睿嘉得公司采用人工智能技术成功地克服了跨行业算法标准化的难题,所研制的数据 分类引擎已成功应用在邮件内容过滤、保密文件管理、知识挖掘、情报分析、反欺诈、电子 发现和归档、数据防泄漏等领域。无论金融、电信、能源、政府、制造等任何行业用户,都 可直接使用其标准版本,无需定制仍可获得满意效果。但在数据分级存储领域还没有获得应 用。
决定大数据中的数据属于热、温、冷哪一类数据的因素有很多,而且不同行业对热、 温、冷数据的划分标准具有很大的差异,另外在存储时要求实时做出判断数据属于哪一类以 便于分级存储。采用人工智能的方法进行划分是一个可以通用且行之有效的方法。国内曾有 人利用SVM(Support Vector Machine,支持向量机)进行分类,效果一直不好。尝试采用BP (Back propagation)神经网络,获得了相对较好的分类效果,但是效率和准确率仍然很低, 无法满足人们对大数据智能分级进而实现自动分级存储的需求。
目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
发明内容
针对现有技术中的上述不足,本发明的目的在于提供一种大数据的智能分级方法,采用 人工智能中的“深度学习”方法,将ANNs用作分类器引入到大数据分级存储领域并编程实 现,以实现对大数据的高效智能分级,小样本识别准确率达到了90%以上。
本发明是通过以下技术方案实现的。
根据本发明的第一个方面,提供了一种大数据的智能分级方法,包括如下步骤:
S1,读取训练数据,并将训练数据归一化;
S2,创建多层人工神经网络,设置多层人工神经网络的训练参数,并利用归一化后的训 练数据对多层人工神经网络进行训练,得到训练后的多层人工神经网络;
S3,读取测试数据,并将测试数据归一化;
S4,通过训练后的多层人工神经网络,对测试数据进行识别及输出结果,实现对测试数 据的智能分级。
优选地,所述训练数据和测试数据的数据格式中均包括:每个数据的第一次访问时间、 最后一次访问时间、访问次数、行业属性代码以及数据分级。
优选地,所述第一次访问时间和最后一次访问时间的时间格式均精确到秒,如20050506192845,所表示的时间为2005年5月6号19时28分45秒;所述访问次数以正整 数表示;所述行业属性代码采用2017年6月30日发布的《国民经济行业分类》(GB/T 4754-2017)的行业代码中的小类代码,如“光电子器件制造”这一类别名称的代码小类为 “3976”;所述数据分级包括热数据、温数据和冷数据三级,其中,热数据设为1,温数据 设为2,冷数据设为3。对于测试数据中未分级的数据,其数据分级初始值设为0。
优选地,所述S1中,训练数据归一化的方法采用线性函数转换算法。
优选地,所述线性函数转换算法为:在Matlab程序中,使用premnmx函数的特征值对 训练数据进行归一化处理。计算公式为y=2*(x-min)/(max-min)–1,将数据归一化到[-1, 1]区间。
优选地,所述S2中,创建多层人工神经网络的神经元互联方式采用前馈神经网络、反馈 神经网络和/或自组织网络中的神经网络结构;创建多层人工神经网络的传递函数采用线性 函数和/或非线性函数。
优选地,常见的传递函数有“线性函数”、“对数S形转移函数”和“双曲正切S形函数”等。
优选地,“线性函数”的计算公式为f(x)=x;
优选地,所述S2中,采用无导师学习算法和/或有导师学习算法,利用归一化后的训练 数据对所创建的多层人工神经网络进行训练;其中,学习规则采用梯度下降自适应学习率训 练算法和/或梯度下降BP训练算法。
优选地,学习函数为在Matlab程序中,使用train函数对多层人工神经网络进行训练; 最终得到满足误差要求的多层人工神经网络。
优选地,所述误差要求是指多层人工神经网络的训练参数中对神经网络训练的目标误差 要求;其中,对神经网络训练的目标误差要求,根据神经网络学习后的实际分类效果反复调 整后确定,一般可设置为0.01;所述训练参数还包括显示中间结果的周期、最大迭代次数和 学习率中的一个或多个。
优选地,所述S4中,对测试数据的智能分级是指:当多层人工神经网络对于训练数据输 入所产生的输出与训练数据的误差满足要求后,再对要存储的新数据进行分级识别。
优选地,在Matlab程序中采用sim函数,利用训练好的多层人工神经网络对要存储的新 数据进行分级识别。
优选地,大数据的分级包括:热数据、温数据和冷数据三级。
根据本发明的第二个方面,提供了一种用于实现上述大数据的智能分级方法的智能分级 系统,包括:
训练数据处理模块:读取训练数据,并将训练数据归一化;
神经网络训练模块:创建多层人工神经网络,设置多层人工神经网络的训练参数,并利 用归一化后的训练数据对多层人工神经网络进行训练,得到训练后的多层人工神经网络;
测试数据处理模块:读取测试数据,并将测试数据归一化;
智能分级模块:通过训练后的多层人工神经网络,对测试数据进行识别及输出结果,实 现对测试数据的智能分级。
其中,所述训练数据和测试数据的数据格式中均包括:每个数据的第一次访问时间、最 后一次访问时间、访问次数、行业属性代码以及数据分级。
根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并 能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时能够用 于执行上述的方法。
与现有技术相比,本发明具有如下有益效果:
本发明所提供的大数据的智能分级方法,将“深度学习”的方法运用到大数据热、温、冷 智能分级中,即将多层的人工神经网络(Artificial Neural Networks,ANNs)用作分类器引入 到大数据存储领域,并实现对数据的高效智能分级。
本发明所提供的大数据的智能分级方法,采用多层人工神经网络以及深度学习的方法实 现,可依据数据首、末次访问时间、访问次数和行业属性代码等将大数据分级为热数据、温 数据和冷数据三大类,为大数据分级存储做好准备,在降低大数据存储成本的同时提高大数 据访问响应速度及吞吐率。
本发明所提供的大数据的智能分级方法,采用人工智能神经网络的方法,智能分级软件 对大数据热、温、冷数据识别准确率高,速度快,小样本识别准确率达到了90%以上;智能 化,适用范围广,通用性强。可适用于不同的行业,如金融、银行、档案、教育、司法等, 为大数据后续的分级存储、提高访问和响应速度打好基础。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和 优点将会变得更明显:
图1是本发明公开的一个实施例提供的一种大数据的智能分级方法的实现流程图;
图2A是本发明公开的一个实施例提供的多层神经网络的数学模型示意图;
图2B是本发明公开的一个实施例提供的多层神经网络中的某个节点的计算处理示意图;
图3是本发明公开的一个实施例提供的医疗行业大数据热、温、冷智能分级方法的分级 性能示意图。
图4是本发明公开的一个实施例提供的金融行业大数据热、温、冷智能分级方法的分级 性能示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行 进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定 本发明。
实施例
本实施例提供了一种大数据的智能分级方法,采用人工智能中的深度学习方法,将人工 神经网络用作分类器引入到大数据智能分级方法中,按照特定的数据格式,在降低大数据存 储成本的同时提高大数据访问响应速度及吞吐率。
所述方法,包括如下步骤:
S1,读取具有特定数据格式的训练数据,并将训练数据归一化;
S2,创建多层人工神经网络,设置多层人工神经网络的训练参数,并利用归一化后的训 练数据对多层人工神经网络进行训练,得到训练后的多层人工神经网络;
S3,读取具有特定数据格式的测试数据,并将测试数据归一化;
S4,通过训练后的多层人工神经网络,对测试数据进行识别及输出结果,实现对测试数 据的智能分级。
其中,特定数据格式是指,数据格式中均包括每个数据的第一次访问时间、最后一次访 问时间、访问次数、行业属性代码以及数据分级。
进一步地,
所述第一次访问时间和最后一次访问时间的时间格式均精确到秒,如20050506192845, 所表示的时间为2005年5月6号19时28分45秒。
所述访问次数以正整数表示。
所述行业属性代码采用2017年6月30日发布的《国民经济行业分类》(GB/T 4754-2017) 的行业代码中的小类代码,如“光电子器件制造”这一类别名称的代码小类为“3976”。
所述数据分级包括热数据、温数据和冷数据三级,其中,热数据设为1,温数据设为2, 冷数据设为3。对于测试数据中未分级的数据,其数据分级初始值设为0。
本实施例还提供了一种用于实施上述智能分级方法的智能分级系统,包括:
训练数据处理模块:读取训练数据,并将训练数据归一化;
神经网络训练模块:创建多层人工神经网络,设置多层人工神经网络的训练参数,并利 用归一化后的训练数据对多层人工神经网络进行训练,得到训练后的多层人工神经网络;
测试数据处理模块:读取测试数据,并将测试数据归一化;
智能分级模块:通过训练后的多层人工神经网络,对测试数据进行识别及输出结果,实 现对测试数据的智能分级。
下面结合一具体应用实例,对本发明上述实施例所提供的大数据的智能分级方法进一步 详细描述。
本发明上述实施例所提供的大数据智能分级方法,包括如下步骤:
在Matlab中采用textread函数读取训练数据后利用premnmx函数将训练数据进行归一化 处理;
构造输出矩阵并进行初始化赋值;
采用newff函数创建2层前馈神经网络(即多层人工神经网络),其中,第一层神经元个 数为10,传递函数为对数S形转移函数“logsig”,第二层神经元个数为3,传递函数为线性函 数“purelin”;训练函数为“traingdx”即“梯度下降自适应学习率训练函数”,权值/阈值学习函数 和性能函数均为默认函数;2层前馈神经网络的数学模型示意图如图2A所示。
其用复合函数的公式如下:
对于第一层
f1=x1*W1-11+x2*W1-12+x3*W1-13+x4*W1-14+x5*W1-15+b1-1
f2=x1*W1-21+x2*W1-22+x3*W1-23+x4*W1-24+x5*W1-25+b1-2
f3=x1*W1-31+x2*W1-32+x3*W1-33+x4*W1-34+x5*W1-35+b1-3
f4=x1*W1-41+x2*W1-42+x3*W1-43+x4*W1-44+x5*W1-45+b1-4
f5=x1*W1-51+x2*W1-52+x3*W1-53+x4*W1-54+x5*W1-55+b1-5
f6=x1*W1-61+x2*W1-62+x3*W1-63+x4*W1-64+x5*W1-65+b1-6
f7=x1*W1-71+x2*W1-72+x3*W1-73+x4*W1-74+x5*W1-75+b1-7
f8=x1*W1-81+x2*W1-82+x3*W1-83+x4*W1-84+x5*W1-85+b1-8
f9=x1*W1-91+x2*W1-92+x3*W1-93+x4*W1-94+x5*W1-95+b1-9
f10=x1*w1-101+x2*w1-102+x3*w1-103+x4*w1-104+x5*w1-105+b1-10
然后进入到第二层,也为输出层:
最后进入最终输出层:
y=f11*W3-11+f12*W3-12+f13*W3-13+b3-1
每个神经元的节点的计算处理如图2B所示,计算公式为:
z=x1*W1+x2*W2+x3*W3+x4*W4+x5*W5+b
上述公式中各参数的含义如下:
对于2层前馈神经网络第一层:
其中,Wi-jk为各个神经元突触对应输入分量的权值,其中i=1~2为神经网络的层数,j=1~10 为神经元的序号,k=1~5为第j个神经元对应的输入向量的序号;xk等五个输入向量分别为第 一次访问时间、最后一次访问时间、访问次数、行业属性代码以及热温冷类别;bi-j为偏置; fj为第一层神经网络第j个神经元的传递函数。
对于2层前馈神经网络第二层:
其中,f1m为第二层神经网络各个神经元突触对应输入分量的权值,其中m=1~10,为第 二层神经网络神经元的序号。
对于输出层:
y为所创建的2层前馈神经网络的最终输出。
对于每个神经元的节点:
Wl为该神经元突触对应输入分量的权值;b为偏置;z为该神经元的最终输出。
设置2层前馈神经网络的训练参数,训练参数中“net.trainparam.goal”即“神经网络训练的 目标误差”为0.01;“net.trainparam.show”即“显示中间结果的周期”为50;“net.trainparam.epochs” 即“最大迭代次数”为500;“net.trainParam.lr”即“学习率”为0.01。
由train函数采用归一化后的训练数据对神经网络进行训练,得到训练后的2层人工神经 网络;
由textread函数读取测试数据,采用premnmx函数将测试数据归一化;
通过训练后的2层前馈神经网络,对测试数据进行识别及输出结果,实现对测试数据的 智能分级。
进一步地,所述的训练数据包括每个数据的第一次访问时间、最后一次访问时间、访问 次数以及行业属性代码等。不同行业和领域的数据类型会有调整。
进一步地,所述的多层前馈神经网络创建采用线性和非线性函数等作为传递函数,如2 层前馈神经网络第一层采用对数S型转移函数作为传递函数;第二层采用线性函数作为传递 函数。
进一步地,所述的多层前馈神经网络创建的神经元互联方式采用前馈神经网络结构。
进一步地,所述的训练数据归一化是通过线性转换算法进行归一化;
进一步地,通过无导师学习算法、有导师学习算法来实现神经网络的训练学习;学习规 则采用的训练算法有“梯度下降自适应学习率训练算法”和“梯度下降BP训练算法”等。
进一步地,所述的测试数据分级是当神经网络对于训练数据输入所产生的输出与训练数 据的误差满足要求后,通过网络函数对要存储的新数据进行分级识别。
本实施例所提供的一种大数据的智能分级方法,将“深度学习”的方法运用到大数据热、 温、冷智能分级的方法和实现,即将多层的人工神经网络(Artificial NeuralNetworks,ANNs) 用作分类器引入到大数据存储领域,并编程实现对数据的高效智能分级。
本实施例所提供的大数据的智能分级方法,采用多层前馈神经网络、深度学习的方法实 现,可依据数据首、末次访问时间、访问次数和行业属性代码等将其分为热数据、温数据和 冷数据三大类,为大数据分级存储做好准备,在降低大数据存储成本的同时提高大数据访问 响应速度及吞吐率。
下面结合附图,并通过一具体应用实例,对本发明上述实施例所提供的技术方案进一步 详细描述。
如图1所示,本发明上述实施例提供的一种大数据的智能分级方法,包括以下步骤:
101:首先读取训练数据,训练数据包括每个数据的第一次、最后一次访问时间,访问次 数,以及行业属性代码;
102:然后对训练数据进行归一化处理,通过线性函数转换算法对训练数据进行归一化处 理,在Matlab程序中,使用premnmx函数的特征值归一化;
201:然后采用Matlab中的newff函数进行多层前馈神经网络的创建,所述的多层前馈神 经网络创建采用常见的传递函数,在Matlab程序中,第一层采用“logsig”,为“对数S型转移 函数”;第二层采用“purelin”,为“线性函数”;所述的神经网络创建的神经元互联方式使用的 是前馈神经网络中(Feedforward Neural Networds)的BP(Backpropagation)神经网络;
202:接下来通过使用Matlab编程环境下的train函数对多层前馈神经网络进行训练,当 多层前馈神经网络对于训练数据输入所产生的输出与训练数据的误差满足要求后,可开始下 一步骤;
301、302:读取测试数据,并对测试数据归一化预处理;
401:多层前馈神经网络通过Matlab编程环境下的sim函数对要存储的新数据进行分级 识别;
501:输出识别结果。
下面结合仿真对本发明的应用效果作详细的描述。
为了评估本发明的性能,下面的仿真实验采用医疗和金融两个行业的数据,分别进行4 次仿真实验,每个行业的训练数据量分别为25,50,75,100,125,测试数据量均为150, 使用ANNs分类器进行分类识别。
采用newff函数创建2层前馈神经网络结构见图2。
训练时train函数中所设置的参数分别为:显示中间结果的周期net.trainparam.show=50; 最大迭代次数net.trainparam.epochs=500;神经网络训练的目标误差net.trainparam.goal=0.01; 学习率:net.trainParam.lr=0.01。仿真识别结果如图3和图4所示,结果显示识别率达到90% 以上。可见本发明对不同行业的数据分级识别效果较好。
基于上述的一种大数据的智能分级方法和系统,本发明实施例中还提供了一种终端, 包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算 机程序时可用于执行上述的智能分级方法。
基于上述的一种大数据的智能分级方法和系统,本发明实施例中还提供了另外一种 终端,包括存储器、处理器及存储在存储器上并可通过处理器运行的上述的智能分级系统。 进一步地,所述智能分级系统可用于执行上述的智能分级方法。
需要说明的是,上述实施例中列举了基于医疗大数据分级存储与金融大数据分级存储这 两个行业大数据存储的热温冷智能分级,其目的是为了具体呈现本发明的具体实施方式,并 非限定本发明只能应用于这两个行业大数据的热温冷分级当中。根据本发明的原理,容易知 道凡是涉及到大数据热温冷分级,均可通过本发明所述的采用ANNs作为分类器的方法实现 大数据热温冷智能分级。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技 术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡 所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等 效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (9)
1.一种大数据的智能分级存储方法,其特征在于,包括如下步骤:
S1,读取训练数据,并将训练数据归一化;
S2,创建多层人工神经网络,设置多层人工神经网络的训练参数,并利用归一化后的训练数据对多层人工神经网络进行训练,得到训练后的多层人工神经网络;
S3,读取测试数据,并将测试数据归一化;
S4,通过训练后的多层人工神经网络,对测试数据进行识别及输出结果,实现对测试数据的智能分级存储;
其中,所述训练数据和测试数据的数据格式中均包括:每个数据的第一次访问时间、最后一次访问时间、访问次数、行业属性代码以及数据分级;
所述第一次访问时间和最后一次访问时间的时间格式均精确到秒;
所述访问次数以正整数表示;
所述行业属性代码采用GB/T 4754-2017的行业代码中的小类代码;
所述数据分级包括热数据、温数据和冷数据三级;其中,热数据设为1,温数据设为2,冷数据设为3;对于测试数据中未分级的数据,其数据分级初始值设为0;
所述创建多层人工神经网络,设置多层人工神经网络的训练参数,并利用归一化后的训练数据对多层人工神经网络进行训练,得到训练后的多层人工神经网络,包括:
采用newff函数创建2层前馈神经网络,其中,第一层神经元个数为10,传递函数为对数S形转移函数logsig,第二层神经元个数为3,传递函数为线性函数purelin;训练函数采用梯度下降自适应学习率训练函数,权值/阈值学习函数和性能函数均为默认函数;其中:
对于第一层:
f1=x1*W1-11+x2*W1-12+x3*W1-13+x4*W1-14+x5*W1-15+b1-1
f2=x1*W1-21+x2*W1-22+x3*W1-23+x4*W1-24+x5*W1-25+b1-2
f3=x1*W1-31+x2*W1-32+x3*W1-33+x4*W1-34+x5*W1-35+b1-3
f4=x1*W1-41+x2*W1-42+x3*W1-43+x4*W1-44+x5*W1-45+b1-4
f5=x1*W1-51+x2*W1-52+x3*W1-53+x4*W1-54+x5*W1-55+b1-5
f6=x1*W1-61+x2*W1-62+x3*W1-63+x4*W1-64+x5*W1-65+b1-6
f7=x1*W1-71+x2*W1-72+x3*W1-73+x4*W1-74+x5*W1-75+b1-7
f8=x1*W1-81+x2*W1-82+x3*W1-83+x4*W1-84+x5*W1-85+b1-8
f9=x1*W1-91+x2*W1-92+x3*W1-93+x4*W1-94+x5*W1-95+b1-9
f10=x1*w1-101+x2*w1-102+x3*w1-103+x4*w1-104+x5*w1-105+b1-10
然后进入到第二层,也为输出层:
最后进入最终输出层:
y=f11*W3-11+f12*W3-12+f13*W3-13+b3-1
每个神经元的节点的计算处理公式为:
z=x1*W1+x2*W2+x3*W3+x4*W4+x5*W5+b
上述公式中各参数的含义如下:
对于2层前馈神经网络第一层:
其中,Wi-jk为各个神经元突触对应输入分量的权值,其中i=1~2为神经网络的层数,j=1~10为神经元的序号,k=1~5为第j个神经元对应的输入向量的序号;xk等五个输入向量分别为第一次访问时间、最后一次访问时间、访问次数、行业属性代码以及热温冷类别;bi-j为偏置;fj为第一层神经网络第j个神经元的传递函数;
对于2层前馈神经网络第二层:
其中,f1m为第二层神经网络各个神经元突触对应输入分量的权值,其中m=1~10,为第二层神经网络神经元的序号;
对于最终输出层:
y为所创建的2层前馈神经网络的最终输出;
对于每个神经元的节点:
Wl为该神经元突触对应输入分量的权值;b为偏置;z为该神经元的最终输出;
设置2层前馈神经网络的训练参数,训练参数中神经网络训练的目标误差为0.01;显示中间结果的周期为50;最大迭代次数为500;学习率为0.01。
2.根据权利要求1所述的一种大数据的智能分级方法,其特征在于,所述S1中,训练数据归一化采用线性函数转换算法。
3.根据权利要求2所述的一种大数据的智能分级方法,其特征在于,在Matlab程序中,使用premnmx函数的特征值对训练数据进行归一化处理。
4.根据权利要求1所述的一种大数据的智能分级方法,其特征在于,所述S2中,创建多层人工神经网络的神经元互联方式采用前馈神经网络、反馈神经网络和/或自组织网络中的神经网络结构;创建多层人工神经网络的传递函数采用线性函数和/或非线性函数。
5.根据权利要求1所述的一种大数据的智能分级方法,其特征在于,所述S2中,采用无导师学习算法和/或有导师学习算法,利用归一化后的训练数据对所创建的多层人工神经网络进行训练;其中,学习规则采用梯度下降自适应学习率训练算法和/或梯度下降BP训练算法,学习函数为在Matlab程序中,使用train函数对多层人工神经网络进行训练;最终得到满足误差要求的多层人工神经网络;
所述误差要求是指多层人工神经网络的训练参数中对神经网络训练的目标误差要求;其中,对神经网络训练的目标误差要求,根据神经网络学习后的实际分类效果反复调整后确定;所述训练参数还包括显示中间结果的周期、最大迭代次数和学习率中的一个或多个。
6.根据权利要求1所述的一种大数据的智能分级方法,其特征在于,所述S4中,对测试数据的智能分级是指:当多层人工神经网络对于训练数据输入所产生的输出与训练数据的误差满足要求后,再对要存储的测试数据进行分级识别。
7.根据权利要求6所述的一种大数据的智能分级方法,其特征在于,分级识别为:在Matlab程序中采用sim函数,利用训练好的多层人工神经网络对要存储的测试数据进行分级识别。
8.一种用于实现权利要求1至7中任一项所述的大数据的智能分级方法的智能分级系统,其特征在于,包括:
训练数据处理模块:读取训练数据,并将训练数据归一化;
神经网络训练模块:创建多层人工神经网络,设置多层人工神经网络的训练参数,并利用归一化后的训练数据对多层人工神经网络进行训练,得到训练后的多层人工神经网络;其中:
采用newff函数创建2层前馈神经网络,其中,第一层神经元个数为10,传递函数为对数S形转移函数logsig,第二层神经元个数为3,传递函数为线性函数purelin;训练函数采用梯度下降自适应学习率训练函数,权值/阈值学习函数和性能函数均为默认函数;其中:
对于第一层:
f1=x1*W1-11+x2*W1-12+x3*W1-13+x4*W1-14+x5*W1-15+b1-1
f2=x1*W1-21+x2*W1-22+x3*W1-23+x4*W1-24+x5*W1-25+b1-2
f3=x1*W1-31+x2*W1-32+x3*W1-33+x4*W1-34+x5*W1-35+b1-3
f4=x1*W1-41+x2*W1-42+x3*W1-43+x4*W1-44+x5*W1-45+b1-4
f5=x1*W1-51+x2*W1-52+x3*W1-53+x4*W1-54+x5*W1-55+b1-5
f6=x1*W1-61+x2*W1-62+x3*W1-63+x4*W1-64+x5*W1-65+b1-6
f7=x1*W1-71+x2*W1-72+x3*W1-73+x4*W1-74+x5*W1-75+b1-7
f8=x1*W1-81+x2*W1-82+x3*W1-83+x4*W1-84+x5*W1-85+b1-8
f9=x1*W1-91+x2*W1-92+x3*W1-93+x4*W1-94+x5*W1-95+b1-9
f10=x1*w1-101+x2*w1-102+x3*w1-103+x4*w1-104+x5*w1-105+b1-10
然后进入到第二层,也为输出层:
最后进入最终输出层:
y=f11*W3-11+f12*W3-12+f13*W3-13+b3-1
每个神经元的节点的计算处理公式为:
z=x1*W1+x2*W2+x3*W3+x4*W4+x5*W5+b
上述公式中各参数的含义如下:
对于2层前馈神经网络第一层:
其中,Wi-jk为各个神经元突触对应输入分量的权值,其中i=1~2为神经网络的层数,j=1~10为神经元的序号,k=1~5为第j个神经元对应的输入向量的序号;xk等五个输入向量分别为第一次访问时间、最后一次访问时间、访问次数、行业属性代码以及热温冷类别;bi-j为偏置;fj为第一层神经网络第j个神经元的传递函数;
对于2层前馈神经网络第二层:
其中,f1m为第二层神经网络各个神经元突触对应输入分量的权值,其中m=1~10,为第二层神经网络神经元的序号;
对于最终输出层:
y为所创建的2层前馈神经网络的最终输出;
对于每个神经元的节点:
Wl为该神经元突触对应输入分量的权值;b为偏置;z为该神经元的最终输出;
设置2层前馈神经网络的训练参数,训练参数中神经网络训练的目标误差为0.01;显示中间结果的周期为50;最大迭代次数为500;学习率为0.01;
测试数据处理模块:读取测试数据,并将测试数据归一化;
智能分级模块:通过训练后的多层人工神经网络,对测试数据进行识别及输出结果,实现对测试数据的智能分级存储;
其中,所述训练数据和测试数据的数据格式中均包括:每个数据的第一次访问时间、最后一次访问时间、访问次数、行业属性代码以及数据分级;
所述第一次访问时间和最后一次访问时间的时间格式均精确到秒;
所述访问次数以正整数表示;
所述行业属性代码采用GB/T 4754-2017的行业代码中的小类代码;
所述数据分级包括热数据、温数据和冷数据三级;其中,热数据设为1,温数据设为2,冷数据设为3;对于测试数据中未分级的数据,其数据分级初始值设为0。
9.一种终端,包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时能够用于执行权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910097722.6A CN109919193B (zh) | 2019-01-31 | 2019-01-31 | 一种大数据的智能分级方法、系统及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910097722.6A CN109919193B (zh) | 2019-01-31 | 2019-01-31 | 一种大数据的智能分级方法、系统及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109919193A CN109919193A (zh) | 2019-06-21 |
CN109919193B true CN109919193B (zh) | 2023-05-12 |
Family
ID=66961138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910097722.6A Active CN109919193B (zh) | 2019-01-31 | 2019-01-31 | 一种大数据的智能分级方法、系统及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109919193B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110727406B (zh) * | 2019-10-10 | 2024-05-17 | 深圳力维智联技术有限公司 | 一种数据存储调度方法及装置 |
CN113627535B (zh) * | 2021-08-12 | 2024-06-28 | 福建中信网安信息科技有限公司 | 基于数据安全和隐私保护的数据分级分类方法 |
CN113792772B (zh) * | 2021-09-01 | 2023-11-03 | 中国船舶重工集团公司第七一六研究所 | 一种用于数据分级混合存储的冷热数据识别方法 |
CN117932412A (zh) * | 2024-03-25 | 2024-04-26 | 陕西中安数联信息技术有限公司 | 数据存储系统冷热数据高效识别方法与装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006312414A (ja) * | 2005-05-09 | 2006-11-16 | Toyota Motor Corp | 運転指向推定装置 |
CN101833709A (zh) * | 2010-05-11 | 2010-09-15 | 同济大学 | 半导体生产线生产计划的混合智能优化方法 |
CN102110371A (zh) * | 2011-03-04 | 2011-06-29 | 哈尔滨工业大学 | 一种基于分级多智能体架构的交通信号控制系统 |
CN103218416A (zh) * | 2013-03-27 | 2013-07-24 | 华为技术有限公司 | 一种数据库加载方法、装置及系统 |
CN103761569A (zh) * | 2013-12-20 | 2014-04-30 | 上海电机学院 | 一种风力发电机故障诊断方法及装置 |
CN104463359A (zh) * | 2014-12-01 | 2015-03-25 | 河海大学常州校区 | 一种基于bp神经网络的疏浚作业产量预测模型分析方法 |
CN106779069A (zh) * | 2016-12-08 | 2017-05-31 | 国家电网公司 | 一种基于神经网络的异常用电检测方法 |
CN107426315A (zh) * | 2017-07-24 | 2017-12-01 | 南京邮电大学 | 一种基于BP神经网络的分布式缓存系统Memcached的改进方法 |
CN107908653A (zh) * | 2017-10-12 | 2018-04-13 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN109033288A (zh) * | 2018-07-13 | 2018-12-18 | 电子科技大学 | 一种基于bp神经网络的智能终端安全等级分类方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9429943B2 (en) * | 2012-03-05 | 2016-08-30 | Florida A&M University | Artificial intelligence valet systems and methods |
CN103020728A (zh) * | 2012-11-05 | 2013-04-03 | 青海电力科学试验研究院 | 一种电力系统中变电站短期电能质量预测方法 |
CN103336844B (zh) * | 2013-07-22 | 2016-12-28 | 广西师范大学 | 大数据rd分割方法 |
CN105095962B (zh) * | 2015-07-27 | 2017-07-28 | 中国汽车工程研究院股份有限公司 | 一种基于bp人工神经网络的材料动态力学性能预测方法 |
US10496280B2 (en) * | 2015-09-25 | 2019-12-03 | Seagate Technology Llc | Compression sampling in tiered storage |
-
2019
- 2019-01-31 CN CN201910097722.6A patent/CN109919193B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006312414A (ja) * | 2005-05-09 | 2006-11-16 | Toyota Motor Corp | 運転指向推定装置 |
CN101833709A (zh) * | 2010-05-11 | 2010-09-15 | 同济大学 | 半导体生产线生产计划的混合智能优化方法 |
CN102110371A (zh) * | 2011-03-04 | 2011-06-29 | 哈尔滨工业大学 | 一种基于分级多智能体架构的交通信号控制系统 |
CN103218416A (zh) * | 2013-03-27 | 2013-07-24 | 华为技术有限公司 | 一种数据库加载方法、装置及系统 |
CN103761569A (zh) * | 2013-12-20 | 2014-04-30 | 上海电机学院 | 一种风力发电机故障诊断方法及装置 |
CN104463359A (zh) * | 2014-12-01 | 2015-03-25 | 河海大学常州校区 | 一种基于bp神经网络的疏浚作业产量预测模型分析方法 |
CN106779069A (zh) * | 2016-12-08 | 2017-05-31 | 国家电网公司 | 一种基于神经网络的异常用电检测方法 |
CN107426315A (zh) * | 2017-07-24 | 2017-12-01 | 南京邮电大学 | 一种基于BP神经网络的分布式缓存系统Memcached的改进方法 |
CN107908653A (zh) * | 2017-10-12 | 2018-04-13 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN109033288A (zh) * | 2018-07-13 | 2018-12-18 | 电子科技大学 | 一种基于bp神经网络的智能终端安全等级分类方法 |
Non-Patent Citations (3)
Title |
---|
Jo Sung.Nanoscale Memristor Device as Synapse in Neuromorphic Systems.《Nano letters》.2010,第297-301页. * |
杨宗海 ; 李文竹 ; 刘心 ; .基于分级响应机制的家庭智慧节水系统设计.人民长江.2018,(21),第108-112页. * |
郭新军 ; .磁光电混合存储数据智能分级技术研究.电子技术与软件工程.2018,(17),第212-213页. * |
Also Published As
Publication number | Publication date |
---|---|
CN109919193A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919193B (zh) | 一种大数据的智能分级方法、系统及终端 | |
Singh et al. | A review of studies on machine learning techniques | |
Xu et al. | Maize diseases identification method based on multi-scale convolutional global pooling neural network | |
Wang et al. | Filter pruning with a feature map entropy importance criterion for convolution neural networks compressing | |
CN112685504B (zh) | 一种面向生产过程的分布式迁移图学习方法 | |
Wu et al. | ML-TREE: A tree-structure-based approach to multilabel learning | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 | |
CN115811440B (zh) | 一种基于网络态势感知的实时流量检测方法 | |
CN116633601A (zh) | 一种基于网络流量态势感知的检测方法 | |
Ebrahimi et al. | Integration of deep learning model and feature selection for multi-label classification | |
Novakovic et al. | Classification accuracy of neural networks with pca in emotion recognition | |
CN113742495B (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 | |
Sang et al. | Image recognition based on multiscale pooling deep convolution neural networks | |
Zhu et al. | Multi-classification assessment of personal credit risk based on stacking integration | |
Thiodorus et al. | Convolutional neural network with transfer learning for classification of food types in tray box images | |
Faurina et al. | Comparative study of ensemble deep learning models to determine the classification of turtle species | |
CN114898777A (zh) | 基于深度直推式迁移网络的跨库语音情感识别方法及装置 | |
Abraham et al. | Performance analysis of connectionist paradigms for modeling chaotic behavior of stock indices | |
CN111984762A (zh) | 一种对抗攻击敏感的文本分类方法 | |
CN112836799A (zh) | 一种轻量模型快速增量重构方法及系统 | |
Guernine et al. | New fuzzy multi-class method to train SVM classifier | |
Wang et al. | Application of artificial neural network supported by bp and particle swarm optimization algorithm for evaluating the criticality class of spare parts | |
Amouzadi et al. | Hierarchical fuzzy rule-based classification system by evolutionary boosting algorithm | |
Jamal | Neural network and cellular manufacturing | |
Kun | Design of big data intelligent sharing system for the creative achievement of college students in internet+ age |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |