CN104462459A - 基于神经网络的大数据分析处理系统及方法 - Google Patents
基于神经网络的大数据分析处理系统及方法 Download PDFInfo
- Publication number
- CN104462459A CN104462459A CN201410783568.5A CN201410783568A CN104462459A CN 104462459 A CN104462459 A CN 104462459A CN 201410783568 A CN201410783568 A CN 201410783568A CN 104462459 A CN104462459 A CN 104462459A
- Authority
- CN
- China
- Prior art keywords
- data
- neural network
- attribute
- decision
- data analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及网络技术领域,具体地说是一种运算量合理、数据处理效率高的基于神经网络的大数据分析处理系统及方法,其特征在于设有用于从数据库中提取信息并进行初步处理的数据预处理单元、用于将预处理的数据二维化的数据决策表形成单元、用于对形成后的决策条件进行进一步简化的属性约简单元、用于消除数据中的不一致对象和冗余对象的对象约简单元、神经网络模型运算单元以及显示输出单元,本发明相对与现有技术,能够从大量无序、潜在的信息中获得有效信息,通过对数据离散处理、降维存储,能够有效提高数据处理效率,具有处理量大、效率高等显著的优点。
Description
技术领域:
本发明涉及网络技术领域,具体地说是一种运算量合理、数据处理效率高的基于神经网络的大数据分析处理系统及方法。
背景技术:
随着科技进步和社会经济水平的发展,人们生活进入数据化时代,人际交往可以经各种数据化信息表达,生活和工作的方方面面也可以实现数据化。为了切实提高用户使用体验,对于这些用户数据的存储、处理和分析显而成为关键。此类数据量极大,且数据完整度低、模糊、随机、含有多种无效信息(例如噪声),如何快速有效的对数据进行处理分析成为目前业内研究的热点。
神经网络是通过网络中各连接权值的改变,实现对信息的处理和存储,在神经网络模型中,每个神经元既是信息存储单元,也是信息的处理单元,能够实现信息存储和处理的合二为一,由这些神经元构成的网络模型在每个神经元的共同作用下,完成对输入模式的识别与记忆,具有大规模并行处理的能力。
发明内容:
本发明针对现有技术中存在的缺点和不足,提出了一种运算量合理、数据处理效率高的基于神经网络的大数据分析处理系统及方法。
本发明通过以下措施达到:
一种基于神经网络的大数据分析处理系统,其特征在于设有用于从数据库中提取信息并进行初步处理的数据预处理单元、用于将预处理的数据二维化的数据决策表形成单元、用于对形成后的决策条件进行进一步简化的属性约简单元、用于消除数据中的不一致对象和冗余对象的对象约简单元、神经网络模型运算单元以及显示输出单元。
本发明所述神经网络模型运算单元内设有BP网络单元、ART网络单元、RBF网络单元和LVM网络单元。
本发明所述数据决策表形成单元设有用于将多维数据降维至二维数据的哈希函数运算模块。
本发明所述数据预处理单元设有离散化处理模块、属性增/删模块、属性位置互换模块、添加ID属性模块、数据噪声处理模块。
本发明还提出了一种基于神经网络的大数据分析处理方法,其特征在于包括以下步骤:
步骤1:从数据库中抽取数据,对抽取的数据进行离散化处理;
步骤2:从步骤1所获取的数据库中抽取数据组成训练集X,用于训练哈希函数,训练集的大小n由决定,其中tα/2表示置信度的值,可以通过t分布临界值获得,ε表示最大的允许误差;
步骤3:用X训练哈希函数,首先涉及目标函数转高位实数数据到低维数据,目标函数定义为:
步骤4:对数据库中还没得到二进制代码的实例进行二进制编码,过称谓对每一个实例x,通过s=(B’B+2I)-1B’x得到x的低维实数值,然后通过哈希函数得到它的低维二进制代码,其中B是步骤2-2中定义的基空间,I是跟B同维度的单位矩阵,对整个数据库进行编码,完成数据的二维化;
步骤5:去掉不必要的条件属性,从而分析所得到约简中的条件属性对于决策属性的决策规则;
步骤6:消除数据中的不一致对象和冗余对象,其中不一致对象是指条件属性相同而决策属性不同的对象,冗余对象为条件属性相同而决策属性也相同的对象
步骤7:确定神经元网络模型;
步骤8:训练神经元网络模型,并通过运行算法实现数据分析处理;
步骤9:显示输出结果。
本发明相对与现有技术,能够从大量无序、潜在的信息中获得有效信息,通过对数据离散处理、降维存储,能够有效提高数据处理效率,具有处理量大、效率高等显著的优点。
附图说明:
附图1是本发明的结构框图。
附图标记:数据预处理单元1、离散化处理模块2、属性增/删模块3、属性位置互换模块4、添加ID属性模块5、数据噪声处理模块6、属性约简单元7、对象约简单元8、神经网络模型运算单元9、显示输出单元10。
具体实施方式:
下面结合附图对本发明作进一步的说明。
如附图1所示,本发明提出了一种基于神经网络的大数据分析处理系统,其特征在于设有用于从数据库中提取信息并进行初步处理的数据预处理单元1、用于将预处理的数据二维化的数据决策表形成单元2、用于对形成后的决策条件进行进一步简化的属性约简单元7、用于消除数据中的不一致对象和冗余对象的对象约简单元8、神经网络模型运算单元9以及显示输出单元10。
本发明所述神经网络模型运算单元5内设有BP网络单元、ART网络单元、RBF网络单元和LVM网络单元。
本发明所述数据决策表形成单元2设有用于将多维数据降维至二维数据的哈希函数运算模块。
本发明所述数据预处理单元1设有离散化处理模块2、属性增/删模块3、属性位置互换模块4、添加ID属性模块5、数据噪声处理模块6。
本发明还提出了一种基于神经网络的大数据分析处理方法,其特征在于包括以下步骤:
步骤1:从数据库中抽取数据,对抽取的数据进行离散化处理;
步骤2:从步骤1所获取的数据库中抽取数据组成训练集X,用于训练哈希函数,训练集的大小n由决定,其中tα/2表示置信度的值,可以通过t分布临界值获得,ε表示最大的允许误差;
步骤3:用X训练哈希函数,首先涉及目标函数转高位实数数据到低维数据,目标函数定义为:
步骤4:对数据库中还没得到二进制代码的实例进行二进制编码,过称谓对每一个实例x,通过s=(B’B+2I)-1B’x得到x的低维实数值,然后通过哈希函数得到它的低维二进制代码,其中B是步骤2-2中定义的基空间,I是跟B同维度的单位矩阵,对整个数据库进行编码,完成数据的二维化;
步骤5:去掉不必要的条件属性,从而分析所得到约简中的条件属性对于决策属性的决策规则;
步骤6:消除数据中的不一致对象和冗余对象,其中不一致对象是指条件属性相同而决策属性不同的对象,冗余对象为条件属性相同而决策属性也相同的对象
步骤7:确定神经元网络模型;
步骤8:训练神经元网络模型,并通过运行算法实现数据分析处理;
步骤9:显示输出结果。
本发明相对与现有技术,能够从大量无序、潜在的信息中获得有效信息,通过对数据离散处理、降维存储,能够有效提高数据处理效率,具有处理量大、效率高等显著的优点。
Claims (5)
1.一种基于神经网络的大数据分析处理系统,其特征在于设有用于从数据库中提取信息并进行初步处理的数据预处理单元、用于将预处理的数据二维化的数据决策表形成单元、用于对形成后的决策条件进行进一步简化的属性约简单元、用于消除数据中的不一致对象和冗余对象的对象约简单元、神经网络模型运算单元以及显示输出单元。
2.根据权利要求1所述的一种基于神经网络的大数据分析处理系统,其特征在于所述神经网络模型运算单元内设有BP网络单元、ART网络单元、RBF网络单元和LVM网络单元。
3.根据权利要求1所述的一种基于神经网络的大数据分析处理系统,其特征在于所述数据决策表形成单元设有用于将多维数据降维至二维数据的哈希函数运算模块。
4.根据权利要求1所述的一种基于神经网络的大数据分析处理系统,其特征在于所述数据预处理单元设有离散化处理模块、属性增/删模块、属性位置互换模块、添加ID属性模块、数据噪声处理模块。
5.一种基于神经网络的大数据分析处理方法,其特征在于包括以下步骤:
步骤1:从数据库中抽取数据,对抽取的数据进行离散化处理;
步骤2:从步骤1所获取的数据库中抽取数据组成训练集×,用于训练哈希函数,训练集的大小n由决定,其中tα/2表示置信度的值,可以通过t分布临界值获得,ε表示最大的允许误差;
步骤3:用X训练哈希函数,首先涉及目标函数转高位实数数据到低维数据,目标函数定义为:
,其中X为训练集,B为基空间,B的每一个向量均为训练集X中训练出来的基向量,S是X被投影在基空间B上的低维实数值,λ1和λ2是通过十折交叉验证方法取得的可调参数,wi,j是X中两个实例Xi和Xj之间的欧式距离在高斯核上的投影,Si和Sj是矩阵S中的两个向量,Bi,j是矩阵B中第i行和第j列的元素,i=1,2,3,……,n为表示实例的记号,j=1,2,3,……k表示基向量的标号,n是实例的个数,k是基向量的个数,s>0表示S中每个元素非负;
步骤4:对数据库中还没得到二进制代码的实例进行二进制编码,过称谓对每一个实例x,通过s=(B’B+2I)-1B’x得到x的低维实数值,然后通过哈希函数得到它的低维二进制代码,其中B是步骤2-2中定义的基空间,I是跟B同维度的单位矩阵,对整个数据库进行编码,完成数据的二维化;
步骤5:去掉不必要的条件属性,从而分析所得到约简中的条件属性对于决策属性的决策规则;
步骤6:消除数据中的不一致对象和冗余对象,其中不一致对象是指条件属性相同而决策属性不同的对象,冗余对象为条件属性相同而决策属性也相同的对象
步骤7:确定神经元网络模型;
步骤8:训练神经元网络模型,并通过运行算法实现数据分析处理;
步骤9:显示输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410783568.5A CN104462459A (zh) | 2014-12-16 | 2014-12-16 | 基于神经网络的大数据分析处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410783568.5A CN104462459A (zh) | 2014-12-16 | 2014-12-16 | 基于神经网络的大数据分析处理系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104462459A true CN104462459A (zh) | 2015-03-25 |
Family
ID=52908494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410783568.5A Pending CN104462459A (zh) | 2014-12-16 | 2014-12-16 | 基于神经网络的大数据分析处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462459A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105553778A (zh) * | 2015-12-30 | 2016-05-04 | 芜湖乐锐思信息咨询有限公司 | 基于神经网络的互联网信息分类系统 |
CN105673908A (zh) * | 2016-03-10 | 2016-06-15 | 浙江大学 | 基于神经网络和单片机的智能节水水龙头 |
CN105911476A (zh) * | 2016-04-13 | 2016-08-31 | 华北电力大学 | 一种基于数据挖掘的电池储能系统soc预测方法 |
CN106652453A (zh) * | 2016-12-28 | 2017-05-10 | 芜湖乐锐思信息咨询有限公司 | 基于神经网络的交通信息管理系统 |
CN106790140A (zh) * | 2016-12-28 | 2017-05-31 | 芜湖乐锐思信息咨询有限公司 | 高效在线协作的数据处理系统 |
CN106777264A (zh) * | 2016-12-28 | 2017-05-31 | 芜湖乐锐思信息咨询有限公司 | 远程行车信息处理系统 |
CN106855863A (zh) * | 2015-12-09 | 2017-06-16 | 上海渤元信息科技有限公司 | 一种新的大数据分析算法 |
WO2017177442A1 (zh) * | 2016-04-15 | 2017-10-19 | 北京中科寒武纪科技有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
CN107621979A (zh) * | 2017-10-27 | 2018-01-23 | 郑金林 | 一种学生发展档案大数据算法与分析系统 |
CN107977456A (zh) * | 2017-12-15 | 2018-05-01 | 清华大学 | 一种基于多任务深度网络的多源大数据分析方法 |
CN108874973A (zh) * | 2018-06-08 | 2018-11-23 | 江苏中威科技软件系统有限公司 | 基于大数据平台进行数据处理的系统及方法 |
WO2020140419A1 (zh) * | 2019-01-04 | 2020-07-09 | 烽火通信科技股份有限公司 | 网络流量增量统计、分析方法及系统 |
CN111628866A (zh) * | 2020-05-22 | 2020-09-04 | 深圳前海微众银行股份有限公司 | 神经网络校验方法、装置、设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605653A (zh) * | 2013-09-29 | 2014-02-26 | 广西师范大学 | 基于稀疏哈希的大数据检索方法 |
CN104123395A (zh) * | 2014-08-13 | 2014-10-29 | 北京赛科世纪数码科技有限公司 | 一种基于大数据的决策方法和系统 |
-
2014
- 2014-12-16 CN CN201410783568.5A patent/CN104462459A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605653A (zh) * | 2013-09-29 | 2014-02-26 | 广西师范大学 | 基于稀疏哈希的大数据检索方法 |
CN104123395A (zh) * | 2014-08-13 | 2014-10-29 | 北京赛科世纪数码科技有限公司 | 一种基于大数据的决策方法和系统 |
Non-Patent Citations (2)
Title |
---|
唐云 等: ""基于粗糙集和BP神经网络的文本分类研究"", 《计算机仿真》 * |
梁辰 等: ""粗糙理论在神经网络模式识别中的应用"", 《兵工自动化》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106855863A (zh) * | 2015-12-09 | 2017-06-16 | 上海渤元信息科技有限公司 | 一种新的大数据分析算法 |
CN105553778A (zh) * | 2015-12-30 | 2016-05-04 | 芜湖乐锐思信息咨询有限公司 | 基于神经网络的互联网信息分类系统 |
CN105673908A (zh) * | 2016-03-10 | 2016-06-15 | 浙江大学 | 基于神经网络和单片机的智能节水水龙头 |
CN105673908B (zh) * | 2016-03-10 | 2018-05-15 | 浙江大学 | 基于神经网络和单片机的智能节水水龙头 |
CN105911476A (zh) * | 2016-04-13 | 2016-08-31 | 华北电力大学 | 一种基于数据挖掘的电池储能系统soc预测方法 |
WO2017177442A1 (zh) * | 2016-04-15 | 2017-10-19 | 北京中科寒武纪科技有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
CN106652453A (zh) * | 2016-12-28 | 2017-05-10 | 芜湖乐锐思信息咨询有限公司 | 基于神经网络的交通信息管理系统 |
CN106777264A (zh) * | 2016-12-28 | 2017-05-31 | 芜湖乐锐思信息咨询有限公司 | 远程行车信息处理系统 |
CN106790140A (zh) * | 2016-12-28 | 2017-05-31 | 芜湖乐锐思信息咨询有限公司 | 高效在线协作的数据处理系统 |
CN107621979A (zh) * | 2017-10-27 | 2018-01-23 | 郑金林 | 一种学生发展档案大数据算法与分析系统 |
CN107977456A (zh) * | 2017-12-15 | 2018-05-01 | 清华大学 | 一种基于多任务深度网络的多源大数据分析方法 |
CN107977456B (zh) * | 2017-12-15 | 2018-10-30 | 清华大学 | 一种基于多任务深度网络的多源大数据分析方法 |
CN108874973A (zh) * | 2018-06-08 | 2018-11-23 | 江苏中威科技软件系统有限公司 | 基于大数据平台进行数据处理的系统及方法 |
WO2020140419A1 (zh) * | 2019-01-04 | 2020-07-09 | 烽火通信科技股份有限公司 | 网络流量增量统计、分析方法及系统 |
CN111628866A (zh) * | 2020-05-22 | 2020-09-04 | 深圳前海微众银行股份有限公司 | 神经网络校验方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462459A (zh) | 基于神经网络的大数据分析处理系统及方法 | |
Boughida et al. | A novel approach for facial expression recognition based on Gabor filters and genetic algorithm | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
Leng et al. | A 3D model recognition mechanism based on deep Boltzmann machines | |
CN105488563A (zh) | 面向深度学习的稀疏自适应神经网络、算法及实现装置 | |
CN109389151A (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN103164701B (zh) | 手写体数字识别方法及装置 | |
CN101916369B (zh) | 基于核最近子空间的人脸识别方法 | |
CN107957946A (zh) | 基于邻域嵌入保护算法支持向量机的软件缺陷预测方法 | |
CN102651072A (zh) | 一种面向三维人体运动数据的分类方法 | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
CN114463036A (zh) | 一种信息处理方法及装置、存储介质 | |
Can et al. | Evaluating shape representations for Maya glyph classification | |
Park | A feature selection method using hierarchical clustering | |
Cerkezi et al. | Towards more discriminative features for texture recognition | |
CN105069402A (zh) | 一种面向人脸识别的改进鲁棒稀疏编码算法 | |
CN117152823A (zh) | 一种基于动态空洞卷积金字塔注意力的多任务年龄估计方法 | |
CN112329918A (zh) | 一种基于注意力机制的对抗正则化网络嵌入方法 | |
Mengash et al. | Search and Rescue Optimization with Machine Learning Enabled Cybersecurity Model. | |
CN116738331A (zh) | 基于多维度特征融合和残差图神经网络的社交机器人检测方法及装置 | |
CN106855863A (zh) | 一种新的大数据分析算法 | |
CN115995029A (zh) | 一种基于双向连接的图像情感分析方法 | |
CN104200222A (zh) | 一种基于因子图模型的图片中对象识别方法 | |
Deng et al. | Image Classification Method of Longhorn Beetles of Yunnan Based on Bagging and CNN | |
Tanaka et al. | Practical approach to evacuation planning via network flow and deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150325 |