CN105512330A - 一种基于大数据的计算机数据挖掘分类方法 - Google Patents
一种基于大数据的计算机数据挖掘分类方法 Download PDFInfo
- Publication number
- CN105512330A CN105512330A CN201510990612.4A CN201510990612A CN105512330A CN 105512330 A CN105512330 A CN 105512330A CN 201510990612 A CN201510990612 A CN 201510990612A CN 105512330 A CN105512330 A CN 105512330A
- Authority
- CN
- China
- Prior art keywords
- point
- data
- sequence
- greaterequal
- cap
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Abstract
本发明公开了一种基于大数据的计算机数据挖掘分类方法,该基于大数据的计算机数据挖掘分类方法通过对输入大数据样本集进行去噪、归一化处理,得到归一化后的时间序列数据;然后对区域极值点进行提取,得到区域极值点序列,对极值点序列进行等长处理和距离计算;再采用贝叶斯分类法对区域极值点序列进行分类,最后输出大数据样本集分类结果。该方法能够有效地对大数据样本集进行数据挖掘分类,采用了按时间序列进行预处理和对区域极值点提取法,提高了分类的性能,便于高效精确地对大数据样本进行快速分类。
Description
技术领域
本发明涉及计算机数据挖掘技术的领域,尤其是涉及一种基于大数据的计算机数据挖掘分类方法。
背景技术
随着社会信息化的不断发展,信息技术应用领域的不断拓展,各个应用领域包括经济、医疗、建筑、环境等均积累了越来越多的数据。自上世纪八十年代开始,世界各地的数据总量飞速增长,甚至几个月就会增长一倍,然而如何有效的利用、分析这些数据信息,并从中获取其隐藏的有用信息,则成了一个巨大的挑战。在这些海量的数据中,有一部分数据是按时间顺序有序排列的,这类数据便称之为时间序列(TimeSeries)。各个应用领域中均存在时间序列,通过深入研究这些时间序列,发现序列背后所隐藏的潜在规律以及有价值的信息具有重大的社会意义和经济价值。
近年来,随着数据量的增加,一些数据分析方法无法有效提取出更多有价值的数据信息,因此一种新的数据分析方法——数据挖掘(DataMining)技术便产生了。数据挖掘技术不仅能分析已有的数据,还可从原有数据中预测未来未知的信息,譬如,通过数据挖掘可以预测到下月某商场的销售量等。何为数据挖掘?数据挖掘可以以许多不同的形式被定义,简单来说,数据挖掘就是从海量的数据信息中提取出有价值的信息,原有的数据大部分是有模糊噪声的数据,但在这些数据中又存在着很多潜在价值。挖掘的过程是通过利用各个领域的技术知识对海量数据进行处理分析,挖掘出可以有益于人们进行更高层次的分析决策的内容。
目前,虽然国内外对数据挖掘的研究已取得不少的成果,但对各个应用领域的时间序列的挖掘却没有通用性,譬如对金融领域的数据挖掘的方法在医疗领域应用时所得到的性能效果不是很好。现在大多数的方法可能只是在某一个方面表现出较为良好的性能,而不能在其他各个方面综合起来有一个很好的性能。显然,以往对时间序列的研究还是存在着一些不足的,对于不同领域的时间序列挖掘问题,传统的挖掘方法己不适用,需寻求一些新的技术和方法。
发明内容
本发明的目的是克服背景技术中存在的技术缺陷,提供一种基于大数据的计算机数据挖掘分类方法,使其能够有效地对大数据样本集进行数据挖掘分类,提高分类的性能,便于高效精确地对大数据样本进行快速分类。
为了实现上述目的,本发明提供了一种基于大数据的计算机数据挖掘分类方法,该方法包括如下步骤:
步骤1:输入给定大数据样本集X,其中X={x1,x2,…,xn};
步骤2:按时间序列进行去噪、归一化处理,得到归一化后的时间序列数据X',其中X'={(t1,x1)(t2,x2)…(tn,xn)};
步骤3:对区域极值点进行提取,得到区域极值点序列f(xi,R),其区域极值点序列f(xi,R)表示为:
其中,f(xi,R)为区域极值点序列,R表示在给定时间序列X'中,以某一点o(ti,xi)为中心,分别向前、后寻找时间点的个数所作的区域半径;xi-1表示xi点之前的一个时间点数据,xi+1表示xi点之后的一个时间点数据,f(xi,1)表示点o(ti,xi)在半径为R=1的区域内的数值特征,其中取值1表示点为区域极大值点,-1表示点为区域极小值点,0表示一般点;
步骤4:对极值点序列进行等长处理和距离计算;
步骤5:采用贝叶斯分析法对区域极值点序列进行分类;
步骤6:输出大数据样本集分类结果。
与现有技术相比,本发明的主要优势在于:
本发明提供了一种基于大数据的计算机数据挖掘分类方法,该基于大数据的计算机数据挖掘分类方法通过对输入大数据样本集进行去噪、归一化处理,得到归一化后的时间序列数据;然后对区域极值点进行提取,得到区域极值点序列,对极值点序列进行等长处理和距离计算;再采用贝叶斯分类法对区域极值点序列进行分类,最后输出大数据样本集分类结果。该方法能够有效地对大数据样本集进行数据挖掘分类,采用了按时间序列进行预处理和对区域极值点提取法,提高了分类的性能,便于高效精确地对大数据样本进行快速分类。
附图说明
图1为本发明的实现原理框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明,以便本领域的技术人员更好地理解本发明。
如图1所示,是本发明所述的一种基于大数据的计算机数据挖掘分类方法的具体实施方式,其具体实施步骤为:
步骤1:输入给定大数据样本集X,其中X={x1,x2,…,xn};
步骤2:按时间序列进行去噪、归一化处理,得到归一化后的时间序列数据X',其中X'={(t1,x1)(t2,x2)…(tn,xn)};
步骤3:对区域极值点进行提取,得到区域极值点序列f(xi,R),其区域极值点序列f(xi,R)表示为:
其中,f(xi,R)为区域极值点序列,R表示在给定时间序列X'中,以某一点o(ti,xi)为中心,分别向前、后寻找时间点的个数所作的区域半径;xi-1表示xi点之前的一个时间点数据,xi+1表示xi点之后的一个时间点数据,f(xi,1)表示点o(ti,xi)在半径为R=1的区域内的数值特征,其中取值1表示点为区域极大值点,-1表示点为区域极小值点,0表示一般点;
步骤4:对极值点序列进行等长处理和距离计算;
步骤5:采用贝叶斯分析法对区域极值点序列进行分类;
步骤6:输出大数据样本集分类结果。
本发明提供了一种基于大数据的计算机数据挖掘分类方法,该基于大数据的计算机数据挖掘分类方法通过对输入大数据样本集进行去噪、归一化处理,得到归一化后的时间序列数据;然后对区域极值点进行提取,得到区域极值点序列,对极值点序列进行等长处理和距离计算;再采用贝叶斯分类法对区域极值点序列进行分类,最后输出大数据样本集分类结果。该方法能够有效地对大数据样本集进行数据挖掘分类,采用了按时间序列进行预处理和对区域极值点提取法,提高了分类的性能,便于高效精确地对大数据样本进行快速分类。
以上实施方式仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (1)
1.一种基于大数据的计算机数据挖掘分类方法,其特征在于,该方法包括以下步骤:
步骤1:输入给定大数据样本集X,其中X={x1,x2,…,xn};
步骤2:按时间序列进行去噪、归一化处理,得到归一化后的时间序列数据X',其中X'={(t1,x1)(t2,x2)…(tn,xn)};
步骤3:对区域极值点进行提取,得到区域极值点序列f(xi,R),其区域极值点序列f(xi,R)表示为:
其中,f(xi,R)为区域极值点序列,R表示在给定时间序列X'中,以某一点o(ti,xi)为中心,分别向前、后寻找时间点的个数所作的区域半径;xi-1表示xi点之前的一个时间点数据,xi+1表示xi点之后的一个时间点数据,f(xi,1)表示点o(ti,xi)在半径为R=1的区域内的数值特征,其中取值1表示点为区域极大值点,-1表示点为区域极小值点,0表示一般点;
步骤4:对极值点序列进行等长处理和距离计算;
步骤5:采用贝叶斯分析法对区域极值点序列进行分类;
步骤6:输出大数据样本集分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510990612.4A CN105512330A (zh) | 2015-12-25 | 2015-12-25 | 一种基于大数据的计算机数据挖掘分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510990612.4A CN105512330A (zh) | 2015-12-25 | 2015-12-25 | 一种基于大数据的计算机数据挖掘分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105512330A true CN105512330A (zh) | 2016-04-20 |
Family
ID=55720310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510990612.4A Pending CN105512330A (zh) | 2015-12-25 | 2015-12-25 | 一种基于大数据的计算机数据挖掘分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105512330A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150364A (zh) * | 2013-03-04 | 2013-06-12 | 福建师范大学 | 一种时间序列特征提取方法 |
CN103279679A (zh) * | 2013-06-09 | 2013-09-04 | 浪潮电子信息产业股份有限公司 | 一种基于链式可重写窗口的数据流在线预测方法 |
-
2015
- 2015-12-25 CN CN201510990612.4A patent/CN105512330A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150364A (zh) * | 2013-03-04 | 2013-06-12 | 福建师范大学 | 一种时间序列特征提取方法 |
CN103279679A (zh) * | 2013-06-09 | 2013-09-04 | 浪潮电子信息产业股份有限公司 | 一种基于链式可重写窗口的数据流在线预测方法 |
Non-Patent Citations (1)
Title |
---|
孙雅: "时间序列数据挖掘的关键技术及其应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102662952B (zh) | 一种基于层次的中文文本并行数据挖掘方法 | |
CN103164540B (zh) | 一种专利热点发现与趋势分析方法 | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
CN109117464B (zh) | 一种基于编辑距离的数据相似度检测方法 | |
CN106384050B (zh) | 一种基于最大频繁子图挖掘的动态污点分析方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN104484343A (zh) | 一种对微博进行主题发现与追踪的方法 | |
CN104794195A (zh) | 一种用于电信潜在换机用户发现的数据挖掘方法 | |
Nam et al. | Efficient approach for damped window-based high utility pattern mining with list structure | |
CN104504024A (zh) | 基于微博内容的关键词挖掘方法及系统 | |
CN110555305A (zh) | 基于深度学习的恶意应用溯源方法及相关装置 | |
Park et al. | Future sign detection in smart grids through text mining | |
CN105989287A (zh) | 一种海量恶意样本同源性判定方法及系统 | |
AU2012393536B2 (en) | System, method and computer program product for multivariate statistical validation of well treatment and stimulation data | |
CN104462041A (zh) | 一种实现对热点事件从开始到结束实现完整检测的方法 | |
CN104317794A (zh) | 基于动态项权值的中文特征词关联模式挖掘方法及其系统 | |
CN107748755A (zh) | 同义词挖掘方法、装置、设备和计算机可读存储介质 | |
CN105631475A (zh) | 一种基于时间序列的计算机数据挖掘聚类方法 | |
CN104765852A (zh) | 大数据背景下基于模糊算法的数据挖掘方法 | |
CN104484409A (zh) | 用于大数据处理的数据挖掘方法 | |
Tao et al. | A new productivity prediction hybrid model for multi-fractured horizontal wells in tight oil reservoirs | |
CN105512330A (zh) | 一种基于大数据的计算机数据挖掘分类方法 | |
CN106326746A (zh) | 一种恶意程序行为特征库构建方法及装置 | |
CN110837593A (zh) | 一种基于聚焦爬虫技术的旅游跟踪系统 | |
CN105159886A (zh) | 一种基于凭证摘要文本的孤立点检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160420 |
|
WD01 | Invention patent application deemed withdrawn after publication |