CN111125198A - 一种基于时间序列的计算机数据挖掘聚类方法 - Google Patents

一种基于时间序列的计算机数据挖掘聚类方法 Download PDF

Info

Publication number
CN111125198A
CN111125198A CN201911373573.8A CN201911373573A CN111125198A CN 111125198 A CN111125198 A CN 111125198A CN 201911373573 A CN201911373573 A CN 201911373573A CN 111125198 A CN111125198 A CN 111125198A
Authority
CN
China
Prior art keywords
data
information
clustering
time series
calling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911373573.8A
Other languages
English (en)
Inventor
郭柯卿
黄玉划
王娜
蓝天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201911373573.8A priority Critical patent/CN111125198A/zh
Publication of CN111125198A publication Critical patent/CN111125198A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机数据挖掘聚类技术领域,公开了一种基于时间序列的计算机数据挖掘聚类方法,该方法具体包括如下步骤:步骤1:输入给定的特征样本a和b,并对获取到的特征样本进行预处理,得到相应的数据调用信息;步骤2:对时间序列下的a和b进行极值点求取,得到极值点序列a’和b’,并将类距离最大的两组进行合并处理,合并后类别数相应地减少一个;该方法能够有效地处理数据量大、纬度高的时间序列数据,操作过程中较为简易,能够高效地进行数据挖掘聚类,适用性得到了显著的提升,同时该方法根据量化后的元素来得到数据调用的相似程度,并根据数据调用的相似度来得到系统调用序列的相似度,可以增加取得的数据调用信息的精准度。

Description

一种基于时间序列的计算机数据挖掘聚类方法
技术领域
本发明涉及计算机数据挖掘聚类技术领域,具体是一种基于时间序列的计算机数据挖掘聚类方法。
背景技术
数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材,数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像和视频等。数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才成为信息,在计算机系统中,数据以二进制信息单元0.1的形式表示。
时间序列是指按时间顺序排列的一组数据,是一类重要的复杂数据对象。作为数据库中的一种数据形式,它广泛存在于各种大型的商业、社会科学、医学和工程等数据库中,如股票价格、各种汇率、销售数量、产品的生产能力和天气数据等。大量时间序列数据真实地记录了系统在各个时刻的所有重要信息,提出某种高效的数据处理方法,同时理清各时间序列之间的关联,将极大提高人们对这类系统的认识和理解,进而进行有效的预测和控制。时间序列数据挖掘(Time Series Data Mining,TSDM)就是要从大量的时间序列数据中提取人们事先不知道的、与时间属性相关的有用信息和知识,用于指导人们的社会、经济、军事和生活等活动。时间序列挖掘对人类社会、科技和经济的发展具有重大意义,正逐渐成为数据挖掘的研究热点之一。
虽然现在国内外对数据挖掘的研究已经取得不少的成果,但是对各个应用领域的时间序列的挖掘却没有通用性,无法取得针对性的进展。因此,本领域技术人员提供了一种基于时间序列的计算机数据挖掘聚类方法,以解决上述背景技术中提出的问题。
发明内容
[发明目的]本领域技术人员提供了一种基于时间序列的计算机数据挖掘聚类方法,用来解决对各个应用领域的时间序列的数据挖掘没有通用性、效率低的问题,并且预测未来发展趋势,或者寻找相似发展模式或者是发现周期性发展规律等,使得能够在海量数据中挖掘潜在的有用的信息。
[技术方案]本发明方案主要包括以下内容:
一种基于时间序列的计算机数据挖掘聚类方法,该方法具体包括如下步骤:
步骤1:输入给定的特征样本a和b,并对获取到的特征样本进行预处理,得到相应的数据调用信息;
步骤2:对时间序列下的a和b进行极值点求取,得到极值点序列a’和b’,并将类距离最大的两组进行合并处理,合并后类别数相应地减少一个;
步骤3:将上述的数据调用信息进行分类,构建出相应的三元组模型,并将三元组模型中的元素进行量化处理,同时还应根据量化后的元素来得到数据调用的相似程度,并根据数据调用的相似度来得到系统调用序列的相似度;
步骤4:将上述的数据调用信息进行大数据切分,并得出切分后的多个数据模块,将得出的多个数据模块存储到云平台的文件系统HDFS中,并通过Hadoop来负责管理和协调切分后的数据模块;
步骤5:将上述的数据模块映射到步骤2中的极值点序列a’和b’上,即每个数据模块映射到一个超图上,并通过超图对每个数据模块分别进行聚类处理;
步骤6:对步骤5得到的每个数据模块的聚类结果进行再次聚类,最后即可得到理想的聚类结果。
作为本发明再进一步的方案:所述步骤1中获取到的特征样本预处理,是通过填写缺失值、噪声数据光滑化和识别删除离群点将现实世界的数据信息进行处理,并将来自不同数据源的数据信息进行规范化排列后再次整理,并将其转换为标准格式下的数据应用模式中投入应用。
作为本发明再进一步的方案:所述步骤1中获取到的特征样本预处理还包括对所述特征样本信息进行二进制插桩,并得出相应的数据调用信息,并对得出的数据调用信息进行紧急存储和记录处理。
作为本发明再进一步的方案:所述步骤5中的超图模型,具体包括:建立带权的超图H=(V,E),其中,V是顶点的集合,E是超边的集合,每个超边都能够连接两个以上的顶点,用超图的顶点来表示用来聚类的数据项,用超边来表示其所连接的顶点所表示的数据项的关联情况,并以此来衡量由超边连接起来的多个相关数据项之间的相关程度。
作为本发明再进一步的方案:所述步骤4在将得出的多个数据模块存储到云平台的文件系统HDFS中后,还应创建文件数据集来用于存放文件数据信息,并创建元数据集用于存储文件数据信息的元数据项。
[有益效果]本发明通过对数据调用信息进行分类,构建出相应的三元组模型,并将三元组模型中的元素进行量化处理,并根据数据调用的相似度来得到系统调用序列的相似度,并将取得的数据调用信息进行大数据切分,并得出切分后的多个数据模块,将数据模块映射到极值点序列a’和b’上,并通过超图对每个数据模块分别进行聚类处理,最后得到的每个数据模块的聚类结果进行再次聚类,最后即可得到理想的聚类结果,该方法能够有效地处理数据量大、纬度高的时间序列数据,操作过程中较为简易,能够高效地进行数据挖掘聚类,适用性得到了显著的提升,同时该方法根据量化后的元素来得到数据调用的相似程度,并根据数据调用的相似度来得到系统调用序列的相似度,可以增加取得的数据调用信息的精准度,降低误差。
[附图说明]
图1为步骤流程图。
[具体实施方式]
本发明实施例中,一种基于时间序列的计算机数据挖掘聚类方法,该方法具体包括如下步骤:
步骤1:输入给定的特征样本a和b,并对获取到的特征样本进行预处理,得到相应的数据调用信息;
步骤2:对时间序列下的a和b进行极值点求取,得到极值点序列a’和b’,并将类距离最大的两组进行合并处理,合并后类别数相应地减少一个;
步骤3:将上述的数据调用信息进行分类,构建出相应的三元组模型,并将三元组模型中的元素进行量化处理,同时还应根据量化后的元素来得到数据调用的相似程度,并根据数据调用的相似度来得到系统调用序列的相似度;
步骤4:将上述的数据调用信息进行大数据切分,并得出切分后的多个数据模块,将得出的多个数据模块存储到云平台的文件系统HDFS中,并通过Hadoop来负责管理和协调切分后的数据模块;
步骤5:将上述的数据模块映射到步骤2中的极值点序列a’和b’上,即每个数据模块映射到一个超图上,并通过超图对每个数据模块分别进行聚类处理;
步骤6:对步骤5得到的每个数据模块的聚类结果进行再次聚类,最后即可得到理想的聚类结果。
优选的:步骤1中获取到的特征样本预处理,是通过填写缺失值、噪声数据光滑化和识别删除离群点将现实世界的数据信息进行处理,并将来自不同数据源的数据信息进行规范化排列后再次整理,并将其转换为标准格式下的数据应用模式中投入应用。
优选的:步骤1中获取到的特征样本预处理还包括对特征样本信息进行二进制插桩,并得出相应的数据调用信息,并对得出的数据调用信息进行紧急存储和记录处理。
优选的:步骤5中的超图模型,具体包括:建立带权的超图H=(V,E),其中,V是顶点的集合,E是超边的集合,每个超边都能够连接两个以上的顶点,用超图的顶点来表示用来聚类的数据项,用超边来表示其所连接的顶点所表示的数据项的关联情况,并以此来衡量由超边连接起来的多个相关数据项之间的相关程度。
优选的:步骤4在将得出的多个数据模块存储到云平台的文件系统HDFS中后,还应创建文件数据集来用于存放文件数据信息,并创建元数据集用于存储文件数据信息的元数据项。
以上的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于时间序列的计算机数据挖掘聚类方法,其特征在于,该方法具体包括如下步骤:
步骤1:输入给定的特征样本a和b,并对获取到的特征样本进行预处理,得到相应的数据调用信息;
步骤2:对时间序列下的a和b进行极值点求取,得到极值点序列a’和b’,并将类距离最大的两组进行合并处理,合并后类别数相应地减少一个;
步骤3:将上述的数据调用信息进行分类,构建出相应的三元组模型,并将三元组模型中的元素进行量化处理,同时还应根据量化后的元素来得到数据调用的相似程度,并根据数据调用的相似度来得到系统调用序列的相似度;
步骤4:将上述的数据调用信息进行大数据切分,并得出切分后的多个数据模块,将得出的多个数据模块存储到云平台的文件系统HDFS中,并通过Hadoop来负责管理和协调切分后的数据模块;
步骤5:将上述的数据模块映射到步骤2中的极值点序列a’和b’上,即每个数据模块映射到一个超图上,并通过超图对每个数据模块分别进行聚类处理;
步骤6:对步骤5得到的每个数据模块的聚类结果进行再次聚类,最后即可得到理想的聚类结果。
2.根据权利要求1所述的一种基于时间序列的计算机数据挖掘聚类方法,其特征在于,所述步骤1中获取到的特征样本预处理,是通过填写缺失值、噪声数据光滑化和识别删除离群点将现实世界的数据信息进行处理,并将来自不同数据源的数据信息进行规范化排列后再次整理,并将其转换为标准格式下的数据应用模式中投入应用。
3.根据权利要求1所述的一种基于时间序列的计算机数据挖掘聚类方法,其特征在于,所述步骤1中获取到的特征样本预处理还包括对所述特征样本信息进行二进制插桩,并得出相应的数据调用信息,并对得出的数据调用信息进行紧急存储和记录处理。
4.根据权利要求1所述的一种基于时间序列的计算机数据挖掘聚类方法,其特征在于,所述步骤5中的超图模型,具体包括:建立带权的超图H=(V,E),其中,V是顶点的集合,E是超边的集合,每个超边都能够连接两个以上的顶点,用超图的顶点来表示用来聚类的数据项,用超边来表示其所连接的顶点所表示的数据项的关联情况,并以此来衡量由超边连接起来的多个相关数据项之间的相关程度。
5.根据权利要求1所述的一种基于时间序列的计算机数据挖掘聚类方法,其特征在于,所述步骤4在将得出的多个数据模块存储到云平台的文件系统HDFS中后,还应创建文件数据集来用于存放文件数据信息,并创建元数据集用于存储文件数据信息的元数据项。
CN201911373573.8A 2019-12-27 2019-12-27 一种基于时间序列的计算机数据挖掘聚类方法 Pending CN111125198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911373573.8A CN111125198A (zh) 2019-12-27 2019-12-27 一种基于时间序列的计算机数据挖掘聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911373573.8A CN111125198A (zh) 2019-12-27 2019-12-27 一种基于时间序列的计算机数据挖掘聚类方法

Publications (1)

Publication Number Publication Date
CN111125198A true CN111125198A (zh) 2020-05-08

Family

ID=70503756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911373573.8A Pending CN111125198A (zh) 2019-12-27 2019-12-27 一种基于时间序列的计算机数据挖掘聚类方法

Country Status (1)

Country Link
CN (1) CN111125198A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032384A (zh) * 2021-04-22 2021-06-25 上海四卜格网络科技有限公司 一种大数据数据颗粒算法系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809244A (zh) * 2015-05-15 2015-07-29 成都睿峰科技有限公司 一种大数据环境下的数据挖掘方法和装置
CN104820708A (zh) * 2015-05-15 2015-08-05 成都睿峰科技有限公司 一种基于云计算平台的大数据聚类方法和装置
CN105631475A (zh) * 2015-12-25 2016-06-01 石成富 一种基于时间序列的计算机数据挖掘聚类方法
CN106650446A (zh) * 2016-12-26 2017-05-10 北京邮电大学 基于系统调用的恶意程序行为识别方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809244A (zh) * 2015-05-15 2015-07-29 成都睿峰科技有限公司 一种大数据环境下的数据挖掘方法和装置
CN104820708A (zh) * 2015-05-15 2015-08-05 成都睿峰科技有限公司 一种基于云计算平台的大数据聚类方法和装置
CN105631475A (zh) * 2015-12-25 2016-06-01 石成富 一种基于时间序列的计算机数据挖掘聚类方法
CN106650446A (zh) * 2016-12-26 2017-05-10 北京邮电大学 基于系统调用的恶意程序行为识别方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032384A (zh) * 2021-04-22 2021-06-25 上海四卜格网络科技有限公司 一种大数据数据颗粒算法系统
CN113032384B (zh) * 2021-04-22 2024-04-12 上海四卜格网络科技有限公司 一种大数据数据颗粒计算系统

Similar Documents

Publication Publication Date Title
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
WO2021169842A1 (zh) 数据更新方法、装置、电子设备及计算机可读存储介质
CN112069319A (zh) 文本抽取方法、装置、计算机设备和可读存储介质
CN112199532A (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN116662839A (zh) 基于多维智能采集的关联大数据聚类分析方法及装置
CN116701979A (zh) 基于受限k-均值的社交网络数据分析方法及系统
CN113157853B (zh) 问题挖掘方法、装置、电子设备及存储介质
CN111125198A (zh) 一种基于时间序列的计算机数据挖掘聚类方法
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
CN112182273A (zh) 基于语义约束矩阵分解哈希的跨模态检索方法及其系统
CN110968596A (zh) 一种基于标签系统的数据处理方法
CN114880690A (zh) 一种基于边缘计算的源数据时序精化方法
CN111813555B (zh) 基于互联网技术的超融合基础架构分层资源管理系统
CN115331754A (zh) 基于哈希算法的分子分类方法
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN114528944A (zh) 一种医疗文本编码方法、装置、设备及可读存储介质
CN113886602A (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN113792794A (zh) 一种基于膜算法的特征选择方法
CN112580505A (zh) 网点开关门状态识别方法、装置、电子设备及存储介质
CN112445939A (zh) 一种社交网络群体发现系统、方法及存储介质
CN117009921B (zh) 一种数据融合引擎的优化数据处理方法及系统
CN111026745A (zh) 一种基于用户浏览轨迹推的大数据建模系统
CN110765173A (zh) 一种大数据环境下的数据管理方法及系统
CN111401519B (zh) 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法
CN113343638B (zh) 面向精细化内容重组的服务内容多重语义自动编码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200508