CN104281891A - 一种时间序列数据挖掘方法及系统 - Google Patents
一种时间序列数据挖掘方法及系统 Download PDFInfo
- Publication number
- CN104281891A CN104281891A CN201410537853.9A CN201410537853A CN104281891A CN 104281891 A CN104281891 A CN 104281891A CN 201410537853 A CN201410537853 A CN 201410537853A CN 104281891 A CN104281891 A CN 104281891A
- Authority
- CN
- China
- Prior art keywords
- similarity
- sequence
- time
- time series
- sample point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种时间序列数据挖掘方法及系统,该方法包括以下步骤:对原始数据进行划分,并进行平滑处理,形成临时表;按时间序列相似性度量聚类,形成不同类别;对不同类别进行单条时间序列模式发现,生成不同元模式集;对不同元模式集进行同类别多条时间序列模式发现,生成时间序列频繁模式;利用时间序列频繁模式预测产品价格变化。本发明为中小企业提供企业产品价格、原材料市场库存等变化规律发现和预测。
Description
技术领域
本发明涉及数据网络技术领域,尤其涉及一种时间序列数据挖掘方法及系统。
背景技术
竞争情报的定义可概括为一个地区或企业为了取得市场竞争优势,对竞争环境、竞争对手进行合法的情报研究,结合本地区或企业进行量化分析对比,由此得出提高竞争力的策略和方法。竞争情报主要包括三个要素:本企业和竞争对手、竞争环境(包括政策、市场、技术等)、竞争策略。
目前国内竞争情报系统的提厂商一般把信息检索作为重要环节,主要支持信息采集、管理、发布等流程处理。例如,在企业经营活动中,经常需要对多个时间序列进行分析,发现不同时间序列间可能存在的关联关系。这种关联关系一般表现为不同序列中频繁地同时或依次出现的变化模式。发现这种多时间序列中的频繁结构模式对于人们更彻底的认识各个时间序列的相互影响并据此做出合理的决策具有重要的参考价值。
然而,目前的竞争情报系统比较适合于大型企业,建立自己的情报部门,管理和分析竞争情报。而广大中小企业,由于没有独立的情报部门,缺乏情报人员和分析手段,对这些竞争情报系统收集来的情报无法有效分析利用。中小企业竞争情报部门全职人员较少,同时中小企业竞争情报人员常用的分析方法不多,主要是由于中小企业缺乏高素质的专职竞争情报人员,竞争情报人员的知识结构普遍比较单一,且多缺乏市场营销、企业管理等相关领域的知识,情报分析预测能力较差。
发明内容
为了解决背景技术中存在的技术问题,本发明提出了一种时间序列数据挖掘方法及系统,为中小企业提供企业产品价格、原材料市场库存等变化规律发现和预测。
本发明提出的一种时间序列数据挖掘方法,包括以下步骤:
对原始数据进行划分,并进行平滑处理,形成临时表;
按时间序列相似性度量聚类,形成不同类别;
对不同类别进行单条时间序列模式发现,生成不同元模式集;
对不同元模式集进行同类别多条时间序列模式发现,生成时间序列频繁模式;
利用时间序列频繁模式预测产品价格变化。
优选地,所述按时间序列相似性度量聚类中,时间序列是将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。
优选地,通过构造序列的投影树压缩时间序列,然后搜索频繁模式,由树根开始搜索,采用深度优化策略遍历树。
优选地,聚类通常按照对象间的相似性进行分组,两个对象的相似度是指它们在欧氏空间中的互相邻近的程度,或两个对象的相似度是与它们取值相同的属性的个数有关。
优选地,所述聚类样本点之间的亲疏远近程度主要有以下两类函数:
相似系数函数:两个样本点愈相似,则相似系数值愈接近1;样本点愈不相似,则相似系数值愈接近0;
距离函数:可以把每个样本点看作高维空间中的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,距离较远的样本点则差异较大。
本发明提出的一种时间序列数据挖掘系统,包括:
划分模块,用于对原始数据进行划分,并进行平滑处理,形成临时表;
聚类模块,与所述划分模块连接,用于按时间序列相似性度量聚类,形成不同类别;
元模式集生成模块,与所述聚类模块连接,用于对不同类别进行单条时间序列模式发现,生成不同元模式集;
频繁模式生成模块,与所述元模式集生成模块连接,用于对不同元模式集进行同类别多条时间序列模式发现,生成时间序列频繁模式;
预测模块,与所述频繁模式生成模块连接,用于利用时间序列频繁模式预测产品价格变化。
优选地,所述按时间序列相似性度量聚类中,时间序列是将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。
优选地,通过构造序列的投影树压缩时间序列,然后搜索频繁模式,由树根开始搜索,采用深度优化策略遍历树。
优选地,聚类通常按照对象间的相似性进行分组,两个对象的相似度是指它们在欧氏空间中的互相邻近的程度,或两个对象的相似度是与它们取值相同的属性的个数有关。
优选地,所述聚类样本点之间的亲疏远近程度主要有以下两类函数:
相似系数函数:两个样本点愈相似,则相似系数值愈接近1;样本点愈不相似,则相似系数值愈接近0;
距离函数:可以把每个样本点看作高维空间中的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,距离较远的样本点则差异较大。
本发明中,从多个时间序列找出相同的或相似的变化模式,用以发现企业产品、原材料价格或库存等变化规律,预测其走势。
附图说明
图1为本发明实施例提出的一种时间序列数据挖掘方法流程图;
图2为本发明实施例提出的一种时间序列数据挖掘系统结构图。
具体实施方式
如图1所示,本发明实施例提出了一种时间序列数据挖掘方法,包括以下步骤:
S1,对原始数据进行划分,并进行平滑处理,形成临时表。
例如,将产品价格、原材料价格、库存等用户感兴趣的数据变化规律和走势生成图表,使用户清晰明了的知道价格等数据的变化。对于企业来说,将产品推广出去是第一要务,及时发现潜在客户和潜在销售机会,能帮助销售人员在第一时间抓住客户,极大的促进企业打开销路。
S2,按时间序列相似性度量聚类,形成不同类别。其中,时间序列是将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。时间序列受到各种偶然因素的影响,往往表现出某种随机性,彼此之间存在着统计上的依赖关系。如果对某一过程中的某个变量或一组变量,X(t)进行观察测量,在一系列时刻t1,t2,......,tn,(t为自变量,且t1<t2<......<tn)得到的离散有序集合X(t1),X(t2),......,X(tn)称为离散数字时间序列。另外,可以通过构造序列的投影树压缩时间序列,然后搜索频繁模式,由树根开始搜索,采用深度优化策略遍历树。
时序挖掘从多个时间序列找出相同的或相似的变化模式,用以发现企业产品、原材料价格或库存等变化规律,预测其走势。为了进行深度挖掘,必须先对数据分类,例如按市场、省份划分成一系列的时间序列,对这些时间序列进行平滑处理,再进行聚类分析,对属于同一类的这些时间序列,挖掘其潜在模式。
其中,相似性的度量方法很多,有的用于专门领域,也有的适用于特定类型的数据。聚类通常按照对象间的相似性进行分组,因此如何描述对象间相似性是聚类的重要问题。数据的类型不同,相似性的含义也不同。例如,对数值型数据而言,两个对象的相似度是指它们在欧氏空间中的互相邻近的程度;而对分类型数据来说,两个对象的相似度是与它们取值相同的属性的个数有关。聚类分析按照样本点之间的亲疏远近程度进行分类。为了使类分得合理,必须描述样本之间的亲疏远近程度,刻画聚类样本点之间的亲疏远近程度主要有以下两类函数:
(1)相似系数函数:两个样本点愈相似,则相似系数值愈接近1;样本点愈不相似,则相似系数值愈接近0。这样就可以使用相似系数值来刻画样本点性质的相似性。
(2)距离函数:可以把每个样本点看作高维空间中的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,距离较远的样本点则差异较大。
S3,对不同类别进行单条时间序列模式发现,生成不同元模式集。
S4,对不同元模式集进行同类别多条时间序列模式发现,生成时间序列频繁模式。
S5,利用时间序列频繁模式预测产品价格变化。时间序列是一组有序的随着时间改变的序列值或事件,而时序数据库是由时间序列组成的数据库。时序数据库广泛运用于各种领域,例如:科学实验的数据分析、股票市场的波动分析等。为了进行预测,首先必须建立一个适当的预测模型。因此,如何从时序数据中挖掘出时序模式,就成为一个重要的研究课题。
如图2所示,本发明实施例提出了一种时间序列数据挖掘系统,包括:划分模块10,用于对原始数据进行划分,并进行平滑处理,形成临时表;聚类模块20,与所述划分模块10连接,用于按时间序列相似性度量聚类,形成不同类别;元模式集生成模块30,与所述聚类模块20连接,用于对不同类别进行单条时间序列模式发现,生成不同元模式集;频繁模式生成模块40,与所述元模式集生成模块30连接,用于对不同元模式集进行同类别多条时间序列模式发现,生成时间序列频繁模式;预测模块50,与所述频繁模式生成模块40连接,用于利用时间序列频繁模式预测产品价格变化。
所述按时间序列相似性度量聚类中,时间序列是将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。
通过构造序列的投影树压缩时间序列,然后搜索频繁模式,由树根开始搜索,采用深度优化策略遍历树。
聚类通常按照对象间的相似性进行分组,两个对象的相似度是指它们在欧氏空间中的互相邻近的程度,或两个对象的相似度是与它们取值相同的属性的个数有关。
所述聚类样本点之间的亲疏远近程度主要有以下两类函数:
相似系数函数:两个样本点愈相似,则相似系数值愈接近1;样本点愈不相似,则相似系数值愈接近0;
距离函数:可以把每个样本点看作高维空间中的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,距离较远的样本点则差异较大。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种时间序列数据挖掘方法,其特征在于,包括以下步骤:
对原始数据进行划分,并进行平滑处理,形成临时表;
按时间序列相似性度量聚类,形成不同类别;
对不同类别进行单条时间序列模式发现,生成不同元模式集;
对不同元模式集进行同类别多条时间序列模式发现,生成时间序列频繁模式;
利用时间序列频繁模式预测产品价格变化。
2.根据权利要求1所述的时间序列数据挖掘方法,其特征在于,所述按时间序列相似性度量聚类中,时间序列是将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。
3.根据权利要求2所述的时间序列数据挖掘方法,其特征在于,通过构造序列的投影树压缩时间序列,然后搜索频繁模式,由树根开始搜索,采用深度优化策略遍历树。
4.根据权利要求1所述的时间序列数据挖掘方法,其特征在于,所述聚类按照对象间的相似性进行分组,两个对象的相似度是指在欧氏空间中的互相邻近的程度,或两个对象的相似度是与它们取值相同的属性的个数有关。
5.根据权利要求4所述的时间序列数据挖掘方法,其特征在于,所述聚类样本点之间的亲疏远近程度包括:
相似系数函数:两个样本点愈相似,则相似系数值愈接近1;样本点愈不相似,则相似系数值愈接近0;
距离函数:把每个样本点看作高维空间中的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,距离较远的样本点则差异较大。
6.一种时间序列数据挖掘系统,其特征在于,包括:
划分模块,用于对原始数据进行划分,并进行平滑处理,形成临时表;
聚类模块,与所述划分模块连接,用于按时间序列相似性度量聚类,形成不同类别;
元模式集生成模块,与所述聚类模块连接,用于对不同类别进行单条时间序列模式发现,生成不同元模式集;
频繁模式生成模块,与所述元模式集生成模块连接,用于对不同元模式集进行同类别多条时间序列模式发现,生成时间序列频繁模式;
预测模块,与所述频繁模式生成模块连接,用于利用时间序列频繁模式预测产品价格变化。
7.根据权利要求6所述的时间序列数据挖掘系统,其特征在于,所述按时间序列相似性度量聚类中,时间序列是将某种现象某一个统计指标在不同时间上的各个数值,按时间先后顺序排列而形成的序列。
8.根据权利要求7所述的时间序列数据挖掘系统,其特征在于,通过构造序列的投影树压缩时间序列,然后搜索频繁模式,由树根开始搜索,采用深度优化策略遍历树。
9.根据权利要求6所述的时间序列数据挖掘系统,其特征在于,聚类通常按照对象间的相似性进行分组,两个对象的相似度是指它们在欧氏空间中的互相邻近的程度,或两个对象的相似度是与它们取值相同的属性的个数有关。
10.根据权利要求9所述的时间序列数据挖掘系统,其特征在于,所述聚类样本点之间的亲疏远近程度主要有以下两类函数:
相似系数函数:两个样本点愈相似,则相似系数值愈接近1;样本点愈不相似,则相似系数值愈接近0;
距离函数:可以把每个样本点看作高维空间中的一个点,进而使用某种距离来表示样本点之间的相似性,距离较近的样本点性质较相似,距离较远的样本点则差异较大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410537853.9A CN104281891A (zh) | 2014-10-13 | 2014-10-13 | 一种时间序列数据挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410537853.9A CN104281891A (zh) | 2014-10-13 | 2014-10-13 | 一种时间序列数据挖掘方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104281891A true CN104281891A (zh) | 2015-01-14 |
Family
ID=52256751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410537853.9A Pending CN104281891A (zh) | 2014-10-13 | 2014-10-13 | 一种时间序列数据挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104281891A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731972A (zh) * | 2015-04-13 | 2015-06-24 | 苏州大学张家港工业技术研究院 | 一种时间序列分类方法和装置 |
CN109492028A (zh) * | 2018-11-09 | 2019-03-19 | 新疆工程学院 | 一种海量时间序列数据相似性连接计算方法 |
CN110019420A (zh) * | 2018-05-10 | 2019-07-16 | 华为技术有限公司 | 一种数据序列预测方法及计算设备 |
CN110543505A (zh) * | 2019-09-06 | 2019-12-06 | 北京远舢智能科技有限公司 | 一种基于时间序列数据的监测系统 |
CN110555719A (zh) * | 2019-07-31 | 2019-12-10 | 华南理工大学 | 一种基于深度学习的商品点击率预测方法 |
CN111292833A (zh) * | 2020-01-22 | 2020-06-16 | 浙江连信科技有限公司 | 基于智能机器人的生理和心理状态预测方法及装置 |
CN113742396A (zh) * | 2021-08-26 | 2021-12-03 | 华中师范大学 | 一种对象学习行为模式的挖掘方法及装置 |
CN114528334A (zh) * | 2022-02-18 | 2022-05-24 | 重庆伏特猫科技有限公司 | 一种时序数据库中快速相似搜索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070023975A1 (en) * | 2005-08-01 | 2007-02-01 | Buckley Daniel T | Method for making three-dimensional preforms using anaerobic binders |
CN103676645A (zh) * | 2013-12-11 | 2014-03-26 | 广东电网公司电力科学研究院 | 一种时间序列数据流中的关联规则的挖掘方法 |
CN103996077A (zh) * | 2014-05-22 | 2014-08-20 | 中国南方电网有限责任公司电网技术研究中心 | 一种基于多维时间序列的电气设备故障预测方法 |
-
2014
- 2014-10-13 CN CN201410537853.9A patent/CN104281891A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070023975A1 (en) * | 2005-08-01 | 2007-02-01 | Buckley Daniel T | Method for making three-dimensional preforms using anaerobic binders |
CN103676645A (zh) * | 2013-12-11 | 2014-03-26 | 广东电网公司电力科学研究院 | 一种时间序列数据流中的关联规则的挖掘方法 |
CN103996077A (zh) * | 2014-05-22 | 2014-08-20 | 中国南方电网有限责任公司电网技术研究中心 | 一种基于多维时间序列的电气设备故障预测方法 |
Non-Patent Citations (1)
Title |
---|
闫相斌 等: "事件预测的时间序列数据挖掘方法", 《计算机工程》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731972A (zh) * | 2015-04-13 | 2015-06-24 | 苏州大学张家港工业技术研究院 | 一种时间序列分类方法和装置 |
CN110019420B (zh) * | 2018-05-10 | 2021-03-30 | 华为技术有限公司 | 一种数据序列预测方法及计算设备 |
CN110019420A (zh) * | 2018-05-10 | 2019-07-16 | 华为技术有限公司 | 一种数据序列预测方法及计算设备 |
WO2019214455A1 (zh) * | 2018-05-10 | 2019-11-14 | 华为技术有限公司 | 一种数据序列预测方法及计算设备 |
CN109492028A (zh) * | 2018-11-09 | 2019-03-19 | 新疆工程学院 | 一种海量时间序列数据相似性连接计算方法 |
CN110555719B (zh) * | 2019-07-31 | 2023-09-29 | 华南理工大学 | 一种基于深度学习的商品点击率预测方法 |
CN110555719A (zh) * | 2019-07-31 | 2019-12-10 | 华南理工大学 | 一种基于深度学习的商品点击率预测方法 |
CN110543505B (zh) * | 2019-09-06 | 2022-02-18 | 北京远舢智能科技有限公司 | 一种基于时间序列数据的监测系统 |
CN110543505A (zh) * | 2019-09-06 | 2019-12-06 | 北京远舢智能科技有限公司 | 一种基于时间序列数据的监测系统 |
CN111292833A (zh) * | 2020-01-22 | 2020-06-16 | 浙江连信科技有限公司 | 基于智能机器人的生理和心理状态预测方法及装置 |
CN113742396A (zh) * | 2021-08-26 | 2021-12-03 | 华中师范大学 | 一种对象学习行为模式的挖掘方法及装置 |
CN113742396B (zh) * | 2021-08-26 | 2023-10-27 | 华中师范大学 | 一种对象学习行为模式的挖掘方法及装置 |
CN114528334A (zh) * | 2022-02-18 | 2022-05-24 | 重庆伏特猫科技有限公司 | 一种时序数据库中快速相似搜索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104281891A (zh) | 一种时间序列数据挖掘方法及系统 | |
Nguyen et al. | Mining high-utility itemsets in dynamic profit databases | |
Rai et al. | A survey of clustering techniques | |
US20140351285A1 (en) | Platform and method for analyzing electric power system data | |
Yu et al. | Trajectory similarity clustering based on multi-feature distance measurement | |
Sharma et al. | Data mining techniques: A tool for knowledge management system in agriculture | |
CN104899199A (zh) | 一种数据仓库数据处理方法和系统 | |
Wang et al. | Efficiently mining high utility co-location patterns from spatial data sets with instance-specific utilities | |
CN107870956A (zh) | 一种高效用项集挖掘方法、装置及数据处理设备 | |
Adhikari et al. | Advances in knowledge discovery in databases | |
Ren et al. | Multifactor correlation analysis and modeling for product low-carbon design | |
Girsang et al. | Business intelligence for construction company acknowledgement reporting system | |
Chen et al. | High Utility Periodic Frequent Pattern Mining in Multiple Sequences. | |
Zhang et al. | Logistics service supply chain order allocation mixed K-Means and Qos matching | |
CN113722564A (zh) | 基于空间图卷积能源物资供应链的可视化方法及装置 | |
Li et al. | From intra-transaction to generalized inter-transaction: Landscaping multidimensional contexts in association rule mining | |
Singh et al. | Knowledge based retrieval scheme from big data for aviation industry | |
Escobedo et al. | Business intelligence and data analytics (BI&DA) to support the operation of smart grid | |
Ugarte et al. | Computing skypattern cubes using relaxation | |
Nowak-Brzezińska et al. | Exploratory clustering and visualization | |
CN102831216B (zh) | 一种保持物体几何形状信息的图像检索系统及方法 | |
Jassar et al. | Comparative study of spatial data mining techniques | |
Stekh et al. | Methods and tools for building recommender systems | |
CN108614818B (zh) | 一种数据存储、更新和查询方法及装置 | |
CN105447137A (zh) | 一种基于关系数据库从大数据下检索相同主从关系数据的算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150114 |
|
RJ01 | Rejection of invention patent application after publication |