CN104281891A

CN104281891A - 一种时间序列数据挖掘方法及系统

Info

Publication number: CN104281891A
Application number: CN201410537853.9A
Authority: CN
Inventors: 贾岩
Original assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Current assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2014-10-13
Filing date: 2014-10-13
Publication date: 2015-01-14

Abstract

本发明公开了一种时间序列数据挖掘方法及系统，该方法包括以下步骤：对原始数据进行划分，并进行平滑处理，形成临时表；按时间序列相似性度量聚类，形成不同类别；对不同类别进行单条时间序列模式发现，生成不同元模式集；对不同元模式集进行同类别多条时间序列模式发现，生成时间序列频繁模式；利用时间序列频繁模式预测产品价格变化。本发明为中小企业提供企业产品价格、原材料市场库存等变化规律发现和预测。

Description

一种时间序列数据挖掘方法及系统

技术领域

本发明涉及数据网络技术领域，尤其涉及一种时间序列数据挖掘方法及系统。

背景技术

竞争情报的定义可概括为一个地区或企业为了取得市场竞争优势，对竞争环境、竞争对手进行合法的情报研究，结合本地区或企业进行量化分析对比，由此得出提高竞争力的策略和方法。竞争情报主要包括三个要素：本企业和竞争对手、竞争环境(包括政策、市场、技术等)、竞争策略。

目前国内竞争情报系统的提厂商一般把信息检索作为重要环节，主要支持信息采集、管理、发布等流程处理。例如，在企业经营活动中，经常需要对多个时间序列进行分析，发现不同时间序列间可能存在的关联关系。这种关联关系一般表现为不同序列中频繁地同时或依次出现的变化模式。发现这种多时间序列中的频繁结构模式对于人们更彻底的认识各个时间序列的相互影响并据此做出合理的决策具有重要的参考价值。

然而，目前的竞争情报系统比较适合于大型企业，建立自己的情报部门，管理和分析竞争情报。而广大中小企业，由于没有独立的情报部门，缺乏情报人员和分析手段，对这些竞争情报系统收集来的情报无法有效分析利用。中小企业竞争情报部门全职人员较少，同时中小企业竞争情报人员常用的分析方法不多，主要是由于中小企业缺乏高素质的专职竞争情报人员，竞争情报人员的知识结构普遍比较单一，且多缺乏市场营销、企业管理等相关领域的知识，情报分析预测能力较差。

发明内容

为了解决背景技术中存在的技术问题，本发明提出了一种时间序列数据挖掘方法及系统，为中小企业提供企业产品价格、原材料市场库存等变化规律发现和预测。

本发明提出的一种时间序列数据挖掘方法，包括以下步骤：

对原始数据进行划分，并进行平滑处理，形成临时表；

按时间序列相似性度量聚类，形成不同类别；

对不同类别进行单条时间序列模式发现，生成不同元模式集；

对不同元模式集进行同类别多条时间序列模式发现，生成时间序列频繁模式；

利用时间序列频繁模式预测产品价格变化。

优选地，所述按时间序列相似性度量聚类中，时间序列是将某种现象某一个统计指标在不同时间上的各个数值，按时间先后顺序排列而形成的序列。

优选地，通过构造序列的投影树压缩时间序列，然后搜索频繁模式，由树根开始搜索，采用深度优化策略遍历树。

优选地，聚类通常按照对象间的相似性进行分组，两个对象的相似度是指它们在欧氏空间中的互相邻近的程度，或两个对象的相似度是与它们取值相同的属性的个数有关。

优选地，所述聚类样本点之间的亲疏远近程度主要有以下两类函数：

相似系数函数：两个样本点愈相似，则相似系数值愈接近1；样本点愈不相似，则相似系数值愈接近0；

距离函数：可以把每个样本点看作高维空间中的一个点，进而使用某种距离来表示样本点之间的相似性，距离较近的样本点性质较相似，距离较远的样本点则差异较大。

本发明提出的一种时间序列数据挖掘系统，包括：

划分模块，用于对原始数据进行划分，并进行平滑处理，形成临时表；

聚类模块，与所述划分模块连接，用于按时间序列相似性度量聚类，形成不同类别；

元模式集生成模块，与所述聚类模块连接，用于对不同类别进行单条时间序列模式发现，生成不同元模式集；

频繁模式生成模块，与所述元模式集生成模块连接，用于对不同元模式集进行同类别多条时间序列模式发现，生成时间序列频繁模式；

预测模块，与所述频繁模式生成模块连接，用于利用时间序列频繁模式预测产品价格变化。

本发明中，从多个时间序列找出相同的或相似的变化模式，用以发现企业产品、原材料价格或库存等变化规律，预测其走势。

附图说明

图1为本发明实施例提出的一种时间序列数据挖掘方法流程图；

图2为本发明实施例提出的一种时间序列数据挖掘系统结构图。

具体实施方式

如图1所示，本发明实施例提出了一种时间序列数据挖掘方法，包括以下步骤：

S1，对原始数据进行划分，并进行平滑处理，形成临时表。

例如，将产品价格、原材料价格、库存等用户感兴趣的数据变化规律和走势生成图表，使用户清晰明了的知道价格等数据的变化。对于企业来说，将产品推广出去是第一要务，及时发现潜在客户和潜在销售机会，能帮助销售人员在第一时间抓住客户，极大的促进企业打开销路。

S2，按时间序列相似性度量聚类，形成不同类别。其中，时间序列是将某种现象某一个统计指标在不同时间上的各个数值，按时间先后顺序排列而形成的序列。时间序列受到各种偶然因素的影响，往往表现出某种随机性，彼此之间存在着统计上的依赖关系。如果对某一过程中的某个变量或一组变量，X(t)进行观察测量，在一系列时刻t1，t2，......，tn，(t为自变量，且t1<t2<......<tn)得到的离散有序集合X(t1)，X(t2)，......，X(tn)称为离散数字时间序列。另外，可以通过构造序列的投影树压缩时间序列，然后搜索频繁模式，由树根开始搜索，采用深度优化策略遍历树。

时序挖掘从多个时间序列找出相同的或相似的变化模式，用以发现企业产品、原材料价格或库存等变化规律，预测其走势。为了进行深度挖掘，必须先对数据分类，例如按市场、省份划分成一系列的时间序列，对这些时间序列进行平滑处理，再进行聚类分析，对属于同一类的这些时间序列，挖掘其潜在模式。

其中，相似性的度量方法很多，有的用于专门领域，也有的适用于特定类型的数据。聚类通常按照对象间的相似性进行分组，因此如何描述对象间相似性是聚类的重要问题。数据的类型不同，相似性的含义也不同。例如，对数值型数据而言，两个对象的相似度是指它们在欧氏空间中的互相邻近的程度；而对分类型数据来说，两个对象的相似度是与它们取值相同的属性的个数有关。聚类分析按照样本点之间的亲疏远近程度进行分类。为了使类分得合理，必须描述样本之间的亲疏远近程度，刻画聚类样本点之间的亲疏远近程度主要有以下两类函数：

(1)相似系数函数：两个样本点愈相似，则相似系数值愈接近1；样本点愈不相似，则相似系数值愈接近0。这样就可以使用相似系数值来刻画样本点性质的相似性。

(2)距离函数：可以把每个样本点看作高维空间中的一个点，进而使用某种距离来表示样本点之间的相似性，距离较近的样本点性质较相似，距离较远的样本点则差异较大。

S3，对不同类别进行单条时间序列模式发现，生成不同元模式集。

S4，对不同元模式集进行同类别多条时间序列模式发现，生成时间序列频繁模式。

S5，利用时间序列频繁模式预测产品价格变化。时间序列是一组有序的随着时间改变的序列值或事件，而时序数据库是由时间序列组成的数据库。时序数据库广泛运用于各种领域，例如：科学实验的数据分析、股票市场的波动分析等。为了进行预测，首先必须建立一个适当的预测模型。因此，如何从时序数据中挖掘出时序模式，就成为一个重要的研究课题。

如图2所示，本发明实施例提出了一种时间序列数据挖掘系统，包括:划分模块10，用于对原始数据进行划分，并进行平滑处理，形成临时表；聚类模块20，与所述划分模块10连接，用于按时间序列相似性度量聚类，形成不同类别；元模式集生成模块30，与所述聚类模块20连接，用于对不同类别进行单条时间序列模式发现，生成不同元模式集；频繁模式生成模块40，与所述元模式集生成模块30连接，用于对不同元模式集进行同类别多条时间序列模式发现，生成时间序列频繁模式；预测模块50，与所述频繁模式生成模块40连接，用于利用时间序列频繁模式预测产品价格变化。

所述按时间序列相似性度量聚类中，时间序列是将某种现象某一个统计指标在不同时间上的各个数值，按时间先后顺序排列而形成的序列。

通过构造序列的投影树压缩时间序列，然后搜索频繁模式，由树根开始搜索，采用深度优化策略遍历树。

聚类通常按照对象间的相似性进行分组，两个对象的相似度是指它们在欧氏空间中的互相邻近的程度，或两个对象的相似度是与它们取值相同的属性的个数有关。

所述聚类样本点之间的亲疏远近程度主要有以下两类函数：

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种时间序列数据挖掘方法，其特征在于，包括以下步骤：

对原始数据进行划分，并进行平滑处理，形成临时表；

按时间序列相似性度量聚类，形成不同类别；

利用时间序列频繁模式预测产品价格变化。

2.根据权利要求1所述的时间序列数据挖掘方法，其特征在于，所述按时间序列相似性度量聚类中，时间序列是将某种现象某一个统计指标在不同时间上的各个数值，按时间先后顺序排列而形成的序列。

3.根据权利要求2所述的时间序列数据挖掘方法，其特征在于，通过构造序列的投影树压缩时间序列，然后搜索频繁模式，由树根开始搜索，采用深度优化策略遍历树。

4.根据权利要求1所述的时间序列数据挖掘方法，其特征在于，所述聚类按照对象间的相似性进行分组，两个对象的相似度是指在欧氏空间中的互相邻近的程度，或两个对象的相似度是与它们取值相同的属性的个数有关。

5.根据权利要求4所述的时间序列数据挖掘方法，其特征在于，所述聚类样本点之间的亲疏远近程度包括：

距离函数：把每个样本点看作高维空间中的一个点，进而使用某种距离来表示样本点之间的相似性，距离较近的样本点性质较相似，距离较远的样本点则差异较大。

6.一种时间序列数据挖掘系统，其特征在于，包括：

7.根据权利要求6所述的时间序列数据挖掘系统，其特征在于，所述按时间序列相似性度量聚类中，时间序列是将某种现象某一个统计指标在不同时间上的各个数值，按时间先后顺序排列而形成的序列。

8.根据权利要求7所述的时间序列数据挖掘系统，其特征在于，通过构造序列的投影树压缩时间序列，然后搜索频繁模式，由树根开始搜索，采用深度优化策略遍历树。

9.根据权利要求6所述的时间序列数据挖掘系统，其特征在于，聚类通常按照对象间的相似性进行分组，两个对象的相似度是指它们在欧氏空间中的互相邻近的程度，或两个对象的相似度是与它们取值相同的属性的个数有关。

10.根据权利要求9所述的时间序列数据挖掘系统，其特征在于，所述聚类样本点之间的亲疏远近程度主要有以下两类函数：