CN112347162A - 一种基于在线学习的多元时序数据规则挖掘方法 - Google Patents
一种基于在线学习的多元时序数据规则挖掘方法 Download PDFInfo
- Publication number
- CN112347162A CN112347162A CN202011292898.6A CN202011292898A CN112347162A CN 112347162 A CN112347162 A CN 112347162A CN 202011292898 A CN202011292898 A CN 202011292898A CN 112347162 A CN112347162 A CN 112347162A
- Authority
- CN
- China
- Prior art keywords
- feature
- rule
- new
- data
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 238000005065 mining Methods 0.000 title claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000011156 evaluation Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 20
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 12
- 238000013145 classification model Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- VXPSARQTYDZXAO-CCHMMTNSSA-N (4s,4ar,5s,5ar,12ar)-4-(dimethylamino)-1,5,10,11,12a-pentahydroxy-6-methylidene-3,12-dioxo-4,4a,5,5a-tetrahydrotetracene-2-carboxamide;hydron;chloride Chemical compound Cl.C=C1C2=CC=CC(O)=C2C(O)=C2[C@@H]1[C@H](O)[C@H]1[C@H](N(C)C)C(=O)C(C(N)=O)=C(O)[C@@]1(O)C2=O VXPSARQTYDZXAO-CCHMMTNSSA-N 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于在线学习的多元时序数据规则挖掘方法,包括以下步骤:1)针对动态添加的多元时序数据,对各变量时间序列进行特征提取获得各变量的候选特征集,并对其分别进行聚类得到若干个簇,在每个簇中选取性能最佳的特征作为核特征,获得该变量时间序列的新数据特征集;2)对各变量的现有特征集和该变量对应的新数据特征集进行相似性查询,根据查询结果做出相应操作,获得多元时序数据的更新后的特征集;3)基于更新后的特征集进行分类规则的在线学习。本发明方法具有较好的可解释性、鲁棒性和稳定性。
Description
技术领域
本发明涉及数据挖掘技术,尤其涉及一种基于在线学习的多元时序数据规则挖掘方法。
背景技术
近年来,在数据挖掘技术领域,多变量时间序列分类问题已经成为了一大热点,并在现实应用中引起了广泛关注,如人类活动识别、医学诊断、入侵检测、过程控制和金融预测等。由于其适用性,多变量时间序列分类在近十年内得到了充分的研究,并提出了许多批处理学习方法,分为传统的线性模型,如指数平滑模型、自回归整合移动平均模型和线性回归模型等,以及传统的非线性模型,如神经网络、支持向量机和极限学习机等。
针对多变量时间序列分类模型的批量学习问题,Guoliang He等学者提出了基于核特征早期预测多变量时间序列类别的分类方法。在该方法中,提出了一种新的核特征评估指标,从而保证了分类的准确性和早期性。Usue Mori等学者提出了一种基于概率模型的时间序列分类方法。该方法分析每个类在每个时间戳上的鉴别力,并选择满足每个类的精度都超过阈值的时间戳。
为进一步提高传统分类模型的性能,提出了许多有效的在线学习方法。例如,YuSun等学者提出了一个基于类的在线集成学习方法,该方法通过对基础学习者动态更新来快速适应数据的演化。为弥补一阶成本敏感在线学习算法的不足,Peilin Zhao等学者提出了自适应正则化成本敏感的在线梯度下降算法,该算法能够更好地权衡分类性能和时间效率之间的关系。Changsheng Li等学者提出了一个在线多输出回归方法,该方法可以在线学习回归系数的结构,从而促进分类模型的不断细化。
上述最先进的传统分类学习方法在很多现实应用上都取得了较好的效果,但是仍然存在一些局限性:
(1)对于大规模的多变量时间序列训练数据,传统分类模型学习非常耗时。此外,当新数据动态加入时,分类模型需要从零开始重新训练,这导致了极高的时间成本。
(2)随着多变量时间序列训练数据数量的增加,传统分类模型的性能提升无法达到预期的效果。
(3)由于时间序列的高维性和变量间的复杂关系,现有的在线学习方法无法有效地处理多变量时间序列。到目前为止,多元时序数据分类规则的在线学习方法的相关研究还很少。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于在线学习的多元时序数据规则挖掘方法。
本发明解决其技术问题所采用的技术方案是:一种基于在线学习的多元时序数据规则挖掘方法,包括以下步骤:
1)针对动态添加的多元时间序列数据,对各变量时间序列进行特征提取获得各变量的候选特征集,并对各变量的候选特征集分别进行聚类得到若干个簇,在每个簇中选取性能最佳的特征作为核特征,获得该变量时间序列的新数据特征集;
2)对各变量的现有特征集和该变量对应的新数据特征集进行相似性查询,根据查询结果做出相应的更新操作,获得多元时间序列数据的更新后的特征集;所述查询结果分为存在相似特征和不存在相似特征;
若新数据特征与某现有特征的查询结果为存在相似特征,则通过现有特征及新数据特征共同生成更新特征候选,然后采用基于统计量的自适应更新方法来选择现有特征或特征候选作为更新后的特征,并将更新后的特征加入更新后的特征集;
若新数据特征与某现有特征的查询结果为不存在相似特征,基于统计量的自适应更新方法判断是否激活该新数据特征,若激活则将该新数据特征标记为更新后的特征,并将该特征加入更新后的特征集;
3)基于更新后的特征集进行分类规则的在线学习:根据步骤2)所得的更新后的特征集,更新现有规则以及挖掘新规则,获得更新后的规则集;其中,更新后的规则集中每条规则由一个或多个特征构成,但最多只包含各变量的一个特征。
按上述方案,所述步骤1)中对各变量时间序列进行特征提取获得各变量的候选特征集采用基于广义特征向量法分别对各变量时间序列进行特征提取。
按上述方案,所述步骤1)中广义特征向量法具体如下:首先,通过最大化类别i(主导类)和类别j的投影数据方差的比率获得一个稀疏的、块状的特征指示向量v;然后,通过得到的特征指示向量v将相应变量的时间序列转化为特征shapelets。
按上述方案,所述步骤2)中相似性查询采用DTW距离计算两个特征之间的相似性。
按上述方案,所述步骤2)中若查询结果为存在相似特征,则通过现有特征集及新数据特征集共同生成更新后的特征集为采用DBA方法平均该现有特征及其相似的新数据特征来生成更新特征。
按上述方案,所述步骤2)中采用基于统计量的自适应更新方法来选择现有特征或特征候选作为更新后的特征为给定一个现有特征及其更新特征候选,当该候选在训练数据集中匹配的实例数大于设定统计量阈值时,判断现有特征及其更新特征候选的在线评估指标的大小,选择在线评估指标大的作为更新后的特征。
按上述方案,所述步骤2)中基于统计量的自适应更新方法判断是否激活该新数据特征为当该新数据特征在训练数据集中匹配的实例数大于统计量阈值时,若该新数据特征的在线评估指标满足预先指定值,则激活该新数据特征,否则,不激活该新数据特征。
按上述方案,所述步骤3)中所述更新现有规则具体如下:
对现有规则集中每个规则,若在该规则中存在一个或多个特征被更新,则通过替换这些特征为其更新后的特征版本,来生成更新规则候选,并采用基于统计量的自适应更新方法确定是否将该规则候选加入到现有规则集中;
所述挖掘新规则具体如下:
对新特征构成的特征集,采用关联规则方法挖掘新规则,并基于统计量的自适应更新方法判断是否激活该新规则,若激活则将该新规则加入现有规则集中。
按上述方案,所述步骤3)中采用基于统计量的自适应更新方法确定是否将该规则候选加入到现有规则集中,具体如下:
给定一个现有规则及其更新规则候选,当该更新规则候选在训练数据集中匹配的实例数大于设定统计量阈值时,判断现有规则及其更新规则候选的在线评估指标的大小,选择在线评估指标大的作为更新后的规则。
按上述方案,所述步骤3)中给定规则集中一个新规则,当该新规则在训练数据集中匹配的实例数大于设定统计量阈值时,若该新规则的在线评估指标满足预先指定值,则激活该规则,否则,不激活该规则。
按上述方案,所述步骤3)中采用关联规则方法挖掘新规则,所述关联规则方法包括Apriori和FP-Growth。
本发明产生的有益效果是:
1、提出一种基于广义特征向量法的快速特征提取方法,并对各变量提取的特征集采用聚类方法减少冗余特征与剔除噪音,提高分类稳定性。
2、为了实时动态评估特征和规则的有效性,基于累积精度的思想设计了特征和规则的在线评估准则。
3、基于特征和规则的在线评估准则,提出了基于统计量的自适应更新方法,使得特征和规则不仅具有在线演化的能力,还具有较好的稳定性和鲁棒性。
4、据实验结果表明,本发明方法不仅使分类规则具有在线学习的能力,还使其具有较好的可解释性、鲁棒性和稳定性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图;
图2为对CH的positive类别数据集中多变量时间序列、特征和规则之间关系的示例图;
图3为对CH的positive类别数据集第3个变量时间序列提取特征的过程示意图;
图4为对CH的positive类别数据集某一特定规则的在线演化学习过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的应用场景包括人体活动识别、医学诊断、入侵监测、笔迹识别和金融预测等,常用的实例为心电图数据集ECG、字符轨迹数据集CH和人体活动数据集ADL等。
如图1所示,一种基于在线学习的多元时序数据规则挖掘方法,包括以下步骤:
如图2,本发明实施例以CH数据集为具体实例,CH数据含2个类别(分别记为positive类别与negative类别),每个数据包括3个变量,即每个数据包括3个变量的时间序列。训练数据集含172个数据,测试数据集含142个数据。为了减弱时间序列数据的缩放和偏移对度量其相似性的影响,实施例采用z-score方法对CH数据集数据的各变量时间序列分别进行规范化。基于以上CH数据集,实施例通过以下步骤对CH数据集构建的分类规则进行在线学习,从而保证分类模型的稳定性和鲁棒性。
步骤1,对t时刻动态添加的多变量时间序列数据Dt(心电图数据集ECG),基于广义特征向量法对各变量时间序列分别进行特征提取;并对所得的各变量候选特征集分别聚类得到若干个簇,在每个簇中选取性能最佳的特征作为核特征,从而构成新数据特征集;
实施例为了体现出动态添加的多变量时间序列数据的本质特性,针对CH数据的3个变量时间序列分别进行特征的提取与选择。特征f可以用符号f(s,δ,c)表示,其中s表示子序列段(shapelet),δ表示特征阈值,c表示该特征f的类别,与产生s的相应变量时间序列类别一致。
如图3所示,给定t时刻动态添加的多变量时间序列数据Dt,采用基于广义特征向量法的快速特征提取方法来提取新数据特征。该方法的主要思想是通过最大化类别i(主导类)和类别j的投影数据方差的比率来找到一个特征指示向量v,然后通过得到的特征指示向量v将多变量时间序列转化为特征shapelets。
该最优化问题定义如下,
其中,Ci表示类别i的样本协方差矩阵,constant为一个常数。
此外,为了获得一个具有鉴别性、稀疏性和块状的特征指示向量v,采用了FusedLasso正则化技术来产生稀疏解。基于这个思想,上述优化问题重新定义如下:
v=argminvvTCjv+α1‖Dv‖1+α2‖v‖1:vTCiv=1 (4)
其中,D是这样一个矩阵:Di,i=1,Di,i+1=-1,和Di,j=0。α1和α2为两个超参数。
虽然公式(4)的最大化求解是一个复杂的任务,但是可以通过交替方向乘法器(ADMM)来解决上述优化问题。通过求解该优化问题,得到一个特征指示向量v。该特征指示向量v可以表示如下:
v=[0,…0,vs1,…ve1,0,…0,vsB,…veB,0,…0] (5)
以positive类别为例,基于得到的特征指示向量v,将CH数据集的positive类别数据转换为新数据特征,具体做法为:给定动态添加的positive类多变量时间序列数据由特征指示向量v构造的一组shpelets表示如下:
在新数据特征阈值的选取时,采用加权信息增益熵评价方法使得该特征的性能处于最优状态。特征f的阈值δ求取方式如下:首先,基于DTW距离计算特征f与训练集中所有样本对应变量时间序列的相似度。其次,对特征f与所有样本对应变量时间序列的相似度进行排序,按序取相邻两相似度的中点得到若干候选阈值。最后,基于加权信息增益熵方法评价各候选阈值的特征性能,选取最优性能的候选阈值作为特征f的阈值δ。
为便于实施参考,提供特征f的加权信息增益熵评价方法的具体定义如下:
其中,M为多变量时间序列训练数据的数量,是类别ck的多变量时间序列训练数据的数量,MLf为与该特征f相似度小于特征阈值的子数据集的数量,MRf为与该特征f相似度大于特征阈值的子数据集的数量,e1、e2分别为上述相应子数据集的信息增益熵。
通过上述过程,已经对动态添加数据的各变量时间序列分别进行特征提取,得到CH数据集的新数据候选特征集。此外,针对类内不平衡问题和冗余特征问题,采用基于密度的聚类方法有效地选择最具代表性的核特征。
具体实施时,本发明技术人员可以自行设计相应运行流程。为便于实施参考起见,提供建议新数据特征提取实现伪代码如下:
在新数据特征提取过程中,各符号说明:Algorithm 1表示本发明的算法1,Feature Extraction为算法1的名称,即特征提取,Input、Output分别表示算法1的输入、输出,Dt表示t时刻动态添加的多变量时间序列数据,Fnew表示通过算法1所提取的新数据特征集,M表示变量的数量,表示动态添加的positive类别的多变量时间序列数据,表示以y类为主导类的第i个变量的特征指示向量,函数GEM(Dt,y,i)表示基于广义特征向量法的快速特征提取方法。表示提取的y类第i个变量的新数据候选特征。函数表示基于提取的特征指示向量将相应变量的时间序列转换为特征。函数表示将对所得的相应变量的特征集聚类得到若干个簇,在每个簇中选取性能最佳的特征作为核特征。
算法流程:首先,将动态添加的多变量时间序列数据Dt按类别划分为positive类数据子集和negative数据子集然后,对于每个类别y的训练集进行新数据特征的提取与选择,得到FP与FN;最后,得到CH数据集的新数据特征集Fnew,即为各类别特征集的并集。
步骤2,根据步骤1所得的新数据特征集,基于DTW距离对现有特征和新数据特征进行相似性查询;根据查询结果,采用基于统计量的自适应更新方法来更新现有特征或生成新特征。
本实施例通过步骤1得到了CH数据集的新数据特征集Fnew。为实现特征的在线学习,首先基于新特征数据集Fnew与现有特征集Ft-1来生成特征集Ft。具体实施过程为:基于DTW距离对现有特征和新数据特征进行相似性查询,该查询结果分为存在相似特征和不存在相似特征两种情况。若新数据特征与某现有特征之间的相似性距离小于特征阈值,则表示该新数据特征存在相似特征。在这种情况下,采用DBA方法平均该现有特征及其相似的新数据特征来获得更新特征候选,并将其加入现有特征集Ft-1。否则,表示该新数据特征在现有特征集中不存在相似特征,此时将该新数据特征标记为新特征。经过上述过程,合并新数据特征集Fnew与现有特征集Ft-1来生成特征集Ft。最后,采用基于统计量的自适应更新方法来更新特征集Ft中的相应特征。具体特征在线学习过程如下:
首先,对每个新数据特征fnew∈Fnew,基于DTW距离来计算该新数据特征fnew与现有特征集Ft-1中每个特征f的相似性程度。根据现有特征f的阈值δ得到相似性查询结果,分为以下两种情况:
(1)当满足条件sim(fnew,f)=distance(fnew,f)≤δf时,认为新数据特征fnew与现有特征f互为相似特征。这时采用DBA方法平均新数据特征fnew与现有特征f得到更新特征候选f′。与此同时,将更新特征候选f′加入现有特征集Ft-1中,并在新数据特征集Fnew中删除相应的新数据特征fnew。
(2)当在特征集Ft-1中不存在现有特征f满足条件sim(fnew,f)≤δf时,标记该新数据特征fnew为一个新特征。
然后,通过合并新数据特征集Fnew与现有特征集Ft-1来生成特征集Ft,即Ft=Ft-1∪Fnew。
最后,基于统计量的自适应更新方法来对特征集Ft进行在线学习,分为现有特征的更新和新特征的激活两种情况,具体细节如下:
(1)给定特征集Ft中一个现有特征f及其更新特征候选f′,当Covert(f′)大于一个统计量阈值时,判断现有特征f及其更新特征候选f′的在线评估指标的大小,从而做出相应的更新操作。即当满足条件findext(f)<findext(f′)时,则将该现有特征f更新为其候选f′。否则,不更新该特征f。
(2)给定特征集Ft中一个新特征fnew,当Covert(fnew)大于统计量阈值时,若该新特征fnew的在线评估指标满足预先指定值,则激活该特征。否则,不激活该特征。
为便于实施参考起见,提供采用基于统计量的自适应更新方法(SAU)对特征集Ft进行更新过程实现伪代码如下:
在采用基于统计量的自适应更新方法(SAU)对特征集Ft进行更新过程中,各符号说明:Algorithm 2表示本发明的算法2,SAU for Features为算法2的名称,Input、Output分别表示算法2的输入、输出,Ft表示t时刻的特征集,f表示特征集Ft中的一个现有特征,f′表示现有特征f的更新特征候选,fnew表示特征集Ft中未激活的新特征,Covert(f′)表示t时刻特征f′在训练数据集中累积匹配的实例数,findext(f)表示特征f的在线评估指标。
步骤2具体实施时,本发明技术人员可以自行设计相应运行流程。为便于实施参考起见,提供特征在线学习实现伪代码如下:
在特征在线学习过程中,各符号说明:Algorithm 3表示本发明的算法3,OnlineFeature Learning为算法3的名称,即特征的在线学习,Input、Output分别表示算法3的输入、输出,Fnew表示从动态添加的多变量时间序列中提取的新数据特征,δf为特征f的阈值,SAU方法表示基于统计量的自适应更新方法,详见算法2。
算法流程:首先,基于DTW距离对现有特征和新数据特征进行相似性查询,该查询结果分为存在相似特征和不存在相似特征两种情况。若新数据特征与某现有特征之间的相似性距离小于特征阈值,则表示该新数据特征存在相似特征。在这种情况下,采用DBA方法平均该现有特征及其相似的新数据特征来获得更新特征候选,并将其加入现有特征集Ft-1。否则,表示该新数据特征在现有特征集中不存在相似特征,此时将该新数据特征标记为新特征。然后,通过合并新特征数据集Fnew与现有特征集Ft-1来生成特征集Ft。最后,采用基于统计量的自适应更新方法来更新特征集Ft中的相应特征。
步骤3,根据步骤2所得的更新后的特征集,采用基于统计量的自适应更新方法来更新现有规则以及使用与Apriori类似的方法挖掘新规则;基于更新后的分类规则集对未知多变量时间序列进行分类预测。
经过以上步骤,已经得到了CH数据集t时刻更新后的特征集Ft。基于此,如图4,本发明进一步对规则进行在线学习,并基于更新后的分类规则集Rt对未知多变量时间序列进行分类预测。具体过程如下所示:
首先,对现有规则集Rt-1中每个规则r,若在该规则r中存在一个或多个特征被更新,则通过替换这些特征为其更新后的特征版本,来生成更新规则候选r′,并将该候选r′加入到现有规则集Rt-1中。
然后,从新特征集Fnew中产生CH数据集的新规则集候选NR1,NR2,NR3,NRi表示包含i个特征的候选新规则的集合。从NR1,NR2,NR3遍历筛选新规则,筛选方式为计算候选规则的准确率与召回率,不满足预定值时,舍弃该候选规则,未被舍弃的候选规则将加入最终新规则集Rnew。
其次,通过合并新规则集Rnew与现有规则集Rt-1来生成规则集Rt,即Rt=Rt-1∪Rnew;并基于统计量的自适应更新方法来对规则集Rt进行在线学习,分为现有规则的更新和新规则的激活两种情况,具体细节如下:
(1)给定规则集Rt中一个现有规则r及其更新规则候选r′,当Covert(r′)大于统计量阈值时,判断现有规则r及其更新规则候选r′的在线评估指标的大小,从而做出相应的更新操作。若满足条件rindext(r)<rindext(r′),则将该现有规则r更新为其候选r′。否则,不更新该现有规则r。
(2)给定规则集Rt中一个新规则rnew,当Covert(rnew)大于统计量阈值时,若该新规则rnew的在线评估指标满足预先指定值,则激活该规则。否则,不激活该规则。
为实时评估特征的有效性,设计了特征的在线评估准则。给定t时刻动态添加的多变量时间序列数据Dt,特征f的在线评估指标定义如下,
其中,Covert-1(f)表示t-1时刻特征f在训练数据集中累积匹配的实例数,Acovert-1(f)表示t-1时刻特征f在训练数据集中累积正确匹配的实例数,即特征的类别与匹配实例x的类别一致。I(*)是一个指示函数,当条件*满足时返回1,否则返回0。class(f)表示特征f的类别,match(f,xi)表示特征f匹配实例xi。
同样地,为实时评估规则的有效性,设计了规则的在线评估准则。给定t时刻动态添加的多变量时间序列数据Dt,规则r的在线评估指标定义如下,
其中,Covert-1(r)表示t-1时刻规则r在训练数据集中累积匹配的实例数,Acovert-1(r)表示t-1时刻规则r在训练数据集中累积正确匹配的实例数,即规则r的类别与匹配实例x的类别一致。match(r,xi)表示规则r匹配实例xi。
最后,对于待分类的CH数据,在规则集Rt中搜索覆盖此待分类CH数据的规则,通过最大投票机制即可判定该待分类CH数据的类别。
具体实施时,本发明技术人员可以自行设计相应运行流程。为便于实施参考起见,提供建议规则在线学习实现伪代码如下:
在规则在线学习过程中,各符号说明:Algorithm 4表示本发明的算法4,OnlineRule Learning为算法4的名称,即规则的在线学习,Input、Output分别表示算法4的输入、输出,Ft通过算法3在t时刻所更新的特征集,Rt通过算法4在t时刻所更新的特征集,Rnew表示t时刻基于新特征子集挖掘的新规则集。PRC与REC是预先定义的最小准确率和最小召回率。
算法流程:
首先,针对现有规则集中每个规则r∈Rt-1,若在该规则r中存在一个或多个特征被更新,则通过替换这些特征为其更新后的特征版本,来生成更新规则候选r′,并将该候选r′加入到现有规则集Rt-1中。
然后,从新特征集Fnew中产生新规则集候选NR1,NR2,NR3,NRi表示包含i个特征的候选新规则的集合。从NR1,NR2,NR3遍历筛选新规则,筛选方式为计算规则的准确率与召回率,不满足预定值时,舍弃该候选规则,未被舍弃的规则将加入最终新规则集Rnew。最后,通过合并新规则集Rnew与现有规则集Rt-1来生成规则集Rt,即Rt=Rt-1∪Rnew,并基于统计量的自适应更新方法来对特征集Rt进行在线学习。
对于CH数据集中未知类别CH数据预测前,为了减弱时间序列数据的缩放和偏移对度量其相似性的影响,同样需要对待预测CH数据进行规范化。然后基于更新后的分类规则集Rt通过最大投票方法进行其类别的判定。
综上所述,本发明提出了一种基于在线学习的多元时序数据规则挖掘方法,该方法包括现有规则的更新和新规则的挖掘。首先,针对动态添加的多变量时间序列数据,为提取各变量时间序列的本质特性,基于广义特征向量法对各变量时间序列分别进行特征提取,并采用聚类方法减少冗余特征与剔除噪音,从而选择最具有代表性的新数据特征。其次,为实现特征的在线学习,基于DTW距离进行现有特征和新数据特征的相似性查询。根据相似性查询结果,采用基于统计量的自适应更新方法进行现有特征的更新和新特征的生成。然后,为实现规则的在线学习,基于更新后的特征集进行现有规则的更新和新规则的挖掘。最后,基于更新后的分类规则集对未知多变量时间序列进行预测。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种基于在线学习的多元时序数据规则挖掘方法,其特征在于,包括以下步骤:
1)针对动态添加的多元时间序列数据,对各变量时间序列进行特征提取获得各变量的候选特征集,并对其分别进行聚类得到若干个簇,在每个簇中选取性能最佳的特征作为核特征,获得该变量时间序列的新数据特征集;
2)对各变量的现有特征集和该变量对应的新数据特征集进行相似性查询,根据查询结果做出相应操作,获得多元时间序列数据的更新后的特征集;所述查询结果分为存在相似特征和不存在相似特征;
若新数据特征与某现有特征的查询结果为存在相似特征,则通过现有特征及新数据特征共同生成更新特征候选,然后采用基于统计量的自适应更新方法来选择现有特征或特征候选作为更新后的特征,并将更新后的特征加入更新后的特征集;
若新数据特征与某现有特征的查询结果为不存在相似特征,基于统计量的自适应更新方法判断是否激活该新数据特征,若激活则将该新数据特征标记为更新后的特征,并将该特征加入更新后的特征集;
3)基于更新后的特征集进行分类规则的在线学习:根据步骤2)所得的更新后的特征集,更新现有规则以及挖掘新规则,获得更新后的规则集;其中,更新后的规则集中每条规则由一个或多个特征构成,但最多只包含各变量的一个特征。
2.根据权利要求1所述的基于在线学习的多元时序数据规则挖掘方法,其特征在于,所述步骤1)中对各变量时间序列进行特征提取获得各变量的候选特征集采用基于广义特征向量法分别对各变量时间序列进行特征提取。
3.根据权利要求2所述的基于在线学习的多元时序数据规则挖掘方法,其特征在于,所述步骤1)中广义特征向量法具体如下:首先,通过最大化类别i和类别j的投影数据方差的比率获得一个稀疏的、块状的特征指示向量v;然后,通过得到的特征指示向量v将相应变量的时间序列转化为特征shapelets。
4.根据权利要求1所述的基于在线学习的多元时序数据规则挖掘方法,其特征在于,所述步骤2)中相似性查询采用DTW距离计算两个特征之间的相似性。
5.根据权利要求1所述的基于在线学习的多元时序数据规则挖掘方法,其特征在于所述步骤2)中若查询结果为存在相似特征,则通过现有特征集及新数据特征集共同生成更新后的特征集为采用DBA方法平均该现有特征及其相似的新数据特征来生成更新特征。
6.根据权利要求1所述的基于在线学习的多元时序数据规则挖掘方法,其特征在于所述步骤2)中采用基于统计量的自适应更新方法来选择现有特征或特征候选作为更新后的特征为给定一个现有特征及其更新特征候选,当该候选在训练数据集中匹配的实例数大于设定统计量阈值时,判断现有特征及其更新特征候选的在线评估指标的大小,选择在线评估指标大的作为更新后的特征。
7.根据权利要求1所述的基于在线学习的多元时序数据规则挖掘方法,其特征在于,所述步骤2)中基于统计量的自适应更新方法判断是否激活该新数据特征为当该新数据特征在训练数据集中匹配的实例数大于统计量阈值时,若该新数据特征的在线评估指标满足预先指定值,则激活该新数据特征,否则,不激活该新数据特征。
8.根据权利要求1所述的基于在线学习的多元时序数据规则挖掘方法,其特征在于,所述步骤3)中所述更新现有规则具体如下:
对现有规则集中每个规则,若在该规则中存在一个或多个特征被更新,则通过替换这些特征为其更新后的特征版本,来生成更新规则候选,并采用基于统计量的自适应更新方法确定是否将该规则候选加入到现有规则集中;
所述挖掘新规则具体如下:
对新特征构成的特征集,采用关联规则方法挖掘新规则,并基于统计量的自适应更新方法判断是否激活该新规则,若激活则将该新规则加入现有规则集中。
9.根据权利要求8所述的基于在线学习的多元时序数据规则挖掘方法,其特征在于,所述步骤3)中采用基于统计量的自适应更新方法确定是否将该规则候选加入到现有规则集中,具体如下:
给定一个现有规则及其更新规则候选,当该更新规则候选在训练数据集中匹配的实例数大于设定统计量阈值时,判断现有规则及其更新规则候选的在线评估指标的大小,选择在线评估指标大的作为更新后的规则。
10.根据权利要求1所述的基于在线学习的多元时序数据规则挖掘方法,其特征在于,所述步骤3)中给定规则集中一个新规则,当该新规则在训练数据集中匹配的实例数大于设定统计量阈值时,若该新规则的在线评估指标满足预先指定值,则激活该规则,否则,不激活该规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011292898.6A CN112347162A (zh) | 2020-11-18 | 2020-11-18 | 一种基于在线学习的多元时序数据规则挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011292898.6A CN112347162A (zh) | 2020-11-18 | 2020-11-18 | 一种基于在线学习的多元时序数据规则挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112347162A true CN112347162A (zh) | 2021-02-09 |
Family
ID=74362887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011292898.6A Pending CN112347162A (zh) | 2020-11-18 | 2020-11-18 | 一种基于在线学习的多元时序数据规则挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347162A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673811A (zh) * | 2021-07-05 | 2021-11-19 | 北京师范大学 | 一种基于session的在线学习绩效评估方法及装置 |
-
2020
- 2020-11-18 CN CN202011292898.6A patent/CN112347162A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673811A (zh) * | 2021-07-05 | 2021-11-19 | 北京师范大学 | 一种基于session的在线学习绩效评估方法及装置 |
CN113673811B (zh) * | 2021-07-05 | 2023-06-27 | 北京师范大学 | 一种基于session的在线学习绩效评估方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106371610B (zh) | 一种基于脑电信号的驾驶疲劳的检测方法 | |
Casalino et al. | Data stream classification by dynamic incremental semi-supervised fuzzy clustering | |
CN110569982A (zh) | 一种基于元学习的主动采样方法 | |
CN110555459A (zh) | 基于模糊聚类和支持向量回归的成绩预测方法 | |
CN111310799B (zh) | 一种基于历史评估结果的主动学习方法 | |
CN112529638B (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN109086794B (zh) | 一种基于t-lda主题模型的驾驶行为模式识方法 | |
CN114093445B (zh) | 一种基于偏多标记学习的患者筛选标记方法 | |
Arowolo et al. | A hybrid dimensionality reduction model for classification of microarray dataset | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
US20220156519A1 (en) | Methods and systems for efficient batch active learning of a deep neural network | |
CN112347162A (zh) | 一种基于在线学习的多元时序数据规则挖掘方法 | |
Latief et al. | Performance evaluation xgboost in handling missing value on classification of hepatocellular carcinoma gene expression data | |
CN107909090A (zh) | 基于测度学习半监督的钢琴乐谱难度识别方法 | |
CN117076691A (zh) | 一种面向智慧社区的商品资源知识图谱算法模型 | |
CN111708865A (zh) | 一种基于改进XGBoost算法的技术预见及专利预警分析方法 | |
Bandyopadhyay et al. | Automated label generation for time series classification with representation learning: Reduction of label cost for training | |
CN115392375A (zh) | 一种多源数据融合度智能评估方法及其系统 | |
CN112465054B (zh) | 一种基于fcn的多变量时间序列数据分类方法 | |
CN110265151B (zh) | 一种基于ehr中异构时态数据的学习方法 | |
CN113361653A (zh) | 基于数据样本增强的深度学习模型去偏方法和装置 | |
Domingues | Probabilistic modeling for novelty detection with applications to fraud identification | |
Amalia et al. | The Application of Modified K-Nearest Neighbor Algorithm for Classification of Groundwater Quality Based on Image Processing and pH, TDS, and Temperature Sensors | |
CN114117251B (zh) | 一种智慧文博下融合多因素的矩阵分解个性化推荐方法 | |
Nivetha et al. | Predicting survival of breast cancer patients using fuzzy rule based system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210209 |
|
RJ01 | Rejection of invention patent application after publication |