CN111324638A - 基于AR_TSM的时间序列motif关联规则挖掘方法 - Google Patents

基于AR_TSM的时间序列motif关联规则挖掘方法 Download PDF

Info

Publication number
CN111324638A
CN111324638A CN202010084931.XA CN202010084931A CN111324638A CN 111324638 A CN111324638 A CN 111324638A CN 202010084931 A CN202010084931 A CN 202010084931A CN 111324638 A CN111324638 A CN 111324638A
Authority
CN
China
Prior art keywords
motif
rule
subsequence
association rule
tsm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010084931.XA
Other languages
English (en)
Other versions
CN111324638B (zh
Inventor
赵丹枫
黄冬梅
黄雁玲
林俊辰
宋巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ocean University
Original Assignee
Shanghai Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ocean University filed Critical Shanghai Ocean University
Priority to CN202010084931.XA priority Critical patent/CN111324638B/zh
Publication of CN111324638A publication Critical patent/CN111324638A/zh
Application granted granted Critical
Publication of CN111324638B publication Critical patent/CN111324638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于AR_TSM的时间序列motif关联规则挖掘方法,包括步骤:S1:采集一时间序列数据;S2:基于PM_Motif方法对所述时间序列数据进行motif提取;S3:基于AR_TSM方法的时间序列motif关联规则挖掘;S4:利用衡量指标RM衡量规则预测性能。本发明的一种基于AR_TSM的时间序列motif关联规则挖掘方法,实现了保留原始信息的motif的精准快速提取;保证了规则的一致性,并可避免虚拟规则的产生。

Description

基于AR_TSM的时间序列motif关联规则挖掘方法
技术领域
本发明涉及时间序列数据挖掘领域,尤其涉及一种基于AR_TSM的时间 序列motif关联规则挖掘方法。
背景技术
在数据挖掘领域,从时间序列中挖掘关联规则,进而对未来趋势做相应 的预测是数据挖掘领域的一个热门话题,在许多领域有着重要的应用。比如 在与机器人的交互过程中,如果能够利用关联规则对人类的行为做一些短期 的预测,机器人便可以提前做好应对措施。再比如,通过挖掘的关联规则进 一步提高龙卷风的预警时间。利用关联规则来准确预测股票的价格走势等。 目前的一些研究成果能够通过相关的关联规则挖掘算法进行挖掘与预测,但 是绝大多数的研究中都存在虚假规则。如何挖掘其中真实的、有效的时间序列规则,已经成为时间序列研究中一个极具价值的课题。
关联规则挖掘算法最早由Agrawal.R等人引入,研究的是数据库中的频 繁项集之间的关联规则;Das.G等人将关联规则引入到时间序列中,采用聚类 的方法发现频繁子序列,但是该种方法容易得到大量的虚假规则。Wu等人通 过分段线性近似(PiecewiseLinear Approximation,PLA)算法将时间序列符号 化后进行规则挖掘,该算法对实际财务数据的未来趋势预测准确率达到68%, 但其他学者发现该算法并不比随机猜测好,当他们在随机生成的数据集上测 试算法时,他们仍然具有近68%的预测精度。
Motif提取对关联规则的挖掘是十分重要的。Motif最初来自生物学。在 这里,motif指的是在时间序列中频繁出现的未知的子序列,2002年J·Lin等 人首次将motif用于时间序列数据挖掘中,并指出时间序列motif提取对关联 规则挖掘的重要性。此后,更多的motif提取算法被提出,如EMMA,但该 方法时间复杂度较高,不适用于数据量较大的时间序列的数据挖掘;Buhler J 等人提出随机映射的方法提取motif,但该方法的可扩展性不高;Yuan L等人 提出采用语法归纳的方法提取motif,但该方法存在时间序列符号化导致信息 丢失的问题,无法实现精确挖掘motif;Mueen等人提出的MK算法被广泛用 于发现motif,但该方法需要定义许多参数,这导致motif发现过程中存在参 数依赖性过大的问题。
Shokoohi Yekta等人通过分割motif找出其内部的关联规则。在找出时间 序列中的K-motif序列后,将每一个motif分割成前件和后件两个部分,计算 出序列在每一个分割点处的MDL得分,将MDL得分最高的序列划分方式作 为规则输出。该方法结果的好坏完全取决于分割点的选取,且关联规则的前 件与后件之间通常存在间隔,这种拆分方法可能会将额外的区间序列附加到 前件或后件之中,这会影响规则挖掘的准确性,另一方面,该方法需要计算 不同分割点的MDL分值,这将导致时间复杂度较大。
He Y等人提出了一种找到motif之间关联规则的方法,仅使用单一的数 据集,使得方法性能的评估不够全面,且利用MDL评分准则对候选关联规则 进行评分,该方法需按照相应规律对规则进行比特压缩,这样仍然会丢失部 分信息,使得信息的准确度受到一定影响。
以上的一些方法尽管能挖掘出时间序列内的关联规则,为时间序列预测 提供决策信息,但仍存在一定的问题:1)大多数motif提取算法为了降低时 间复杂度,提高motif的提取速度,而采用了符号化时间序列的方法,这样可 能导致原始信息的丢失;2)传统的通过分割motif来构成一条时间序列关联 规则的方法时间复杂度较高,且不同的分割点可能带来完全不同的关联规则, 无法保证规则的一致性;3)在挖掘关联规则的时候没有较好地考虑关联规则 的预测性能,使其即便在随机数据集上,也能挖掘大量的关联规则,无法保 证规则的合理性。
发明内容
针对上述现有技术中的不足,本发明提供一种基于AR_TSM的时间序列 motif关联规则挖掘方法,实现了保留原始信息的motif的精准快速提取;保 证了规则的一致性,并可避免虚拟规则的产生。
为了实现上述目的,本发明提供一种基于AR_TSM的时间序列motif关 联规则挖掘方法,包括步骤:
S1:采集一时间序列数据;
S2:基于PM_Motif方法对所述时间序列数据进行motif提取;
S3:基于AR_TSM方法的时间序列motif关联规则挖掘;
S4:利用衡量指标RM衡量规则预测性能。
优选地,所述S2进一步包括步骤:
S21:利用滑动窗口方法将长度为m的时间序列TS划分成m-s+1个长度 为s的子序列,将子序列的集合表示为{C1,C2,...,Gm-s+1},其中C1表示下标 为1的子序列;
S22:随机选取r个参考子序列,分别计算各个子序列与参考子序列的距 离,存入距离矩阵Dis之中:
Figure BDA0002381702760000031
其中,
Figure BDA0002381702760000032
表示第r参考子序列,
Figure BDA0002381702760000033
表示第m-s+1序列与 第r参考子序列之间的距离;
S23:利用公式(1)计算所述距离矩阵Dis每一行的标准差ψ:
Figure BDA0002381702760000034
将标准差ψ最大的一行对应的参考子序列作为最佳参考子序列CBRS; D(C*,CΔ)表示子序列C*和子序列CΔ间的欧式距离值,若该值小于给定距离阈值 R,则表示这两个子序列相似;
S24:计算每个子序列到最佳参考子序列CBRS的欧氏距离,并按所述欧氏 距离的值对各子序列进行升序排列;对所述欧氏距离大于距离阈值R的子序 列进行剪枝处理;
S25:将满足距离阈值R且其重复次数大于给定阈值的子序列归为一类集 合之中,遍历完所有子序列,完成时间序列motif的提取。
优选地,所述S3步骤中:
根据预设规则生成强关联规则并进行输出。
优选地,所述预设规则满足:
Locate(j-motif)-Locate(i-motif)∈[0,T] (2);
Figure BDA0002381702760000041
P(j-motif|i-motif)>min_conf (4);
其中,Locate(i-motif)表示取i-motif里子序列的下标,T表示时间阈值; motif表示时间序列;
Figure BDA0002381702760000042
表示关联规则
Figure BDA0002381702760000043
Figure BDA0002381702760000044
发生的概率,min_sup表示最小概率阈值;P(j-motif|i-motif)表示当 i-motif发生的情况下,j-motif发生的概率。
优选地,所述S4步骤中,所述衡量指标RM满足公式(5):
Figure BDA0002381702760000045
其中,Predict_error表示预测的结果与规则真实值之间的欧氏距离;
Figure BDA0002381702760000046
其中,Cpredict,i表示预测到的规则中的后件,Ctrue,i表示规则中后件的真 实值;
Random_error表示随机选取n个位置并计算该位置上的子串和规则中的 后件之间的欧氏距离,重复该操作1000次,然后取平均值。
优选地,所述S4步骤中,所述衡量指标RM的值越接近于0,表明该关 联规则的预测性能越好。
本发明由于采用了以上技术方案,使其具有以下有益效果:
基于PM_Motif方法使得本发明的方法拥有更低的计算成本。另外,算法 在保证规则一致性的同时具有通用性和有效性。
附图说明
图1为本发明实施例的基于AR_TSM的时间序列motif关联规则挖掘方 法的流程图;
图2为本发明实施例的时间序列不同motif的抽象示意图;
图3为本发明实施例的子序列之间的lower_bound示意图;
图4为本发明实施例的部分重叠的子序列波形示意图;
图5为本发明实施例的不同方法的RM值对比图。
具体实施方式
下面根据附图1~图5,给出本发明的较佳实施例,并予以详细描述,使能 更好地理解本发明的功能、特点。
请参阅图1和图2,本发明实施例的一种基于AR_TSM的时间序列motif 关联规则挖掘方法,包括步骤:
S1:采集一时间序列数据;
S2:基于PM_Motif方法对时间序列数据进行motif提取;
其中,S2进一步包括步骤:
S21:利用滑动窗口方法将长度为m的时间序列TS划分成m-s+1个长度 为s的子序列,将子序列的集合表示为{C1,C2,...,Gm-s+1},其中C1表示下标 为1的子序列;
S22:随机选取r个参考子序列,分别计算各个子序列与参考子序列的距 离,存入距离矩阵Dis之中:
Figure BDA0002381702760000051
其中,
Figure BDA0002381702760000052
表示第r参考子序列,
Figure BDA0002381702760000053
表示第m-s+1序列与 第r参考子序列之间的距离;
S23:利用公式(1)计算距离矩阵Dis每一行的标准差ψ:
Figure BDA0002381702760000054
将标准差ψ最大的一行对应的参考子序列作为最佳参考子序列CBRS; D(C*,CΔ)表示子序列C*和子序列CΔ间的欧式距离值,若该值小于给定距离阈值 R,则表示这两个子序列相似;
S24:计算每个子序列到最佳参考子序列CBRS的欧氏距离,并按欧氏距离 的值对各子序列进行升序排列;对欧氏距离大于距离阈值R的子序列进行剪 枝处理;
将各子序列与最佳参考子序列CBRS按距离值升序进行排列,此举目的在 于当要判断某一子序列Ci与其他子序列是否匹配时,若遍历到某一子序列Cj与 Ci间欧式距离值大于给定阈值R,则Cj之后的子序列则无需再计算,直接做剪 枝处理,这将保证降低算法时间复杂度的同时能够实现时间序列motif的精确 提取。
S25:将满足距离阈值R且其重复次数大于给定阈值的子序列归为一类集 合之中,遍历完所有子序列,完成时间序列motif的提取。
计算出拥有匹配度次数最高的子序列,作为1-motif中心,则与其匹配的 子序列一起构成了1-motif集,同理,选择匹配度次数次高的作为2-motif中 心,由此可以依次提取出2-motif,3-motif,…,k-motif各motif之间是没有 交集的,如图2所示。
请参阅图2,一个圈即代表一个类型的motif,各motif由相互相似的时间 序列子序列构成,图中不同圈内的二维点即为时间序列子序列的抽象化表示。
S3:基于AR_TSM方法的时间序列motif关联规则挖掘;
其中,S3步骤中:
根据预设规则生成强关联规则并进行输出。
预设规则满足:
Locate(j-motif)-Locate(i-motif)∈[0,T] (2);
Figure BDA0002381702760000061
P(j-motif|i-motif)>mmin_conf (4);
其中,Locate(i-motif)表示取i-motif里子序列的下标,T表示时间阈值; motif表示时间序列;
Figure BDA0002381702760000062
表示关联规则
Figure BDA0002381702760000063
Figure BDA0002381702760000071
发生的概率,min_sup表示最小概率阈值;P(j-motif|i-motif)表示当 i-motif发生的情况下,j-motif发生的概率。
采用上一步方法可以提取出时间序列motif,本发明要实现时间序列motif 关联规则的挖掘。关联规则是形如X→Y的蕴涵式,其中,X和Y分别称为 关联规则的先导和后继。本发明中将时间序列motif作为关联规则的先导和后 继。由时间序列motif的提取过程中可以了解到,时间序列motif相当于时间 序列重要信息的提炼,因而挖掘时间序列motif间的关联规则是有意义的。
以挖掘关联规则
Figure BDA0002381702760000072
为例,其中T表示时间阈值,即当 i-motif发生之后的T时间内j-motif发生,这构成一条关联规则,该方法实际 可拆分为以下三个条件:
(1)Locate(j-motif)-Locate(i-motif)∈[0,T]
(2)
Figure BDA0002381702760000073
(3)P(j-motif|i-motif)>min_conf
Locate(i-motif)意为获取i-motif里子序列的下标,条件(1)则意为该关 联规则需满足i-motif与j-motif的发生时间差要满足时间阈值T,条件(2) 表示的是该规则的支持度,即关联规则
Figure BDA0002381702760000074
发生的概率,条件 (3)表示该规则的置信度,意为当i-motif发生的情况下j-motif发生的概率, 本发明给出如下定义,即:当关联规则
Figure BDA0002381702760000075
同时满足条件(2) 和条件(3)时即可构成一条强关联规则并进行输出。
S4:利用衡量指标RM衡量规则预测性能。
事实上,在前两步的基础上可以挖掘出很多关联规则,但一个关联规则 挖掘方法的好坏并不仅限于此,还应给出相应的评价标准。为了评价关联规 则的预测性能,本发明给出衡量指标RM。
其中,S4步骤中,衡量指标RM满足公式(5):
Figure BDA0002381702760000081
其中,Predict_error表示预测的结果与规则真实值之间的欧氏距离;
Figure BDA0002381702760000082
其中,Cpredict,i表示预测到的规则中的后件,Ctrue,i表示规则中后件的真 实值;
Random_error表示随机选取n个位置并计算该位置上的子串和规则中的 后件之间的欧氏距离,重复该操作1000次,然后取平均值。
比如,针对关联规则
Figure BDA0002381702760000083
若要计算其Random_error值, 则在时间序列中随机选取n个位置的子序列{Cr1,Cr2,…,Crn},Cr1表示 随机选取的一个子序列,下一步计算D(j-motif,Cri)(i=1,2,…,n), 重复该操作1000次,而后计算其平均值。
衡量指标RM的值越接近于0,表明该关联规则的预测性能越好。
请参阅图3~图5,例如:
(1)采集一时间序列数据TS。
(2)基于PM_Motif方法的时间序列motif提取
对于时间序列TS,挖掘其中的关联规则,首先要得到关联规则的前件和 后件,即关联规则的先导和后继。时间序列motif即为时间序列中频繁出现的 模式,挖掘motif间的关联规则是有意义的,因此将时间序列motif作为关联 规则的前件和后件,用于发现motif间的关联规则。首先采用基于剪枝技术的 PM_Motif方法提取motif,利用滑动窗口方法将长度为m的时间序列TS划分 成m-s+1个长度为s的子序列。从已划分的子序列中随机选取k个子序列, 分别计算这些随机子序列与其他所有子序列之间的距离并存储到矩阵 dist_Martix中,Mueen等人在一文中指出,将欧式距离用于motif挖掘中是足 够的。如果两个motif在欧式距离下相对较远,若使用DTW可以使它们看起 来更近,但是,若两个motif相对较近,则欧式距离和DTW之间的差异就减 小了,而DTW的花销远高于欧式距离,且欧式距离满足三角不等式,如以下 公式所示:
D(Ci,Ck)≤D(Ci,Cj)+D(Cj,Ck)
假设,D(Ci,Ck)=10,D(Cj,Ck)=1,其中D(Ci,Cj)表示子序列Ci与子序 列Ci间的欧式距离,可以得到:
D(Ci,Cj)≥9
如果要求找出距离小于5的子序列,遇到这种情况,就不用继续计算 D(Ci,Cj)的真实值了,大大节省了系统开销。综合各项因素,本文的距离公式 选用欧式距离。然后计算dist_Martix矩阵每一行的标准差,最大标准差的一 行对应的参考子序列即为最佳的参考子序列,因为标准差越大,lower_bound 越大,以此来保证发现更多的motif,避免遗漏。将dist_Martix矩阵中标准差 最大的一行进行从小到大排序,计算各子序列之间的lower_bound值, lower_bound(Ci,Cj)=|D(C*,Ci)-D(C*,Cj)|,当lower_bound(Ci,Cj)<R时, 再计算Ci与Cj之间的真实距离,以图3为例,假设R取2.5,D(CBRS,C3)=2,小 于2.5,则需要计算CBRS与C3间的真实距离,而D(C2,C1)=3,大于2.5,则无 需继续计算其真实距离;当要计算所有子序列与CBRS之间的距离,因为是按 照与CBRS的距离的升序排列,当计算到D(CBRS,C2)=4.5时,4.5>2.5,易知,后 面的子序列均大于该值,所以,后面的子序列与CBRS间的真实值均不需要计 算,转而跳转到其他类似计算中。若两个子序列之间的真实距离小于R,则将其按照(sub1,sub2,dist)的格式存入字典T_S中,其中sub1为子序列Ci的 下标,sub2为子序列Cj的下标,dist为Ci与Cj之间的欧氏距离。Add_up[i] 中存储的是与Ci相似的子序列的个数。
以找1-motif集为例,Add_up[]中最大的数max即为1-motif中心,找到 1-motif中心之后,遍历字典T_S,对于T_S中的第i个元组T_S[i],若该元组 的sub1或sub2的值等于Max,则将对应的Csub2或Csub1的子序列放入 1-motif集中,并将列表Add_up[]中的第Max、第sub1或sub2个元素设置为 0;继续遍历新的Add_up列表,其中最大的数所在位置即为2-motif中心motif 的下标,寻找2-motif集过程与1-motif集类似,以此类推直到找出所有motif 集。该方法实现了时间序列motif的精准提取,在保证时间序列信息完整的同 时保证了时间效率。
(3)基于AR_TSM方法的时间序列motif关联规则挖掘方法
其次,提出基于AR_TSM方法挖掘时间序列motif间的关联规则,定义 一个列表Rule_set用来存储挖掘出来的规则,其中Rule_set=[row,col,Fre],row 存储的是关联规则的前件,col存储的是关联规则的后件,Fre存储的是该规 则出现的次数。挖掘候选规则集Rule_set,当满足Cx在i-motif中且Cy在j-motif 中时,再判断Locate(Cy)-Locate(Cx)∈[0,T]是否成立,若成立,即可将
Figure BDA0002381702760000101
作为候选规则添加到候选规则集Rule_set中。计算支持度 大于最小支持度min_sup和置信度大于最小置信度min_conf的规则,并将其 添加至列表bestRule_set。其中anteced等于规则前件集合的个数。该关联规则挖掘算法的主要是要筛选出Locate(j-motif)-Locate(i-motif)∈[0,T]的关联规 则,而非传统方法中的Locate(j-motif)-(Locate(i-motif)+motif_length)∈[0,lag] 的关联规则,充分考虑了motif间可能存在部分重合的情况,如图4所示。
此举能有效且更全面地挖掘出更多有意义的关联规则。
(4)关联规则评价对比
最后,选取五条关联规则并计算其RM值,与现有的motif关联规则挖掘 算法MBP和Y15计算得到的RM值进行对比,结果如图5所示。
时间序列预测是数据挖掘领域的研究热点。挖掘时间序列motif间潜在的 关联规则可以在预测未来趋势方面发挥重要作用。针对现有的技术方法中存 在符号化时间序列发现motif导致原始信息丢失和分割motif来发现motif内 部的关联规则的方法导致规则不一致性的问题,本发明提出以下解决方案, 针对传统方法,其创新点表现如下:
1.采用PM_Motif方法发现motif,在保留时间序列原始信息的前提下,实 现motif的精准快速提取;
2.从motif间的关联规则入手,给出了基于AR_TSM方法的时间序列motif 间的关联规则的挖掘,充分保证了关联规则的一致性;
3.引入关联规则评价参数RM,在多数据集上证明了AR_TSM挖掘出的 关联规则的预测性能,且将该技术用于随机游走数据集的关联规则的挖掘, 证明出了无法挖掘出有效关联规则,再次证明了该方法的有效性。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员 可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应 构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的 保护范围。

Claims (6)

1.一种基于AR_TSM的时间序列motif关联规则挖掘方法,包括步骤:
S1:采集一时间序列数据;
S2:基于PM_Motif方法对所述时间序列数据进行motif提取;
S3:基于AR_TSM方法的时间序列motif关联规则挖掘;
S4:利用衡量指标RM衡量规则预测性能。
2.根据权利要求1所述的基于AR_TSM的时间序列motif关联规则挖掘方法,其特征在于,所述S2进一步包括步骤:
S21:利用滑动窗口方法将长度为m的时间序列TS划分成m-s+1个长度为s的子序列,将子序列的集合表示为{C1,C2,...,Gm-s+1},其中C1表示下标为1的子序列;
S22:随机选取r个参考子序列,分别计算各个子序列与参考子序列的距离,存入距离矩阵Dis之中:
Figure FDA0002381702750000011
其中,
Figure FDA0002381702750000012
表示第r参考子序列,
Figure FDA0002381702750000013
表示第m-s+1序列与第r参考子序列之间的距离;
S23:利用公式(1)计算所述距离矩阵Dis每一行的标准差ψ:
Figure FDA0002381702750000014
将标准差ψ最大的一行对应的参考子序列作为最佳参考子序列CBRS;D(C*,CΔ)表示子序列C*和子序列CΔ间的欧式距离值,若该值小于给定距离阈值R,则表示这两个子序列相似;
S24:计算每个子序列到最佳参考子序列CBRS的欧氏距离,并按所述欧氏距离的值对各子序列进行升序排列;对所述欧氏距离大于距离阈值R的子序列进行剪枝处理;
S25:将满足距离阈值R且其重复次数大于给定阈值的子序列归为一类集合之中,遍历完所有子序列,完成时间序列motif的提取。
3.根据权利要求2所述的基于AR_TSM的时间序列motif关联规则挖掘方法,其特征在于,所述S3步骤中:
根据预设规则生成强关联规则并进行输出。
4.根据权利要求5所述的基于AR_TSM的时间序列motif关联规则挖掘方法,其特征在于,所述预设规则满足:
Locate(j-motif)-Locate(i-motif)∈[0,T] (2);
Figure FDA0002381702750000021
P(j-motif|i-motif)>min_conf (4);
其中,Locate(i-motif)表示取i-motif里子序列的下标,T表示时间阈值;motif表示时间序列;
Figure FDA0002381702750000022
表示关联规则
Figure FDA0002381702750000023
Figure FDA0002381702750000024
发生的概率,min_sup表示最小概率阈值;P(j-motif|i-motif)表示当i-motif发生的情况下,j-motif发生的概率。
5.根据权利要求4所述的基于AR_TSM的时间序列motif关联规则挖掘方法,其特征在于,所述S4步骤中,所述衡量指标RM满足公式(5):
Figure FDA0002381702750000025
其中,Predict_error表示预测的结果与规则真实值之间的欧氏距离;
Figure FDA0002381702750000026
其中,Cpredict,i表示预测到的规则中的后件,Ctrue,i表示规则中后件的真实值;
Random_error表示随机选取n个位置并计算该位置上的子串和规则中的后件之间的欧氏距离,重复该操作1000次,然后取平均值。
6.根据权利要求5所述的基于AR_TSM的时间序列motif关联规则挖掘方法,其特征在于,所述S4步骤中,所述衡量指标RM的值越接近于0,表明该关联规则的预测性能越好。
CN202010084931.XA 2020-02-10 2020-02-10 基于AR_TSM的时间序列motif关联规则挖掘方法 Active CN111324638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010084931.XA CN111324638B (zh) 2020-02-10 2020-02-10 基于AR_TSM的时间序列motif关联规则挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010084931.XA CN111324638B (zh) 2020-02-10 2020-02-10 基于AR_TSM的时间序列motif关联规则挖掘方法

Publications (2)

Publication Number Publication Date
CN111324638A true CN111324638A (zh) 2020-06-23
CN111324638B CN111324638B (zh) 2023-03-28

Family

ID=71172568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010084931.XA Active CN111324638B (zh) 2020-02-10 2020-02-10 基于AR_TSM的时间序列motif关联规则挖掘方法

Country Status (1)

Country Link
CN (1) CN111324638B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562865A (zh) * 2017-08-30 2018-01-09 哈尔滨工业大学深圳研究生院 基于Eclat的多元时间序列关联规则挖掘方法
CN109190800A (zh) * 2018-08-08 2019-01-11 上海海洋大学 一种基于spark框架的海面温度预测方法
CN109241118A (zh) * 2018-08-08 2019-01-18 河海大学 基于子序列全连接和最大团的时间序列模体发现方法
CN110362606A (zh) * 2019-06-10 2019-10-22 河海大学 一种时间序列变长模体挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562865A (zh) * 2017-08-30 2018-01-09 哈尔滨工业大学深圳研究生院 基于Eclat的多元时间序列关联规则挖掘方法
CN109190800A (zh) * 2018-08-08 2019-01-11 上海海洋大学 一种基于spark框架的海面温度预测方法
CN109241118A (zh) * 2018-08-08 2019-01-18 河海大学 基于子序列全连接和最大团的时间序列模体发现方法
CN110362606A (zh) * 2019-06-10 2019-10-22 河海大学 一种时间序列变长模体挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ELENA GRIBOVSKAYA: "Motion Learning and Adaptive Impedance for Robot Control during", 《IEEE》 *
李昌盛: "关联规则推荐的高效分布式计算框架", 《CNKI》 *

Also Published As

Publication number Publication date
CN111324638B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN106295250B (zh) 二代测序短序列快速比对分析方法及装置
US6633817B1 (en) Sequence database search with sequence search trees
CN108595655B (zh) 一种基于会话特征相似性模糊聚类的异常用户检测方法
CN109325060B (zh) 一种基于数据特征的时间序列流数据快速搜索方法
Gao et al. Efficient discovery of time series motifs with large length range in million scale time series
Al-Ghalith et al. BURST enables mathematically optimal short-read alignment for big data
DeRonne et al. Pareto optimal pairwise sequence alignment
Vaddadi et al. Read mapping on genome variation graphs
Lowe et al. Evaluating a lightweight transcriptome assembly pipeline on two closely related ascidian species
CN111324638B (zh) 基于AR_TSM的时间序列motif关联规则挖掘方法
CN110070120B (zh) 基于判别采样策略的深度度量学习方法及系统
CN117174182A (zh) 一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法
CN112331350A (zh) 一种重症监护病房提早转入预测方法、系统及存储介质
CN114547251B (zh) 基于bert的两阶段民间故事检索方法
CN115881211B (zh) 蛋白质序列比对方法、装置、计算机设备以及存储介质
CN114020948B (zh) 基于排序聚类序列辨别选择的草图图像检索方法及系统
CN114564306B (zh) 一种基于GPU并行计算的第三代测序RNA-seq比对方法
CN115691666A (zh) 基于sigma预测突变致病性分析方法、系统及设备
KR100538451B1 (ko) 분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색시스템 및 그 방법
JP3370787B2 (ja) 文字配列検索方法
Aleb et al. An improved K-means algorithm for DNA sequence clustering
Camproux et al. Exploring the use of a structural alphabet for structural prediction of protein loops
Böer Multiple alignment using hidden Markov models
Ganesh et al. MOPAC: motif finding by preprocessing and agglomerative clustering from microarrays
KR100537636B1 (ko) 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant