CN116306922B - 数据序列间关系分析方法、装置、存储介质及电子设备 - Google Patents
数据序列间关系分析方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116306922B CN116306922B CN202310108058.7A CN202310108058A CN116306922B CN 116306922 B CN116306922 B CN 116306922B CN 202310108058 A CN202310108058 A CN 202310108058A CN 116306922 B CN116306922 B CN 116306922B
- Authority
- CN
- China
- Prior art keywords
- sequence
- segment
- target
- equivalent
- fragment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000012634 fragment Substances 0.000 claims abstract description 97
- 239000011159 matrix material Substances 0.000 claims description 39
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 17
- 230000008859 change Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012300 Sequence Analysis Methods 0.000 description 2
- 206010022000 influenza Diseases 0.000 description 2
- 102000006822 Agouti Signaling Protein Human genes 0.000 description 1
- 108010072151 Agouti Signaling Protein Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000312 effect on influenza Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种数据序列间关系分析方法、装置、存储介质及电子设备,涉及大数据领域。其中,电子设备获取第一数据序列以及第二数据序列;根据第一数据序列与第二数据序列,获得多个片段对的关联指数,根据多个片段对的关联指数,从中选取关联指数最大的目标片段对;根据目标片段对,获得第一数据序列与第二数据序列之间的关联信息。由于每个片段对包括第一数据序列的第一序列片段以及第二数据序列的第二序列片段,并且,第一序列片段与第二序列片段分别截取自不同是时间段,因此,能够获得两序列数据之间滞后的关联关系。
Description
技术领域
本申请涉及大数据领域,具体而言,涉及一种数据序列间关系分析方法、装置、存储介质及电子设备。
背景技术
时间序列数据是对物理状态或现象的有序观测而成的序列记录,蕴藏着外部环境不同因素对其变化的影响,表现出特定的变化特征,其是自然、工程、社会、经济等众多科学研究和决策的基础。
由于时间序列数据是挖掘分析、知识发现、情景预测等技术的基础;并且数据科学已由从粗放型分析迈入精细化分析的阶段,这就要求定性定量的分析某一特征的变化规律和影响程度,例如气候变化多少,会给人类那些群体的健康带来什么样的潜在风险,再如在什么样的气温条件下,不同粮食作物的增产效果。因此,在当前大数据背景下,时间序列数据的不断积累和丰富,对其变化特征的挖掘分析已成为数据科学的核心技术需求。
传统意义上的关联推断方法,大多通过构建复杂的物理过程模型,来分析不同因素间的因果关系。然而,在自然和社会现象中,广泛存在的局部变化效应,如生物都有自己的温度适应区间,病毒对不同年龄阶段的人群具有不同的感染致死率等,这就要求考虑对时间序列数据进行精细化挖掘分析,而传统意义上的关联推断方法并不能对此取得理想的分下效果。
发明内容
为了克服现有技术中的至少一个不足,本申请提供一种数据序列间关系分析方法、装置、存储介质及电子设备,用于分析出两序列数据之间滞后的关联关系,具体包括:
第一方面,本申请提供一种数据序列间关系分析方法,所述方法包括:
获取第一数据序列以及第二数据序列;
根据所述第一数据序列与所述第二数据序列,获得多个片段对的关联指数,其中,每个片段对包括所述第一数据序列的第一序列片段以及所述第二数据序列的第二序列片段,并且,所述第一序列片段与所述第二序列片段分别截取自不同是时间段;
根据所述多个片段对的关联指数,从中选取关联指数最大的目标片段对;
根据所述目标片段对,获得所述第一数据序列与所述第二数据序列之间的关联信息。
第二方面,本申请提供一种数据序列间关系分析装置,所述装置包括:
序列分割模块,用于获取第一数据序列以及第二数据序列;
所述序列分割模块,还用于根据所述第一数据序列与所述第二数据序列,获得多个片段对的关联指数,其中,每个片段对包括所述第一数据序列的第一序列片段以及所述第二数据序列的第二序列片段,并且,所述第一序列片段与所述第二序列片段分别截取自不同是时间段;
片段筛选模块,用于根据所述多个片段对的关联指数,从中选取关联指数最大的目标片段对;
关系分析模块,用于根据所述目标片段对,获得所述第一数据序列与所述第二数据序列之间的关联信息。
第三方面,本申请提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的数据序列间关系分析方法。
第四方面,本申请提供一种电子设备,所述电子设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时,实现所述的数据序列间关系分析方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请提供的数据序列间关系分析方法、装置、存储介质及电子设备中,电子设备获取第一数据序列以及第二数据序列;根据第一数据序列与第二数据序列,获得多个片段对的关联指数,根据多个片段对的关联指数,从中选取关联指数最大的目标片段对;根据目标片段对,获得第一数据序列与第二数据序列之间的关联信息。由于每个片段对包括第一数据序列的第一序列片段以及第二数据序列的第二序列片段,并且,第一序列片段与第二序列片段分别截取自不同是时间段,因此,能够获得两序列数据之间滞后的关联关系。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的地球在x方向的部分极移值序列;
图2为本申请实施例提供的地球在y方向的部分极移值序列;
图3为本申请实施例提供的常规方法分析出的序列关系示意图;
图4为本申请实施例提供的数据序列间关系分析方法的流程示意图;
图5为本申请实施例提供的二值化原理示意图之一;
图6为本申请实施例提供的二值化原理示意图之二;
图7为本申请实施例提供的两等效序列的示意图;
图8为本申请实施例提供的基于滞后时长的分割原理示意图之一;
图9为本申请实施例提供的基于滞后时长的分割原理示意图之二;
图10为本申请实施例提供的关联指标对的示意图;
图11为本申请实施例提供的关联矩阵的示意图;
图12为本申请实施例提供的矩阵片段的分割示意图;
图13为本申请实施例提供的数据序列间关系分析装置的结构示意图;
图14为本申请实施例提供的电子设备的结构示意图。
图标:101-序列分割模块;102-片段筛选模块;103-关系分析模块;201-存储器;202-处理器;203-通信单元;204-系统总线。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
基于以上声明,研究发现,用于对时间序列间关联性进行分析的相关方法,其常用相关性指数来分析时间序列间的线性关联。尽管相关指数种类很多,如Pearson、Spearman等相关系数,然而,它们均是从整体上分析两个时间序列的变化特征,忽略了时间序列间的非线性特征和区间效应。
例如,春季气温变化对夏季植被长势所造成的影响,两者之间存在较大的时间滞后性。又例如,气温骤降对流感爆发所造成的影响,两者之前同样存在较大的时间滞后性。
对于这一类问题,从整体上分析两个时间序列的变化特征的常规方法往往难以发掘出两者之间的时机关系。例如,图1与图2示出了源自于国际地球自转与参考系统的两个数据序列,分别用于X和Y表示,其中,X表示地球在x方向的部分极移值序列,Y表示地球在y方向的部分极移值序列,两者以天为采样分辨率。若对着两个数据序列采取常规方法进行分析,则分析出的结果如图3所示,而图3并不能明显反映出两数据序列之间的关联特征及程度。
因此,为了解时间序列特定区间变化的相互作用特征,需要建立关联推断的定性和定量指标和方法,描述这些变化特征在值域和时域上的作用强度。同时,也要注重变化特征之间相互作用中的滞后现象。
需要注意的是,以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是发明人在发明创造过程中对本申请做出的贡献,而不应当理解为本领域技术人员所公知的技术内容。
本实施例提供一种数据序列间关系分析,用于分析出两序列数据之间滞后的关联关系。其中,实施该方法的电子设备可以是,但不限于,移动终端、平板计算机、膝上型计算机、台式计算机以及服务器等。
当该电子设备为服务器时,该服务器可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器可以是分布式系统)。在一些实施例中,服务器相对于用户终端,可以是本地的、也可以是远程的。在一些实施例中,服务器可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(CommunityCloud)、分布式云、跨云(Inter-Cloud)、多云(Multi-Cloud)等。在一些实施例中,服务器可以在具有一个或多个组件的电子设备上实现。
基于以上实施例中的介绍,下面结合图4对该方法的各步骤进行详细阐述。但应该理解的是,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。如图4所示,该方法包括:
S101,获取第一数据序列以及第二数据序列。
S102,根据第一数据序列与第二数据序列,获得多个片段对的关联指数。
其中,每个片段对包括第一数据序列的第一序列片段以及第二数据序列的第二序列片段,并且,第一序列片段与第二序列片段分别截取自不同的时间段。并且,本实施例中的第一数据序列与第二数据序列可以是多种应用场景下采集的数据序列,对此,本实施不做具体限定。例如,当第一数据序列为周期性采集的气温序列时,第二数据序列可以是周期性采集的植被涨势组成的植被涨势序列;当第一数据序列是周期性采集的温差所组成的温差序列时,第二数据序列可以是周期性采集的流感感染人数组成的流感序列。
研究发现,并不是第一数据序列中的每个序列值都会对第二数据序列中的某个序列值造成显著的影响,因此,本实施例分别为第一数据序列提供有第一序列阈值,为第二数据序列提供有第二序列阈值,用于对两序列的有效数据进行筛选,相关具体实施方式包括:
S102-1,根据第一数据序列的第一序列阈值,将第一数据序列二值化为第一等效序列。
S102-2,根据第二数据序列的第二序列阈值,将第二数据序列二值化为第二等效序列。
本实施例中,第一数据序列中的每个序列值,若大于第一序列阈值,则置为第一序列值;若小于或者等于第一序列阈值,则置为第二序列值;第二数据序列中的每个序列值,若大于第二序列阈值,则置为第一序列值;若小于或者等于第二序列阈值,则置为第二序列值。
示例性的,继续以图1所示的第一数据序列以及图2所示的第二数据序列为例。如图5所示,假定第一数据序列的第一序列阈值为0.15,将其中大于0.15的序列值置为1,小于或者等于0.15的序列值置为0。
如图6所示,假定第二数据序列的第二序列阈值为0.4,将其中大于0.4的序列值置为1,小于或者等于0.4的序列值置为0。
S102-3,将当前的滞后时长进行递增,得到目标滞后时长。
S102-4,根据目标滞后时长,从第一等效序列中截取第一等效片段。
S102-5,根据目标滞后时长,从第二等效序列中截取第二等效片段,第一等效片段对应的时间段与第二等效片段的时间段错开了目标滞后时长。
S102-6,根据第一等效片段与第二等效片段,获得当前的片段对的关联指数。
其中,当前的片段对包括第一数据序列中与第一等效片段对应的第一序列片段以及第二数据序列中与第二等效片段对应的第二序列片段;
S102-7,若目标滞后时长不满足终止条件,则返回将当前的滞后时长进行递增,得到目标滞后时长的步骤执行,直至目标滞后时长满足终止条件后,获得多个片段对的关联指数。
示例性的,如图7所示的第一等效序列与第二等效序列,两者具有相同的观测时段以及采样频率。图中的两等效序列均包括有15个序列值(1或者0),并且相邻序列值之间的采样时间间隔为1秒,即这15个序列值对应的时段为0~14秒。
应理解的是,由于第一数据序列与第一等效序列之间的序列值一一对应,第二数据序列与第二等效序列之间的序列值一一对应,因此,两数据序列之间的滞后时长与两等效序列之间的滞后时长保持一致。此处为了便于对关联指数进行介绍,以第一等效序列与第二等效序列为研究对象对滞后时长进行介绍。
继续参见图7,此时两等效序列之间的滞后时长为0秒,在当前滞后时长的基础上增加1秒,两等效序列之间的滞后时长变为1秒,相当于将图7中的两等效序列按照图8所示的方向错开1秒,并将图8中两个等效序列之间对齐的部分单独进行截取,得到第一等效片段与第二等效片段。
其中,第一等效片段的时段位于0~13秒,而第二等效片段的时段位于1~14秒。此时,意味着第一数据序列中0~13秒的第一序列片段与第二数据序列中1~14秒的第二序列片段组成一片段对。
同理,在当前滞后时长的基础上增加1秒,两等效序列之间的滞后时长变为2秒,相当于将图7中的两等效序列按照图9所示的方向错开2秒,并将图9中两个等效序列之间对齐的部分单独进行截取,得到第一等效片段与第二等效片段。
其中,第一等效片段的时段位于0~12秒,而第二等效片段的时段位于2~14秒。此时,意味着第一数据序列中0~12秒的第一序列片段与第二数据序列中2~14秒的第二序列片段组成一片段对。
以此类推,可获得多个片段对各自的第一等效片段以及第二等效片段,然后,分别根据每个片段对的第一等效片段以及第二等效片段,获得每个片段对的关联指数。此处值得说明的是,两等效序列之间的滞后时长不仅限于正数,还可以是负数,即图7中两等效序列的滞后时长的取值包括[-14,-13…-3,-2,-1,0,1,2,3…13,14]。其中,滞后时长为负数时,意味着将图7中的两个等效序列沿与图8以及图9相反的方向进行错开。
对于每个片段对,可以通过以下表达式计算其关联指数:
式中,CI表示当前的片段对的关联指数,NXY表示第一等效片段与第二等效片段之间关联指标对的数量,其中,第一等效片段与第二等效片段之间位于同一序列位置的第一序列值构成一关联指标对;NXX表示第一等效片段的序列长度,NYY表示第二等效片段的序列长度。
继续以图8所示的片段对为例,如图10所示,将图中两等效片段之间位于相同序列位置的序列值“1”视为一组关联指标对,因此,图中共有6个关联指标对,第一等效片段的序列长度为14,第二等效片段的序列长度为14,则关联指数CI的结果为:
如此,按照上述实施例中的关联指数的计算方式,可获得多个片段对各自的关联指数。
以上实施中介绍了每个片段对的关联指数,基于该关联指数,继续参见图4,该方法还包括;
S103,根据多个片段对的关联指数,从中选取关联指数最大的目标片段对。
应理解的是,对于关联指数最大的目标片段对,则意味着该目标片段对中的第一序列片段与第二序列片段之间存在最为显著的关联关系。
S104,根据目标片段对,获得第一数据序列与第二数据序列之间的关联信息。
其中,本实施例提供以下方式对第一数据序列与第二数据序列之间的关联信息进行分析,具体包括:
S104-1,将目标片段对分割成多个子片段对。
本实施例中,将目标片段对包括的第一序列片段称为第一目标序列片段,第二序列片段称为第二目标系列片段,并提供以下分割方式对目标片段对进行分割:
S104-1-1,根据第一数据序列的第一序列阈值,将第一目标序列片段二值化为第一目标等效片段。
S104-1-2,根据第二数据序列的第二序列阈值,将第二目标序列片段二值化为第二目标等效片段。
其中,第一目标序列片段中的每个序列值,若大于第一序列阈值,则置为第一序列值;若小于或者等于第一序列阈值,则置为第二序列值。第二目标序列片段中的每个序列值,若大于第二序列阈值,则置为第一序列值;若小于或者等于第二序列阈值,则置为第二序列值。
S104-1-3,将第一目标等效片段与第二目标等效片段之间相同的序列位置进行比较,得到第一目标等效片段与第二目标等效片段之间的关联矩阵。
其中,对于第一目标等效片段与第二目标等效片段之间相同的序列位置,若均为第一序列值,则置为第一标识;若包括有第二序列值,则置为第二标识。
示例性的,假定第一目标序列片段与第二目标序列片段如图8所示,并且第一标识为“1”,第二标识为“0”,则将图8中两目标序列片段之间相同的序列位置进行比较,得到如图11所示的关联矩阵,该关联矩阵的维度为1×14。
S104-1-4,从当前剩余的关联矩阵中确定出排列在首位的第一标识。
S104-1-5,基于第一标识的序列位置,从当前剩余的关联矩阵中截取预设时间窗口内的矩阵片段。
S104-1-6,若当前剩余的关联矩阵中包括有第一标识,则返回从当前剩余的关联矩阵中确定出排列在首位的第一标识的步骤执行,直至当前剩余的关联矩阵不再包括有第一标识,获得多个矩阵片段。
S104-1-7,根据多个矩阵片段,从目标片段对截取出多个子片段对,其中,多个矩阵片段与多个子片段对一一对应。
也即是说,本实施例中将关联矩阵分割成矩阵片段,然后,就要矩阵片段对目标片段对做进一步的分割,得到多个片段对。
示例性的,继续以图11所示的关联矩阵为例,并假定时间窗口为3秒,若当前剩余的关联矩阵中,排列在首位的第一标识的序列位置为Pi,只要当前剩余的关联矩阵中其他序列的序列位置满足|Pi-Pj|≤3这一关系,则将其分割到一个矩阵片段。
如图12所示,按照这一分割原则,首先以P0所在的位置为基准,截取左右两侧间隔不超过3秒的序列值作为一个矩阵片段;此时,剩余的关联矩阵中,排列在首位的第一标识位于P5所在的位置,以P5所在的位置为基准,截取左右两侧间隔不超过3秒的序列值作为一个矩阵片段;此时,剩余的关联矩阵中,排列在首位的第一标识位于P9所在的位置,以P9所在的位置为基准,截取左右两侧间隔不超过3秒的序列值作为一个矩阵片段,最终,则可以将图11中的关联矩阵划分为3个矩阵片段。
S104-2,分别将每个子片段对的平均斜率,作为每个子片段对的局部关联强度。
其中,每个子片段对包括截取子第一目标序列片段中的第一子序列片段,以及截取子第二目标系列片段中的第二子序列片段;
每个子片段对的平均斜率的计算表达式为:
式中,AIg表示第g子片段对的平均斜率,n表示第g子片段对的序列长度;Xj,Xi表示依次第一子序列片段中的第j个序列值以及第i个序列值;Yj,Yi表示依次第二子序列片段中的第j个序列值以及第i个序列值,mg表示斜率的总数。
该表达式中,将第一子序列片段中的序列值作为纵轴上的坐标,将第二子序列片段中的序列值作为横轴上的坐标,以此计算彼此之间的斜率,并进行平均。
示例性的,继续参见图12,以图中的第一个矩阵片段为例,其对应的子片段对包括k0~k5共6个斜率:
S104-3,将多个子片段对的局部关联强度之间的均值,作为第一数据序列与第二数据序列之间的关联强度。
其中,对于多个子片段对的局部关联强度之间的均值,相应的表达式为:
式中,AI表示关联强度,G表示局部关联强度的数量,AIg表示第g个子片段对的局部关联强度。
S104-4,将多个子片段对的局部关联强度之间的平均斜率,作为关联强度的作用力。
其中,多个子片段对的局部关联强度之间的平均斜率的计算表达式为:
式中,DI表示多个子片段对的局部关联强度之间的平均斜率,G表示多个子片段对的数量,AIh,AIg依次表示第h个子片段的局部关联强度以及第g个子片段的局部关联强度,mh表示第h个子片段的序列号,mg表示第g个子片段的序列号。
该表达式中,将多个子片段对的局部关联强度作为纵轴上的坐标,将多个子片段对的局部关联强度的序列号作为横轴上的坐标,以此计算彼此之间的斜率,并进行平均。
通过以上实施例方式,对图1以及图2所示的两数据序列进行处理后,发现两数据序列之间的变化具有滞后效应,其中,在滞后92天时,两者的变化特征关联性最强。此时,两者之间的线性相关系数为0.75,意味着两者之间存在显著的线性相关性,并且,关联指数为0.79、关联强度为0.86,当滞后92天时,变化持续时间对关联强度的作用力为0.0034。
综上所述,在以上实施方式中,通过从第一数据序列与第二数据序列中截取不同时间段的序列片段组成片段对,并基于各片段对的关联指数从中选取最关联指数最大的目标片段对作为分析对象,以获得第一数据序列与第二数据序列之间的关系。如此,能够获得两序列数据之间滞后的关联关系。
基于与本实施例提供的数据序列间关系分析方法相同的发明构思,本实施例还提供一种数据序列间关系分析装置,该数据序列间关系分析装置包括至少一个可以软件形式存储于存储器201或固化在电子设备的操作系统(Operating System,简称OS)中的软件功能模块。电子设备中的处理器202用于执行存储器201中存储的可执行模块,例如,数据序列间关系分析装置所包括的软件功能模块及计算机程序等。请参照图13,从功能上划分,数据序列间关系分析装置可以包括:
序列分割模块101,用于获取第一数据序列以及第二数据序列;
序列分割模块101,还用于根据第一数据序列与第二数据序列,获得多个片段对的关联指数,其中,每个片段对包括第一数据序列的第一序列片段以及第二数据序列的第二序列片段,并且,第一序列片段与第二序列片段分别截取自不同是时间段。
本实施例中,该序列分析模块用于实现图4中的步骤S101、S102,关于该序列分析模块的详细介绍可以参见步骤S101、S102的描述。
片段筛选模块102,用于根据多个片段对的关联指数,从中选取关联指数最大的目标片段对。
在本实施例中,片段筛选模块102用于实现图4中的步骤S103,关于该片段筛选模块102的详细介绍可以参见步骤S103的详细描述。
关系分析模块103,用于根据目标片段对,获得第一数据序列与第二数据序列之间的关联信息。
在本实施例中,该关系分析模块103用于实现图4中的步骤S104,关于该关系分析模块103的详细介绍可以参见步骤S104的详描述。
值得说明的是,由于与数据序列间关系分析方法具有相同的发明构思,因此,以上序列分割模块101、片段筛选模块102、关系分析模块103还可以用于实现该数据序列间关系分析方法的其他步骤或者子步骤,对此,本实施例不做具体的限定。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
还应理解的是,以上实施方式如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
因此,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时,实现本实施例提供的数据序列间关系分析方法。其中,该计算机可读存储介质可以是U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
请参照图14,本实施例还提供的一种电子设备包括处理器202及存储器201。并且,存储器201存储有计算机程序,处理器通过读取并执行存储器201中与以上实施方式对应的计算机程序,实现本实施例所提供的数据序列间关系分析方法。
继续参加图14,该电子设备还包括有通信单元203。存储器201、处理器202以及通信单元203各元件相互之间通过系统总线204直接或间接地电性连接,以实现数据的传输或交互。
其中,该存储器201可以是基于任何电子、磁性、光学或其它物理原理的信息记录装置,用于记录执行指令、数据等。在一些实施方式中,该存储器201可以是,但不限于,易失存储器、非易失性存储器、存储驱动器等。
在一些实施方式中,该易失存储器可以是随机存取存储器(Random AccessMemory,RAM);在一些实施方式中,该非易失性存储器可以是只读存储器(Read OnlyMemory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)、闪存等;在一些实施方式中,该存储驱动器可以是磁盘驱动器、固态硬盘、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合等。
该通信单元203用于通过网络收发数据。在一些实施方式中,该网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网(Wireless Local Area Networks,WLAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、公共电话交换网(Public Switched Telephone Network,PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication,NFC)网络等,或其任意组合。在一些实施例中,网络可以包括一个或多个网络接入点。例如,网络可以包括有线或无线网络接入点,例如基站和/或网络交换节点,服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
该处理器202可能是一种集成电路芯片,具有信号的处理能力,并且,该处理器可以包括一个或多个处理核(例如,单核处理器或多核处理器)。仅作为举例,上述处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital SignalProcessor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等,或其任意组合。
应该理解到的是,在上述实施方式中所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种数据序列间关系分析方法,其特征在于,所述方法包括:
获取第一数据序列以及第二数据序列;
根据所述第一数据序列的第一序列阈值,将所述第一数据序列二值化为第一等效序列;
根据所述第二数据序列的第二序列阈值,将所述第二数据序列二值化为第二等效序列;
将当前的滞后时长进行递增,得到目标滞后时长;
根据所述目标滞后时长,从所述第一等效序列中截取第一等效片段;
根据所述目标滞后时长,从所述第二等效序列中截取第二等效片段,所述第一等效片段对应的时间段与所述第二等效片段的时间段错开了所述目标滞后时长;
根据所述第一等效片段与所述第二等效片段,获得当前的片段对的关联指数,其中,所述当前的片段对包括所述第一数据序列中与所述第一等效片段对应的第一序列片段以及所述第二数据序列中与所述第二等效片段对应的第二序列片段;
若所述目标滞后时长不满足终止条件,则返回所述将当前的滞后时长进行递增,得到目标滞后时长的步骤执行,直至所述目标滞后时长满足所述终止条件后,获得多个片段对的关联指数;
根据所述多个片段对的关联指数,从中选取关联指数最大的目标片段对;
根据所述目标片段对,获得所述第一数据序列与所述第二数据序列之间的关联信息。
2.根据权利要求1所述的数据序列间关系分析方法,其特征在于,所述第一数据序列中的每个序列值,若大于所述第一序列阈值,则置为第一序列值;若小于或者等于所述第一序列阈值,则置为第二序列值;
所述第二数据序列中的每个序列值,若大于所述第二序列阈值,则置为所述第一序列值;若小于或者等于所述第二序列阈值,则置为所述第二序列值。
3.根据权利要求2所述的数据序列间关系分析方法,其特征在于,所述根据所述第一等效片段与所述第二等效片段,获得当前的片段对的关联指数的表达式为:
式中,CI表示所述当前的片段对的关联指数,NXY表示所述第一等效片段与所述第二等效片段之间关联指标对的数量,其中,所述第一等效片段与所述第二等效片段之间位于同一序列位置的第一序列值构成一关联指标对;NXX表示所述第一等效片段的序列长度,NYY表示所述第二等效片段的序列长度。
4.根据权利要求1所述的数据序列间关系分析方法,其特征在于,所述根据所述目标片段对,获得所述第一数据序列与所述第二数据序列之间的关联信息,包括:
将所述目标片段对分割成多个子片段对;
分别将每个子片段对的平均斜率,作为每个子片段对的局部关联强度;
将所述多个子片段对的局部关联强度之间的均值,作为所述第一数据序列与所述第二数据序列之间的关联强度;
将所述多个子片段对的局部关联强度之间的平均斜率,作为所述关联强度的作用力。
5.根据权利要求4所述的数据序列间关系分析方法,其特征在于,所述目标片段对包括第一目标序列片段以及第二目标序列片段,所述将所述目标片段对分割成多个子片段对,包括:
根据所述第一数据序列的第一序列阈值,将所述第一目标序列片段二值化为第一目标等效片段,其中,所述第一目标序列片段中的每个序列值,若大于所述第一序列阈值,则置为第一序列值;若小于或者等于所述第一序列阈值,则置为第二序列值;
根据所述第二数据序列的第二序列阈值,将所述第二目标序列片段二值化为第二目标等效片段,其中,所述第二目标序列片段中的每个序列值,若大于所述第二序列阈值,则置为所述第一序列值;若小于或者等于所述第二序列阈值,则置为所述第二序列值;
将所述第一目标等效片段与所述第二目标等效片段之间相同的序列位置进行比较,得到所述第一目标等效片段与所述第二目标等效片段之间的关联矩阵,其中,对于所述第一目标等效片段与所述第二目标等效片段之间相同的序列位置,若均为所述第一序列值,则置为第一标识;若包括有所述第二序列值,则置为第二标识;
从当前剩余的关联矩阵中确定出排列在首位的第一标识;
基于所述第一标识的序列位置,从当前剩余的关联矩阵中截取预设时间窗口内的矩阵片段;
若当前剩余的关联矩阵中包括有所述第一标识,则返回所述从当前剩余的关联矩阵中确定出排列在首位的第一标识的步骤执行,直至当前剩余的关联矩阵不再包括有所述第一标识,获得多个矩阵片段;
根据所述多个矩阵片段,从所述目标片段对截取出所述多个子片段对,其中,所述多个矩阵片段与所述多个子片段对一一对应。
6.根据权利要求4所述的数据序列间关系分析方法,其特征在于,所述目标片段对包括第一目标序列片段以及第二目标系列片段;
每个子片段对包括截取子所述第一目标序列片段中的第一子序列片段,以及截取子所述第二目标系列片段中的第二子序列片段;
每个子片段对的平均斜率的计算表达式为:
式中,AIg表示第g子片段对的平均斜率,n表示所述第g个子片段对的序列长度;Xj,Xi表示依次所述第一子序列片段中的第j个序列值以及第i个序列值;Yj,Yi表示依次所述第二子序列片段中的第j个序列值以及第i个序列值,mg表示斜率的总数;
所述多个子片段对的局部关联强度之间的平均斜率的计算表达式为:
式中,DI表示多个子片段对的局部关联强度之间的平均斜率,G表示所述多个子片段对的数量,AIh,AIg依次表示第h个子片段的局部关联强度以及第g个子片段的局部关联强度,mh表示第h个子片段的序列号,mg表示第g个子片段的序列号。
7.一种数据序列间关系分析装置,其特征在于,所述装置包括:
序列分割模块,用于获取第一数据序列以及第二数据序列;
所述序列分割模块,还用于根据所述第一数据序列的第一序列阈值,将所述第一数据序列二值化为第一等效序列;
根据所述第二数据序列的第二序列阈值,将所述第二数据序列二值化为第二等效序列;
将当前的滞后时长进行递增,得到目标滞后时长;
根据所述目标滞后时长,从所述第一等效序列中截取第一等效片段;
根据所述目标滞后时长,从所述第二等效序列中截取第二等效片段,所述第一等效片段对应的时间段与所述第二等效片段的时间段错开了所述目标滞后时长;
根据所述第一等效片段与所述第二等效片段,获得当前的片段对的关联指数,其中,所述当前的片段对包括所述第一数据序列中与所述第一等效片段对应的第一序列片段以及所述第二数据序列中与所述第二等效片段对应的第二序列片段;
若所述目标滞后时长不满足终止条件,则返回所述将当前的滞后时长进行递增,得到目标滞后时长的步骤执行,直至所述目标滞后时长满足所述终止条件后,获得多个片段对的关联指数;
片段筛选模块,用于根据所述多个片段对的关联指数,从中选取关联指数最大的目标片段对;
关系分析模块,用于根据所述目标片段对,获得所述第一数据序列与所述第二数据序列之间的关联信息。
8.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-6任意一项所述的数据序列间关系分析方法。
9.一种电子设备,其特征在于,所述电子设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-6任意一项所述的数据序列间关系分析方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310108058.7A CN116306922B (zh) | 2023-02-13 | 2023-02-13 | 数据序列间关系分析方法、装置、存储介质及电子设备 |
US18/535,945 US20240273117A1 (en) | 2023-02-13 | 2023-12-11 | Method of association inference for time series data based on local variation features |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310108058.7A CN116306922B (zh) | 2023-02-13 | 2023-02-13 | 数据序列间关系分析方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116306922A CN116306922A (zh) | 2023-06-23 |
CN116306922B true CN116306922B (zh) | 2023-09-15 |
Family
ID=86791536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310108058.7A Active CN116306922B (zh) | 2023-02-13 | 2023-02-13 | 数据序列间关系分析方法、装置、存储介质及电子设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240273117A1 (zh) |
CN (1) | CN116306922B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105023044A (zh) * | 2015-07-21 | 2015-11-04 | 清华大学 | 基于大量时间序列的交通流因果关系挖掘方法 |
WO2019001168A1 (zh) * | 2017-06-27 | 2019-01-03 | 中国水稻研究所 | 测序数据结果分析方法和装置、测序文库构建和测序方法 |
CN111221983A (zh) * | 2020-01-15 | 2020-06-02 | 北京百度网讯科技有限公司 | 时序知识图谱生成方法、装置、设备和介质 |
WO2020224112A1 (zh) * | 2019-05-07 | 2020-11-12 | 深圳大学 | 一种基于训练级数模型的时间序列预测方法 |
EP4053750A1 (en) * | 2021-03-04 | 2022-09-07 | Tata Consultancy Services Limited | Method and system for time series data prediction based on seasonal lags |
CN115358628A (zh) * | 2022-09-14 | 2022-11-18 | 平安银行股份有限公司 | 基于时间序列的相关性分析方法、装置、设备及介质 |
CN115526469A (zh) * | 2022-09-16 | 2022-12-27 | 中国科学院地理科学与资源研究所 | 基于格兰杰检验分析气候参数之间的因果关系的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220222547A1 (en) * | 2021-01-08 | 2022-07-14 | Salesforce.Com, Inc. | Multi-scale exponential-smoothing forecaster for time series data |
-
2023
- 2023-02-13 CN CN202310108058.7A patent/CN116306922B/zh active Active
- 2023-12-11 US US18/535,945 patent/US20240273117A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105023044A (zh) * | 2015-07-21 | 2015-11-04 | 清华大学 | 基于大量时间序列的交通流因果关系挖掘方法 |
WO2019001168A1 (zh) * | 2017-06-27 | 2019-01-03 | 中国水稻研究所 | 测序数据结果分析方法和装置、测序文库构建和测序方法 |
WO2020224112A1 (zh) * | 2019-05-07 | 2020-11-12 | 深圳大学 | 一种基于训练级数模型的时间序列预测方法 |
CN111221983A (zh) * | 2020-01-15 | 2020-06-02 | 北京百度网讯科技有限公司 | 时序知识图谱生成方法、装置、设备和介质 |
EP4053750A1 (en) * | 2021-03-04 | 2022-09-07 | Tata Consultancy Services Limited | Method and system for time series data prediction based on seasonal lags |
CN115358628A (zh) * | 2022-09-14 | 2022-11-18 | 平安银行股份有限公司 | 基于时间序列的相关性分析方法、装置、设备及介质 |
CN115526469A (zh) * | 2022-09-16 | 2022-12-27 | 中国科学院地理科学与资源研究所 | 基于格兰杰检验分析气候参数之间的因果关系的方法 |
Non-Patent Citations (2)
Title |
---|
多元时间序列因果关系分析研究综述;任伟杰;自动化学报;全文 * |
张双楼煤矿陷落柱发育规律浅析;赵国辉;化工管理 * |
Also Published As
Publication number | Publication date |
---|---|
CN116306922A (zh) | 2023-06-23 |
US20240273117A1 (en) | 2024-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Keeley et al. | Habitat suitability is a poor proxy for landscape connectivity during dispersal and mating movements | |
Jetz et al. | Towards a general framework for predicting threat status of data-deficient species from phylogenetic, spatial and environmental information | |
Strauss et al. | Inferring longitudinal hierarchies: framework and methods for studying the dynamics of dominance | |
US20160026755A1 (en) | Identifying Ancestral Relationships using a Continuous Stream of Input | |
Nielsen et al. | Capacity of large-scale, long-term biodiversity monitoring programmes to detect trends in species prevalence | |
Burbrink et al. | Resolving spatial complexities of hybridization in the context of the gray zone of speciation in North American ratsnakes (Pantherophis obsoletus complex) | |
Curnick et al. | Setting evolutionary‐based conservation priorities for a phylogenetically data‐poor taxonomic group (S cleractinia) | |
Harrison et al. | Phylogenetic homogenization of bee communities across ecoregions | |
WO2016061260A1 (en) | Reducing error in predicted genetic relationships | |
Pereira et al. | Fine‐tuning biodiversity assessments: A framework to pair eDNA metabarcoding and morphological approaches | |
Hendry et al. | Elucidating relationships between P. falciparum prevalence and measures of genetic diversity with a combined genetic-epidemiological model of malaria | |
CN110288003A (zh) | 数据变化识别方法及设备 | |
HalFFTER et al. | A strategy for measuring biodiversity | |
CN112291122A (zh) | 网络流量检测方法、装置、电子设备及可读存储介质 | |
Souza et al. | Does Triatoma brasiliensis occupy the same environmental niche space as Triatoma melanica? | |
CN116306922B (zh) | 数据序列间关系分析方法、装置、存储介质及电子设备 | |
Chang et al. | Using ancient DNA and coalescent-based methods to infer extinction | |
Ciucani et al. | Evolutionary history of the extinct Sardinian dhole | |
Butturi-Gomes et al. | Computer intensive methods for controlling bias in a generalized species diversity index | |
Pearson et al. | Local ancestry inference for complex population histories | |
Burbrink et al. | Speciation rates are unrelated to the formation of population structure in Malagasy gemsnakes | |
Ikeda et al. | Post‐glacial East Asian origin of the alpine shrub Phyllodoce aleutica (Ericaceae) in Beringia | |
CN106845156A (zh) | 基于血小板差异表达基因标记的分类方法、装置及系统 | |
Adams et al. | Genomic recovery lags behind demographic recovery in bottlenecked populations of the Channel Island fox, Urocyon littoralis | |
Greve et al. | Snails in the desert: Species diversification of Theba (Gastropoda: Helicidae) along the Atlantic coast of NW Africa |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |