CN106383999A - 一种多源时序数据的趋势分析方法和装置 - Google Patents

一种多源时序数据的趋势分析方法和装置 Download PDF

Info

Publication number
CN106383999A
CN106383999A CN201610818703.4A CN201610818703A CN106383999A CN 106383999 A CN106383999 A CN 106383999A CN 201610818703 A CN201610818703 A CN 201610818703A CN 106383999 A CN106383999 A CN 106383999A
Authority
CN
China
Prior art keywords
time series
series data
data
explosive force
exact correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610818703.4A
Other languages
English (en)
Inventor
秦臻
崔岩
沈雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing To Build A Financial Information Service Ltd By Share Ltd
Original Assignee
Beijing To Build A Financial Information Service Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing To Build A Financial Information Service Ltd By Share Ltd filed Critical Beijing To Build A Financial Information Service Ltd By Share Ltd
Priority to CN201610818703.4A priority Critical patent/CN106383999A/zh
Publication of CN106383999A publication Critical patent/CN106383999A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Abstract

本发明提供了一种多源时序数据的趋势分析方法和装置。所述方法包括:分别从不同的数据源中获取原始的不同结构的数据,将原始的不同结构的数据解析为具有统一结构的多个时序数据;对所述具有统一结构的多个时序数据进行清洗,识别出描述同一对象的多个时序数据;利用所述描述同一对象的多个时序数据进行相互校验和补充;计算所述多个精确关联时序数据中每个时间点的爆发力,获得多个精确关联时序数据的爆发力序列,对描述同一对象的多个精确关联时序数据的爆发力序列进行加权求和,计算该对象的综合爆发力序列。本发明充分利用多源时序数据本身的特点,采用描述同一对象的多个精确关联时序数据计算该对象的综合爆发力序列并进行校正处理,实现了更准确的可视化的趋势分析。

Description

一种多源时序数据的趋势分析方法和装置
技术领域
本发明涉及数据挖掘领域,具体地涉及一种多源时序数据的趋势分析方法和装置。
背景技术
近几年随着科技的发展,出现了越来越多的以时间和空间为维度的数据。例如在生物医学方面,基因数据就是以空间为维度的数据,针对基因数据的异常检测可以发现疾病;在金融方面,持卡人的消费记录就是以时间为维度的数据,通过检测持卡人的消费记录所对应的时序数据,可以找到异常持卡人;在工业方面,温度传感器、压力传感器等的数据都是以时间和空间为维度的数据。
这些时序数据中蕴含了大量的信息,因此希望通过数据挖掘算法发现和利用蕴含在时序数据中的信息。时序数据的特点可以总结为以下四个方面:第一,时序数据通常根据时间或空间的变化而变化,所以都具有维度高的特点;第二是异构性,互联网中的时序数据并不单一,可包括视频、音频、文本等;第三是稀疏性,时序数据的稀疏性造成了算法选择的局限性;第四是动态增加,时序数据和传统的静态数据最大的不同是时序数据随着时间或空间的增加而增加,所以是动态增量型的。由于时序数据和传统的静态数据有明显的差异,使用传统的数据预处理算法和数据挖掘算法对时序数据进行处理,得不到理想的效果。这样,很多传统的数据挖掘算法就不能直接用于处理时序数据。
目前针对时序数据的算法大致分成三个方向:(1)基于原始数据的算法,就是改变时序数据的相似性度量;(2)基于特征提取的算法,即先对原始的时序数据做特征提取,然后应用数据挖掘算法;(3)基于模型的算法,即使用不同的模型去描述时序数据,认为相同的模型产生的时序数据具有较高的相似度。
可以从不同的数据源中获得描述同一对象的多个时序数据,例如可以从数据源应用商店1、应用商店2、……、应用商店n、和社交网络1、社交网络2、……、社交网络n中获得针对某app的描述。但现有技术中缺少能够准确分析多源时序数据发展趋势的方法和装置。
发明内容
有鉴于此,本发明实施例提供了一种多源时序数据的趋势分析方法和装置,以更准确的分析多源时序数据的发展趋势。
第一方面,提供了一种多源时序数据的趋势分析方法,包括:
多源时序数据的采集和解析步骤,分别从不同的数据源中获取原始的不同结构的数据,将原始的不同结构的数据解析为具有统一结构的多个时序数据;
数据清洗步骤,对所述具有统一结构的多个时序数据进行清洗,识别出描述同一对象的多个时序数据;
针对时序数据特性的预处理步骤,利用所述描述同一对象的多个时序数据进行相互校验和补充;
综合爆发力计算步骤,定义一个精确关联时序数据中第n个时间点上的爆发力等于所述精确关联时序数据中第n个时间点以前每个时间点的置信度和变化率乘积的累加和,其中所述精确关联时序数据指直观的描述待测对象属性的时序数据;计算多个精确关联时序数据中每个时间点的爆发力,获得多个精确关联时序数据的爆发力序列;对描述同一对象的多个精确关联时序数据的爆发力序列进行加权求和,计算该对象的综合爆发力序列;
对所述综合爆发力序列进行可视化展示。
结合第一方面,在第一方面的第一种可能的实现方法中,所述综合爆发力计算步骤包括:从所述多个时序数据获得多个精确关联时序数据;设定时间窗;根据所述时间窗,计算每个精确关联时序数据中每个时间点的置信度和变化率;计算所述多个精确关联时序数据中每个时间点的爆发力,获得多个精确关联时序数据的爆发力序列,其中定义一个精确关联时序数据中第n个时间点上的爆发力等于所述精确关联时序数据中第n个时间点之前每个时间点的置信度和变化率乘积的累加和;对描述同一对象的多个精确关联时序数据的爆发力序列进行加权求和,计算该对象的综合爆发力序列。
结合第一方面,在第一方面的第二种可能的实现方法中,所述综合爆发力计算步骤之后,还包括综合爆发力校正步骤,所述综合爆发力校正步骤包括:使用加权移动平均算法对所述综合爆发力序列进行平滑整理,并根据历史波动情况和时长不足的情况,对所述综合爆发力序列进行惩罚校正,获得修正后的综合爆发力序列。
结合第一方面,在第一方面的第三种可能的实现方法中,所述针对时序数据特性的预处理步骤包括:修复时序数据缺失导致的跳跃,修复时序数据中异常高或者异常低的数值,修复不符合实际的时序数据,并进行数据归约。
结合第一方面的第一种可能的实现方法,在第一方面的第四种可能的实现方法中,计算置信度的方法为:根据所述设定的时间窗,滑动窗口,在窗口中计算一个精确关联时序数据的加权平均值;然后根据计算获得所述精确关联时序数据在所述时间窗内的中间时间点上的置信度coef,其中n为大于等于1的整数,x1,x2,x3......xn是所述精确关联时序数据在所述设定的时间窗内每个时间点对应的数值,x是x1,x2,x3......xn的加权平均值,α是x的中位数,N是x1,x2,x3......xn的最大值,β1取大于2的整数。
结合第一方面的第一种或第四种可能的实现方法,在第一方面的第五种可能的实现方法中,计算变化率的方法为:在所述预设的时间窗内,根据计算获得所述精确关联时序数据在所述时间窗内的中间时间点上的变化率diff,其中n为大于等于1的整数,x1,x2,x3......xn是所述精确关联时序数据在所述设定的时间窗内每个时间点对应的数值,x是x1,x2,x3......xn的加权平均值,α是x的中位数,β2是大于0的整数。
结合以上任何一种可能的实现方法,在第一方面的第六种可能的实现方法中,所述累加和的计算方法为:其中momentumn指一个精确关联时序数据中第n个时间点上的爆发力,i为大于等于1并且小于等于n的整数,n为大于等于1的整数,coefi指的是所述精确关联时序数据在时间点i的置信度,diffi指的是所述精确关联时序数据在时间点i的变化率。
结合以上任何一种可能的实现方法,在第一方面的第七种可能的实现方法中,所述综合爆发力计算步骤还包括:在计算获得所述对象的综合爆发力序列之后,利用描述同一对象的模糊关联时序数据,对所述综合爆发力序列进行微调,其中所述模糊关联时序数据指从侧面描述所述对象的时序数据。
第二方面,提供了一种多源时序数据的趋势分析装置,包括:
多源时序数据的采集和解析模块,用于分别从不同的数据源中获取原始的不同结构的数据,将原始的不同结构的数据解析为具有统一结构的多个时序数据;
数据清洗模块,用于对所述具有统一结构的多个时序数据进行清洗,识别出描述同一对象的多个时序数据;
针对时序数据特性的预处理模块,用于利用所述描述同一对象的多个时序数据进行相互校验和补充;
综合爆发力计算模块,用于定义一个精确关联时序数据中第n个时间点上的爆发力等于所述精确关联时序数据中第n个时间点以前每个时间点的置信度和变化率乘积的累加和,其中所述精确关联时序数据指直观的描述待测对象属性的时序数据;计算多个精确关联时序数据中每个时间点的爆发力,获得多个精确关联时序数据的爆发力序列;对描述同一对象的多个精确关联时序数据的爆发力序列进行加权求和,计算该对象的综合爆发力序列;
显示模块,用于对所述综合爆发力序列进行可视化展示。
第三方面,提供了一种多源时序数据的趋势分析装置包括:
存储器,所述存储器中存储有程序指令;
至少一个处理器,用于执行所述程序指令;
所述程序指令被所述处理器执行时,使得所述处理器执行第一方面的方法。
本发明的有益效果如下:
本发明充分利用多源时序数据本身的特点,对从不同数据源获取的多个时序数据进行数据清洗和预处理,然后利用描述同一对象的多个精确关联时序数据计算待测对象的综合爆发力序列并进行校正处理和可视化展示,综合爆发力序列体现了待测对象的发展趋势,从而实现了更准确的可视化的趋势分析。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种多源时序数据的趋势分析方法的流程图;
图2为本发明实施例提供的一个应用实例的流程图;
图3为本发明实施例提供的针对时序数据特性的预处理方法流程图;
图4为本发明实施例提供的综合爆发力计算方法的流程图;
图5为本发明实施例提供的综合爆发力校正方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种多源时序数据的趋势分析方法的流程图。如图1所示,一种多源时序数据的趋势分析方法,包括多源时序数据的采集和解析步骤S101、数据清洗步骤S102、针对时序数据特性的预处理步骤S103、计算综合爆发力步骤S104、综合爆发力校正步骤S105和结果展示步骤S106。以下对各步骤进行更详细的描述:
步骤S101:多源时序数据的采集和解析。此步骤指的是分别从不同的数据源中获取原始的不同结构的数据,将原始的不同结构的数据解析为具有统一结构的多个时序数据,存储在数据库中。
例如,图2为本发明实施例提供的一个应用实例的流程图,其中可以从数据源应用商店1、应用商店2、……、应用商店n、社交网络1、社交网络2、……、社交网络n中获得针对某APP的描述数据,这些描述数据分别具有xml、html、json等不同的格式,然后分别从不同格式的数据中解析出描述此APP的时序数据1、时序数据2、……、时序数据n。
返回图1,步骤S102为:数据清洗。在数据清洗步骤中,对步骤S101解析出来的具有统一结构的多个时序数据进行清洗,识别出描述同一对象的多个时序数据。数据清洗可包括对象识别、消除属性冗余、删除重复数据等步骤。
步骤S103:针对时序数据特性的预处理。预处理步骤指,针对时序数据特有的属性,使用描述同一对象的所有时序数据进行相互校验和补充。
步骤S104:计算综合爆发力。该步骤包括:从通过S103的预处理步骤获得的多个时序数据中,获得多个精确关联时序数据;计算每个精确关联时序数据中每个时间点的置信度和变化率;计算多个精确关联时序数据中每个时间点的爆发力,从而获得多个精确关联时序数据的爆发力序列,其中定义一个精确关联时序数据中第n个时间点上的爆发力等于所述精确关联时序数据中第n个时间点以前每个时间点(包括第n个时间点)的置信度和变化率乘积的累加和;对描述同一对象的多个精确关联时序数据的爆发力序列进行加权求和,作为该对象的综合爆发力序列。
S105:综合爆发力校正。该步骤包括使用加权移动平均算法对通过S104步骤获得的综合爆发力序列进行平滑整理,并根据历史波动情况和时长不足的情况,对综合爆发力序列进行惩罚校正,获得修正后的综合爆发力序列。
S106:结果展示。该步骤包括对S105步骤获得的修正后的综合爆发力序列进行可视化展示。修正后的综合爆发力序列体现了多源时序数据的发展趋势。
图2为本发明实施例提供的一个应用实例的流程图。在该应用实例中,从数据源应用商店1、应用商店2、……、应用商店n、和社交网络1、社交网络2、……、社交网络n中获得针对某APP的描述数据,这些描述数据分别具有xml、html、json等不同的格式,然后从不同的格式中解析出描述该APP的时序数据1、时序数据2、……、时序数据n,存储到数据库中。然后分别对每个时序数据进行数据清洗,之后再结合所有的时序数据,针对时序数据的特性进行预处理。虽然结合该应用实例进行了描述,但是,本发明不仅限于该应用场景。
图3为本发明实施例提供的针对时序数据特性的预处理方法的流程图。如图3所示,图1中的针对时序数据特性的预处理步骤S103具体可包括以下步骤:S301,修复数据缺失导致的跳跃;S302,修复数据中异常高或者异常低的数据;S303,修复不符合实际的数据;S304,数据归约。以下进行更详细描述:
步骤S301:修复数据缺失导致的跳跃。
数据源的采集或者解析过程出错,可能会导致出现数据缺失的情况。遇到这种情况,传统的数据预处理方法,会去掉此时间点或者计算均值、计算期望。本申请发明人创造性地提出以下方法,用于修复数据缺失导致的跳跃:
由于通过采集和解析步骤获取的多个时序数据都以时间为维度,这样当一个时序数据在某一个时间点出现数据缺失时,可以在其他时序数据中确定此时间点的趋势。因为多个时序数据描述的都是同一对象,趋势应该相同,所以可以将该趋势映射到缺失的位置,完成缺失数据的补充。当一个对象的第一时序数据在第一时间点上出现数据缺失时,分别计算描述同一对象的其他多个时序数据中所述第一时间点的前一时间点上的数值到所述第一时间点上数值的斜率和截距,并分别求截距均值和斜率均值,根据所述截距均值、斜率均值和所述第一时序数据在所述第一时间点的前一时间点的数值,得到第一时序数据在所述第一时间点的预测数值,用以修复数据缺失导致的跳跃。
该修复数据缺失的方法,可用于处理由于数据源的问题而导致的大面积缺失数据的情况。例如在某一个时间段,一个数据源由于断电或者损坏,没有获取到时序数据,此时可以根据其他数据源在该时间段内对同一对象的描述,对此缺失的数据源的数据进行修复。
例如,假设现有某APP在三个应用商店的下载量分别为:s1=[x11,x12,x13,x14......x1n],s2=[x21,x22,x23,x24......x2n],s3=[x31,x32,x33,x34......x3n],其中每个向量s1、s2、s3分别表示来自不同应用商店的时序数据,x11表示应用商店1对应的序列s1在时间点1上的数值,x1n表示应用商店1对应的序列s1在时间点n上的数值,x21表示应用商店2对应的序列s2在时间点1上的数值,x2n表示应用商店2对应的序列s2在时间点n上的数值,x31表示应用商店3对应的序列s3在时间点1上的数值,x3n表示应用商店3对应的序列s3在时间点n上的数值,以此类推,n为大于等于1的整数。若s1在时间点3是空缺的,则利用s2和s3计算出在时间点3的趋势,例如分别计算出s2和s3在时间点3的截距和斜率,然后分别计算截距均值和斜率均值,根据所述截距均值、斜率均值和s1在时间点2的数值就可以得到s1在时间点3的预测。
步骤S302:修复数据中异常高或者异常低的数据。当一个时序数据中出现异常高或者异常低的情况,在传统的数据预处理方法中,一般会将所述异常高或者异常低的数据直接删除或者计算均值、计算期望。本申请发明人创造性地提出以下方法来修复数据中异常高或者异常低的数据:
当第二时序数据中一个时间点上出现异常高或者异常低的数据时,将该时间点作为异常时间点;通过计算来自其他数据源的描述同一对象的其他时序数据在所述异常时间点上的趋势,设定一个阈值;如果第二时序数据中所述异常时间点上的数值超过了所设定的阈值,则计算第二时序数据中异常时间点前后时间点的均值、或者计算第二时序数据在预先设定时间段内的期望,将所述均值或期望作为第二时序数据中异常时间点的数据,以完成异常数据的修复;如果第二时序数据中所述异常时间点上的数值没有超过所设定的阈值,则不进行处理,表示这个数据的出现是合理的。
步骤S303:修复不符合实际的数据。时序数据的获取应当具有实际意义,例如某APP的下载量时序数据,此时序数据的特点就是不应该有下降的情况,因为下载量应当是一直增加的。当检测出一个时序数据中在一个时间点上或一个时间段内出现不符合实际的数据时,将所述时间点上或所述时间段内的数据设置为与所述时间点或所述时间段相邻的正常数据的均值。举例来说,如果下载量出现了下降的情况,则可以计算下降前的最后一个时间点的下载量和下降后的第一个时间点的下载量的均值,用于修复不符合实际的数据。
步骤S304:数据归约。根据时序数据的实际情况,可以进行数据的归约,例如将一定时期(例如一周)内数据集成为一个时间点对应的数值。
图4为本发明实施例提供的综合爆发力计算方法的流程图。如图4所示,图1中计算综合爆发力步骤S104具体可包括以下步骤:
S401:获得精确关联时序数据。
将时序数据分为两部分:第一部分是精确关联时序数据,精确关联时序数据指直观的描述待测对象属性的时序数据,例如某一个APP的下载量,或者是此APP在特定应用商店的下载排名;第二部分是模糊关联时序数据,模糊关联时序数据指的是从侧面描述对象的时序数据,例如在社交网络中提及此APP的次数。
S402:设定一个时间窗。例如设定时间窗的长度为3个时间点。
S403:计算精确关联时序数据中每个时间点的置信度(coef)。
计算置信度的具体方法为:根据设定的时间窗,滑动窗口,在窗口中计算精确关联时序数据的加权平均值;然后根据公式计算获得所述时间窗内的中间时间点上的置信度coef,其中n为大于等于1的整数,x1,x2,x3......xn是精确关联时序数据si在所述设定的时间窗内每个时间点对应的数值,x是x1,x2,x3......xn的加权平均值,α是x的中位数,N是x1,x2,x3......xn的最大值,β1取大于2的整数。计算置信度coef的目标就是x越小,coef越大。
同样采用前面的示例,对来自应用商店1的时序数据s1计算置信度coef,假设设定的时间窗口大小为3,则x=w1×x11+w2×x12+w3×x13,其中w1、w2、w3是权重。然后计算coef(x11,x12,x13),就得到了时序数据s1在时间窗内的中间时间点2处的置信度。以此类推,要计算时间点3的置信度,需要计算coef(x12,x13,x14)。
S404:计算精确关联时序数据中每个时间点的变化率。
在所述预设的时间窗内,根据公式计算时序数据的变化率diff,其中x1,x2,x3......xn是精确关联时序数据si在所述设定的时间窗内每个时间点对应的数值,n为大于等于1的整数,x是x1,x2,x3......xn的加权平均值,α是x的中位数,β2是大于0的整数。通过调节参数α和β2,调节变化率diff的取值范围,使得变化率以差异相对值为主、绝对值较小时弱化。
同样以下载量时序数据s1为例,窗口大小为3,x=w1×x11+w2×x12+w3×x13其中w1、w2、w3是权重;然后计算得到时序数据s1在时间点2处的变化率。
S405:定义一个精确关联时序数据中第n个时间点上的爆发力等于所述精确关联时序数据中第n个时间点以前每个时间点(包括第n个时间点)的置信度和变化率乘积的累加和,计算所述精确关联时序数据中每个时间点的爆发力,从而获得所述精确关联时序数据的爆发力序列。
具体地,定义一个精确关联时序数据中第n个时间点上的爆发力等于所述精确关联时序数据中第n个时间点之前每个时间点(包括第n个时间点)的置信度和变化率乘积的累加和,其公式为:
momentum n = Σ i = 1 n coef i × diff i ,
其中momentumn指一个精确关联时序数据中第n个时间点上的爆发力,i为大于等于1并且小于等于n的整数,n为大于等于1的整数,coefi指的是该精确关联时序数据在时间点i的置信度,diffi指的是该精确关联时序数据在时间点i的变化率。在一个示例中,例如时序数据s1=[x11,x12,x13,x14],则s1在第4个时间点上的爆发力为momentum=coef1×diff1+coef2×diff2+coef3×diff3+coef4×diff4。然后,计算所述精确关联时序数据中每个时间点的爆发力,获得所述精确关联时序数据的爆发力序列M。
S406:获得每个精确关联时序数据的爆发力序列后,进行权重调和,对描述同一对象的多个精确关联时序数据的爆发力序列进行加权求和,作为该对象的综合爆发力序列S,公式为:
S = Σ j = 1 m w j × M j ,
其中,j为大于等于1并且小于等于m的整数,m为描述同一对象的多个精确关联时序数据的总数,wj为第j个精确关联时序数据的权重,Mj为第j个精确关联时序数据的爆发力序列。
在一个示例中,例如对来自不同应用商店的精确关联时序数据s1、s2、s3的爆发力序列进行权重调和,得到综合爆发力序列
S407:利用描述同一对象的模糊关联时序数据,对所述综合爆发力序列进行微调,以提高趋势分析的准确率。具体为,根据预先设定的触发条件,例如趋势连续一致或波动达到阈值等,根据描述同一对象的模糊关联时序数据对S406步骤中获得的综合爆发力序列进行局部的、非颠覆性的调整。
图5为本发明实施例提供的综合爆发力序列校正方法的流程图。如图5所示,图1中综合爆发力校正步骤S105具体包括以下步骤:
S501:使用加权移动平均算法对通过S104步骤获得的综合爆发力序列进行平滑整理,参数可包括时间跨度、衰减因子,获得修正后的综合爆发力序列。
S502:根据历史波动情况,进行历史惩罚校正。例如在时序数据中出现了剧烈波动的情况,那么在进行趋势分析的时候,即使计算得出的一个时间点上的综合爆发力数值很高,但考虑到剧烈波动的历史,将对这个时间点上的综合爆发力数值做出惩罚,例如可以乘以小于1的参数作为惩罚。
S503:在时长不足的情况下对综合爆发力序列进行修正。从数据源处获得时序数据出现时长不足,可能有以下几种情况:一种情况为,此时序数据描述的对象最近才出现;另一种情况是数据源不稳定。以上两种情况不论哪种出现,都表明此时序数据不是从期望的稳定数据源获得的描述对象的良好数据,所以需要对获得的综合爆发力进行校正,例如乘以和时序数据长度相关的大于0小于1的正参数,以作为惩罚,但所述正参数与时序数据的长度相关,时序数据越长,参数越大。
本发明实施例还提供了一种多源时序数据的趋势分析装置,可以用于执行前述实施例中和附图1-5所述的方法。所述多源时序数据的趋势分析装置包括:
多源时序数据的采集和解析模块,用于分别从不同的数据源中获取原始的不同结构的数据,将原始的不同结构的数据解析为具有统一结构的多个时序数据;
数据清洗模块,用于对所述具有统一结构的多个时序数据进行清洗,识别出描述同一对象的多个时序数据;
针对时序数据特性的预处理模块,用于利用所述描述同一对象的多个时序数据进行相互校验和补充;
综合爆发力计算模块,用于定义一个精确关联时序数据中第n个时间点上的爆发力等于所述精确关联时序数据中第n个时间点以前每个时间点的置信度和变化率乘积的累加和,其中所述精确关联时序数据指直观的描述待测对象属性的时序数据;计算多个精确关联时序数据中每个时间点的爆发力,获得多个精确关联时序数据的爆发力序列;对描述同一对象的多个精确关联时序数据的爆发力序列进行加权求和,计算该对象的综合爆发力序列;
显示模块,用于对所述综合爆发力序列进行可视化展示。
本发明实施例还提供了一种多源时序数据的趋势分析装置,可以用于执行前述实施例中和附图1-5所述的方法。所述多源时序数据的趋势分析装置包括存储器和至少一个处理器,所述存储器中存储有程序指令,所述至少一个处理器,用于执行所述程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行前述实施例中和附图1-5所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序类指令处理器完成。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种多源时序数据的趋势分析方法,其特征在于,包括:
多源时序数据的采集和解析步骤,分别从不同的数据源中获取原始的不同结构的数据,将原始的不同结构的数据解析为具有统一结构的多个时序数据;
数据清洗步骤,对所述具有统一结构的多个时序数据进行清洗,识别出描述同一对象的多个时序数据;
针对时序数据特性的预处理步骤,利用所述描述同一对象的多个时序数据进行相互校验和补充;
综合爆发力计算步骤,定义一个精确关联时序数据中第n个时间点上的爆发力等于所述精确关联时序数据中第n个时间点以前每个时间点的置信度和变化率乘积的累加和,其中所述精确关联时序数据指直观的描述待测对象属性的时序数据;计算多个精确关联时序数据中每个时间点的爆发力,获得多个精确关联时序数据的爆发力序列;对描述同一对象的多个精确关联时序数据的爆发力序列进行加权求和,计算该对象的综合爆发力序列:
对所述综合爆发力序列进行可视化展示。
2.如权利要求1所述的多源时序数据的趋势分析方法,其特征在于,所述综合爆发力计算步骤包括:从所述多个时序数据获得多个精确关联时序数据;设定时间窗;根据所述时间窗,计算每个精确关联时序数据中每个时间点的置信度和变化率;计算所述多个精确关联时序数据中每个时间点的爆发力,获得多个精确关联时序数据的爆发力序列,其中定义一个精确关联时序数据中第n个时间点上的爆发力等于所述精确关联时序数据中第n个时间点之前每个时间点的置信度和变化率乘积的累加和;对描述同一对象的多个精确关联时序数据的爆发力序列进行加权求和,计算该对象的综合爆发力序列。
3.如权利要求1或2的所述多源时序数据的趋势分析方法,其特征在于,所述综合爆发力计算步骤之后,还包括综合爆发力校正步骤,所述综合爆发力校正步骤包括:使用加权移动平均算法对所述综合爆发力序列进行平滑整理,并根据历史波动情况和时长不足的情况,对所述综合爆发力序列进行惩罚校正,获得修正后的综合爆发力序列。
4.如权利要求1-3中任一个所述的多源时序数据的趋势分析方法,其特征在于,所述针对时序数据特性的预处理步骤包括:修复时序数据缺失导致的跳跃,修复时序数据中异常高或者异常低的数值,修复不符合实际的时序数据,并进行数据归约。
5.如权利要求2所述的多源时序数据的趋势分析方法,其特征在于,计算置信度的方法为:根据所述设定的时间窗,滑动窗口,在窗口中计算一个精确关联时序数据的加权平均值;然后根据计算获得所述精确关联时序数据在所述时间窗内的中间时间点上的置信度coef,其中n为大于等于1的整数,x1,x2,x3......xn是所述精确关联时序数据在所述设定的时间窗内每个时间点对应的数值,x是x1,x2,x3......xn的加权平均值,α是x的中位数,N是x1,x2,x3......xn的最大值,β1取大于2的整数。
6.如权利要求2或5所述的多源时序数据的趋势分析方法,其特征在于,计算变化率的方法为:在所述预设的时间窗内,根据计算获得所述精确关联时序数据在所述时间窗内的中间时间点上的变化率diff,其中n为大于等于1的整数,x1,x2,x3......xn是所述精确关联时序数据在所述设定的时间窗内每个时间点对应的数值,x是x1,x2,x3......xn的加权平均值,α是x的中位数,β2是大于0的整数。
7.如权利要求1-6中任一个所述的多源时序数据的趋势分析方法,其特征在于,所述累加和的计算方法为:其中momentumn指一个精确关联时序数据中第n个时间点上的爆发力,i为大于等于1并且小于等于n的整数,n为大于等于1的整数,coefi指的是所述精确关联时序数据在时间点i的置信度,diffi指的是所述精确关联时序数据在时间点i的变化率。
8.如权利要求1-7中任一个所述的多源时序数据的趋势分析方法,其特征在于,所述综合爆发力计算步骤还包括:在计算获得所述对象的综合爆发力序列之后,利用描述同一对象的模糊关联时序数据,对所述综合爆发力序列进行微调,其中所述模糊关联时序数据指从侧面描述所述对象的时序数据。
9.一种多源时序数据的趋势分析装置,其特征在于,所述多源时序数据的趋势分析装置包括:
多源时序数据的采集和解析模块,用于分别从不同的数据源中获取原始的不同结构的数据,将原始的不同结构的数据解析为具有统一结构的多个时序数据;
数据清洗模块,用于对所述具有统一结构的多个时序数据进行清洗,识别出描述同一对象的多个时序数据;
针对时序数据特性的预处理模块,用于利用所述描述同一对象的多个时序数据进行相互校验和补充;
综合爆发力计算模块,用于定义一个精确关联时序数据中第n个时间点上的爆发力等于所述精确关联时序数据中第n个时间点以前每个时间点的置信度和变化率乘积的累加和,其中所述精确关联时序数据指直观的描述待测对象属性的时序数据;计算多个精确关联时序数据中每个时间点的爆发力,获得多个精确关联时序数据的爆发力序列;对描述同一对象的多个精确关联时序数据的爆发力序列进行加权求和,计算该对象的综合爆发力序列;
显示模块,用于对所述综合爆发力序列进行可视化展示。
10.一种多源时序数据的趋势分析装置,其特征在于,所述多源时序数据的趋势分析装置包括:
存储器,所述存储器中存储有程序指令;
至少一个处理器,用于执行所述程序指令;
所述程序指令被所述处理器执行时,使得所述处理器执行如权利要求1-8所述的方法。
CN201610818703.4A 2016-09-13 2016-09-13 一种多源时序数据的趋势分析方法和装置 Pending CN106383999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610818703.4A CN106383999A (zh) 2016-09-13 2016-09-13 一种多源时序数据的趋势分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610818703.4A CN106383999A (zh) 2016-09-13 2016-09-13 一种多源时序数据的趋势分析方法和装置

Publications (1)

Publication Number Publication Date
CN106383999A true CN106383999A (zh) 2017-02-08

Family

ID=57936465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610818703.4A Pending CN106383999A (zh) 2016-09-13 2016-09-13 一种多源时序数据的趋势分析方法和装置

Country Status (1)

Country Link
CN (1) CN106383999A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108494994A (zh) * 2018-03-16 2018-09-04 北京华夏电通科技有限公司 提升图像分析算法准确率的方法及装置
CN109102329A (zh) * 2018-07-27 2018-12-28 索信市场咨询(北京)有限公司 一种数据采集、处理和分析应用方法及装置
CN109410145A (zh) * 2018-11-01 2019-03-01 北京达佳互联信息技术有限公司 时序平滑方法、装置及电子设备
CN110019228A (zh) * 2017-12-25 2019-07-16 北京金风科创风电设备有限公司 基于风机数据的多源数据整合方法及装置
CN110491106A (zh) * 2019-07-22 2019-11-22 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备
CN110688735A (zh) * 2019-09-05 2020-01-14 浪潮(北京)电子信息产业有限公司 一种时序信号趋势预测方法、装置、设备及存储介质
CN112270473A (zh) * 2020-10-27 2021-01-26 山东鼎滏软件科技有限公司 用于油气田时序数据的预警方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140019569A1 (en) * 2012-07-12 2014-01-16 Amit Vasant Sharma Method to determine patterns represented in closed sequences
CN103676645A (zh) * 2013-12-11 2014-03-26 广东电网公司电力科学研究院 一种时间序列数据流中的关联规则的挖掘方法
CN103996077A (zh) * 2014-05-22 2014-08-20 中国南方电网有限责任公司电网技术研究中心 一种基于多维时间序列的电气设备故障预测方法
CN104166787A (zh) * 2014-07-17 2014-11-26 南京航空航天大学 一种基于多阶段信息融合的航空发动机剩余寿命预测方法
CN104778837A (zh) * 2015-04-14 2015-07-15 吉林大学 一种道路交通运行态势多时间尺度预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140019569A1 (en) * 2012-07-12 2014-01-16 Amit Vasant Sharma Method to determine patterns represented in closed sequences
CN103676645A (zh) * 2013-12-11 2014-03-26 广东电网公司电力科学研究院 一种时间序列数据流中的关联规则的挖掘方法
CN103996077A (zh) * 2014-05-22 2014-08-20 中国南方电网有限责任公司电网技术研究中心 一种基于多维时间序列的电气设备故障预测方法
CN104166787A (zh) * 2014-07-17 2014-11-26 南京航空航天大学 一种基于多阶段信息融合的航空发动机剩余寿命预测方法
CN104778837A (zh) * 2015-04-14 2015-07-15 吉林大学 一种道路交通运行态势多时间尺度预测方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
JIRI KLEMA等: ""Sequential Data Mining: A Comparative Case Study in Development of Atherosclerosis Risk Factors"", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART C: APPLICATIONS AND REVIEWS》 *
P.SREENIVAS等: ""An Analytical approach for Data Preprocessing"", 《2013 INTERNATIONAL CONFERENCE ON EMERGING TRENDS IN COMMUNICATION, CONTROL, SIGNAL PROCESSING AND COMPUTING APPLICATIONS (C2SPCA)》 *
VO THI THANH VAN: ""时间序列分析技术的研究"", 《中国博士学位论文全文数据库 信息科技辑》 *
卓飞豹: ""多变量时间序列的预处理和聚类研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
曾丹乐: ""基于多源信息融合的变压器状态评估关键技术研究"", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 *
王端伟: ""时间序列部分周期模式挖掘算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
赵颖等: ""多源网络安全数据时序可视分析方法研究"", 《小型微型计算机系统》 *
颜镝: ""时间序列数据挖掘的研究以及在交通流预测上的应用"", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019228A (zh) * 2017-12-25 2019-07-16 北京金风科创风电设备有限公司 基于风机数据的多源数据整合方法及装置
CN108494994A (zh) * 2018-03-16 2018-09-04 北京华夏电通科技有限公司 提升图像分析算法准确率的方法及装置
CN108494994B (zh) * 2018-03-16 2020-12-11 北京华夏电通科技股份有限公司 提升图像分析算法准确率的方法及装置
CN109102329A (zh) * 2018-07-27 2018-12-28 索信市场咨询(北京)有限公司 一种数据采集、处理和分析应用方法及装置
CN109410145A (zh) * 2018-11-01 2019-03-01 北京达佳互联信息技术有限公司 时序平滑方法、装置及电子设备
CN109410145B (zh) * 2018-11-01 2020-12-18 北京达佳互联信息技术有限公司 时序平滑方法、装置及电子设备
CN110491106A (zh) * 2019-07-22 2019-11-22 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备
CN110491106B (zh) * 2019-07-22 2022-03-18 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备
CN110688735A (zh) * 2019-09-05 2020-01-14 浪潮(北京)电子信息产业有限公司 一种时序信号趋势预测方法、装置、设备及存储介质
CN112270473A (zh) * 2020-10-27 2021-01-26 山东鼎滏软件科技有限公司 用于油气田时序数据的预警方法及装置

Similar Documents

Publication Publication Date Title
CN106383999A (zh) 一种多源时序数据的趋势分析方法和装置
US9323652B2 (en) Iterative bottleneck detector for executing applications
CN106446091A (zh) 一种多源时序数据的预处理方法和装置
CN109558936A (zh) 异常判定方法和程序
Finkeldey et al. Real-time prediction of process forces in milling operations using synchronized data fusion of simulation and sensor data
Greathouse et al. Machine learning for performance and power modeling of heterogeneous systems
CN107016571A (zh) 数据预测方法及其系统
US8725461B2 (en) Inferring effects of configuration on performance
Hafen et al. Trelliscope: A system for detailed visualization in the deep analysis of large complex data
Pornprasertmanit et al. Package ‘semtools’
Burnicki et al. Propagating error in land-cover-change analyses: impact of temporal dependence under increased thematic complexity
KR20130085062A (ko) 리스크 관리 장치
JP6765769B2 (ja) 状態変動検出装置及び状態変動検出用プログラム
Aarya et al. A production inventory model with selling price and stock sensitive demand under partial backlogging
Bertini et al. Improving 2D scatterplots effectiveness through sampling, displacement, and user perception
Bala et al. Use of the multiple imputation strategy to deal with missing data in the ISBSG repository
Mignan et al. Testing the Pattern Informatics index on synthetic seismicity catalogs based on the Non-Critical PAST
JP2001067409A (ja) 金融商品あるいはその派生商品の価格リスク評価システムおよび記憶媒体
D'Ambrosio et al. MILP models for the selection of a small set of well-distributed points
US20220050945A1 (en) Computer-implemented method and electronic device for detecting influential components in a netlist representing an electrical circuit
CN105719098A (zh) 企业利润敏感方案的检测方法及系统
CN112270574A (zh) 一种活动执行过程中的异动分析方法、装置、设备及介质
Hsu et al. Verification of the time evolution of cosmological simulations via hypothesis-driven comparative and quantitative visualization
El Zein et al. From sparse matrix to optimal gpu cuda sparse matrix vector product implementation
CN116776134B (zh) 一种基于PCA-SFFS-BiGRU的光伏出力预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Beijing to build a financial information service Limited by Share Ltd

Document name: the First Notification of an Office Action

DD01 Delivery of document by public notice
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170208

WD01 Invention patent application deemed withdrawn after publication