CN105512130A - 数据源融合的方法和装置 - Google Patents
数据源融合的方法和装置 Download PDFInfo
- Publication number
- CN105512130A CN105512130A CN201410495735.6A CN201410495735A CN105512130A CN 105512130 A CN105512130 A CN 105512130A CN 201410495735 A CN201410495735 A CN 201410495735A CN 105512130 A CN105512130 A CN 105512130A
- Authority
- CN
- China
- Prior art keywords
- data
- fused
- fusion
- step value
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012163 sequencing technique Methods 0.000 claims description 52
- 238000000605 extraction Methods 0.000 claims description 7
- 239000012466 permeate Substances 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据源融合的方法,方法包括:根据接收的融合指令,为每种待融合的数据源生成记录有数据信息的时间戳的概要信息;根据所述概要信息,将所有待融合的数据源的数据信息按照时间戳的先后顺序排列融合。本发明还公开了一种数据源融合的装置。本发明所提供的数据源融合的方法和装置,对待融合的数据源的数据信息的时间戳没有要求,能够实现多种不同种类的时间序列数据源融合,能有效利用待融合的数据源中数据信息的时间戳的排序特性,融合效率高,数据源融合的实现过程简单、成本低。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及数据源融合的方法和装置。
背景技术
大数据技术的发展为海量数据的分析提供了保证,使得机器生成的海量数据能够得到有效的挖掘。
时间序列数据源是一类特殊的数据源,每条数据信息都有一个相应的时间戳,各条数据信息按照时间戳的先后顺序排列。当今社会基础设施十分发达,互联网、物联网、移动通讯、移动定位等系统广泛存在,每时每刻机器产生海量的数据(Machine-generateddata),这些数据从不同的角度反映了社会的方方面面,因此对机器生成的时间序列数据源分析是大数据分析的一个重要分支。
对不同机器生成的时间序列数据源作系统性的分析往往需要首先将不同机器生成的时间序列数据源进行融合,要求融合后的数据中各条数据信息仍然以时间戳的先后排序,这种融合后数据能够直观详实地反映目标体的时空轨迹状态。
然而现有时间序列数据源的融合技术对待融合的数据源的数据信息的时间戳要求严格、计算复杂、融合效率低。
发明内容
本发明的主要目的在于解决现有的数据源融合技术对待融合的数据源的数据信息的时间戳要求严格、计算复杂、融合效率低的技术问题。
为了实现上述目的,本发明提供一种数据源融合的方法,所述方法包括:
根据接收的融合指令,为每种待融合的数据源生成记录有数据信息的时间戳的概要信息;
根据所述概要信息,将所有待融合的数据源的数据信息按照时间戳的先后顺序排列融合。
优选地,所述根据所述概要信息,将所有待融合的数据源的数据信息按照时间戳的先后顺序排列融合具体包括:
步骤一、计算时钟步进值,根据当前待处理时钟点和所述时钟步进值计算下一步待处理时钟点;
步骤二、在所述每种待融合的数据源中,提取时间戳处于所述当前待处理时钟点和所述下一步待处理时钟点之间的数据信息;
步骤三、将提取的所有数据信息,按时间戳的先后顺序排列融合;判断所有待融合的数据源内的数据信息是否全部融合完毕;若否,则返回步骤一;若是,则结束流程。
优选地,所述的数据源融合的方法,当所述时钟步进值为第1~n个时钟步进值,则所述计算时钟步进值具体为:根据所有待融合的数据源中数据信息时间戳最早和最晚的时间点计算时钟步进值;
当所述时钟步进值为第m个时钟步进值,则所述计算时钟步进值具体为:根据第m-z个至第m-1个时钟步进值,及第m-z个至第m-1个时钟步进值对应的融合数据信息量和融合时间,计算第m个时钟步进值;
其中,n为3~10的自然数,m为大于n的自然数,z为3~6的自然数。
优选地,所述的数据源融合的方法,步骤三中将提取的所有数据信息进行融合之前还包括:
将提取的所有数据信息转换为设定的格式。
优选地,所述将提取的所有数据信息,按时间戳的先后顺序排列融合具体包括:
采用线程迭代算法,将所有待融合的数据源中每两种数据源中提取的数据信息,按时间戳的先后顺序排列融合,形成多个融合数据;
将多个融合数据中每两个融合数据进行进一步融合,直至融合为一个融合数据。
优选地,所述的数据源融合的方法,当待融合的数据源种类为奇数,在将所有待融合的数据源中每两种数据源中提取的数据信息,按时间戳的先后顺序排列融合之后还包括:
将剩余的一种数据源中提取的数据信息与所述多个融合数据中的一个融合数据进行融合。
优选地,所述的数据源融合的方法,还包括:
根据接收的融合指令,为每种待融合的数据源生成相应的数据融合进度表,并实时更新数据融合进度表。
此外,为实现上述目的,本发明还提供一种数据源融合的装置,包括:
概要信息生成模块,用于根据接收的融合指令,为每种待融合的数据源生成记录有数据信息的时间戳的概要信息;
数据融合模块,用于根据所述概要信息,将所有待融合的数据源的数据信息按照时间戳的先后顺序排列融合。
优选地,所述数据融合模块还包括:
计算单元,用于计算时钟步进值,根据当前待处理时钟点和所述时钟步进值计算下一步待处理时钟点;
数据提取单元,用于在所述每种待融合的数据源中,提取时间戳处于所述当前待处理时钟点和所述下一步待处理时钟点之间的数据信息;
数据融合单元,用于将提取的所有数据信息,按时间戳的先后顺序排列融合;
循环控制单元,用于在数据融合单元将提取的所有数据信息按时间戳的先后顺序排列融合后,判断所有待融合的数据源内的数据信息是否全部融合完毕;若否,则返回依次调用计算单元、数据提取单元、数据融合单元执行各自相应的操作,直至所有待融合的数据源内的数据信息全部融合完毕。
优选地,所述计算单元,具体还用于当所述时钟步进值为第1~n个时钟步进值,则根据所有待融合的数据源中数据信息时间戳最早和最晚的时间点计算时钟步进值;当所述时钟步进值为第m个时钟步进值,则根据第m-z个至第m-1个时钟步进值,及第m-z个至第m-1个时钟步进值对应的融合数据信息量和融合时间,计算第m个时钟步进值;其中,n为3~10的自然数,m为大于n的自然数,z为3~6的自然数。
优选地,所述数据融合模块还包括:
转换单元,用于在将提取的所有数据信息融合之前,将所提取的所有数据信息转换为设定的格式。
优选地,所述数据融合单元,具体用于采用线程迭代算法,将所有待融合的数据源中每两种数据源中提取的数据信息,按时间戳的先后顺序排列融合,形成多个融合数据;将多个融合数据中每两个融合数据进行进一步融合,直至融合为一个融合数据。
优选地,所述数据融合单元,具体还用于当数据源种类为奇数,在将所有待融合的数据源中每两种数据源中提取的数据信息,按时间戳的先后顺序排列融合之后,将剩余的一种数据源中提取的数据信息与所述多个融合数据中的一个融合数据进行融合。
优选地,所述的数据源融合的装置,还包括:
进度表生成模块,用于根据接收的融合指令,为每种待融合的数据源生成相应的数据融合进度表,并实时更新数据融合进度表。
本发明所提供的数据源融合的方法和装置,根据接收的融合指令,为每种待融合的数据源生成记录有数据信息的时间戳的概要信息;根据所述概要信息,将所有待融合的数据源的数据信息按照时间戳的先后顺序排列融合的方式,对待融合的数据源的数据信息的时间戳没有要求,能够实现多种不同种类的时间序列数据源融合,能有效利用待融合的数据源中数据信息的时间戳的排序特性,融合效率高,数据源融合的实现过程简单、成本低。
附图说明
图1是本发明的数据源融合的方法第一实施例的流程图;
图2是图1中步骤S20的细化流程示意图;
图3是本发明的数据源融合的装置第一实施例的功能模块示意图;
图4是图3中数据融合模块的细化功能模块示意图;
图5是图3中数据融合模块的另一细化功能模块示意图;
图6是本发明的数据源融合的装置第二实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种数据源融合的方法,参见图1,图1是本发明的数据源融合的方法第一实施例的流程图。在第一实施例中,所述数据源融合的方法包括:
步骤S10、根据接收的融合指令,为每种待融合的数据源生成记录有数据信息的时间戳的概要信息。
本实施例中,所述数据源为时间序列数据源,即所述数据源中的每条数据信息均携带有时间戳。
步骤S20、根据所述概要信息,将所有待融合的数据源的数据信息按照时间戳的先后顺序排列融合。
参见图2,图2是图1中步骤S20的细化流程示意图。所述步骤S20具体包括:
步骤S21、计算时钟步进值,根据当前待处理时钟点和所述时钟步进值计算下一步待处理时钟点。
本实施例中,第1个的当前待处理时钟点为所述多数据源中数据信息最早时间戳对应的时间点,下一步待处理时钟点为当前待处理时钟点加上时钟步进值所对应的时间点。如假设所有待融合的数据源中数据信息最早的时间戳为00:10,第1~3个时钟步进值为10S,第4个步进值为5S,则第1个当前待处理时钟点为00:10,对应的下一步待处理时钟点(即第2个当前待处理时钟点)为00:20;第2个当前待处理时钟点对应的下一步待处理时钟点(即第3个当前待处理时钟点)为00:30……第4个当前待处理时钟点对应的下一步待处理时钟点(即第5个当前待处理时钟点)为00:40,后续依此类推。
本步骤S21中,当所述时钟步进值为第1~n个时钟步进值,则所述计算时钟步进值具体为:根据所有待融合的数据源中数据信息时间戳最早和最晚的时间点计算时钟步进值。
本实施例中,所述概要信息记录有相应数据源的文件名、所有数据信息的时间戳、所有数据信息的总数据量、起始行数据信息和结束行数据信息。
本步骤S21计算时钟步进值具体细化过程如下:首先针对每种待融合的数据源,根据数据信息时间戳最早和最晚的时间点之间的时间长度和数据信息的总数据量计算平均每秒种的数据信息量AVGi(i=1,2,3,…,i代表第i种数据源),则第1~n个时钟步进值为C/Max(AVGi);其中,C为一个固定值,其中时钟步进值的单位为秒。
本步骤S21中,当所述时钟步进值为第m个时钟步进值,则所述计算时钟步进值具体为:根据第m-z个至第m-1个时钟步进值,及第m-z个至第m-1个时钟步进值对应的融合数据信息量和融合时间,计算第m个时钟步进值,其中,n为3~10的自然数,m为大于n的自然数,z为3~6的自然数。假设n等于3,z等于3,第m-3、m-2、m-1个时钟步进值分别为△1、△2、△3,对应的数据融合时间分别为t1、t2、t3,对应的融合数据信息量分别是l1、l2、l3,则对应的三次数据融合的平均每秒融合数据信息量pi=li/ti(i=1,2,3)。计算第m个时钟步进值具体为:根据△1、△2、△3和对应的三次数据融合的平均每秒融合数据信息量pi=li/ti(i=1,2,3),使用最小二乘法拟合法计算最佳线性逼近函数f(△)=a×△+b,如果a>0.1则第m个时钟步进值相比第m-1个时钟步进值长增加10%,如果a<-0.1则第m个时钟步进值相比第m-1个时钟步进值减小10%,否则第m个时钟步进值与第m-1个时钟步进值相等。
步骤S22、在所述每种待融合的数据源中,提取时间戳处于所述当前待处理时钟点和所述下一步待处理时钟点之间的数据信息。
本实施例中,所述当前待处理时钟点和所述下一步待处理时钟点之间的数据信息包括所述当前待处理时钟点对应的数据信息,不包括所述下一步待处理时钟点对应的数据信息。如假设当前待处理时钟点为00:01,下一步待处理时钟点为00:10。第1种数据源中数据信息的时间戳分别为00:00、00:01、00:03、00:06、00:07、00:09、00:10、00:12;第2种数据源中数据信息的时间戳分别为00:01、00:03、00:04、00:05、00:07、00:08、00:10、00:12;第3种数据源中数据信息的时间戳分别为00:00、00:02、00:03、00:06、00:07、00:08、00:09、00:10、00:12;则提取第1种数据源中时间戳为00:01、00:03、00:06、00:07、00:09对应的数据信息;提取第2种数据源中数据信息的时间戳分别为00:01、00:03、00:04、00:05、00:07、00:08对应的数据信息;提取第3种数据源中数据信息的时间戳分别为00:02、00:03、00:06、00:07、00:08、00:09对应的数据信息。
步骤S23、将提取的所有数据信息,按时间戳的先后顺序排列融合;判断所有待融合的数据源内的数据信息是否全部融合完毕;若是则结束流程,否则返回步骤S21。
本步骤S23中,将提取的所有数据信息进行融合之前还包括如下处理:将提取的所有数据信息转换为设定的格式,如此处理能够保证融合后的数据格式一致。
本步骤S23的具体处理过程为:采用线程迭代算法,将所有待融合的数据源中每两种数据源中提取的数据信息,按时间戳的先后顺序排列融合,形成多个融合数据。将多个融合数据中每两个融合数据进行进一步融合,直至融合为一个融合数据。如假设有8种数据源:第1、2、3、4、5、6、7、8种数据源,首先可以采用4个线程迭代算法程序,分别从该8种数据源选择2种数据源,同时将所选的2种数据源中提取的数据信息按时间戳的先后顺序排列融合,形成4个一级融合数据。然后采用2个线程迭代算法程序,分别从所述4个一级融合数据中选择2个融合数据按时间戳的先后顺序排列融合,形成2个二级融合数据;最后再采用1个线程迭代算法程序将2个二级融合数据按时间戳的先后顺序排列融合,形成最终的融合数据。
另外本实施例中,当数据源种类为奇数,在将所有待融合的数据源中每两种数据源中提取的数据信息,按时间戳的先后顺序排列融合之后还包括:将剩余的一种数据源中提取的数据信息与所述多个融合数据中的一个融合数据进行融合。如假设有7种数据源,首先可以采用3个线程迭代算法程序,分别从该7种数据源选择2种数据源,同时将所选的2种数据源中提取的数据信息按时间戳的先后顺序排列融合,形成3个一级融合数据。然后将剩余的一种数据源中提取的数据信息与所述3个一级融合数据其中之一按时间戳的先后顺序排列融合,形成三级融合数据;然后采用1个线程迭代算法程序,将2个一级融合数据按时间戳的先后顺序排列融合,形成1个二级融合数据;最后再采用1个线程迭代算法程序将所述二级融合数据和三融合数据按时间戳的先后顺序排列融合,形成最终融合数据。当然在形成所述三级融合数据之后,也可以采用1个线程迭代算法程序,将所述三级融合数据与其中一个一级融合数据按时间戳的先后顺序排列融合形成四级融合数据,最后再将该四级融合数据和剩余的一级融合数据按时间戳的先后顺序排列融合形成最终融合数据。
进一步,本发明所提供的数据源融合的方法实施例,在步骤S10之前还包括如下处理:根据接收的融合指令,为每种待融合的数据源生成相应的数据融合进度表,并实时更新数据融合进度表。所述数据融合进度表用于实时记录对应的数据源中数据信息融合的情况,如记录有对应的数据源文件名称、数据融合处理序列号、数据融合处理状态、当前数据行指针、以及当前融合的数据信息的时间戳。
由上可知,本发明所提供的数据源融合的方法,对待融合的数据源的数据信息的时间戳没有要求,能够实现多种不同种类的时间序列数据源融合,能有效利用待融合的数据源中数据信息的时间戳的排序特性,融合效率高,数据源融合的实现过程简单、成本低。
本发明提供一种数据源融合的装置,参见图3,图3是本发明的数据源融合的装置第一实施例的功能模块示意图。在第一实施例中,所述数据源融合的装置100包括:概要信息生成模块110和数据融合模块120。其中,所述概要信息生成模块110,用于根据接收的融合指令,为每种待融合的数据源生成记录有数据信息的时间戳的概要信息。所述数据融合模块120,用于根据所述概要信息,将所有待融合的数据源的数据信息按照时间戳的先后顺序排列融合。
本实施例中,所述数据源为时间序列数据源,即所述数据源中的每条数据信息均携带有时间戳。参见图4,图4是图3中数据融合模块的细化功能模块示意图。所述数据融合模块120具体包括:计算单元121、数据提取单元122、数据融合单元123和循环控制模块124。其中,所述计算单元121,用于计算时钟步进值,根据当前待处理时钟点和所述时钟步进值计算下一步待处理时钟点。所述数据提取单元122,用于在所述每种待融合的数据源中,提取时间戳处于所述当前待处理时钟点和所述下一步待处理时钟点之间的数据信息。所述数据融合单元123,用于将提取的所有数据信息,按时间戳的先后顺序排列融合。所述循环控制单元124,用于在数据融合单元将提取的所有数据信息按时间戳的先后顺序排列融合后,判断所有待融合的数据源内的数据信息是否全部融合完毕;若否,则返回依次调用计算单元、数据提取单元、数据融合单元执行各自相应的操作,直至所有待融合的数据源内的数据信息全部融合完毕。其中,所述计算单元121的相应操作为:计算时钟步进值,根据当前待处理时钟点和所述时钟步进值计算下一步待处理时钟点。所述数据提取单元122的相应操作为:在所述每种待融合的数据源中,提取时间戳处于所述当前待处理时钟点和所述下一步待处理时钟点之间的数据信息。所述数据融合单元123的相应操作为:将提取的所有数据信息,按时间戳的先后顺序排列融合。
本实施例中,第1个的当前待处理时钟点为所述多数据源中数据信息最早时间戳对应的的时间点,下一步待处理时钟点为当前待处理时钟点加上时钟步进值所对应的时间点。如假设所有待融合的数据源中数据信息最早的时间戳为00:10,第1~3个时钟步进值为10S,第4个时钟步进值为5S,则第1个当前待处理时钟点为00:10,对应的下一步待处理时钟点(即第2个当前待处理时钟点)为00:20;第2个当前待处理时钟点对应的下一步待处理时钟点(即第3个当前待处理时钟点)为00:30……第4个当前待处理时钟点对应的下一步待处理时钟点(即第5个当前待处理时钟点)为00:40,后续依此类推。
本实施例中,所述当前待处理时钟点和所述下一步待处理时钟点之间的数据信息包括所述当前待处理时钟点对应的数据信息,不包括所述下一步待处理时钟点对应的数据信息。如假设当前待处理时钟点为00:01,下一步待处理时钟点为00:10。第1种数据源中数据信息的时间戳分别为00:00、00:01、00:03、00:06、00:07、00:09、00:10、00:12;第2种数据源中数据信息的时间戳分别为00:01、00:03、00:04、00:05、00:07、00:08、00:10、00:12;第3种数据源中数据信息的时间戳分别为00:00、00:02、00:03、00:06、00:07、00:08、00:09、00:10、00:12;则提取第1种数据源中时间戳为00:01、00:03、00:06、00:07、00:09对应的数据信息;提取第2种数据源中数据信息的时间戳分别为00:01、00:03、00:04、00:05、00:07、00:08对应的数据信息;提取第3种数据源中数据信息的时间戳分别为00:02、00:03、00:06、00:07、00:08、00:09对应的数据信息。
本实施例中,所述计算单元121,具体用于当所述时钟步进值为第1~n个时钟步进值,则根据所有待融合的数据源中数据信息时间戳最早和最晚的时间点计算时钟步进值。所述概要信息记录有相应数据源的文件名、所有数据信息的时间戳、所有数据信息的总数据量、起始行数据信息和结束行数据信息。计算单元121计算第1~n个时钟步进值具体细化过程如下:首先针对每种待融合的数据源,根据数据信息时间戳最早和最晚的时间点之间的时间长度和数据信息的总数据量计算平均每秒种的数据信息量AVGi(i=1,2,3,…,i代表第i种数据源),则第1~n个时钟步进值为C/Max(AVGi);其中,C为一个固定值,其中时钟步进值的单位为秒。
本实施例中,所述计算单元121,具体还用于当所述时钟步进值为第m个时钟步进值,则根据第m-z个至第m-1个时钟步进值,及第m-z个至第m-1个时钟步进值对应的融合数据信息量和融合时间,计算第m个时钟步进值;其中,n为3~10的自然数,m为大于n的自然数,z为3~6的自然数。例如:假设n等于3,z等于3,第m-3、m-2、m-1个时钟步进值分别为△1、△2、△3,对应的数据融合时间分别为t1、t2、t3,对应的融合数据信息量分别是l1、l2、l3,则对应的三次数据融合的平均每秒融合数据信息量pi=li/ti(i=1,2,3)。所述计算单元121计算第m个时钟步进值具体过程如下:根据△1、△2、△3和对应的三次数据融合的平均每秒融合数据信息量pi=li/ti(i=1,2,3),使用最小二乘法拟合法计算最佳线性逼近函数f(△)=a×△+b,如果a>0.1则第m个时钟步进值相比第m-1个时钟步进值长增加10%,如果a<-0.1则第m个时钟步进值相比第m-1个时钟步进值减小10%,否则第m个时钟步进值与第m-1个时钟步进值相等。
参见图5,图5是图3中数据融合模块的另一细化功能模块示意图。上述数据源融合的装置100实施例中,所述数据融合模块120还包括:转换单元125。所述转换单元125,用于在将提取的所有数据信息融合之前,将所提取的所有数据信息转换为设定的格式。如此处理能够保证融合后的数据格式一致。
上述数据源融合的装置100实施例中,所述数据融合单元123,具体用于采用线程迭代算法,将所有待融合的数据源中每两种数据源中提取的数据信息,按时间戳的先后顺序排列融合,形成多个融合数据;将多个融合数据中每两个融合数据进行进一步融合,直至融合为一个融合数据。如假设有8种数据源:第1、2、3、4、5、6、7、8种数据源,首先可以采用4个线程迭代算法程序,分别从该8种数据源选择2种数据源,同时将所选的2种数据源中提取的数据信息按时间戳的先后顺序排列融合,形成4个一级融合数据。然后采用2个线程迭代算法程序,分别从所述4个一级融合数据中选择2个融合数据按时间戳的先后顺序排列融合,形成2个二级融合数据;最后再采用1个线程迭代算法程序将2个二级融合数据按时间戳的先后顺序排列融合,形成最终的融合数据。
另外本实施例中,当数据源种类为奇数,所述数据融合单元123,还用于在将所有待融合的数据源中每两种数据源中提取的数据信息,按时间戳的先后顺序排列融合之后,将剩余的一种数据源中提取的数据信息与所述多个融合数据中的一个融合数据进行融合。如假设有7种数据源,首先可以采用3个线程迭代算法程序,分别从该7种数据源选择2种数据源,同时将所选的2种数据源中提取的数据信息按时间戳的先后顺序排列融合,形成3个一级融合数据。然后将剩余的一种数据源中提取的数据信息与所述3个一级融合数据其中之一按时间戳的先后顺序排列融合,形成三级融合数据;然后采用1个线程迭代算法程序,将2个一级融合数据按时间戳的先后顺序排列融合,形成1个二级融合数据;最后再采用1个线程迭代算法程序将所述二级融合数据和三融合数据按时间戳的先后顺序排列融合,形成最终融合数据。当然在形成所述三级融合数据之后,也可以采用1个线程迭代算法程序,将所述三级融合数据与其中一个一级融合数据按时间戳的先后顺序排列融合形成四级融合数据,最后再将该四级融合数据和剩余的一级融合数据按时间戳的先后顺序排列融合形成最终融合数据。
本发明提出数据源融合的装置第二实施例。参见图6,图6是本发明的数据源融合的装置第二实施例的功能模块示意图。本实施例中所述装置100还包括进度表生成模块130。所述进度表生成模块130,用于根据接收的融合指令,为每种待融合的数据源生成相应的数据融合进度表,并实时更新数据融合进度表。所述数据融合进度表用于实时记录对应的数据源中数据信息融合的情况,如记录有对应的数据源文件名称、数据融合处理序列号、数据融合处理状态、当前数据行指针、以及当前融合的数据信息的时间戳。
由上可知,本发明所提供的数据源融合的装置100,对待融合的数据源的数据信息的时间戳没有要求,能够实现多种不同种类的时间序列数据源融合,能有效利用待融合的数据源中数据信息的时间戳的排序特性,融合效率高,数据源融合的实现过程简单、成本低。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (14)
1.一种数据源融合的方法,其特征在于,所述方法包括:
根据接收的融合指令,为每种待融合的数据源生成记录有数据信息的时间戳的概要信息;
根据所述概要信息,将所有待融合的数据源的数据信息按照时间戳的先后顺序排列融合。
2.根据权利要求1所述的数据源融合的方法,其特征在于,所述根据所述概要信息,将所有待融合的数据源的数据信息按照时间戳的先后顺序排列融合具体包括:
步骤一、计算时钟步进值,根据当前待处理时钟点和所述时钟步进值计算下一步待处理时钟点;
步骤二、在所述每种待融合的数据源中,提取时间戳处于所述当前待处理时钟点和所述下一步待处理时钟点之间的数据信息;
步骤三、将提取的所有数据信息,按时间戳的先后顺序排列融合;判断所有待融合的数据源内的数据信息是否全部融合完毕;若否,则返回步骤一;若是,则结束流程。
3.根据权利要求2所述的数据源融合的方法,其特征在于,
当所述时钟步进值为第1~n个时钟步进值,则所述计算时钟步进值具体为:根据所有待融合的数据源中数据信息时间戳最早和最晚的时间点计算时钟步进值;
当所述时钟步进值为第m个时钟步进值,则所述计算时钟步进值具体为:根据第m-z个至第m-1个时钟步进值,及第m-z个至第m-1个时钟步进值对应的融合数据信息量和融合时间,计算第m个时钟步进值;
其中,n为3~10的自然数,m为大于n的自然数,z为3~6的自然数。
4.根据权利要求2所述的数据源融合的方法,其特征在于,步骤三中将提取的所有数据信息进行融合之前还包括:
将提取的所有数据信息转换为设定的格式。
5.根据权利要求2所述的数据源融合的方法,其特征在于,所述将提取的所有数据信息,按时间戳的先后顺序排列融合具体包括:
采用线程迭代算法,将所有待融合的数据源中每两种数据源中提取的数据信息,按时间戳的先后顺序排列融合,形成多个融合数据;
将多个融合数据中每两个融合数据进行进一步融合,直至融合为一个融合数据。
6.根据权利要求5所述的数据源融合的方法,其特征在于,当待融合的数据源种类为奇数,在将所有待融合的数据源中每两种数据源中提取的数据信息,按时间戳的先后顺序排列融合之后还包括:
将剩余的一种数据源中提取的数据信息与所述多个融合数据中的一个融合数据进行融合。
7.根据权利要求1所述的数据源融合的方法,其特征在于,还包括:
根据接收的融合指令,为每种待融合的数据源生成相应的数据融合进度表,并实时更新数据融合进度表。
8.一种数据源融合的装置,其特征在于,包括:
概要信息生成模块,用于根据接收的融合指令,为每种待融合的数据源生成记录有数据信息的时间戳的概要信息;
数据融合模块,用于根据所述概要信息,将所有待融合的数据源的数据信息按照时间戳的先后顺序排列融合。
9.根据权利要求8所述的数据源融合的装置,其特征在于,所述数据融合模块还包括:
计算单元,用于计算时钟步进值,根据当前待处理时钟点和所述时钟步进值计算下一步待处理时钟点;
数据提取单元,用于在所述每种待融合的数据源中,提取时间戳处于所述当前待处理时钟点和所述下一步待处理时钟点之间的数据信息;
数据融合单元,用于将提取的所有数据信息,按时间戳的先后顺序排列融合;
循环控制单元,用于在数据融合单元将提取的所有数据信息按时间戳的先后顺序排列融合后,判断所有待融合的数据源内的数据信息是否全部融合完毕;若否,则返回依次调用计算单元、数据提取单元、数据融合单元执行各自相应的操作,直至所有待融合的数据源内的数据信息全部融合完毕。
10.根据权利要求9所述的数据源融合的装置,其特征在于,
所述计算单元,具体还用于当所述时钟步进值为第1~n个时钟步进值,则根据所有待融合的数据源中数据信息时间戳最早和最晚的时间点计算时钟步进值;当所述时钟步进值为第m个时钟步进值,则根据第m-z个至第m-1个时钟步进值,及第m-z个至第m-1个时钟步进值对应的融合数据信息量和融合时间,计算第m个时钟步进值;其中,n为3~10的自然数,m为大于n的自然数,z为3~6的自然数。
11.根据权利要求9所述的数据源融合的装置,其特征在于,所述数据融合模块还包括:
转换单元,用于在将提取的所有数据信息融合之前,将所提取的所有数据信息转换为设定的格式。
12.根据权利要求9所述的数据源融合的装置,其特征在于,
所述数据融合单元,具体用于采用线程迭代算法,将所有待融合的数据源中每两种数据源中提取的数据信息,按时间戳的先后顺序排列融合,形成多个融合数据;将多个融合数据中每两个融合数据进行进一步融合,直至融合为一个融合数据。
13.根据权利要求12所述的数据源融合的装置,其特征在于,所述数据融合单元,具体还用于当数据源种类为奇数,在将所有待融合的数据源中每两种数据源中提取的数据信息,按时间戳的先后顺序排列融合之后,将剩余的一种数据源中提取的数据信息与所述多个融合数据中的一个融合数据进行融合。
14.根据权利要求8所述的数据源融合的装置,其特征在于,还包括:
进度表生成模块,用于根据接收的融合指令,为每种待融合的数据源生成相应的数据融合进度表,并实时更新数据融合进度表。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410495735.6A CN105512130B (zh) | 2014-09-24 | 2014-09-24 | 数据源融合的方法和装置 |
PCT/CN2015/076903 WO2016045367A1 (zh) | 2014-09-24 | 2015-04-17 | 一种多数据源数据融合的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410495735.6A CN105512130B (zh) | 2014-09-24 | 2014-09-24 | 数据源融合的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105512130A true CN105512130A (zh) | 2016-04-20 |
CN105512130B CN105512130B (zh) | 2020-04-03 |
Family
ID=55580238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410495735.6A Active CN105512130B (zh) | 2014-09-24 | 2014-09-24 | 数据源融合的方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105512130B (zh) |
WO (1) | WO2016045367A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874962A (zh) * | 2017-03-13 | 2017-06-20 | 上海普适导航科技股份有限公司 | 多源卫星数据的融合方法及装置 |
CN108280015A (zh) * | 2018-02-07 | 2018-07-13 | 福建星瑞格软件有限公司 | 基于大数据的集群服务器日志实时处理方法及计算机设备 |
CN111858530A (zh) * | 2020-07-03 | 2020-10-30 | 国网福建省电力有限公司信息通信分公司 | 一种基于海量日志的实时关联分析方法及系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832034B (zh) * | 2019-04-23 | 2024-04-30 | 创新先进技术有限公司 | 多方数据融合方法及装置 |
CN112735140B (zh) * | 2019-10-28 | 2022-05-20 | 阿波罗智联(北京)科技有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113283239A (zh) * | 2021-06-18 | 2021-08-20 | 亿景智联(北京)科技有限公司 | 一种基于时空信息加权的多源数据融合的方法与装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101026627A (zh) * | 2007-03-15 | 2007-08-29 | 上海交通大学 | 基于规则和可信度的多源数据融合系统 |
CN103065093A (zh) * | 2012-12-27 | 2013-04-24 | 中国人民解放军国防科学技术大学 | 一种恶意软件行为特征标识方法 |
CN203278958U (zh) * | 2012-12-04 | 2013-11-06 | Itp创新科技有限公司 | 一种通话转录系统 |
CN103838772A (zh) * | 2012-11-26 | 2014-06-04 | 香港生产力促进局 | 一种多源交通数据融合方法 |
CN103984517A (zh) * | 2014-06-05 | 2014-08-13 | 东莞宇龙通信科技有限公司 | 一种数据融合方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090271466A1 (en) * | 2006-11-08 | 2009-10-29 | Fields Edward L | Data logging with network interfacing feature |
CN101556651B (zh) * | 2009-04-15 | 2011-02-16 | 北京航空航天大学 | 一种分簇无线传感器网络内多源数据融合方法 |
CN102469127A (zh) * | 2010-11-12 | 2012-05-23 | 中国科学院计算机网络信息中心 | 一种密集型数据通用处理方法 |
CN102831766B (zh) * | 2012-07-04 | 2014-08-13 | 武汉大学 | 基于多传感器的多源交通数据融合方法 |
CN102916844A (zh) * | 2012-11-22 | 2013-02-06 | 南京恩瑞特实业有限公司 | 海量数据融合及实时监视系统 |
CN103905440B (zh) * | 2014-03-28 | 2017-02-22 | 哈尔滨工程大学 | 一种基于日志和snmp信息融合的网络安全态势感知分析方法 |
-
2014
- 2014-09-24 CN CN201410495735.6A patent/CN105512130B/zh active Active
-
2015
- 2015-04-17 WO PCT/CN2015/076903 patent/WO2016045367A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101026627A (zh) * | 2007-03-15 | 2007-08-29 | 上海交通大学 | 基于规则和可信度的多源数据融合系统 |
CN103838772A (zh) * | 2012-11-26 | 2014-06-04 | 香港生产力促进局 | 一种多源交通数据融合方法 |
CN203278958U (zh) * | 2012-12-04 | 2013-11-06 | Itp创新科技有限公司 | 一种通话转录系统 |
CN103065093A (zh) * | 2012-12-27 | 2013-04-24 | 中国人民解放军国防科学技术大学 | 一种恶意软件行为特征标识方法 |
CN103984517A (zh) * | 2014-06-05 | 2014-08-13 | 东莞宇龙通信科技有限公司 | 一种数据融合方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874962A (zh) * | 2017-03-13 | 2017-06-20 | 上海普适导航科技股份有限公司 | 多源卫星数据的融合方法及装置 |
CN106874962B (zh) * | 2017-03-13 | 2020-09-01 | 上海普适导航科技股份有限公司 | 多源卫星数据的融合方法及装置 |
CN108280015A (zh) * | 2018-02-07 | 2018-07-13 | 福建星瑞格软件有限公司 | 基于大数据的集群服务器日志实时处理方法及计算机设备 |
CN111858530A (zh) * | 2020-07-03 | 2020-10-30 | 国网福建省电力有限公司信息通信分公司 | 一种基于海量日志的实时关联分析方法及系统 |
CN111858530B (zh) * | 2020-07-03 | 2022-08-16 | 国网福建省电力有限公司信息通信分公司 | 一种基于海量日志的实时关联分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105512130B (zh) | 2020-04-03 |
WO2016045367A1 (zh) | 2016-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105512130A (zh) | 数据源融合的方法和装置 | |
CN108170124B (zh) | 一种基于列控工程数据的测试脚本自动生成系统及方法 | |
CN104049978A (zh) | 一种实现代码可视化编辑组合的方法及系统 | |
CN104965999B (zh) | 一种中短基因片段测序的分析拼接方法及设备 | |
CN103927338A (zh) | 日志信息入库处理方法和装置 | |
CN102831056A (zh) | 一种基于修改影响分析的回归测试用例生成方法 | |
CN105808417A (zh) | 自动化测试方法及代理服务器 | |
CN103441861A (zh) | 一种数据记录生成方法及装置 | |
CN103631719A (zh) | 一种Web自动化测试方法和装置 | |
CN104284057A (zh) | 一种视频处理方法及装置 | |
CN103034553B (zh) | 一种报表设计器智能验证的算法、方法及装置 | |
CN114092252A (zh) | 一种区块链交易执行方法、装置、设备及可读存储介质 | |
CN106407580A (zh) | 基于脚本的规则检测遥控闭锁方法 | |
CN103473173B (zh) | 一种对iOS系统进行汇编级动态调试的方法及装置 | |
CN105574137A (zh) | 一种基于公共交通多源数据融合的ic卡刷卡站点匹配方法 | |
CN109815124B (zh) | 基于mbse的联锁功能缺陷分析的方法及装置、联锁系统 | |
CN102156795B (zh) | 基于变电站配置描述文件的数字化变电站信息模拟系统 | |
CN104298773A (zh) | 一种etl作业自动切库系统及方法 | |
CN103514769A (zh) | 智能学习线路设计系统及方法 | |
CN105574178A (zh) | 一种卫星测试基础数据库及批产化卫星测试装置与方法 | |
CN109508204B (zh) | 一种前端代码质量检测方法及装置 | |
CN101930398B (zh) | 基于Fuzzing技术的变异多维输入的软件脆弱性分析方法 | |
CN111695238A (zh) | 一种用于将电力系统暂态仿真数据可视化的系统及方法 | |
CN113504774B (zh) | 列控联锁一体化与调度集中系统接口数据校核方法及装置 | |
CN115952165A (zh) | 一种全网定值快速核查方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |