CN109687875B - 一种时序数据处理方法 - Google Patents
一种时序数据处理方法 Download PDFInfo
- Publication number
- CN109687875B CN109687875B CN201811384936.3A CN201811384936A CN109687875B CN 109687875 B CN109687875 B CN 109687875B CN 201811384936 A CN201811384936 A CN 201811384936A CN 109687875 B CN109687875 B CN 109687875B
- Authority
- CN
- China
- Prior art keywords
- index
- time sequence
- time
- sequence
- byte data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Abstract
本发明公开了一种时序数据处理方法,时序数据包括输出时间点和多个指标,方法包括以下步骤:提取输出时间点的多指标数据块;构建时间序列和指标序列的映射关系;提取指定时间窗口的时间序列和时间序列对应的多指标数据块聚合为字节数据流;压缩聚合后的字节数据流并输出;本发明通过将一个时间点的多指标时序数据,使用同一时间实现多指标数据块的聚合,从而减少多个时间存储消耗;以字节流方式进行数据压缩,避免指标类型的限制导致压缩算法的受限,同时,对于位存储的指标数据聚合也能有效减少指标数据的存储消耗;通过本发明的方法有效提高了时序数据的压缩处理效率,时序压缩比以及存储效率。
Description
技术领域
本发明涉及时序数据处理技术领域,尤其是涉及一种时序数据处理方法。
背景技术
当前处于物联时代,时序数据即时间序列数据,是统一指标按时间顺序记录的数据序列,对于时序数据的存储要求也越来越高。首先,当前物联网时代,在同一时间点上,产生大量指标数据也需要高效的处理。其次,处理后的时序数据也需要高效的压缩比。
在时序数据传递过程中,为了减少网络带宽的消耗,时序数据会被编码成一个时间点加n个指标时序数据方式传递到后端,为了减少网络带宽的消耗,时序数据会被编码成一个时间点加n个指标时序数据方式传递到后端,n个指标的时序数据按常规的存储方式会变成n个时间序列加n个指标数据序列,这种转换后的数据存储大小增加了一个n–1条记录大小的存储量,时序数据长期存储,影响了时序数据的压缩处理效率、时序压缩比以及存储效率。
发明内容
为了解决上述问题,本发明提出了一种时序数据处理方法,基于对时序数据同一时间点的多指标数据块的聚合,采用字节流的压缩方式,有效提高了时序数据的处理效率。
为了实现上述目的,本发明采用如下技术方案:
具体的,一种时序数据处理方法,其特征在于,所述时序数据包括输出时间点和多个指标,所述方法包括以下步骤:
S1.提取输出时间点对应的多指标数据块;所述多指标数据块包括多个指标数据;
S2.构建时间序列和指标序列的映射关系;
S3.提取指定时间窗口的时间序列和时间序列对应的多指标数据块聚合为字节数据流,包括:
S31.提取所述时间序列中指定的时间窗口范围内的时间序列;
S32.通过步骤S31中提取的时间序列获取与所提取的时间序列中每个时间点对应的指标数据序列中的多指标数据块;
S33.将步骤S32中获取的多指标数据块聚合为以第一指定长度为一个单元的指标字节数据块,多个指标字节数据块形成指标字节数据流;
S34.将步骤S31提取的时间序列中的每个时间点以第二指定长度为一个单元聚合为时间序列字节数据块,多个时间序列字节数据块形成时间序列字节数据流;
S4.压缩聚合后的字节数据流并输出。
进一步的,所述步骤S2还包括:
S21.按时间顺序创建所述时间点的时间序列;
S22.提取所述多指标数据块中的多个指标数据,将每个指标数据对应的时间点按时间顺序创建每个指标数据的指标序列;
S23.将所述时间序列中的时间点与所述指标序列中相同的时间点对应,创建时间序列和指标序列的映射关系。
进一步的,所述第一指定长度为4字节或8字节。
进一步的,所述第二指定长度为8字节。
进一步的,将所述指标字节数据流和所述时间序列字节数据流分别压缩并输出。
进一步的,所述指标字节数据流的具体压缩方法为:将所述指标字节数据块以指标为维度划分为N份,送入N个并行的压缩线程,每个压缩线程对指标字节数据块的每一份进行同步压缩,对所有指标字节数据块以同样方法进行压缩,完成对指标字节数据流的压缩。
进一步的,所述时间序列字节数据流的具体压缩方法为:将每个所述时间序列字节数据块依次进行单线程压缩,完成对时间序列字节数据流的压缩。
与现有技术相比,本发明的有益效果在于:
1、时间序列多指标序列的聚合
将一个时间点的多指标时序数据,使用同一时间实现多指标数据块的聚合,从而减少多个时间存储消耗;
2、字节流方式数据的聚合
字节流方式压缩的方式,避免指标类型的限制导致压缩算法的受限,同时,对于位存储的指标数据聚合也能有效减少指标数据的存储消耗;
通过本发明的方法有效提高了时序数据的压缩处理效率,时序压缩比以及存储效率。
附图说明
图1为本发明的一种时序数据处理方法流程图;
图2为本发明的一种时序数据处理方法的时间序列和指标序列示意图;
图3为本发明的一种时序数据处理方法实施例流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,一种时序数据处理方法,时序数据包括输出时间点和多个指标,方法包括以下步骤:
S1.提取输出时间点对应的多指标数据块;多指标数据块包括多个指标数据;
S2.构建时间序列和指标序列的映射关系;
S3.提取指定时间窗口的时间序列和时间序列对应的多指标数据块聚合为字节数据流,包括:
S31.提取时间序列中指定的时间窗口范围内的时间序列;
S32.通过步骤S31中提取的时间序列获取与所提取的时间序列中每个时间点对应的指标数据序列中的多指标数据块,每个多指标数据块包括A、B、C等指标数据;
S33.将步骤S32中获取的多指标数据块聚合为以第一指定长度为一个单元的指标字节数据块,多个指标字节数据块形成指标字节数据流;第一指定长度为4字节或8字节,将一个时间点对应的指标A、B、C等数据以字节或位存储为4字节或8字节的数据块单元,通过对同一时间点多指标进行单一时间序列和多指标数据序列的聚合方式,有效减少了时序数据的压缩容量。
S34.将步骤S31提取的时间序列中的每个时间点以第二指定长度为一个单元聚合为时间序列字节数据块,多个时间序列字节数据块形成时间序列字节数据流,第二指定长度为8字节;
S4.压缩聚合后的字节数据流并输出。
如图2、图3所示,步骤S2还包括:
S21.按时间顺序创建时间点的时间序列;
S22.提取多指标数据块中的多个指标数据,将每个指标数据对应的时间点按时间顺序创建每个指标数据的指标序列,设定一个多指标数据块中包括A、B、C三个指标数据,则提取出所有时序数据中指标A对应的时间点,创建指标A的指标序列,指标A的序列中包括所有和指标A对应的时间点数据,同理,分别创建指标B的指标序列和指标C的指标序列;
S23.将时间序列中的时间点与指标序列中相同的时间点对应,创建时间序列和指标序列的映射关系。
进一步的,将指标字节数据流和时间序列字节数据流分别压缩并输出。
进一步的,指标字节数据流的具体压缩方法为:将指标字节数据块以指标为维度划分为N份,送入N个并行的压缩线程,每个压缩线程对指标字节数据块的每一份进行同步压缩,对所有指标字节数据块以同样方法进行压缩,完成对指标字节数据流的压缩。
本实施例中,指标字节数据块分别送入10个并行的压缩单元,10个并行的压缩单元将指标字节数据块以指标为维度划分为10份进行并行处理,压缩结果送入后续流程;
具体为:如果指标字节数据块有100个指标,那么10个并行执行单元首先都能访问这块指标字节数据块,并且每个执行单元会分到10个指标数据进行压缩处理,即第一个执行单元,可以处理1-10的指标序列数据;第二个执行单元,可以处理11-20的指标序列数据;后续指标依次类推进行处理。
进一步的,时间序列字节数据流的具体压缩方法为:将每个时间序列字节数据块以8字节为一个单元依次进行单线程压缩,完成对时间序列字节数据流的压缩。
本实施例通过Gorilla算法对聚合后的数据流进行压缩处理,并能支持对8字节数据流或4字节数据流的压缩,通过时间点和多指标数据的聚合和对指标数据并行处理,有效提高了时序数据的压缩处理效率、压缩比和存储效率,在时序数据变化不大的情况下,对1.2GB数据只需要20秒的时间处理,压缩后大小仅为86MB。
Claims (7)
1.一种时序数据处理方法,其特征在于,所述时序数据包括输出时间点和多个指标,所述方法包括以下步骤:
S1.提取输出时间点对应的多指标数据块;所述多指标数据块包括多个指标数据;
S2.构建时间序列和指标序列的映射关系;
S3.提取指定时间窗口的时间序列和时间序列对应的多指标数据块聚合为字节数据流,包括:
S31.提取所述时间序列中指定的时间窗口范围内的时间序列;
S32.通过步骤S31中提取的时间序列获取与所提取的时间序列中每个时间点对应的指标数据序列中的多指标数据块;
S33.将步骤S32中获取的多指标数据块聚合为以第一指定长度为一个单元的指标字节数据块,多个指标字节数据块形成指标字节数据流;
S34.将步骤S31提取的时间序列中的每个时间点以第二指定长度为一个单元聚合为时间序列字节数据块,多个时间序列字节数据块形成时间序列字节数据流;
S4.压缩聚合后的字节数据流并输出。
2.根据权利要求1所述的一种时序数据处理方法,其特征在于,所述步骤S2还包括:
S21.按时间顺序创建所述时间点的时间序列;
S22.提取所述多指标数据块中的多个指标数据,将每个指标数据对应的时间点按时间顺序创建每个指标数据的指标序列;
S23.将所述时间序列中的时间点与所述指标序列中相同的时间点对应,创建时间序列和指标序列的映射关系。
3.根据权利要求1所述的一种时序数据处理方法,其特征在于,所述第一指定长度为4字节或8字节。
4.根据权利要求1所述的一种时序数据处理方法,其特征在于,所述第二指定长度为8字节。
5.根据权利要求1所述的一种时序数据处理方法,其特征在于,所述步骤S4包括:将所述指标字节数据流和所述时间序列字节数据流分别压缩并输出。
6.根据权利要求5所述的一种时序数据处理方法,其特征在于,所述指标字节数据流的具体压缩方法为:将所述指标字节数据块以指标为维度划分为N份,送入N个并行的压缩线程,每个压缩线程对指标字节数据块的每一份进行同步压缩,对所有指标字节数据块以同样方法进行压缩,完成对指标字节数据流的压缩。
7.根据权利要求5所述的一种时序数据处理方法,其特征在于,所述时间序列字节数据流的具体压缩方法为:将每个所述时间序列字节数据块依次进行单线程压缩,完成对时间序列字节数据流的压缩。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811384936.3A CN109687875B (zh) | 2018-11-20 | 2018-11-20 | 一种时序数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811384936.3A CN109687875B (zh) | 2018-11-20 | 2018-11-20 | 一种时序数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109687875A CN109687875A (zh) | 2019-04-26 |
CN109687875B true CN109687875B (zh) | 2023-03-31 |
Family
ID=66184831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811384936.3A Active CN109687875B (zh) | 2018-11-20 | 2018-11-20 | 一种时序数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109687875B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291235A (zh) * | 2020-05-13 | 2020-06-16 | 成都四方伟业软件股份有限公司 | 一种基于时序数据库的元数据存储方法及装置 |
CN113326472B (zh) * | 2021-05-28 | 2022-07-15 | 东北师范大学 | 一种基于时序多变量数据的模式提取与演化可视分析方法 |
CN114665884B (zh) * | 2022-03-29 | 2022-11-25 | 北京诺司时空科技有限公司 | 时序数据库自适应有损压缩方法、系统及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992050A (zh) * | 2015-06-12 | 2015-10-21 | 哈尔滨工业大学 | 基于统计信号处理的时间序列特性评价的预测模型选择方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914449B (zh) * | 2012-12-29 | 2017-06-16 | 上海可鲁系统软件有限公司 | 一种多源时间序列数据压缩存储方法 |
NL2010437C2 (en) * | 2013-03-12 | 2014-09-15 | Uksi B V | Data storage device and computer system comprising such data storage device. |
CN103390045A (zh) * | 2013-07-19 | 2013-11-13 | 北京京东尚科信息技术有限公司 | 一种用于监控系统的时间序列存储方法及装置 |
EP3114620A1 (en) * | 2014-03-07 | 2017-01-11 | Systema Systementwicklung Dip.-Inf. Manfred Austen Gmbh | Real-time information systems and methodology based on continuous homomorphic processing in linear information spaces |
CN104391679A (zh) * | 2014-11-18 | 2015-03-04 | 浪潮电子信息产业股份有限公司 | 一种非规则流中高维数据流的gpu处理方法 |
US10262012B2 (en) * | 2015-08-26 | 2019-04-16 | Oracle International Corporation | Techniques related to binary encoding of hierarchical data objects to support efficient path navigation of the hierarchical data objects |
CN106844555A (zh) * | 2016-12-30 | 2017-06-13 | 江苏瑞中数据股份有限公司 | 一种用于电网wams系统的时序数据存储方法 |
-
2018
- 2018-11-20 CN CN201811384936.3A patent/CN109687875B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992050A (zh) * | 2015-06-12 | 2015-10-21 | 哈尔滨工业大学 | 基于统计信号处理的时间序列特性评价的预测模型选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109687875A (zh) | 2019-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109687875B (zh) | 一种时序数据处理方法 | |
CN105791431B (zh) | 一种在线分布式监控视频处理任务调度方法及装置 | |
CN104040899B (zh) | 生成符号的代码字母表以便为与程序一起使用的字生成代码字 | |
CN101299611B (zh) | 一种基于集合游程的数据压缩方法 | |
CN110198171B (zh) | 数据压缩方法、装置、计算机可读介质及电子设备 | |
CN117097810B (zh) | 基于云计算的数据中心传输优化方法 | |
CN102520227A (zh) | 一种基于扰动指示器的故障录波数据压缩方法 | |
CN107590157A (zh) | 一种数据存储方法、数据查询方法及相关设备 | |
CN115987294A (zh) | 一种物联网的多维数据处理方法 | |
CN116388769B (zh) | 一种环境检测数据的计算机存储优化方法 | |
CN108226682B (zh) | 一种用于故障指示器录波波形的压缩算法 | |
WO2020258942A1 (zh) | 一种数据压缩方法及装置 | |
Hasugian et al. | File Compression Application Design Using Half Byte Algorithm | |
CN115695564B (zh) | 一种物联网数据的高效传输方法 | |
CN115380267A (zh) | 数据压缩方法及装置、数据压缩设备和可读存储介质 | |
CN116437099A (zh) | 基于数据属性的压缩存储系统 | |
CN109257047B (zh) | 数据压缩方法及装置 | |
CN105630999A (zh) | 服务器压缩数据的方法和装置 | |
CN115457174A (zh) | 模型训练、动作映射方法、装置、电子设备及存储介质 | |
CN104866818A (zh) | 一种用于搜索包含人脸的图片的方法和装置 | |
CN104751459A (zh) | 多维特征的相似性度量优化方法及图像匹配方法 | |
CN102298782A (zh) | 用于无损视频压缩的参数估计的系统、方法和计算机程序产品 | |
CN105488189B (zh) | 一种基于大数据量的五元组查询方法及装置 | |
CN113630124B (zh) | 时序性整数数据的处理方法、系统、设备和介质 | |
CN108445275A (zh) | 一种轨迹波形平均的方法、设备及示波器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |