CN113268636A - 一种基于时序数据的快速检索方法及装置 - Google Patents

一种基于时序数据的快速检索方法及装置 Download PDF

Info

Publication number
CN113268636A
CN113268636A CN202110691105.6A CN202110691105A CN113268636A CN 113268636 A CN113268636 A CN 113268636A CN 202110691105 A CN202110691105 A CN 202110691105A CN 113268636 A CN113268636 A CN 113268636A
Authority
CN
China
Prior art keywords
data
full
index
text
fast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110691105.6A
Other languages
English (en)
Inventor
张力
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Kelai Network Technology Co Ltd
Original Assignee
Chengdu Kelai Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kelai Network Technology Co Ltd filed Critical Chengdu Kelai Network Technology Co Ltd
Priority to CN202110691105.6A priority Critical patent/CN113268636A/zh
Publication of CN113268636A publication Critical patent/CN113268636A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于时序数据的快速检索方法及装置,所述快速检索方法至少包括:S1:在数据存储时,构造快速索引和全文索引,其中,快速索引被配置为能够快速定位到全文索引的位置,全文索引被配置为定位到统计数据或数据包;S2:在数据检索时,先判断快速索引中是否有索引,如果有索引,则找到对应的全文索引,接着根据全文索引中记录的位置去读取统计数据或数据包。本发明方法先过滤掉无效的时间数据,减少无效数据的读取;然后,根据记录的全文索引,快速精确的读取数据,避免读取磁盘IO浪费;进而提高读取数据的有效利用率。

Description

一种基于时序数据的快速检索方法及装置
技术领域
本发明属于数据存储、检索及网络统计技术领域,尤其涉及一种基于时序数据的快速检索方法及装置。
背景技术
在网络统计的工程中,会生成很多统计表,在对统计表查询的过程中,分为全量的数据查询和检索数据。前者是查询这个时间点统计表的所有数据,后者是检索这个时间点统计表满足一定条件的数据。
比如,需要在某个时间点从IP会话表中检索某个IP地址。当前通用的技术手段为:
先遍历时间,找到需要检索的时间,接着从磁盘读出对应时间的数据,然后根据检索条件,过滤想要的数据。
当前的方案中,也会有一些索引的构建。比如时间投影索引,通过时间投影索引,过滤掉无效的时间点,进而提升检索性能。
然而,现有技术存在一个非常致命的缺点,当数据量非常大时,数据检索、读取耗时严重,极大的影响工作效率。主要原因是数据量非常大时,遍历数据耗时长且读取到的数据往往不是想要检索的数据,导致数据的有效利用率特别低。即使有了时间投影索引,也只能从时间级别过滤,而不能在一个时间点内部进一步做到根据过滤器去读取相关性强的数据。
因此,亟需一种基于时序数据的快速检索方法及装置。
发明内容
本发明的目的在于,为克服现有技术缺陷,提供了一种基于时序数据的快速检索方法及装置,本发明方法先过滤掉无效的时间数据,减少无效数据的读取;然后,根据记录的全文索引,快速精确的读取数据,避免读取磁盘IO浪费;进而提高读取数据的有效利用率。
一方面,本发明公开了:
一种基于时序数据的快速检索方法,所述快速检索方法至少包括:S1:在数据存储时,构造快速索引和全文索引,其中,快速索引被配置为能够快速定位到全文索引的位置,全文索引被配置为定位到统计数据或数据包;S2:在数据检索时,先判断快速索引中是否有索引,如果有索引,则找到对应的全文索引,接着根据全文索引中记录的位置去读取统计数据或数据包。
根据一个优选的实施方式,所述步骤S1中构造快速索引和全文索引的方法为:将存储的数据按照离散的模式进行分组;将分组中数据的位置信息保存在对应的全文索引中;全文索引按照时间特征和/或数据大小特征进行聚合;存储全文索引,将存储位置更新到对应的快速索引。
根据一个优选的实施方式,所述快速索引为内存数据。
根据一个优选的实施方式,所述全文索引为磁盘数据。
根据一个优选的实施方式,存储的数据、快速索引和全文索引是基于时序数据设置。
根据一个优选的实施方式,所述全文索引包含键值对应的若干个时间的数据位置信息的聚合。
另一方面,本发明还公开了:一种基于时序数据的快速检索装置,所述快速检索装置包括数据处理单元,所述数据处理单元被配置为按照前述快速检索方法运行。
前述本发明主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本发明可采用并要求保护的方案。本领域技术人员在了解本发明方案后根据现有技术和公知常识可明了有多种组合,均为本发明所要保护的技术方案,在此不做穷举。
本发明的有益效果:
本发明技术方案比现有的技术的读取的有效数据的利用率更高,可以非常精确地读取想要的数据,而不是盲目的遍历读取所有或者大量的数据。并且,现有技术需要读取所有的时间范围,以及一个时间范围内的全量数据;而本发明只需读取检索条件存在的时间点,并且该时间点中满足检索条件的数据。
附图说明
图1是本发明快速检索方法的原理图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,为使本发明实施例的目的、技术方案和优点更加清楚,下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
参考图1所示,本发明公开了一种基于时序数据的快速检索方法,所述快速检索方法至少包括如下步骤。
步骤S1:在数据存储时,构造快速索引和全文索引,其中,快速索引被配置为能够快速定位到全文索引的位置,全文索引被配置为定位到统计数据或数据包。
步骤S2:在数据检索时,先判断快速索引中是否有索引,如果有索引,则找到对应的全文索引,接着根据全文索引中记录的位置去读取统计数据或数据包。
全文索引:IP会话表中包含大量以IP对为键值的IP会话数据,全文索引就是构建每个IP地址和这个IP地址关联的所有IP会话位置的关系。
快速索引:每次存一块全文索引数据时,就会在内存中构建一个IP分段和全文索引在磁盘中存储位置的关系。
优选地,所述步骤S1中构造快速索引和全文索引的方法为:将存储的数据按照离散的模式进行分组;将分组中数据的位置信息保存在对应的全文索引中;全文索引按照时间特征和/或数据大小特征进行聚合;存储全文索引,将存储位置更新到对应的快速索引。
优选地,存储的数据、快速索引和全文索引是基于时序数据设置。即是,索引和数据都是时间有序。
优选地,所述快速索引为内存数据。所述全文索引为磁盘数据。
优选地,所述快速索引可以快速定位到磁盘上对应的全文索引的位置。且快速索引可以提前过滤掉这段时间不存在的键值信息。
优选地,所述全文索引包含键值对应的若干个时间的数据位置信息的聚合。且全文索引的位置可以精确定位到对应的统计数据或数据包。
快速索引和/或全文索引中的数据可以定位到该键值在该时间点是否有数据;快速索引和/或全文索引中的数据可以定位到该键值对应的数据的精确位置。
本发明方法先过滤掉无效的时间数据,减少无效数据的读取;然后,根据记录的全文索引,快速精确的读取数据,避免读取磁盘IO浪费;进而提高读取数据的有效利用率。
实施例2:
在实施例1的基础上,本发明还公开了一种基于时序数据的快速检索装置,所述快速检索装置包括数据处理单元。所述数据处理单元被配置为按照实施例1所述的快速检索方法运行。
本发明技术方案比现有的技术的读取的有效数据的利用率更高,可以非常精确的去读想要的数据,而不是盲目的读所有或者大量的数据。并且,现有技术需要读取所有的时间范围,以及一个时间范围内的全量数据;而本发明只需读取检索条件存在的时间点,并且该时间点中满足检索条件的数据。
前述本发明基本例及其各进一步选择例可以自由组合以形成多个实施例,均为本发明可采用并要求保护的实施例。本发明方案中,各选择例,与其他任何基本例和选择例都可以进行任意组合。本领域技术人员可知有众多组合。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于时序数据的快速检索方法,其特征在于,所述快速检索方法至少包括:
S1:在数据存储时,构造快速索引和全文索引,其中,快速索引被配置为能够快速定位到全文索引的位置,全文索引被配置为定位到统计数据或数据包;
S2:在数据检索时,先判断快速索引中是否有索引,如果有索引,则找到对应的全文索引,接着根据全文索引中记录的位置去读取统计数据或数据包。
2.如权利要求1所述的基于时序数据的快速检索方法,其特征在于,所述步骤S1中构造快速索引和全文索引的方法为:将存储的数据按照离散的模式进行分组;将分组中数据的位置信息保存在对应的全文索引中;全文索引按照时间特征和/或数据大小特征进行聚合;存储全文索引,将存储位置更新到对应的快速索引。
3.如权利要求1或2所述的基于时序数据的快速检索方法,其特征在于,所述快速索引为内存数据。
4.如权利要求1或2所述的基于时序数据的快速检索方法,其特征在于,所述全文索引为磁盘数据。
5.如权利要求1所述的基于时序数据的快速检索方法,其特征在于,存储的数据、快速索引和全文索引是基于时序数据设置。
6.如权利要求1所述的基于时序数据的快速检索方法,其特征在于,所述全文索引包含键值对应的若干个时间的数据位置信息的聚合。
7.一种基于时序数据的快速检索装置,其特征在于,所述快速检索装置包括数据处理单元,所述数据处理单元被配置为按照权利要求1至6任一项所述的快速检索方法运行。
CN202110691105.6A 2021-06-22 2021-06-22 一种基于时序数据的快速检索方法及装置 Pending CN113268636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110691105.6A CN113268636A (zh) 2021-06-22 2021-06-22 一种基于时序数据的快速检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110691105.6A CN113268636A (zh) 2021-06-22 2021-06-22 一种基于时序数据的快速检索方法及装置

Publications (1)

Publication Number Publication Date
CN113268636A true CN113268636A (zh) 2021-08-17

Family

ID=77235558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110691105.6A Pending CN113268636A (zh) 2021-06-22 2021-06-22 一种基于时序数据的快速检索方法及装置

Country Status (1)

Country Link
CN (1) CN113268636A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573703A (zh) * 2024-01-16 2024-02-20 科来网络技术股份有限公司 时序数据的通用检索方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279213A (zh) * 2015-03-13 2016-01-27 中国移动通信集团广东有限公司 一种日志数据库检索装置及检索方法
CN106156304A (zh) * 2016-07-01 2016-11-23 中国南方电网有限责任公司 一种用于电力系统的数据检索和排序方法
CN109213760A (zh) * 2018-08-02 2019-01-15 南瑞集团有限公司 非关系数据存储的高负载业务存储及检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279213A (zh) * 2015-03-13 2016-01-27 中国移动通信集团广东有限公司 一种日志数据库检索装置及检索方法
CN106156304A (zh) * 2016-07-01 2016-11-23 中国南方电网有限责任公司 一种用于电力系统的数据检索和排序方法
CN109213760A (zh) * 2018-08-02 2019-01-15 南瑞集团有限公司 非关系数据存储的高负载业务存储及检索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573703A (zh) * 2024-01-16 2024-02-20 科来网络技术股份有限公司 时序数据的通用检索方法、系统、设备及存储介质
CN117573703B (zh) * 2024-01-16 2024-04-09 科来网络技术股份有限公司 时序数据的通用检索方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106528787B (zh) 一种基于海量数据多维分析的查询方法及装置
CN103714134B (zh) 一种网络流量数据索引方法及系统
US20070124277A1 (en) Index and Method for Extending and Querying Index
WO2009108459A2 (en) Indexing large-scale gps tracks
CN106033324B (zh) 一种数据存储的方法和装置
CN111143158B (zh) 一种监控数据实时存储方法、系统、电子设备及存储介质
US7225186B2 (en) Binary search tree system and method
WO2012174906A1 (zh) 一种数据存储、查找方法及装置
CN102622434A (zh) 数据存储方法、查找方法及装置
CN102890714A (zh) 数据索引方法及装置
CN108241692B (zh) 数据的查询方法及装置
CN113268636A (zh) 一种基于时序数据的快速检索方法及装置
CN114780530A (zh) 基于lsm树键值分离的时序数据存储方法及系统
CN113656397A (zh) 一种针对时序数据的索引构建及查询的方法、装置
CN116450656A (zh) 数据处理方法、装置、设备及存储介质
CN109800228B (zh) 一种高效快速解决hash冲突的方法
CN104166736A (zh) 倒排索引文件的存储方法和装置
CN112650756B (zh) 一种基于时序数据的时间投影的索引方法及系统
CN111859038A (zh) 一种分布式存储系统数据热度统计方法、装置
CN105589969A (zh) 一种数据处理方法及装置
CN113641681B (zh) 一种空间自适应的海量数据查询方法
US11940890B2 (en) Timing index anomaly detection method, device and apparatus
CN107515867B (zh) 一种NoSQL数据库的数据存储、查询方法和装置以及一种rowKey全组合的生成方法和装置
CN109597807A (zh) 数仓表处理方法和装置
CN112988846B (zh) 一种基于绝对的时间滑动窗口的流量实时统计方法及引擎

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 610041 12th, 13th and 14th floors, unit 1, building 4, No. 966, north section of Tianfu Avenue, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan

Applicant after: Kelai Network Technology Co.,Ltd.

Address before: 41401-41406, 14th floor, unit 1, building 4, No. 966, north section of Tianfu Avenue, Chengdu hi tech Zone, Chengdu Free Trade Zone, Sichuan 610041

Applicant before: Chengdu Kelai Network Technology Co.,Ltd.

CB02 Change of applicant information