CN111538728A - 大科学装置历史数据存档与查询方法 - Google Patents

大科学装置历史数据存档与查询方法 Download PDF

Info

Publication number
CN111538728A
CN111538728A CN202010345718.XA CN202010345718A CN111538728A CN 111538728 A CN111538728 A CN 111538728A CN 202010345718 A CN202010345718 A CN 202010345718A CN 111538728 A CN111538728 A CN 111538728A
Authority
CN
China
Prior art keywords
data
data table
query
archiving
original data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010345718.XA
Other languages
English (en)
Inventor
刘功发
陈鑫
孙晓康
辛尚聪
黄子滪
李川
宣科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010345718.XA priority Critical patent/CN111538728A/zh
Publication of CN111538728A publication Critical patent/CN111538728A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24535Query rewriting; Transformation of sub-queries or views

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大科学装置历史数据存档与查询方法,包括:在数据库中创建原始数据表的同时创建一个冗余数据表;按照时间粒度与数据特征的组合设计抽样规则;对原始数据表进行抽样,将抽样后得到的数据写入冗余数据表中;当接收到查询请求时,根据查询请求的时间跨度来计算从原始数据中需要访问的数据量大小,从而通过访问原始数据表或者冗余数据表,得到查询结果。该方法通过增加冗余数据实现了大科学装置海量历史数据的快速查询,缩短了历史数据的查询时间,提高了大科学装置历史数据存档与查询系统的性能。

Description

大科学装置历史数据存档与查询方法
技术领域
本发明涉及历史数据存档与查询技术领域,尤其涉及一种大科学装置历史数据存档与查询方法。
背景技术
大科学装置是指通过较大规模投入和工程建设来完成,建成后通过长期的稳定运行和持续的科学技术活动,实现重要科学技术目标的大型设施,如大型粒子加速器、高能物理探测器、聚变装置和大型天文望远镜等。大科学装置往往体积庞大、设备众多,历史数据存档与查询系统是其不可缺少的组成部分。
为了满足更高层次的科研需求,国家加大了在大科学装置方面的投入力度,装置体量也不断增大,运行过程中产生的数据量随之激增,海量历史数据查询速度慢是亟待解决的问题;但是,目前还没有较为有效的解决方案。
发明内容
本发明的目的是提供一种大科学装置历史数据存档与查询方法,能够实现海量历史数据的快速查询。
本发明的目的是通过以下技术方案实现的:
一种大科学装置历史数据存档与查询方法,包括:
在数据库中创建原始数据表的同时创建一个冗余数据表;
按照时间粒度与数据特征的组合设计抽样规则;
对原始数据表进行抽样,将抽样后得到的数据写入冗余数据表中;
当接收到查询请求时,根据查询请求的时间跨度来计算从原始数据中需要访问的数据量大小,从而通过访问原始数据表或者冗余数据表,得到查询结果。
由上述本发明提供的技术方案可以看出,通过增加冗余数据实现了大科学装置海量历史数据的快速查询,缩短了历史数据的查询时间,提高了大科学装置历史数据存档与查询系统的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种大科学装置历史数据存档与查询方法的原理图;
图2为本发明实施例提供的历史数据查询流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种大科学装置历史数据存档与查询方法,如图1所示,主要包括:
1、在数据库中创建原始数据表的同时创建一个冗余数据表。
冗余数据表是对原始数据表进行抽样得到的新表,并在冗余数据表中对抽样规则进行标记。
2、按照时间粒度与数据特征的组合设计抽样规则。
所述时间粒度包括:分钟、小时与天;数据特征包括:最小值、最大值与平均值;通过组合时间粒度与数据特征,可以得到多种抽样规则。
3、对原始数据表进行抽样,将抽样后得到的数据写入冗余数据表中。
本发明实施例中,开发了配套的后台应用程序,用来执行本步骤。
4、当接收到查询请求时,根据查询请求的时间跨度来计算从原始数据中需要访问的数据量大小,从而通过访问原始数据表或者冗余数据表,得到查询结果。
本发明实施例中,开发了配套Web前后端程序;Web前端程序,用于发起查询请求,以及展示查询结果;Web后端程序,用于通过数据查询,将查询结果反馈给Web前端程序。
如图2所示,计算从原始数据中需要访问的数据量大小n,如果数据量大小n超过设定值N,则从冗余数据表中得到查询结果;如果数据量大小n未超过设定值N,则从原始数据表中得到查询结果。
为了说明本发明实施例上述方案的效果,下面结合具体应用示例进行说明。
以目前的合肥光源为例,合肥光源是由800MeV电子直线加速器、输运线和800MeV电子存储环组成的大型粒子加速器装置,其控制系统是基于实验物理及工业控制系统(EPICS)的分布式控制系统,其控制变量的数量级为104,平均每个控制变量年产生数据量为100MB。为了满足更高层次的科研需求,合肥光源中的控制变量还在不断增长。像这种数据规模较大的大科学装置,如果不创建冗余数据表来保存原始数据表的抽样数据,那么每当进行由于时间跨度大而导致的海量数据访问时,就会因为需要处理的数据量过大而导致系统响应时间过长。
EPICS开源社区发布的一系列数据存档软件已经广泛应用在国际各大科学装置中,如Channel Archiver、RDB Channel Archiver、Archiver Appliance等。合肥光源目前使用Archiver Appliance作为存档软件,它可以周期性地收集并存档控制系统中控制变量的数值。
我们以CDH(Cloudera’s Distribution Including Apache Hadoop)为软件基础,8台192GB内存、36TB存储空间的服务器为硬件基础搭建了Hadoop平台,并使用HBase作为数据库创建了原始数据表和冗余数据表。其中,冗余数据表中根据3种时间粒度(分钟、小时、天)与3种特征(最小值、最大值、平均值)创建了9种抽样规则。
在设计抽样规则的基础上,还开发了相关插件和后台应用程序将数据写入HBase中相应的原始数据表和冗余数据表。
为了根据时间跨度选择合适的数据源,我们还开发了后端服务程序来开放数据查询的接口。每当浏览器前端发起数据查询的请求时,后端服务程序将根据时间跨度计算从原始数据表中需要访问的数据量大小,从而决定是否访问原始数据表。如果需要访问冗余数据表,则根据查询请求选择相应的时间粒度与特征信息,以便从冗余数据表中获取相应的数据,缩短历史数据的查询时间。
通过查询的测试结果来看,本发明提供的方法有效提高了海量历史数据的查询速度。所以,这种大科学装置历史数据存档与查询方法对大科学装置来说是很有价值的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (4)

1.一种大科学装置历史数据存档与查询方法,其特征在于,包括:
在数据库中创建原始数据表的同时创建一个冗余数据表;
按照时间粒度与数据特征的组合设计抽样规则;
对原始数据表进行抽样,将抽样后得到的数据写入冗余数据表中;
当接收到查询请求时,根据查询请求的时间跨度来计算从原始数据中需要访问的数据量大小,从而通过访问原始数据表或者冗余数据表,得到查询结果。
2.根据权利要求1所述的一种大科学装置历史数据存档与查询方法,其特征在于,所述时间粒度包括:分钟、小时与天;数据特征包括:最小值、最大值与平均值。
3.根据权利要求1所述的一种大科学装置历史数据存档与查询方法,其特征在于,所述根据查询请求的时间跨度来计算从原始数据中需要访问的数据量大小,从而通过访问原始数据表或者冗余数据表,得到查询结果包括:
计算从原始数据中需要访问的数据量大小n,如果数据量大小n超过设定值N,则从冗余数据表中得到查询结果;如果数据量大小n未超过设定值N,则从原始数据表中得到查询结果。
4.根据权利要求1所述的一种大科学装置历史数据存档与查询方法,其特征在于,开发了配套的后台应用程序、以及Web前后端程序;
其中,后台应用程序用于对对原始数据表进行抽样,将抽样后得到的数据写入冗余数据表中;
Web前端程序,用于发起查询请求,以及展示查询结果;Web后端程序,用于通过数据查询,将查询结果反馈给Web前端程序。
CN202010345718.XA 2020-04-27 2020-04-27 大科学装置历史数据存档与查询方法 Pending CN111538728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010345718.XA CN111538728A (zh) 2020-04-27 2020-04-27 大科学装置历史数据存档与查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010345718.XA CN111538728A (zh) 2020-04-27 2020-04-27 大科学装置历史数据存档与查询方法

Publications (1)

Publication Number Publication Date
CN111538728A true CN111538728A (zh) 2020-08-14

Family

ID=71977276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010345718.XA Pending CN111538728A (zh) 2020-04-27 2020-04-27 大科学装置历史数据存档与查询方法

Country Status (1)

Country Link
CN (1) CN111538728A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528097A (zh) * 2020-12-17 2021-03-19 浙江全世科技有限公司 一种在线设备监测数据的历史趋势查询方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070027843A1 (en) * 2005-07-28 2007-02-01 Microsoft Corporation Separating uploads into aggregate and raw data storage
CN101739410A (zh) * 2008-11-24 2010-06-16 华为技术有限公司 运算结果展现的方法、装置和系统
CN106407190A (zh) * 2015-07-27 2017-02-15 阿里巴巴集团控股有限公司 一种事件记录查询方法及装置
CN109492008A (zh) * 2018-11-13 2019-03-19 上海理想信息产业(集团)有限公司 一种基于HBase的网络大数据模型设计方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070027843A1 (en) * 2005-07-28 2007-02-01 Microsoft Corporation Separating uploads into aggregate and raw data storage
CN101739410A (zh) * 2008-11-24 2010-06-16 华为技术有限公司 运算结果展现的方法、装置和系统
CN106407190A (zh) * 2015-07-27 2017-02-15 阿里巴巴集团控股有限公司 一种事件记录查询方法及装置
CN109492008A (zh) * 2018-11-13 2019-03-19 上海理想信息产业(集团)有限公司 一种基于HBase的网络大数据模型设计方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528097A (zh) * 2020-12-17 2021-03-19 浙江全世科技有限公司 一种在线设备监测数据的历史趋势查询方法及装置

Similar Documents

Publication Publication Date Title
US11392550B2 (en) System and method for investigating large amounts of data
CN106528787B (zh) 一种基于海量数据多维分析的查询方法及装置
US20190179933A1 (en) Generating sub-indexes from an index to compress the index
CN107766541B (zh) 配用电全局全量数据传输及存储方法、装置、电子设备
Su et al. Taming massive distributed datasets: data sampling using bitmap indices
WO2013106595A2 (en) Processing store visiting data
KR20130049111A (ko) 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
CN113468199B (zh) 索引更新方法及系统
CN111881326A (zh) 一种图数据存储方法、装置、设备及可读存储介质
CN111125199B (zh) 一种数据库访问方法、装置及电子设备
CN111538728A (zh) 大科学装置历史数据存档与查询方法
Sawyer et al. Understanding query performance in Accumulo
CN111352960B (zh) 快件订单信息查询方法、装置、设备及存储介质
CN116303628B (zh) 基于Elasticsearch的告警数据查询方法、系统及设备
CN115098029A (zh) 数据处理方法及装置
Emery et al. Full Bitcoin blockchain data made easy
McCamish et al. Managing pmu data sets with bitmap indexes
Colosi et al. Time series data management optimized for smart city policy decision
CN111143460A (zh) 基于大数据的经济领域的数据的检索方法、装置与处理器
Prabavathy et al. Multi-index technique for metadata management in private cloud storage
CN110968993A (zh) 信息的处理方法及装置、存储介质和处理器
CN117390106B (zh) 数据处理方法、装置、存储介质和计算设备
Sharma et al. A Novel Technique for Handling Small File Problem of HDFS: Hash Based Archive File (HBAF)
Yan et al. Public sentiment big data query processing and optimization with unified storage of source and meta data
US20150106354A1 (en) Automated composition of topical media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200814

RJ01 Rejection of invention patent application after publication