CN113505181A - 基于dolphindb数据库的衍生时序数据制作方法 - Google Patents

基于dolphindb数据库的衍生时序数据制作方法 Download PDF

Info

Publication number
CN113505181A
CN113505181A CN202011051476.XA CN202011051476A CN113505181A CN 113505181 A CN113505181 A CN 113505181A CN 202011051476 A CN202011051476 A CN 202011051476A CN 113505181 A CN113505181 A CN 113505181A
Authority
CN
China
Prior art keywords
data
time
derived
time sequence
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011051476.XA
Other languages
English (en)
Inventor
祝勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Western Securities Co ltd
Original Assignee
Western Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Securities Co ltd filed Critical Western Securities Co ltd
Priority to CN202011051476.XA priority Critical patent/CN113505181A/zh
Publication of CN113505181A publication Critical patent/CN113505181A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于dolphindb数据库的衍生时序数据制作方法,包括以下步骤:将各种数据源的原始时序数据导入dolphindb数据库中存储;将原始时序数据的元数据在关系型数据库中存储;查询一组原始时序数据,在横截面数据和时序数据上使用excel函数编写衍生时序数据的计算公式,制作衍生时序数据的元数据;收到衍生时序数据的查询请求时,根据衍生时序数据的唯一标识、开始时间、结束时间实时计算返回衍生时序数据的结果。本发明使用统一的数据查询服务共享,提高了生产效率,并且保留了使用excel函数来编写衍生数据的元数据,不改变研究人员的技能,降低了学习曲线,平滑过渡使用习惯。

Description

基于dolphindb数据库的衍生时序数据制作方法
技术领域
本发明涉及金融行业的计算机技术领域,具体涉及一种基于dolphindb数据库的衍生时序数据制作方法。
背景技术
金融行业中存在着海量的数据,这些数据大多数都是时间序列的数据,行业内的机构通过研究这些数据,发现数据之间的关系,挖掘投资机会。很多和数据相关的业务,是需要对原始的时序数据进行计算得到衍生的时序数据,然后对衍生的时序数据做研究。这些衍生数据的使用者大部分是金融机构的研究人员,目前大部分研究员制作衍生数据的方法大致如下:
1.每次按照研究的需求,收集原始的时序数据,一般是从金融行业的数据服务商获取数据。
2.使用excel来加工处理原始的时序数据,得到衍生的时序数据,然后用于研究。
上述方法具有如下缺点:
1.金融行业的数据量大,excel难以存储和计算海量数据。
2.衍生数据保存在excel文件中,碎片化的存储导致使用效率低,没有沉淀为公共的数据资产,共享使用以提供生产效率。没有信息化,无法为研究的业务应用提供数据服务。因此,需对现有技术加以改进。
发明内容
为克服现有技术所存在的缺陷,现提供一种基于dolphindb数据库的衍生时序数据制作方法,以解决现有技术存在的问题。
为实现上述目的,本发明提供了一种基于dolphindb数据库的衍生时序数据制作方法,包括以下步骤:
S101:将各种数据源的原始时序数据导入dolphindb数据库中存储;
S102:将原始时序数据的元数据在关系型数据库中存储;
S103:查询一组原始时序数据,在横截面数据和时序数据上使用excel函数编写衍生时序数据的计算公式,制作衍生时序数据的元数据;
S104:收到衍生时序数据的查询请求时,根据衍生时序数据的唯一标识、开始时间、结束时间实时计算返回衍生时序数据的结果。
上述的基于dolphindb数据库的衍生时序数据制作方法,步骤S101中具体指的是:使用dolphindb数据库中的分布式数据库,使用原始时序数据表的时间列字段作为分区字段,建立dolphindb的表结构,然后导入原始时序数据存储。
上述的基于dolphindb数据库的衍生时序数据制作方法,在步骤S102中,存储的原始时序数据的元数据包含数据的库名、表名、列名,列名包含时间列、数据列和唯一标识列。
上述的基于dolphindb数据库的衍生时序数据制作方法,在步骤S103中,是输入原始时序数据的元数据,包括库名,表名,数据列名,时间列名,时间序列,筛选条件,从dolphindb中查询出原始时序数据;使用excel函数编写衍生时序数据的计算公式。使用查询出的一组原始时序数据,在横截面或者时间序列上,使用excel函数编写衍生数据的计算公式,提交excel函数到dolphindb数据库,将excel函数转换成dolphindb函数的表达式,作为衍生数据的计算公式;保存衍生时序数据的元数据关系型数据库时,元数据的属性包括唯一标识,名称,时间序列,原始时序数据集合的定义,衍生数据的时间序列和原始时序数据的时间序列需要对齐,数量相同,时序数据集合的定义,包括数据的库名,表名,数据列名,日期列名,筛选条件集合,时间序列。
上述的基于dolphindb数据库的衍生时序数据制作方法,在步骤S104中,根据唯一标识,从关系型数据库中查询衍生时序数据的元数据;根据开始时间和结束时间,从衍生时序数据的元数据的时间序列中确定开始和结束索引,确定衍生时序数据的时间序列;查询原始时序数据时,衍生时序数据的元数据中原始时序数据集合的定义,以及原始时序数据的时间序列,从dolphindb数据库查询原始时序数据。确定原始时序数据的时间范围;使用衍生时序数据的时间序列的索引位置,确定每个时序数据的时间范围。查询原始时序数据,输入每个时序数据的库名,表名,数据列名,时间列名,筛选条件集合,时间范围,调用dolphindb函数,动态构建基于dolphindb的查询语句,查询时序数据;使用查询得到的原始时序数据集合,衍生时序数据的时间序列,dolphindb函数表达式,实时计算衍生时序数据。
本发明由于使用以上技术方案,使其具有的有益效果是:
本发明通过将各种数据源的原始时序数据导入dolphindb数据库中存储,然后将原始时序数据的元数据在关系型数据库中存储,利用原始时序数据的元数据查询数据,在横截面数据和时序数据上使用excel函数编写衍生时序数据的计算公式,制作衍生时序数据的元数据,收到衍生时序数据的查询请求时,根据衍生时序数据的唯一标识,开始时间,结束时间实时计算返回衍生时序数据的结果。这种方法首先通过dolphindb数据库解决了海量数据存储的问题,其次将衍生时序数据的元数据保存到关系型数据库中,使用统一的数据查询服务共享,提高了生产效率,并且保留了使用excel函数来编写衍生数据的元数据,不改变研究人员的技能,降低了学习曲线,平滑过渡使用习惯。
附图说明
图1为本发明基于dolphindb数据库的衍生时序数据制作方法的流程图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
本说明书所附图式、所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
本发明的实施例公开了一种基于dolphindb数据库的衍生时序数据制作方法,如图1所示,包括以下步骤:
S101:将各种数据源的原始时序数据导入dolphindb数据库中存储;
S102:将原始时序数据的元数据在关系型数据库中存储;
S103:查询一组原始时序数据,在横截面数据和时序数据上使用excel函数编写衍生时序数据的计算公式,制作衍生时序数据的元数据;
S104:收到衍生时序数据的查询请求时,根据衍生时序数据的唯一标识、开始时间、结束时间实时计算返回衍生时序数据的结果。
具体地说,在步骤S101中,首先需要把来自于不同数据源的原始时序数据导入dolphindb数据库中存储,每一种时序数据对应到dolphindb数据库中的一张表,使用dolphindb数据库中的分布式数据库,原始时序数据表的时间列字段作为分区字段,建立dolphindb的表结构,然后导入原始时序数据。在这一步骤中我们解决了衍生数据制作所依赖的原始时序数据存储介质的问题,excel无法处理海量的数据。
在步骤S102中,将原始时序数据的元数据提取出来,作为数据字典,可以让使用者知道有哪些时序数据,是否满足想要制作的衍生数据的需求,作为制作衍生时序数据的基础数据。元数据包括原始时序数据的数据定义,数据库名字,表名,列名包含时间列,数据列,唯一标识列等。用一个具体的例子来阐述,股票的每天的市场价格时序数据表,数据定义可以阐述为股票每天的开盘价,收盘价,最高价,最低价,成交量数据,数据库名字equity,表名可以定义为day_stock_market,列名中包括股票代码列,时间列为交易日,数据列包含开盘价,收盘价,最高价,最低价,成交量等列信息。
在步骤S103中,使用原始时序数据的元数据查询一组原始时序数据,在横截面数据和时序数据上使用excel函数编写衍生时序数据的计算公式,制作衍生时序数据的元数据,这里涉及4个子步骤,具体如下:
S103a:输入原始时序数据的元数据,包括库名,表名,数据列名,时间列名,时间序列,筛选条件,从dolphindb中查询出原始时序数据。比如想做某一个股票移动5日成交量的衍生时序数据,需要日成交量的原始时序数据,通过指定库名equity,表名day_stock_market,数据列名为成交量,日期列为交易日,时间序列设置为一个时间范围内所有交易日,按照日期顺序排序,筛选条件可以设置为”股票代码列=xxxxx”,根据这些输入,可以从dolphindb中查询某个股票时间范围内的日成交量数据;
S103b:使用查询出的一组原始时序数据,在横截面或者时间序列上,使用excel函数编写衍生数据的计算公式。接着使用S103a中的例子,因为是计算移动5日成交量数据,对取出的日成交量数据在时间序列的方向上编写Excel公式sum(A1:A4),定义好衍生数据的excel计算公式;
S103c:提交excel函数到dolphindb数据库,将excel函数转换成dolphindb函数的表达式,作为衍生数据的计算公式。还是使用S103b中的例子,将Excel函数sum(A1:A4)转换成dolphindb的函数表达式msum(col1,4),这个转换后的dolphindb函数表达式就是衍生时序数据的计算公式;
S103d:保存衍生时序数据的元数据到关系型数据库。这一步就是把制作衍生时序数据用到的信息作为元数据保存下来,后续查询衍生时序数据时候使用。衍生时序数据的元数据的属性包括唯一标识,名称,时间序列,原始时序数据集合的定义。衍生数据的时间序列和原始时序数据的时间序列需要对齐,数量相同。原始时序数据集合的定义,包括数据的库名,表名,数据列名,日期列名,筛选条件集合,时间序列。
另外,在步骤S104中,收到衍生时序数据的查询请求时,根据衍生时序数据的唯一标识,开始时间,结束时间实时计算返回衍生时序数据的结果。这里涉及4个子步骤,具体如下:
S104a,输入衍生数据的唯一标识,开始时间和结束时间。唯一标识用于定位衍生数据,开始时间和结束时间用于确定时间序列的范围。
S104b,根据衍生数据唯一标识获取衍生数据的元数据。
S104c,查询原始时序数据。衍生时序数据的元数据中原始时序数据集合的定义,以及原始时序数据的时间序列,从dolphindb数据库查询原始时序数据。确定原始时序数据的时间范围。使用衍生时序数据的时间序列的索引位置,确定每个时序数据的时间范围。查询原始时序数据。输入每个时序数据的库名,表名,数据列名,时间列名,筛选条件集合,时间范围,调用dolphindb函数,动态构建基于dolphindb的查询语句,查询时序数据。
S104d,计算衍生时序数据。使用查询得到的原始时序数据集合,衍生时序数据的时间序列,dolphindb函数表达式,实时计算衍生时序数据。
本发明的基于dolphindb数据库的衍生时序数据制作方法,首先通过dolphindb数据库解决了海量数据存储的问题,其次将衍生时序数据的元数据保存到关系型数据库中,使用统一的数据查询服务共享,提高了生产效率,并且保留了使用excel函数来编写衍生数据的元数据,不改变研究人员的技能,降低了学习曲线,平滑过渡使用习惯。
以上对发明的具体实施例进行了描述。需要理解的是,发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换,这并不影响发明的实质内容。

Claims (5)

1.一种基于dolphindb数据库的衍生时序数据制作方法,其特征在于,包括以下步骤:
S101:将各种数据源的原始时序数据导入dolphindb数据库中存储;
S102:将原始时序数据的元数据在关系型数据库中存储;
S103:查询一组原始时序数据,在横截面数据和时序数据上使用excel函数编写衍生时序数据的计算公式,制作衍生时序数据的元数据;
S104:收到衍生时序数据的查询请求时,根据衍生时序数据的唯一标识、开始时间、结束时间实时计算返回衍生时序数据的结果。
2.根据权利要求1所述的基于dolphindb数据库的衍生时序数据制作方法,其特征在于:步骤S101中具体指的是:使用dolphindb数据库中的分布式数据库,使用原始时序数据表的时间列字段作为分区字段,建立dolphindb的表结构,然后导入原始时序数据存储。
3.根据权利要求1所述的基于dolphindb数据库的衍生时序数据制作方法,其特征在于:在步骤S102中,存储的原始时序数据的元数据包含数据的库名、表名、列名,列名包含时间列、数据列和唯一标识列。
4.根据权利要求1所述的基于dolphindb数据库的衍生时序数据制作方法,其特征在于:在步骤S103中,是输入原始时序数据的元数据,包括库名,表名,数据列名,时间列名,时间序列,筛选条件,从dolphindb中查询出原始时序数据;使用excel函数编写衍生时序数据的计算公式;使用查询出的一组原始时序数据,在横截面或者时间序列上,使用excel函数编写衍生数据的计算公式,提交excel函数到dolphindb数据库,将excel函数转换成dolphindb函数的表达式,作为衍生数据的计算公式;保存衍生时序数据的元数据关系型数据库时,元数据的属性包括唯一标识,名称,时间序列,原始时序数据集合的定义,衍生数据的时间序列和原始时序数据的时间序列需要对齐,数量相同,时序数据集合的定义,包括数据的库名,表名,数据列名,日期列名,筛选条件集合,时间序列。
5.根据权利要求1所述的基于dolphindb数据库的衍生时序数据制作方法,其特征在于:在步骤S104中,根据唯一标识,从关系型数据库中查询衍生时序数据的元数据;根据开始时间和结束时间,从衍生时序数据的元数据的时间序列中确定开始和结束索引,确定衍生时序数据的时间序列;查询原始时序数据时,衍生时序数据的元数据中原始时序数据集合的定义,以及原始时序数据的时间序列,从dolphindb数据库查询原始时序数据;确定原始时序数据的时间范围;使用衍生时序数据的时间序列的索引位置,确定每个时序数据的时间范围;查询原始时序数据,输入每个时序数据的库名,表名,数据列名,时间列名,筛选条件集合,时间范围,调用dolphindb函数,动态构建基于dolphindb的查询语句,查询时序数据;使用查询得到的原始时序数据集合,衍生时序数据的时间序列,dolphindb函数表达式,实时计算衍生时序数据。
CN202011051476.XA 2020-09-29 2020-09-29 基于dolphindb数据库的衍生时序数据制作方法 Pending CN113505181A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011051476.XA CN113505181A (zh) 2020-09-29 2020-09-29 基于dolphindb数据库的衍生时序数据制作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011051476.XA CN113505181A (zh) 2020-09-29 2020-09-29 基于dolphindb数据库的衍生时序数据制作方法

Publications (1)

Publication Number Publication Date
CN113505181A true CN113505181A (zh) 2021-10-15

Family

ID=78008375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011051476.XA Pending CN113505181A (zh) 2020-09-29 2020-09-29 基于dolphindb数据库的衍生时序数据制作方法

Country Status (1)

Country Link
CN (1) CN113505181A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990068A (zh) * 2021-10-27 2022-01-28 阿波罗智联(北京)科技有限公司 交通数据的处理方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588369A (zh) * 2004-09-06 2005-03-02 杭州恒生电子股份有限公司 一种关系型数据库系统及其查询和报表方法
JP2017162350A (ja) * 2016-03-11 2017-09-14 日本電気株式会社 データベース管理装置
US20170329828A1 (en) * 2016-05-13 2017-11-16 Ayla Networks, Inc. Metadata tables for time-series data management
CN109388659A (zh) * 2018-09-29 2019-02-26 北京京东尚科信息技术有限公司 数据存储方法、装置和计算机可读存储介质
CN109523342A (zh) * 2018-10-12 2019-03-26 平安科技(深圳)有限公司 服务策略生成方法及装置、电子设备、存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588369A (zh) * 2004-09-06 2005-03-02 杭州恒生电子股份有限公司 一种关系型数据库系统及其查询和报表方法
JP2017162350A (ja) * 2016-03-11 2017-09-14 日本電気株式会社 データベース管理装置
US20170329828A1 (en) * 2016-05-13 2017-11-16 Ayla Networks, Inc. Metadata tables for time-series data management
CN109388659A (zh) * 2018-09-29 2019-02-26 北京京东尚科信息技术有限公司 数据存储方法、装置和计算机可读存储介质
CN109523342A (zh) * 2018-10-12 2019-03-26 平安科技(深圳)有限公司 服务策略生成方法及装置、电子设备、存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FELIX BACH ETC.: "Power Grid Time Series Data Analysis with Pig on a Hadoop Cluster Compared to Multi Core Systems", 《2013 21ST EUROMICRO INTERNATIONAL CONFERENCE ON PARALLEL, DISTRIBUTED, AND NETWORK-BASED PROCESSING》 *
冯佳丽: "云计算中心运维数据可视化研究", 《信息技术与网络安全》 *
黄向东 等: "支持时序数据聚合函数的索引", 《清华大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990068A (zh) * 2021-10-27 2022-01-28 阿波罗智联(北京)科技有限公司 交通数据的处理方法、装置、设备以及存储介质
CN113990068B (zh) * 2021-10-27 2023-02-24 阿波罗智联(北京)科技有限公司 交通数据的处理方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN108874971B (zh) 一种应用于海量标签化实体数据存储的工具和方法
CN107273506B (zh) 一种数据库多表联合查询的方法
CN103631907B (zh) 一种将关系型数据迁移至HBase的方法及系统
CN100530187C (zh) 搜索请求转换为查询语句的方法
CN107818115B (zh) 一种处理数据表的方法及装置
US9460188B2 (en) Data warehouse compatibility
CN1749999B (zh) .net数据类型和实例的持久存储
US8321390B2 (en) Methods and apparatus for organizing data in a database
CN101206670B (zh) 用于将非结构化信息转换成内容的系统和方法
CN104899295B (zh) 一种异构数据源数据关联分析方法
CN104462430B (zh) 关系型数据库的数据处理方法及装置
WO2023087673A1 (zh) 一种层次数据检索方法、装置和设备
CN103577590A (zh) 一种数据查询方法和系统
CN102917009B (zh) 一种基于云计算技术的股票数据采集和存储方法和系统
CN101727478A (zh) 动态建立并用储存库中的数据填充数据集市的方法和系统
CN101490675A (zh) 用于重用数据访问和呈现元素的方法和装置
CN104731945A (zh) 一种基于HBase的全文检索方法及装置
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN102298598A (zh) 一种专利信息分析方法及装置
CN102222100A (zh) 商品信息存取的方法及装置
CN102609488A (zh) 客户端及其数据查询方法、服务端和数据查询系统
CN102867066A (zh) 数据汇总装置和数据汇总方法
CN103473276A (zh) 超大型数据存储方法、分布式数据库系统及其检索方法
CN101963993B (zh) 一种数据库单表记录快速查找的方法
CN113505181A (zh) 基于dolphindb数据库的衍生时序数据制作方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20231208