CN116501805A - 一种流数据系统、计算机设备及介质 - Google Patents

一种流数据系统、计算机设备及介质 Download PDF

Info

Publication number
CN116501805A
CN116501805A CN202310778399.5A CN202310778399A CN116501805A CN 116501805 A CN116501805 A CN 116501805A CN 202310778399 A CN202310778399 A CN 202310778399A CN 116501805 A CN116501805 A CN 116501805A
Authority
CN
China
Prior art keywords
stream data
module
data
sub
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310778399.5A
Other languages
English (en)
Inventor
庄宇飞
李雨欣
王晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gezhouba Electric Power Rest House
China Three Gorges Corp
Original Assignee
Beijing Gezhouba Electric Power Rest House
China Three Gorges Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gezhouba Electric Power Rest House, China Three Gorges Corp filed Critical Beijing Gezhouba Electric Power Rest House
Priority to CN202310778399.5A priority Critical patent/CN116501805A/zh
Publication of CN116501805A publication Critical patent/CN116501805A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种流数据系统、计算机设备及介质,包括数据库节点,数据库节点包括:计算模块和存储模块;计算模块包括接入子模块、结构化查询语言子模块、流式处理子模块以及运行时间子模块;存储模块包括流数据API子模块;接入子模块用于接收流数据及其客户端请求;结构化查询语言子模块用于将流数据客户端请求编译为逻辑流数据图;流式处理子模块用于为逻辑流数据图选择对应算子,生成可执行的流数据图;运行时间子模块用于执行流数据图的计算任务,得到流数据客户端请求的执行结果,并向流数据客户端返回执行结果;流数据API子模块用于为流数据发送控制指令。本发明的流数据系统由计算模块和存储模块组成,简化流数据计算存储的配置。

Description

一种流数据系统、计算机设备及介质
技术领域
本发明涉及流数据存储与计算领域,具体涉及一种流数据系统、计算机设备及介质。
背景技术
新能源场站的数据的产生方式和产生来源相比以前都有了极大的丰富,比如,来自传感器的数据以及各种监控程序产生的数据等,这些数据大多是连续的数据流的形式,从多种外部数据源持续不断地生成,在多数情况下,我们无法控制这些流数据到达的顺序和产生的速率。
传统的基于各类关系型数据库或者工业实时数据库的数据处理与存储方式存在数据吞吐量小,应对实时数据存储与数据计算所使用的软件架构过于复杂,计算的实时性与灵活性已经无法满足目前对物联网实时数据处理的要求。
现有的解决方法为引入产生与互联网行业的大数据基础设施,如联合使用消息流Kafka,流计算引擎Flink,批处理Spark,大数据Hadoop等实现流数据的计算和存储。然而,这些系统都并不是一开始就为工业物联网实时流数据设计的,他们的整合并不能充分发挥每个系统的优势。并且,kafka、flink、spark、hadoop这些系统都是分布式的架构,每个单独系统都要占用很多的服务器计算存储资源,每引入一套系统,就会给整个系统增加非常大的复杂度,给后期的配置和运维增加非常大的工作量。
发明内容
为解决现有技术中的不足,本发明提供一种流数据系统、计算机设备及介质。
本发明第一方面提供一种流数据系统,包括至少一个数据库节点,数据库节点包括:计算模块和存储模块;计算模块中包括接入子模块、结构化查询语言子模块、流式处理子模块以及运行时间子模块;存储模块包括流数据API子模块;接入子模块用于接收流数据以及流数据客户端请求;结构化查询语言子模块用于将流数据客户端请求编译为逻辑流数据图;流式处理子模块用于为逻辑流数据图选择对应的算子,生成可执行的流数据图;运行时间子模块用于执行流数据图的计算任务,对流数据进行计算,得到流数据客户端请求的执行结果,并向流数据客户端返回执行结果;流数据API子模块用于为流数据发送控制指令。
有益效果为:本发明提供的流数据系统包括至少一个数据库节点,数据库节点包括计算模块和存储模块,与现有技术中计算流数据需要联合使用多套系统相比,本发明由计算模块和存储模块组成数据库节点,由若干个数据库节点组成的流数据系统,无需复杂配置,也无需消耗多种服务器资源,降低对流数据计算与存储的整体系统的部署,节省计算资源,降低对运维人员的技术要求,简化后期运维工作,同时,数据库节点仅包括计算模块和存储模块,计算模块和存储模块距离近,则计算模块中的流计算任务靠近其相关的存储模块中的写入数据,提升系统的整体吞吐和时延,达到快速对实时流数据进行计算的目的,从而实现实时流数据处理与快速反馈。计算模块中包括多个子模块,其中,接入子模块用于接收流数据客户端请求;结构化查询语言子模块用于将流数据客户端请求编译为逻辑流数据图;流式处理子模块用于为逻辑流数据图选择对应的算子,生成可执行的流数据图,流式处理子模块中包含各种常见的流处理算子,因此可以处理各种常见的逻辑流数据图;运行时间子模块用于执行流数据图的计算任务,对流数据进行计算,得到流数据客户端请求的执行结果,并向流数据客户端返回执行结果,通过这个几个子模块对流数据客户端请求处理后再对流数据进行计算,提升计算速度,只需要通过结构化查询语言就能完成上述所有的处理功能,无需任何第三方系统的协助。存储模块中包括流数据API子模块,用于为流数据发送控制指令,通过控制指令实现对流数据的存储、读写等操作。
结合第一方面,在第一方面第一实施方式中,流数据客户端请求为结构化查询语句,结构化查询语言子模块,包括:结构化查询语言解析器和结构化查询语言优化器;结构化查询语言解析器用于将结构化查询语句编译为对应的关系代数表达式;结构化查询语言优化器用于对根据关系代数表达式生成的执行计划进行优化,并生成逻辑流数据图。
有益效果为:结构化查询语言解析器完成对流数据客户端请求的结构化查询语句的词法分析、语法分析,从而将结构化查询语句编译为对应的关系代数表达式,结构化查询语言优化器根据各种规则对根据关系代数表达式生成的执行计划进行优化,提高执行计划的可执行性,并生成逻辑流数据图。
结合第一方面,在第一方面第二实施方式中,运行时间子模块包括:任务调度器、状态管理器以及执行优化器;任务调度器用于为计算任务调度流数据系统中的可用计算资源,以通过可用计算资源执行计算任务;状态管理器用于记录各流数据图的计算状态,根据计算状态确定流数据图的计算优先级;执行优化器用于加速执行流数据图的计算任务。
有益效果为:任务调度器为计算任务调度流数据系统中的可用计算资源,通过调度让计算结果更加准确和全面;状态管理器用于记录各流数据图的计算状态,根据计算状态决定流数据图的计算优先级,计算状态好的流数据图优先计算,提高计算速度;执行优化器通过自动化并行等手段加速执行流数据图的计算任务,自动化并行将多个线程安全的计算或调度任务分配给多个线程,充分利用主机时间,从而加速数据计算分析的过程。
结合第一方面,在第一方面第三实施方式中,向流数据中写入数据,包括:流数据API子模块采用append方法将数据写入流数据
有益效果为:append方法可实现数据的快速写入。
结合第一方面,在第一方面第四实施方式中,存储模块还包括:复制子模块,用于通过共识引擎保证各数据库节点上的数据一致。
有益效果为:复制子模块将新存储进来的数据复制到其他数据库节点中,以保证每个数据库节点中的数据一致,保证数据的容错和高可用性,当一个数据库出现故障时,切换到其他数据库节点上继续执行流数据客户端请求。
结合第一方面,在第一方面第五实施方式中,存储模块还包括:本地存储子模块,用于存储流数据和执行结果。
有益效果为:本地存储子模块用于存储流数据和执行结果,且能实现本地持久化存储,实现大量数据低延迟的写入和读取。
结合第一方面,在第一方面第六实施方式中,存储模块还包括:二级存储子模块,用于存储历史数据。
有益效果为:二级存储子模块将历史数据,也就是访问频率低于设置的阈值的数据自动卸载存储起来,便于后续查看和操作。
结合第一方面,在第一方面第七实施方式中,各数据库节点之间相互独立,各数据库节点中的数据保持一致,当其中一个数据库节点故障,切换到其他数据库节点上继续执行流数据客户端请求。
有益效果为:各数据库节点之间相互独立,但是每个数据库节点中的数据保持一致,当一个数据库节点中的数据出错时,可以随时调用其他数据库节点中同位置的数据,同时,当一个数据库节点故障时,切换到其他数据库节点上继续执行流数据客户端请求,保证计算的准确性,提高流数据系统的容错性。
本发明第二方面提供一种计算机设备,包括,至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,从而执行第一方面及其可选实施方式中任一项的流数据系统。
本发明第三方面提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行第一方面及其可选实施方式中任一项的流数据系统。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式。
图1示出了本发明实施例提供的现有的数据处理设施示意图;
图2示出了本发明实施例提供的流数据系统结构示意图;
图3示出了本发明实施例提供的分布式流数据系统结构示意图;
图4示出了本发明实施例提供的一种计算机设备的硬件结构示意图;
图5示出了本发明实施例提供的一种计算机可读存储介质的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在现有的数据处理设施中,如图1所示,数据源集01中包括数据源001,数据源002等多个数据源,将采集到的数据进行通过结合、过滤模块02过滤、整合,通过时间流/缓存模块03以及流程序/分析模块04对流数据进行处理后,将流数据存储到存储模块06中,批处理模块05的流数据也可以存储到存储模块06中,再基于存储模块06对流数据进行批量处理、数据查询等操作,存储模块06中的流数据再通过SQL引擎07处理,通过BI/可视化工具台08实现流数据的可视化,从而给SQL用户09提供查看、查询等操作。存储模块06中的流数据还可以存储到其他存储/档案模块010,通过ML引擎011处理流数据,将流数据发送给ML工作台012,为数据用户013提供查看、查询等操作。
整个过程中对于流数据的存储和计算都是完全分开的,另外,还需要引入联合使用消息流Kafka、流计算引擎Flink以及批处理Spark等各种数据处理结构来实现上述操作,现有的数据处理设施给整个系统增加非常大的复杂度,增加了后期的配置和运维的工作量。
本发明实施例提供了一种流数据系统,包括至少一个数据库节点,如图2所示,数据库节点包括:
计算模块1和存储模块2。
计算模块1中包括接入子模块11、结构化查询语言子模块12、流式处理子模块13以及运行时间子模块14;存储模块包括流数据API子模块21。
接入子模块11用于接收流数据以及流数据客户端请求。
在一可选实施例中,接入子模块11还负责连接管理、安全认证。
在一可选实施例中,流数据客户端请求代表用户对流数据的操作指令。
在一可选实施例中,连接管理代表接入子模块11对不同客户端传输来的流数据进行管理。
在一可选实施例中,只有通过安全认证的客户端才可以与流数据系统建立通信。
在一可选实施例中,接入子模块11中配置有时间窗口函数,接入子模块11通过时间窗口函数对要存储到存储模块2的流数据进行切割,时间窗口函数的本质算法是限流算法,将n秒的时间进行切分,尽可能的在每一段中装入更多的数据,从而将无界的流数据切割成有限的数据集,对连续的窗口内的数据进行持续计算,从而得到不断更新的计算结果。
结构化查询语言子模块12用于将流数据客户端请求编译为逻辑流数据图。
在一可选实施例中,结构化查询语言子模块12还可以对存储起来的流数据进行查询,通过结构化查询语言查询到对应的流数据。
流式处理子模块13用于为逻辑流数据图选择对应的算子,生成可执行的流数据图。
在一可选实施例中,流式处理子模块13中包含多种常见的流处理算子、表达流数据图的数据结构和领域特定语言,用于为逻辑流数据图选择对应的算子,以及生成可执行的流数据图。
在一可选实施例中,流式处理子模块13还支持自定义函数作为处理算子。
运行时间子模块14用于执行流数据图的计算任务,对流数据进行计算,得到流数据客户端请求的执行结果,并向流数据客户端返回执行结果。
流数据API子模块21用于为流数据发送控制指令。
在一可选实施例中,流数据API子模块21为通过流数据客户端请求处理后的流数据发送控制指令。
在一可选实施例中,流数据API子模块21为流数据发送控制指令,包括流数据的创建、删除、向流数据中写入数据以及消费流数据中的数据。
本发明实施例提供的流数据系统包括至少一个数据库节点,数据库节点包括计算模块1和存储模块2,与现有技术中计算流数据需要联合使用多套系统相比,本发明由计算模块1和存储模块2组成数据库节点,由若干个数据库节点组成的流数据系统,无需复杂配置,也无需消耗多种服务器资源,降低对流数据计算与存储的整体系统的部署,节省计算资源,降低对运维人员的技术要求,简化后期运维工作,同时,数据库节点仅包括计算模块1和存储模块2,计算模块1和存储模块2距离近,则计算模块1中的流计算任务靠近其相关的存储模块2中的写入数据,提升系统的整体吞吐和时延,达到快速对实时流数据进行计算的目的,从而实现实时流数据处理与快速反馈。计算模块1中包括多个子模块,其中,接入子模块11用于接收流数据客户端请求;结构化查询语言子模块12用于将流数据客户端请求编译为逻辑流数据图;流式处理子模块13用于为逻辑流数据图选择对应的算子,生成可执行的流数据图,流式处理子模块13中包含各种常见的流处理算子,因此可以处理各种常见的逻辑流数据图;运行时间子模块14用于执行流数据图的计算任务,对流数据进行计算,得到流数据客户端请求的执行结果,并向流数据客户端返回执行结果,通过这个几个子模块对流数据客户端请求处理后再对流数据进行计算,提升计算速度,只需要通过结构化查询语言就能完成上述所有的处理功能,无需任何第三方系统的协助。存储模块2中包括流数据API子模块21,用于为流数据发送控制指令,通过控制指令实现对流数据的存储、读写等操作。
在一可选实施例中,本发明实施例提供的流数据系统,流数据客户端请求为结构化查询语句,结构化查询语言子模块12包括:
结构化查询语言解析器和结构化查询语言优化器。
结构化查询语言解析器用于将结构化查询语句编译为对应的关系代数表达式。
结构化查询语言优化器用于对根据关系代数表达式生成的执行计划进行优化,并生成逻辑流数据图。
在一可选实施例中,结构化查询语言解析器完成对流数据客户端请求的结构化查询语句的词法分析、语法分析,从而将结构化查询语句编译为对应的关系代数表达式,结构化查询语言优化器根据各种规则对根据关系代数表达式生成的执行计划进行优化,提高执行计划的可执行性,并生成逻辑流数据图。
在一可选实施例中,本发明实施例提供的流数据系统,运行时间子模块14包括:
任务调度器、状态管理器以及执行优化器。
任务调度器用于为计算任务调度流数据系统中的可用计算资源,以通过可用计算资源执行计算任务。
状态管理器用于记录各流数据图的计算状态,根据计算状态确定流数据图的计算优先级。
执行优化器用于加速执行流数据图的计算任务。
在一可选实施例中,任务调度器用于为计算任务调度流数据系统中的可用计算资源,此调度包括在单个处理的多线程之间调度、在单机的多处理器之间调度以及在分布式集群的多个数据库节点之间调度,通过调度让计算结果更加准确和全面。
在一可选实施例中,状态管理器用于记录各流数据图的计算状态,根据计算状态决定流数据图的计算优先级,计算状态好的流数据图优先计算,提高计算速度。
在一可选实施例中,执行优化器通过自动化并行等手段加速执行流数据图的计算任务,自动化并行将多个线程安全的计算或调度任务分配给多个线程,充分利用主机时间,从而加速流数据计算分析的过程。
在一可选实施例中,本发明实施例提供的流数据系统,向流数据中写入数据,包括:
流数据API子模块21采用append方法将数据写入流数据。
在一可选实施例中,append方法可实现数据的快速写入。
在一可选实施例中,本发明实施例提供的流数据系统,存储模块2还包括:复制子模块22,用于通过共识引擎保证各数据库节点上的数据一致。
在一可选实施例中,复制子模块22基于共识引擎将新存储进来的数据复制到其他数据库节点中,以保证每个数据库节点中的数据一致,保证数据的容错和高可用性,当一个数据库出现故障时,切换到其他数据库节点上继续执行流数据客户端请求。
在一可选实施例中,如图3所示,本发明实施例提供的流数据系统为分布式流数据系统结构3,包含多个数据库节点,示例性地,包括数据库节点31、数据库节点32。各数据库节点之间相互独立,但是每个数据库节点中的数据保持一致,当一个数据库节点中的数据出错时,可以随时调用其他数据库节点中同位置的数据,同时,当一个数据库节点故障时,切换到其他数据库节点上继续执行流数据客户端请求,保证计算的准确性,提高流数据系统的容错性。
在一可选实施例中,数据库节点将流数据通过分片的方式将数据存储在各个分片中,每个分片又包含多个固定大小的存储区域,数据库在运行时会自动检测不同分片中存储区域的个数,确定存储区域数量最多的第一分片和存储区域数量最少的第二分片,当第一分片和第二分片中存储区域的数量差异大于阈值时,复制子模块22就会启动存储区域的迁移,将第一分片中的部分存储区域迁移至第二分片中,使得每个分片中的存储区域的数量差异小于阈值,实现均衡,同时,当新的分片加入进来时,复制子模块22启动存储区域的迁移,使得每个分片中的存储区域均衡,方便实现新分片的扩展。
在一可选实施例中,本发明实施例提供的流数据系统,存储模块2还包括:本地存储子模块23,用于存储流数据和执行结果。
在一可选实施例中,本地存储子模块23实现流数据和执行结果的本地持久化存储。
在一可选实施例中,本发明实施例采集的数据为结构化的数据,为充分利用流数据的时序性,本地存储子模块23对每个数据采集点(设备)单独建表,如果采用传统的方式,将多个设备的数据写入一张表,由于网络延时不可控,不同设备的数据到达服务器的时序是无法保证的,写入操作是要有锁保护的,而且一个设备的数据是难以保证连续存储在一起的。采用一个数据采集点一张表的方式,能最大程度的保证单个数据采集点的插入和查询的性能是最优的。能保证一个采集点的数据在存储介质上是以块为单位连续存储的。如果读取一个时间段的数据,能够大幅减少随机读取操作,提升读取和查询速度。由于不同采集设备产生数据的过程完全独立,每个设备的数据源是唯一的,一张表也就只有一个写入者,这样就可采用无锁方式来写,写入速度就能大幅提升。对于一个数据采集点而言,其产生的数据是时序的,因此写的操作可用追加的方式实现,进一步大幅提高数据写入速度。
在一可选实施例中,本地存储子模块23基于优化的RocksDB存储引擎封装了流数据的存取接口,封装的目的是将复杂的应用程序接口和参数调用打包,用户只需关注输入输出量。数据库存取接口的封装有利于提高代码的安全性和可维护性,简化外部调用,便于扩展和协作。
在一可选实施例中,本发明实施例提供的流数据系统,存储模块2还包括:二级存储子模块24,用于存储历史数据。
在一可选实施例中,历史数据为不常被使用到的数据,访问频率低于预设阈值的数据。本地存储子模块23中存储的数据被判定为历史数据时,会自动卸载,再自动转存到二级存储子模块24中,便于后续查看和操作。
在一可选实施例中,二级存储子模块24为多种长期存储系统提供了统一的接口封装,示例性地,接口可以为HDFS,AWS S3等,使得系统可以自动将数据存到多种二级存储系统上,而不必针对每种开发数据存储不同的接口,同时,也可以通过统一的Streaming Data接口来访问不同的数据。
本发明实施例还提供一种计算机设备,如图4是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。
如图4所示,该设备包括一个或多个处理器401以及存储器402,存储器402包括持久内存、易失内存和硬盘,图4中以一个处理器401为例。该设备还可以包括:输入装置403和输出装置404。
处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。
处理器401可以为中央处理器(Central Processing Unit,CPU)。处理器401还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器402作为一种非暂态计算机可读存储介质,包括持久内存、易失内存和硬盘,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的业务管理方法对应的程序指令模块。处理器401通过运行存储在存储器402中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述任意一种流数据系统。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据、需要使用的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置403可接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。
一个或者多个模块存储在存储器402中,当被一个或者多个处理器401执行时,执行如图1所示的方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见如图1所示的实施例中的相关描述。
本发明实施例还提供了一种计算机可读存储介质,如图5所示,计算机可读存储介质中存储有计算机可执行指令501,该计算机可执行指令501可执行上述任意方法实施例中的流数据系统。
存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种流数据系统,其特征在于,包括至少一个数据库节点,所述数据库节点包括:
计算模块和存储模块;
所述计算模块中包括接入子模块、结构化查询语言子模块、流式处理子模块以及运行时间子模块;所述存储模块包括流数据API子模块;
所述接入子模块用于接收流数据以及流数据客户端请求;
所述结构化查询语言子模块用于将所述流数据客户端请求编译为逻辑流数据图;
所述流式处理子模块用于为所述逻辑流数据图选择对应的算子,生成可执行的流数据图;
所述运行时间子模块用于执行所述流数据图的计算任务,对流数据进行计算,得到所述流数据客户端请求的执行结果,并向流数据客户端返回所述执行结果;
所述流数据API子模块用于为所述流数据发送控制指令。
2.根据权利要求1所述的流数据系统,其特征在于,所述流数据客户端请求为结构化查询语句,所述结构化查询语言子模块,包括:
结构化查询语言解析器和结构化查询语言优化器;
所述结构化查询语言解析器用于将所述结构化查询语句编译为对应的关系代数表达式;
所述结构化查询语言优化器用于对根据所述关系代数表达式生成的执行计划进行优化,并生成所述逻辑流数据图。
3.根据权利要求1所述的流数据系统,其特征在于,所述运行时间子模块包括:
任务调度器、状态管理器以及执行优化器;
所述任务调度器用于为所述计算任务调度所述流数据系统中的可用计算资源,以通过所述可用计算资源执行所述计算任务;
所述状态管理器用于记录各所述流数据图的计算状态,根据所述计算状态确定所述流数据图的计算优先级;
所述执行优化器用于加速执行所述流数据图的计算任务。
4.根据权利要求1所述的流数据系统,其特征在于,所述向所述流数据中写入数据,包括:
所述流数据API子模块采用append方法将数据写入所述流数据。
5.根据权利要求1所述的流数据系统,其特征在于,所述存储模块还包括:
复制子模块,用于通过共识引擎保证各数据库节点上的数据一致。
6.根据权利要求1所述的流数据系统,其特征在于,所述存储模块还包括:
本地存储子模块,用于存储所述流数据和所述执行结果。
7.根据权利要求1所述的流数据系统,其特征在于,所述存储模块还包括:
二级存储子模块,用于存储历史数据。
8.根据权利要求1所述的流数据系统,其特征在于,包括:
各所述数据库节点之间相互独立,各数据库节点中的数据保持一致,当其中一个数据库节点故障,切换到其他数据库节点上继续执行所述流数据客户端请求。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,从而执行如权利要求1-8中任一项所述的流数据系统。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-7中任一项所述的流数据系统。
CN202310778399.5A 2023-06-29 2023-06-29 一种流数据系统、计算机设备及介质 Pending CN116501805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310778399.5A CN116501805A (zh) 2023-06-29 2023-06-29 一种流数据系统、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310778399.5A CN116501805A (zh) 2023-06-29 2023-06-29 一种流数据系统、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN116501805A true CN116501805A (zh) 2023-07-28

Family

ID=87328868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310778399.5A Pending CN116501805A (zh) 2023-06-29 2023-06-29 一种流数据系统、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN116501805A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737349A (zh) * 2023-08-16 2023-09-12 中国移动紫金(江苏)创新研究院有限公司 流式数据处理方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678790A (zh) * 2016-07-29 2018-02-09 华为技术有限公司 流计算方法、装置及系统
CN111352961A (zh) * 2020-03-16 2020-06-30 华南师范大学 分布式rdf流数据处理方法、系统、装置及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678790A (zh) * 2016-07-29 2018-02-09 华为技术有限公司 流计算方法、装置及系统
CN111352961A (zh) * 2020-03-16 2020-06-30 华南师范大学 分布式rdf流数据处理方法、系统、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737349A (zh) * 2023-08-16 2023-09-12 中国移动紫金(江苏)创新研究院有限公司 流式数据处理方法、系统及存储介质
CN116737349B (zh) * 2023-08-16 2023-11-03 中国移动紫金(江苏)创新研究院有限公司 流式数据处理方法、系统及存储介质

Similar Documents

Publication Publication Date Title
US11210298B2 (en) Reducing flow delays in a data streaming application caused by lookup operations
US11481253B2 (en) Managing the processing of streamed data in a data streaming application using query information from a relational database
CN106776855B (zh) 基于Spark Streaming读取Kafka数据的处理方法
JP6117378B2 (ja) 分散型データベースクエリ・エンジン用のシステムおよび方法
CN108681569B (zh) 一种数据自动分析系统及其方法
US10255347B2 (en) Smart tuple dynamic grouping of tuples
US20130290554A1 (en) Open station as a stream analysis operator container
US10599648B2 (en) Optimized storage solution for real-time queries and data modeling
US10885050B2 (en) Altering in-flight streamed data from a relational database
CN107016039B (zh) 数据库写入的方法和数据库系统
CN112650599A (zh) 一种日志处理方法、设备及存储介质
CN116501805A (zh) 一种流数据系统、计算机设备及介质
CN115335821B (zh) 卸载统计收集
CN112395333B (zh) 用于排查数据异常的方法、装置、电子设备及存储介质
US10558670B2 (en) Smart tuple condition-based operation performance
CN111782672A (zh) 多领域数据管理方法及相关装置
US10296620B2 (en) Smart tuple stream alteration
CN112989171A (zh) 数据查询方法、装置、设备及介质
CN113360581A (zh) 数据处理方法、装置及存储介质
CN112631754A (zh) 数据处理方法、装置、存储介质及电子装置
US11558473B2 (en) Aspect aware streams computing
CN113157475A (zh) 日志处理方法、装置、存储介质及电子设备
Sarr et al. Data stream summary in big data context: challenges and opportunities
Li et al. Optimization and application of web crawler architecture
US20230259446A1 (en) PERFORMANCE TEST ENVIRONMENT FOR APIs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination