CN110209668A - 基于流计算的维表关联方法、装置、设备及可读存储介质 - Google Patents

基于流计算的维表关联方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110209668A
CN110209668A CN201910357425.0A CN201910357425A CN110209668A CN 110209668 A CN110209668 A CN 110209668A CN 201910357425 A CN201910357425 A CN 201910357425A CN 110209668 A CN110209668 A CN 110209668A
Authority
CN
China
Prior art keywords
dimension table
data
syntax tree
stream
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910357425.0A
Other languages
English (en)
Other versions
CN110209668B (zh
Inventor
陈丰
齐权
孙迁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen yunwangwandian Technology Co.,Ltd.
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN201910357425.0A priority Critical patent/CN110209668B/zh
Publication of CN110209668A publication Critical patent/CN110209668A/zh
Application granted granted Critical
Publication of CN110209668B publication Critical patent/CN110209668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于流计算的维表关联方法、装置、设备及计算机可读存储介质,属于大数据技术领域。所述方法包括:根据业务表的流数据、维表数据源及维表关联逻辑进行语法解析,生成优化的语法树;将所述语法树转换为可执行的分布式流处理代码;根据所述分布式流处理代码逻辑执行维表关联操作。本发明提供的基于流计算的维表关联方案兼具高效性、良好性能、操作便捷性和实用性,可应用涉及维表关联的多种大数据应用场景。

Description

基于流计算的维表关联方法、装置、设备及可读存储介质
技术领域
本发明涉及大数据技术领域,特别涉及一种基于流计算的维表关联方法、装置、设备及可读存储介质。
背景技术
流计算可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点,流计算作为一类针对流数据的实时计算模型,可有效地缩短全链路数据流时延、实时化计算逻辑、平摊计算成本,最终有效满足实时处理大数据的业务需求。流处理作为一种重要的大数据处理手段,其主要特点是其处理的数据是源源不断且实时到来的。分布式流处理是一种面向动态数据的细粒度处理模式,基于分布式内存,对不断产生的动态数据进行处理。其对数据处理的快速,高效,低延迟等特性,在大数据处理中发挥越来越重要的作用。
维表可以理解成业务表的辅助数据表,数据处理过程中常常需要业务数据关联维表,例如查看某个门店的库存就需要商品表关联门店表,在这个例子里,商品表就是业务表,门店表就是维表,同时维表数据具备会随时间缓慢变化的特性,如数据仓库数据每天更新一次,更新开张新的门店信息。
目前常规使用流计算处理业务表关联维表的做法是:编写代码,在流计算业务处理的逻辑代码中嵌入关联外部维表数据库的逻辑,每条数据处理时对外部数据库进行实时查询,再拼接业务表和维表数据并输出结果,这种做法需要大量代码开发,且关联维表性能和时效性不高,而实时维表关联在实时领域是一个通用的需求。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于流计算的维表关联方法、装置、设备及可读存储介质,解决了传统关联维表方式,代码开发繁琐,性能差的技术问题,提供了一种简单统一的解决方案,极大的减少了代码开发量,此外,还提高了关联维表的性能,将关联性能提升到毫秒级。
所述技术方案如下:
第一方面,提供了一种基于流计算的维表关联方法,其所述方法包括:根据业务表的流数据、维表数据源及维表关联逻辑进行语法解析,生成优化的语法树;将所述语法树转换为可执行的分布式流处理代码;根据所述分布式流处理代码逻辑执行维表关联操作。
进一步地,根据业务表的流数据、维表数据源及维表关联逻辑进行语法解析,生成优化的语法树,包括:根据业务表的流数据、维表数据源及维表关联逻辑通过预设优化规则进行SQL解析,转移、合并、变换SQL语法树上维表关联的逻辑节点,生成优化的SQL语法树。
进一步地,将所述语法树转化为可执行的分布式流处理代码,包括:将所述语法树的SQL语句翻译成可执行的分布式流处理代码。
进一步地,根据所述分布式流处理代码逻辑执行维表关联操作,包括:引入所述业务表的流数据,同时加载所述维表数据源的维表数据,根据所述分布式流处理代码逻辑执行维表关联操作。
进一步地,根据所述分布式流处理代码逻辑执行维表关联操作,包括:根据关联语句,将所述业务表的流数据的每条数据与所述维表数据进行关联,如果命中则进行计算输出,如果未命中,则异步去所述维表数据源继续加载数据。
进一步地,通过DB连接池从数据库拉取数据,再利用LRU式、ALL模式或NONE模式实现维表数据源的数据缓存,并将cache分区。
第二方面,提供了一种基于流计算的维表关联装置,包括:语法解析模块,用于根据业务表的流数据、维表数据源及维表关联逻辑进行语法解析,生成优化的语法树;语法树转换模块,用于将所述语法树转换为可执行的分布式流处理代码;维表关联操作模块,用于根据所述分布式流处理代码逻辑执行维表关联操作。
进一步地,所述语法解析模块用于:根据业务表的流数据、维表数据源及维表关联逻辑通过预设优化规则进行SQL解析,转移、合并、变换SQL语法树上维表关联的逻辑节点,生成优化的SQL语法树。
进一步地,所述语法树转换模块用于:将所述语法树的SQL语句翻译成可执行的分布式流处理代码。
进一步地,所述维表关联操作模块用于:引入所述业务表的流数据,同时加载所述维表数据源的维表数据,根据所述分布式流处理代码逻辑执行维表关联操作。
进一步地,所述表关联操作模块用于:根据关联语句,将所述业务表的流数据的每条数据与所述维表数据进行关联,如果命中则进行计算输出,如果未命中,则异步去所述维表数据源继续加载数据。
进一步地,通过DB连接池从数据库拉取数据,再利用LRU式、ALL模式或NONE模式实现维表数据源的数据缓存,并将cache分区。
第三方面,提供了一种基于流计算的维表关联设备,包括:处理器;存储器,用于存储有所述处理器的可执行指令;其中,所述处理器配置为经由所述可执行指令来执行上述方案任一项所述的基于流计算的维表关联方法的步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方案任一项所述的基于流计算的维表关联方法的步骤。
本发明实施例提供的技术方案带来的有益效果是:
1、通过将大数据分布式计算与传统数据库语言相结合,只需要将业务关联逻辑翻译成数据库语言,按用户预定的逻辑来进行关联计算,无需用户编写代码,开发人员使用方便,开发周期短;
2、提供容错和自动恢复的能力,集群重启或者加载失败都能保证计算结果不丢不重,用户无需自己编写任何容错的逻辑;
3、同时支持异步非阻塞拉取数据、多模式高速缓存、缓存分区以及高可用,使得性能得到提升;
4、可支持多种数据源,如SQL关联可支持hbase,mysql,redis(存储维表的数据库)。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的基于流计算的维表关联方法流程图;
图2是本发明实施例1提供的基于流计算的维表关联方法流程图;
图3是本发明实施例提供的一优选实施方式下基于流计算的维表关联方法中语法解析过程示意图;
图4是本发明实施例提供的一优选实施方式下基于流计算的维表关联方法整体处理流程示意图;
图5是本发明实施例提供的一优选实施方式下的基于流计算的维表关联方法中Cache加载过程示意图;
图6是本发明实施例2提供的基于流计算的维表关联装置结构示意图;
图7是本发明实施例3提供的基于流计算的维表关联设备结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的一种基于流计算的维表关联方法、装置、设备及可读存储介质,通过将大数据分布式计算与传统数据库语言相结合,只需要将业务关联逻辑翻译成数据库语言,按用户预定的逻辑来进行关联计算,无需用户编写代码,开发人员使用方便,开发周期短,并能提供容错和自动恢复的能力,集群重启或者加载失败都能保证计算结果不丢不重,用户无需自己编写任何容错的逻辑;还在通用关联维表的基础上,加入了维表加载的优化策略,同时支持异步非阻塞拉取数据、多模式高速缓存、缓存分区以及高可用,使得性能得到提升,并且这种关联计算方式可支持多种数据源,因此兼具高效性、良好性能、操作便捷性和实用性,可应用涉及维表关联的多种大数据应用场景。
下面结合具体实施例,对本发明实施例提供的基于流计算的维表关联方法、装置、设备及可读存储介质作详细说明。
实施例1
图1是本发明实施例1提供的基于流计算的维表关联方法流程图。图2是本发明实施例1提供的基于流计算的维表关联方法流程图。
如图1所示,本发明实施例提供的基于流计算的维表关联方法,包括以下步骤:
101、根据业务表的流数据、维表数据源及维表关联逻辑进行语法解析,生成优化的语法树。
首先可以先创建维表数据源,设置缓存模式和相应参数。通过DB连接池从数据库拉取数据,再利用LRU式、ALL模式或NONE模式实现维表数据源的数据缓存,并可将cache分区。也就是说,支持3种模式LRU、ALL、NONE。 LRU cache可以设置缓存过期条数、过期时间,自动丢弃最不常用的数据,适用无法缓存全部数据的场景。ALL cache保存整体维表数据,可设置定点(如每天 12:00)或定期(每12小时)过期时限。NONE则是每条数据都会从数据库查询最新的。将cache分区,每个计算节点上的缓存只保留维表中一定区域内的数据,同时流数据也依据相同分区策略将流数据分区,相同的数据流入到分布式计算同一个计算节点。
低延时是大数据流数据处理的主要性能标杆之一,因此在实现关联的过程中,上述数据设置方式能够帮助流处理任务提高执行效率。具体体现在:通过支持数据库维表在本地缓存副本,不需要每条数据都去访问数据库,优化了读取效率;异步非阻塞拉取数据,会在上条数据返回结果前查询下一条数据,不会等待,减少处理延迟;将cache分区,减少缓存的大小;提供高可用设计,当任务出现异常退出时,系统能够感知到任务退出,并自动拉起任务继续处理。
可选的,如图2所示,101步骤按如下子步骤实施:
101a、根据业务表的流数据、维表数据源及维表关联逻辑通过预设优化规则进行SQL解析,将用户SQL解析为一棵完整SQL语法树,再将自己实现的预设优化规则应用到SQL语法树上,转移、合并、变换SQL语法树上维表关联的逻辑节点,生成优化的SQL语法树。
可选的,这里的预设优化规则可以按如下方式进行:
如当语法树种存在这样的一种模式,join节点的一个子节点为维表节点而另外一个子节点是流节点,会认为规则命中并使用我们定义的预设语法优化规则 (预设优化规则)将join节点和维表节点合并成为一个新的维表join节点。当进行代码物化时会将其转换成相对应的包含维表数据源连接的计算节点。此外,为减少查询维表数据库查询条数和维表个数,如果join的一支为包含维表行列的过滤条件节点且叶节点为维表,过滤条件也会被下推到维表中,在物化过程中生成带过滤条件的维表查询,从而减少查询的数据量,提高效率。
将大数据分布式计算与传统数据库SQL语言相结合,既遵从了传统数据库语义和语法,又将大数据分布式计算的复杂度对用户透明化,用户只需要将业务关联逻辑翻译成数据库语言,不必关心大数据分布式技术组件代码的编写,极大的减少了代码开发工作。并且,数据库维表数据源以及关联逻辑翻译都通过用户定制的语法优化规则或匹配规则应用到标准SQL语法树上,在语法树内部将树的节点进行转化、合并等操作,遵从SQL解析规则,不会打乱或拆分语法树结构,实现性能优化和高效率。
值得注意的是,步骤101和子步骤101a的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
102、将语法树转换为可执行的分布式流处理代码。
可选的,如图2所示,102步骤按如下子步骤实施:
102a、将语法树的SQL语句翻译成可执行的分布式流处理代码。
值得注意的是,步骤102和子步骤102a的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
103、根据分布式流处理代码逻辑执行维表关联操作。
可选的,如图2所示,102步骤按如下子步骤实施:
103a、引入业务表的流数据,同时加载维表数据源的维表数据,根据分布式流处理代码逻辑执行维表关联操作。
可选的,上述103a可按照如下方式进行:
根据关联语句,将业务表的流数据的每条数据与维表数据进行关联,如果命中则进行计算输出,如果未命中,则异步去维表数据源继续加载数据。
值得注意的是,步骤103和子步骤103a的过程,除了上述步骤所述的方式之外,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
图3是本发明实施例提供的一优选实施方式下基于流计算的维表关联方法中语法解析过程示意图。图4是本发明实施例提供的一优选实施方式下基于流计算的维表关联方法整体处理流程示意图。图5是本发明实施例提供的一优选实施方式下的基于流计算的维表关联方法中Cache加载过程示意图。
如3至图5所示,本发明实施例提供的一优选实施方式下基于流计算的维表关联方法,包括以下步骤:
1、用户创建一个数据源为jdbc(Java DataBase Connectivity,java数据库连接)是一种用于执行SQL语句的Java API的维表,并指定缓存类型为all,缓存失效周期为12小时,指定cache分区。用户提交一下维表创建语句和关联语句给流计算系统。
CREATE TABLE(name VARCHAR PRIMARY KEY,id INT)
with(
type="jdbc"
cacheType="ALL"
cacheTTLHour="12"
partitionedJoin=true
)
关联语句:
SELECT*
FROM Orders AS o
[LEFT]JOIN[SELECT productId,PRICE FROM Products]AS p
ON o.productId=p.productId
2、流计算引擎将根据Create with()获取连接信息及维表存储类型,用于创建维表数据源;
3、流计算引擎的SQL解析器会根据SQL语法将sql进行解析,并通过预设优化规则和物化规则将SQL语句翻译成可执行的流处理代码,并将数据源引入;
4、程序向集群提交生成的流处理代码逻辑;
5、当每个处理节点接受到任务时,初始化cache快速缓冲贮存区,本例中该语句为ALL cache缓存模式,第一次全量加载cache数据;
6、当数据源源不断流入operator后,每条数据将会根据关联语句和operatorALL cache中数据进行关联,如命中直接进行计算输出。
上述步骤6中,如果换作LRU模式,当数据源源不断流入operator后,每条数据将会根据关联语句和operator LRU cache操作符LRU缓存中数据进行关联,如果未命中,则异步去维表库加载数据,如果命中,则进行计算输出。同时LRU cache会根据创建维表的SQL中配置的时间和大小剔除没有被使用的时间最长的维表记录。
实施例2
图6是本发明实施例2提供的基于流计算的维表关联装置结构示意图。如图6所示,本发明实施例提供的基于流计算的维表关联装置包括:
语法解析模块21,用于根据业务表的流数据、维表数据源及维表关联逻辑进行语法解析,生成优化的语法树;
语法树转换模块22,用于将语法树转换为可执行的分布式流处理代码;
维表关联操作模块23,用于根据分布式流处理代码逻辑执行维表关联操作。
可选的,语法解析模块21具体用于:
根据业务表的流数据、维表数据源及维表关联逻辑通过预设优化规则进行 SQL解析,转移、合并、变换SQL语法树上维表关联的逻辑节点,生成优化的 SQL语法树。
可选的,语法树转换模块22具体用于:
将语法树的SQL语句翻译成可执行的分布式流处理代码。
可选的,维表关联操作模块23具体用于:
引入业务表的流数据,同时加载维表数据源的维表数据,根据分布式流处理代码逻辑执行维表关联操作。
可选的,维表关联操作模块23用于:
根据关联语句,将业务表的流数据的每条数据与维表数据进行关联,如果命中则进行计算输出,如果未命中,则异步去维表数据源继续加载数据。
可选的,在本发明实施例提供的基于流计算的维表关联装置中,通过DB 连接池从数据库拉取数据,再利用LRU式、ALL模式或NONE模式实现维表数据源的数据缓存,并可将cache分区。
实施例3
图7是本发明实施例3提供的基于流计算的维表关联设备结构示意图。如图7所示,本发明实施例提供的基于流计算的维表关联设备包括:
处理器31;
存储器32,用于存储有处理器31的可执行指令;
其中,处理器31配置为经由可执行指令来执行实施例1任一方案所述的基于流计算的维表关联方法的步骤。
实施例4
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如实施例1任一方案所述的基于流计算的维表关联方法的步骤。
需要说明的是:上述实施例提供的基于流计算的维表关联装置、设备及计算机可读存储介质在触发维表关联业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置、设备及计算机可读存储介质的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于流计算的维表关联装置、设备及计算机可读存储介质与基于流计算的维表关联方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
综上所述,本发明实施例提供的基于流计算的维表关联方法、装置、设备及可读存储介质,相比现有技术,具有以下有益效果:
1、通过将大数据分布式计算与传统数据库语言相结合,只需要将业务关联逻辑翻译成数据库语言,按用户预定的逻辑来进行关联计算,无需用户编写代码,开发人员使用方便,开发周期短;
2、提供容错和自动恢复的能力,集群重启或者加载失败都能保证计算结果不丢不重,用户无需自己编写任何容错的逻辑;
3、同时支持异步非阻塞拉取数据、多模式高速缓存、缓存分区以及高可用,使得性能得到提升;
4、可支持多种数据源,如SQL关联可支持hbase,mysql,redis(存储维表的数据库)。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (14)

1.一种基于流计算的维表关联方法,其特征在于,所述方法包括:
根据业务表的流数据、维表数据源及维表关联逻辑进行语法解析,生成优化的语法树;
将所述语法树转换为可执行的分布式流处理代码;
根据所述分布式流处理代码逻辑执行维表关联操作。
2.根据权利要求1所述的方法,其特征在于,根据业务表的流数据、维表数据源及维表关联逻辑进行语法解析,生成优化的语法树,包括:
根据业务表的流数据、维表数据源及维表关联逻辑通过预设优化规则进行SQL解析,转移、合并、变换SQL语法树上维表关联的逻辑节点,生成优化的SQL语法树。
3.根据权利要求1所述的方法,其特征在于,将所述语法树转化为可执行的分布式流处理代码,包括:
将所述语法树的SQL语句翻译成可执行的分布式流处理代码。
4.根据权利要求1所述的方法,其特征在于,根据所述分布式流处理代码逻辑执行维表关联操作,包括:
引入所述业务表的流数据,同时加载所述维表数据源的维表数据,根据所述分布式流处理代码逻辑执行维表关联操作。
5.根据权利要求4所述的方法,其特征在于,根据所述分布式流处理代码逻辑执行维表关联操作,包括:
根据关联语句,将所述业务表的流数据的每条数据与所述维表数据进行关联,如果命中则进行计算输出,如果未命中,则异步去所述维表数据源继续加载数据。
6.根据权利要求1至5任一项所述的方法,其特征在于,通过DB连接池从数据库拉取数据,再利用LRU式、ALL模式或NONE模式实现维表数据源的数据缓存,并将cache分区。
7.一种基于流计算的维表关联装置,其特征在于,包括:
语法解析模块,用于根据业务表的流数据、维表数据源及维表关联逻辑进行语法解析,生成优化的语法树;
语法树转换模块,用于将所述语法树转换为可执行的分布式流处理代码;
维表关联操作模块,用于根据所述分布式流处理代码逻辑执行维表关联操作。
8.根据权利要求7所述的装置,其特征在于,所述语法解析模块用于:
根据业务表的流数据、维表数据源及维表关联逻辑通过预设优化规则进行SQL解析,转移、合并、变换SQL语法树上维表关联的逻辑节点,生成优化的SQL语法树。
9.根据权利要求7所述的装置,其特征在于,所述语法树转换模块用于:
将所述语法树的SQL语句翻译成可执行的分布式流处理代码。
10.根据权利要求7所述的装置,其特征在于,所述维表关联操作模块用于:
引入所述业务表的流数据,同时加载所述维表数据源的维表数据,根据所述分布式流处理代码逻辑执行维表关联操作。
11.根据权利要求10所述的装置,其特征在于,所述表关联操作模块用于:
根据关联语句,将所述业务表的流数据的每条数据与所述维表数据进行关联,如果命中则进行计算输出,如果未命中,则异步去所述维表数据源继续加载数据。
12.根据权利要求7至11任一项所述的装置,其特征在于,通过DB连接池从数据库拉取数据,再利用LRU式、ALL模式或NONE模式实现维表数据源的数据缓存,并将cache分区。
13.一种基于流计算的维表关联设备,其特征在于,包括:
处理器;
存储器,用于存储有所述处理器的可执行指令;
其中,所述处理器配置为经由所述可执行指令来执行权利要求1至6中任一项所述的基于流计算的维表关联方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于流计算的维表关联方法的步骤。
CN201910357425.0A 2019-04-29 2019-04-29 基于流计算的维表关联方法、装置、设备及可读存储介质 Active CN110209668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910357425.0A CN110209668B (zh) 2019-04-29 2019-04-29 基于流计算的维表关联方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910357425.0A CN110209668B (zh) 2019-04-29 2019-04-29 基于流计算的维表关联方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110209668A true CN110209668A (zh) 2019-09-06
CN110209668B CN110209668B (zh) 2021-07-27

Family

ID=67786713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910357425.0A Active CN110209668B (zh) 2019-04-29 2019-04-29 基于流计算的维表关联方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110209668B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704474A (zh) * 2019-09-24 2020-01-17 杭州玳数科技有限公司 一种基于Flink的实时SQL扩展处理方法及装置
CN112214517A (zh) * 2020-11-04 2021-01-12 微医云(杭州)控股有限公司 流数据处理方法及装置、电子设备、存储介质
CN112256523A (zh) * 2020-09-23 2021-01-22 贝壳技术有限公司 业务数据处理方法及装置
CN112380205A (zh) * 2020-11-17 2021-02-19 北京融七牛信息技术有限公司 一种分布式架构的特征自动生成方法和系统
CN112765166A (zh) * 2021-01-06 2021-05-07 深圳市欢太科技有限公司 数据处理方法、装置及计算机可读存储介质
CN114546274A (zh) * 2022-02-22 2022-05-27 云智慧(北京)科技有限公司 一种基于缓存的大数据处理维表存算系统及其方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521416A (zh) * 2011-12-28 2012-06-27 用友软件股份有限公司 数据关联查询方法和数据关联查询装置
CN106331636A (zh) * 2016-08-31 2017-01-11 东北大学 基于行为事件触发的输油管道智能视频监控系统及方法
CN106332052A (zh) * 2016-08-30 2017-01-11 上海新炬网络技术有限公司 基于移动通信终端的微区域治安预警方法
US9762494B1 (en) * 2013-11-25 2017-09-12 Versa Networks, Inc. Flow distribution table for packet flow load balancing
CN107688580A (zh) * 2016-08-05 2018-02-13 北京京东尚科信息技术有限公司 基于分布式数据仓库的商品分级的方法、装置及系统
CN108171971A (zh) * 2017-12-18 2018-06-15 武汉烽火众智数字技术有限责任公司 基于Spark Streaming的车辆实时监控方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521416A (zh) * 2011-12-28 2012-06-27 用友软件股份有限公司 数据关联查询方法和数据关联查询装置
US9762494B1 (en) * 2013-11-25 2017-09-12 Versa Networks, Inc. Flow distribution table for packet flow load balancing
CN107688580A (zh) * 2016-08-05 2018-02-13 北京京东尚科信息技术有限公司 基于分布式数据仓库的商品分级的方法、装置及系统
CN106332052A (zh) * 2016-08-30 2017-01-11 上海新炬网络技术有限公司 基于移动通信终端的微区域治安预警方法
CN106331636A (zh) * 2016-08-31 2017-01-11 东北大学 基于行为事件触发的输油管道智能视频监控系统及方法
CN108171971A (zh) * 2017-12-18 2018-06-15 武汉烽火众智数字技术有限责任公司 基于Spark Streaming的车辆实时监控方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JULIO A. D. MASSIGNAN ET.L: "Load Flow Calculation with Voltage Regulators Bidirectional Mode and Distributed Generation", 《 IEEE TRANSACTIONS ON POWER SYSTEMS》 *
宋爱波 等: "海量多维数据的存储与查询研究", 《计算机工程与应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704474A (zh) * 2019-09-24 2020-01-17 杭州玳数科技有限公司 一种基于Flink的实时SQL扩展处理方法及装置
CN112256523A (zh) * 2020-09-23 2021-01-22 贝壳技术有限公司 业务数据处理方法及装置
CN112256523B (zh) * 2020-09-23 2023-01-06 贝壳技术有限公司 业务数据处理方法及装置
CN112214517A (zh) * 2020-11-04 2021-01-12 微医云(杭州)控股有限公司 流数据处理方法及装置、电子设备、存储介质
CN112380205A (zh) * 2020-11-17 2021-02-19 北京融七牛信息技术有限公司 一种分布式架构的特征自动生成方法和系统
CN112380205B (zh) * 2020-11-17 2024-04-02 北京融七牛信息技术有限公司 一种分布式架构的特征自动生成方法和系统
CN112765166A (zh) * 2021-01-06 2021-05-07 深圳市欢太科技有限公司 数据处理方法、装置及计算机可读存储介质
CN114546274A (zh) * 2022-02-22 2022-05-27 云智慧(北京)科技有限公司 一种基于缓存的大数据处理维表存算系统及其方法
CN114546274B (zh) * 2022-02-22 2023-10-27 云智慧(北京)科技有限公司 一种基于缓存的大数据处理维表存算系统及其方法

Also Published As

Publication number Publication date
CN110209668B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN110209668A (zh) 基于流计算的维表关联方法、装置、设备及可读存储介质
CN101479697B (zh) 用于数据存储和检索的系统和方法
US7313575B2 (en) Data services handler
CN109614413B (zh) 一种内存流式计算平台系统
US11615076B2 (en) Monolith database to distributed database transformation
CN102841889A (zh) 一种基于orm架构的高效数据库访问的实现方法及装置
CN105426419B (zh) 异构系统间数据升迁系统和方法
CN102262674A (zh) 一种分布式内存数据库的数据同步方法及系统
CN109840254A (zh) 一种数据虚拟化及查询方法、装置
Vajk et al. Automatic NoSQL schema development: A case study
CN109241104A (zh) 决策型分布式数据库系统中aisql的解析器及其实现方法
WO2013153027A1 (en) Method and system for streaming processing in a map and reduce distributed computing platform
CN105138676A (zh) 基于高级语言并发聚合计算的分库分表merge查询方法
CN101425091A (zh) 一种数据库访问路径效率分析处理方法、服务器及系统
EP2343658A1 (en) Federation as a process
CN105550351B (zh) 旅客行程数据即席查询系统及方法
CN115952203B (zh) 数据查询方法、设备、系统及存储介质
US12093289B2 (en) Relationship-based display of computer-implemented documents
WO2023225093A1 (en) System for and a method of graph model generation
Sinthong et al. AFrame: Extending DataFrames for large-scale modern data analysis (Extended Version)
Changcheng et al. Research on university scientific research patent management information system based on BS mode
US20230035551A1 (en) Multiple source audit log generation
Gerritsen Tools for the automation of database design
Li Introduction to Big Data
Paradies et al. Entity matching for semistructured data in the Cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210618

Address after: 518002 unit 3510-130, Luohu business center, 2028 Shennan East Road, Chengdong community, Dongmen street, Luohu District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen yunwangwandian Technology Co.,Ltd.

Address before: No.1-1 Suning Avenue, Xuzhuang Software Park, Xuanwu District, Nanjing, Jiangsu Province, 210000

Applicant before: Suning Cloud Computing Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant