CN114756630A - 一种基于Flink状态的实时数仓建设方法 - Google Patents
一种基于Flink状态的实时数仓建设方法 Download PDFInfo
- Publication number
- CN114756630A CN114756630A CN202210405120.4A CN202210405120A CN114756630A CN 114756630 A CN114756630 A CN 114756630A CN 202210405120 A CN202210405120 A CN 202210405120A CN 114756630 A CN114756630 A CN 114756630A
- Authority
- CN
- China
- Prior art keywords
- flink
- data
- state
- kudu
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/80—Database-specific techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/805—Real-time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/865—Monitoring of software
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Flink状态的实时数仓建设方法,其特征在于,包括:步骤1:创建并初始化Flink状态,获取Kudu中各表的表名、字段和类型;步骤2:对Flink中的实时用户行为日志进行解析,将解析结果保存为json格式数据;步骤3:对于json格式数据,判断事件属性是否包含在当前的Flink状态中;步骤4:对解析后的数据做预处理,保存为json格式数据,并写入消息订阅系统;步骤5:订阅数据,将json格式数据完全展开,并将展开结果写入Kudu中。达到实时解析成结构化数据的效果,分发topic,落盘Kudu,实时增加日志中新的埋点字段,以供业务实时查看新增埋点数据情况,提高业务效率,发挥出数仓更大的价值。
Description
技术领域
本发明涉及计算机技术的数据仓库领域,特别是涉及一种基于Flink状态的实时数仓建设方法。
背景技术
近些年,Kudu在大数据平台的应用越来越广泛。在阿里、小米、网易等公司的大数据架构中,Kudu都有着不可替代的地位,是一个既支持随机读写、又支持OLAP分析的大数据存储引擎,对实时数仓十分友好。
时效性、稳定性、准确性是数据必不可少的要素,Flink因其在实时数仓中优异的性能受到各大公司的喜爱。但目前大多数Flink+Kudu结构的实时数仓只能做到实时解析日志,形成结构化数据,针对各公司埋点业务,若想要实时查看新增埋点数据情况,只能提前增加实时数仓中新埋点的字段及类型,然后库表中该字段才会有数值,这期间会耽误部分时间,如果需要立即查看到新增埋点的数据情况,就需要在一般实时数仓的基础上,做出更有建设性的改进。
专利CN202010898539-基于Flink流式处理的用户行为统计分析方法,提出了Flink+Kafka+SDK埋点的概念,但该专利重点介绍一般的基于Flink的流式计算,并未涉及到底层的实时数仓建设,如实时数据最终的存储方式、数仓中对IP、UserAgent等通用指标的解析,技术人员难以通过本领域的通识直接进行应用。
专利CN201911411864-信贷风控特征变量管理的方法及系统,提出了Flink+Kudu数仓的概念,涉及Jason解析数据,但该专利中是提前将源数据schema信息进行上传至元数据管理系统后再对元数据进行解析,该方法只能解析提前定义好的源数据,每次新增新的源数据信息如新增埋点字段,就需要频繁的更新管理系统文档,业务方与开发人员需要频繁联动,效率低下。
专利CN202011079858-一种基于Kafka的埋点数据实时采集计算和存储的方法,提出了以Key-Value形式解析的SDK埋点采集系统在Kafka结合Flink中的应用,以解决实时埋点需求,但该专利使用的存储数据库是Hbase,一方面Hbase拥有良好的查询性能,但架构设计复杂,且使用HDFS作为分布式存储,因此存储数据,尤其是大量数据时,存储性能较差,另一方面,该专利在对实时数据入数仓时并未对埋点字段数值的类型进行判断,后续任务在使用数据时,无法第一时间得到准确的数值类型。
综合上述现有技术来看,现有Flink+Kudu实时数仓技术尚不能实时根据埋点内容增加字段(字段名和字段类型),或者动态增加字段的效率过低。因此,需要一种更高效适用的基于Flink状态的实时数仓建设方法。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于Flink状态动态增加Kudu字段的实时数仓建设方法,在一般Flink实时数仓的基础上,利用Flink状态,针对用户行为日志,不仅能够做到实时解析成结构化数据,分发topic供业务订阅,落盘Kudu,并且能够实时增加日志中新的埋点字段,供业务实时查看新增埋点数据情况,从而提高业务效率,发挥出更大的价值。
为解决上述技术问题,本发明提供一种基于Flink状态动态增加Kudu字段的实时数仓建设方法,其特征在于,包括以下步骤:
步骤1:从消息订阅系统中订阅数据作为Flink任务中的Source,创建Flink状态,所述Flink状态的存储内容包括Kudu中各表的表名、字段和类型,任务开始时,初始化Flink状态,获取Kudu中各表的表名、字段和类型;
步骤2:对Flink中的实时用户行为日志进行解析,将解析结果以埋点事件、事件属性和属性的值的形式保存为json格式数据,所述事件属性记为Key,所述属性的值记为Value;
步骤3:对于步骤2中的json格式数据,判断事件属性是否包含在当前的Flink状态中;如果是,则解析结果进入步骤4;如果不是,则对该事件属性对应的属性的值进行判定,将该埋点事件的字段及其类型添加至Kudu,并旁路输出至Kudu的一个新增字段中作为记录,更新Flink状态,解析结果进入步骤4;
步骤4:对解析结果做预处理,所述预处理包括IP解析、UserAgent解析,将预处理后的数据以埋点事件、事件属性和属性的值的形式保存为json格式数据,并写入消息订阅系统;
步骤5:订阅步骤4中消息订阅系统的数据,将json格式数据完全展开,去除字段值为null的数据,并将展开结果写入Kudu中。
所述步骤1中,所述消息订阅系统为kafka实时数据源,所述Flink状态的数据结构为new MapStateDescriptor[String,mutable.Map[String,Type]];初始化Flink状态为:MapStateDescriptor[micen_table,mutable.Map[distinct_id->String]]。
所述步骤2中包括,将解密的加密日志和解压的压缩日志展开获得埋点字段,解析成Key-value的json格式形式,其中,Value的类型根据埋点的字段类型进行判断,映射成Kudu相对应的字段类型并保存。
所述步骤3中,判断事件属性是否包含在当前的Flink状态中包括:对步骤2中的json格式数据中的每个事件属性,以集合{distinct_id,lib}的形式与Flink状态中的字段名集合{distinct_id}进行对比,用以判断埋点字段是否存在Flink状态中,得到一个字段差集{lib},其中,lib是新增的埋点字段,在将Json格式数据写入Kudu之前,判断该埋点值的数值类型并在Flink状态中添加新增的埋点字段及其类型,利用自定义的Java API将新增的埋点字段及其类型新增至Kudu,初始化Flink状态,重新读取Kudu表中各表的表名、字段和类型的Schema,所述Flink状态初始化为:
MapStateDescriptor[micen_table,mutable.Map[distinct_id->string,lib_id->string]]。
所述步骤4中,所述预处理包括,在IP解析中,以预设的周期定时从IP数据库链接下载更新IP数据库,若下载失败,则使用原先的IP数据库,并发出IP下载失败告警,基于IP地址库,自定义IP解析方法,输入IP,输出用户行为数据,在UserAgent解析中,根据UserAgent解析包解析出UserAgent延伸出的浏览器信息及其版本数据,用以扩展数仓数据。
所述步骤5中,所述Kudu数据刷新的模式为AUTO_FLUSH_SYNC,在整个实时数仓处理过程中,Kudu写入数据的同时,实时更新Kudu写入目标表的Schema。
所述步骤2中,所述Value的类型根据埋点的字段类型进行判断包括利用Java中的getClass;所述步骤4中,所述用户行为数据包括IP对应的对应的国家、省份、城市、运营商、经纬度。
本发明所达到的有益效果:通过动态增加新增埋点字段,利用Flink状态,针对用户行为日志,不仅能够做到实时解析成结构化数据,分发topic供业务订阅,落盘Kudu,并且能够实时增加日志中新的埋点字段,以供业务实时查看新增埋点数据情况,从而提高业务效率,发挥出数仓更大的价值。
附图说明
图1为本发明的示例性实施例的方法流程示意图;
图2为本发明的示例性实施例中的实时数仓的建设流程示意图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明:
如图1所示,本发明提供一种基于Flink状态的实时数仓建设方法,其特征在于,包括以下步骤:
步骤1:从kafka实时数据源的消息订阅系统中订阅数据作为Flink任务中的Source,创建Flink状态,所述Flink状态的数据结构为new MapStateDescriptor[String,mutable.Map[String,Type]];所述Flink状态的存储内容包括Kudu中各表的表名、字段和类型,任务开始时,初始化Flink状态为MapStateDescriptor[micen_table,mutable.Map[distinct_id->String]],获取Kudu中各表的表名、字段和类型。
步骤2:对Flink中的实时用户行为日志进行解析,将解析的加密日志和解压的压缩日志展开获得埋点字段,结果以埋点事件、事件属性和属性的值的形式保存为Key-value的json格式数据,所述事件属性记为Key,所述属性的值记为Value,Value的类型是根据埋点的字段类型进行判断,利用了Java中的getClass,映射成Kudu相对应的字段类型并保存。
步骤3:对于步骤2中的json格式数据,判断事件属性是否包含在当前的Flink状态中;对步骤2中的json格式数据中的每个事件属性,以集合{distinct_id,lib}的形式与Flink状态中的字段名集合{distinct_id}进行对比,用以判断埋点字段是否存在Flink状态中,得到一个字段差集{lib},其中,lib是新增的埋点字段,在将Json格式数据写入Kudu之前,判断该埋点值的数值类型并在Flink状态中添加新增的埋点字段及其类型,利用自定义的Java API将新增的埋点字段及其类型新增至Kudu,初始化Flink状态,重新读取Kudu表中各表的表名、字段和类型的Schema,所述Flink状态初始化为:MapStateDescriptor[micen_table,mutable.Map[distinct_id->string,lib_id->string]]。如果是,解析后的日志数据直接进入步骤4;如果不是,则对该事件属性对应的属性的值进行判定,将该埋点事件的字段及其类型添加至Kudu,并旁路输出至Kudu的一个新增字段中作为记录,更新Flink状态,解析后的日志数据进入步骤4;
步骤4:对解析后的数据做预处理,所述预处理包括IP解析、UserAgent解析,在IP解析中,以预设的周期定时从IP数据库链接下载更新IP数据库,若下载失败,则使用原先的IP数据库,并发出IP下载失败告警,基于IP地址库,自定义IP解析方法,输入IP,输出用户行为数据,在UserAgent解析中,根据UserAgent解析包解析出UserAgent延伸出的浏览器信息及其版本数据,用以扩展数仓数据。将预处理后的数据以埋点事件、事件属性和属性的值的形式保存为json格式数据,并写入消息订阅系统;所述步骤4中,所述用户行为数据包括IP对应的对应的国家、省份、城市、运营商、经纬度
步骤5:订阅步骤4中消息订阅系统的数据,将json格式数据完全展开,去除字段值为null的数据,并将展开结果写入Kudu中。所述Kudu数据刷新的模式为AUTO_FLUSH_SYNC,在整个实时数仓处理过程中,Kudu写入数据的同时,实时更新Kudu写入目标表的Schema。
如图2所示的本发明示例性实施例中的一种基于Flink状态的实时数仓建设方法中实时数仓的数据处理流程,具体步骤为:
S11:从kafka实时数据源中订阅数据作为Flink任务中的Source,并创建Flink状态保存Kudu中各表字段及其类型,在创建Flink状态时,首先需要考虑的是创建哪种数据结构的状态,按照本发明中的场景,需要创建Flink储存Kudu表元数据的状态,状态的数据结构应该为new MapStateDescriptor[String,mutable.Map[String,Type]],其中mutable.Map[String,Type]的key为表字段名,value为对应的字段值,整个newMapStateDescriptor[String,mutable.Map[String,Type]]可视为一个map,key为Kudu表名,value为相应的表字段与字段值。在Flink程序启动后该状态进行一次初始化,如初始化后为MapStateDescriptor[micen_table,mutable.Map[distinct_id->string]];
S12:对业务项目如micen项目下的每条加密或压缩的日志如:eyJkaXN0aW5jdF9pZCI6IjU2MTYtMDAiLCJsaWIiOiJqcyJ9(此日志是bsae64加密的),进行解密或解压展开成埋点字段,字段值键值对的json:{"distinct_id":"5616-00","lib":"js"},其中"distinct_id","lib"即为埋点字段;
S13:对S12中的json数据中的每个key:distinct_id、lib形成一集合{distinct_id,lib}与s11的Flink MapStateDescriptor状态里micen_table下对应的字段名集合{distinct_id}进行对比,判断该条数据中埋点的字段是否存在micen_table中,得到一个字段差集{lib},即lib是新增的埋点字段,为了将该条数据中所有埋点信息都记录到Kudu表micen_table中,在将数据写入Kudu之前,需要在micen_table中添加该字段及其字段类型。lib对应的值:"js"是一个字符串类型,即string,则判断该新增字段lib的数值类型是string,将lib及其类型作为一个字段,利用KuduJava API添加至micen_table。同时将该条新增字段信息记录至一张新增字段信息表中。最后初始化Flink状态,重新读取Kudu表中各表字段数据。上述操作后,Flink状态初始化为MapStateDescriptor[micen_table,mutable.Map[distinct_id->string,lib_id->string]];现有技术中很少涉及Kudu动态增加埋点字段的内容,但是实时数仓可以动态增加字段十分重要,更加智能,这里利用Flink状态机制来存储Kudu表的一些Schema的原因在于在任务过程中不需要实时建立Connection读取Kudu Schema来对比正在解析的埋点字段,极大的提高了动态增加Kudu字段的效率。
S14:对S13中解析出来的数据做预处理,如IP解析出国家、省份、城市、运营商、经纬度等,UA解析出浏览器、浏览器版本等,根据url补全站点等数据处理,处理后的数据添加至json中,将json写入kafka。各业务方可订阅解析后的数据;
S15:订阅S14中的数据,将json完全展开,去除字段值为null的数据,以key,value的形式通过Kudu Java API写入Kudu,鉴于公司数据量以及实时数仓的稳定性,Kudu数据刷新的模式为AUTO_FLUSH_SYNC。在写入数据的时候实时读取micen_table的schema,防止实时增加字段后,Kudu Client的表schema未刷新。
本发明主要用于提供一种基于Flink状态的实时数仓建设方法,在现有技术技术上做出一些更加灵活的变动,动态增加新增埋点字段;在一般Flink实时数仓的基础上,利用Flink状态,针对用户行为日志,不仅能够做到实时解析成结构化数据,分发topic供业务订阅,落盘Kudu,并且能够实时增加日志中新的埋点字段,供业务实时查看新增埋点数据情况,从而提高业务效率,发挥出数仓更大的价值。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。
Claims (7)
1.一种基于Flink状态的实时数仓建设方法,其特征在于,包括以下步骤:
步骤1:从消息订阅系统中订阅数据作为Flink任务中的Source,创建Flink状态,所述Flink状态的存储内容包括Kudu中各表的表名、字段和类型,任务开始时,初始化Flink状态,获取Kudu中各表的表名、字段和类型;
步骤2:对Flink中的实时用户行为日志进行解析,将解析结果以埋点事件、事件属性和属性的值的形式保存为json格式数据,所述事件属性记为Key,所述属性的值记为Value;
步骤3:对于步骤2中的json格式数据,判断事件属性是否包含在当前的Flink状态中;如果是,则解析结果进入步骤4;如果不是,则对该事件属性对应的属性的值进行判定,将该埋点事件的字段及其类型添加至Kudu,并旁路输出至Kudu的一个新增字段中作为记录,更新Flink状态,解析结果进入步骤4;
步骤4:对解析结果做预处理,所述预处理包括IP解析、UserAgent解析,将预处理后的数据以埋点事件、事件属性和属性的值的形式保存为json格式数据,并写入消息订阅系统;
步骤5:订阅步骤4中消息订阅系统的数据,将json格式数据完全展开,去除字段值为null的数据,并将展开结果写入Kudu中。
2.如权利要求1所述的一种基于Flink状态的实时数仓建设方法,其特征在于:所述步骤1中,所述消息订阅系统为kafka实时数据源,所述Flink状态的数据结构为newMapStateDescriptor[String,mutable.Map[String,Type]];初始化Flink状态为:MapStateDescriptor[micen_table,mutable.Map[distinct_id->String]]。
3.如权利要求2所述的一种基于Flink状态实时数仓建设方法,其特征在于:所述步骤2中包括,将解密的加密日志和解压的压缩日志展开获得埋点字段,解析成Key-value的json格式形式,其中,Value的类型根据埋点的字段类型进行判断,映射成Kudu相对应的字段类型并保存。
4.如权利要求3所述的一种基于Flink状态的实时数仓建设方法,其特征在于:所述步骤3中,判断事件属性是否包含在当前的Flink状态中包括:对步骤2中的json格式数据中的每个事件属性,以集合{distinct_id,lib}的形式与Flink状态中的字段名集合{distinct_id}进行对比,用以判断埋点字段是否存在Flink状态中,得到一个字段差集{lib},其中,lib是新增的埋点字段,在将Json格式数据写入Kudu之前,判断该埋点值的数值类型并在Flink状态中添加新增的埋点字段及其类型,利用自定义的Java API将新增的埋点字段及其类型新增至Kudu,初始化Flink状态,重新读取Kudu表中各表的表名、字段和类型的Schema,所述Flink状态初始化为:
MapStateDescriptor[micen_table,mutable.Map[distinct_id->string,lib_id->string]]。
5.如权利要求4所述的一种基于Flink状态的实时数仓建设方法,其特征在于:所述步骤4中,所述预处理包括,在IP解析中,以预设的周期定时从IP数据库链接下载更新IP数据库,若下载失败,则使用原先的IP数据库,并发出IP下载失败告警,基于IP地址库,自定义IP解析方法,输入IP,输出用户行为数据,在UserAgent解析中,根据UserAgent解析包解析出UserAgent延伸出的浏览器信息及其版本数据,用以扩展数仓数据。
6.如权利要求5所述的一种基于Flink状态的实时数仓建设方法,其特征在于,所述步骤5中,所述Kudu数据刷新的模式为AUTO_FLUSH_SYNC,在整个实时数仓处理过程中,Kudu写入数据的同时,实时更新Kudu写入目标表的Schema。
7.如权利要求6所述的一种基于Flink状态的实时数仓建设方法,其特征在于,所述步骤2中,所述Value的类型根据埋点的字段类型进行判断包括利用Java中的getClass;所述步骤4中,所述用户行为数据包括IP对应的对应的国家、省份、城市、运营商、经纬度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210405120.4A CN114756630B (zh) | 2022-04-18 | 2022-04-18 | 一种基于Flink状态的实时数仓建设方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210405120.4A CN114756630B (zh) | 2022-04-18 | 2022-04-18 | 一种基于Flink状态的实时数仓建设方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114756630A true CN114756630A (zh) | 2022-07-15 |
CN114756630B CN114756630B (zh) | 2024-04-19 |
Family
ID=82331757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210405120.4A Active CN114756630B (zh) | 2022-04-18 | 2022-04-18 | 一种基于Flink状态的实时数仓建设方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114756630B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115033646A (zh) * | 2022-08-11 | 2022-09-09 | 深圳联友科技有限公司 | 一种基于Flink&Doris构建实时数仓系统的方法 |
CN115328928A (zh) * | 2022-08-15 | 2022-11-11 | 深圳大道云科技有限公司 | kudu表更新方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579691A (zh) * | 2020-12-24 | 2021-03-30 | 安徽航天信息科技有限公司 | 一种支持大屏展示的数据处理方法及装置 |
CN113656503A (zh) * | 2021-08-20 | 2021-11-16 | 北京健康之家科技有限公司 | 数据同步方法、装置、系统及计算机可读存储介质 |
US11226964B1 (en) * | 2018-09-28 | 2022-01-18 | Splunk Inc. | Automated generation of metrics from log data |
CN114036034A (zh) * | 2021-10-27 | 2022-02-11 | 北京闪送科技有限公司 | 一种应用于实时流式计算的性能测试方法 |
-
2022
- 2022-04-18 CN CN202210405120.4A patent/CN114756630B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11226964B1 (en) * | 2018-09-28 | 2022-01-18 | Splunk Inc. | Automated generation of metrics from log data |
CN112579691A (zh) * | 2020-12-24 | 2021-03-30 | 安徽航天信息科技有限公司 | 一种支持大屏展示的数据处理方法及装置 |
CN113656503A (zh) * | 2021-08-20 | 2021-11-16 | 北京健康之家科技有限公司 | 数据同步方法、装置、系统及计算机可读存储介质 |
CN114036034A (zh) * | 2021-10-27 | 2022-02-11 | 北京闪送科技有限公司 | 一种应用于实时流式计算的性能测试方法 |
Non-Patent Citations (1)
Title |
---|
吴超;: "大数据采集与存储技术生态及方案选型的探讨", 江苏通信, no. 01, 15 February 2020 (2020-02-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115033646A (zh) * | 2022-08-11 | 2022-09-09 | 深圳联友科技有限公司 | 一种基于Flink&Doris构建实时数仓系统的方法 |
CN115328928A (zh) * | 2022-08-15 | 2022-11-11 | 深圳大道云科技有限公司 | kudu表更新方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114756630B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5986195B2 (ja) | データエンリッチメントの推奨 | |
US9311334B2 (en) | Geospatial database integration using business models | |
CN114756630B (zh) | 一种基于Flink状态的实时数仓建设方法 | |
US8504593B2 (en) | Server directory schema comparator | |
US8892501B2 (en) | Capturing OLAP analysis thread as refreshable business intelligence data | |
US20120072435A1 (en) | Multidimensional tags | |
US9229971B2 (en) | Matching data based on numeric difference | |
US9372876B2 (en) | Metadata driven reporting and editing of databases | |
AU2012271085A1 (en) | Recommending data enrichments | |
US20190245946A1 (en) | Referencing change(s) in data utilizing a network resource locator | |
CN109299352B (zh) | 搜索引擎中网站数据的更新方法、装置和搜索引擎 | |
US20110145005A1 (en) | Method and system for automatic business content discovery | |
CN103455335A (zh) | 一种多级分类的Web实现方法 | |
US11544229B1 (en) | Enhanced tracking of data flows | |
US10394844B2 (en) | Integrating co-deployed databases for data analytics | |
CN113721862A (zh) | 数据处理方法及装置 | |
US20140143270A1 (en) | Generating dynamic drilldown reports | |
US20140143248A1 (en) | Integration to central analytics systems | |
CN111008198B (zh) | 业务数据获取方法、装置、存储介质、电子设备 | |
CN112860659A (zh) | 数据仓库的构建方法、装置、设备及存储介质 | |
CN112800054A (zh) | 数据模型的确定方法、装置、设备及存储介质 | |
US20150087276A1 (en) | Method and system for defining an offlinable model graph | |
CN116305288B (zh) | 一种隔离数据库资源的方法、装置、设备和存储介质 | |
CN114817275B (zh) | 图数据库的数据读写方法、装置、设备及存储介质 | |
CN116737216A (zh) | 技术资源的管理方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |