CN114756630A - 一种基于Flink状态的实时数仓建设方法 - Google Patents

一种基于Flink状态的实时数仓建设方法 Download PDF

Info

Publication number
CN114756630A
CN114756630A CN202210405120.4A CN202210405120A CN114756630A CN 114756630 A CN114756630 A CN 114756630A CN 202210405120 A CN202210405120 A CN 202210405120A CN 114756630 A CN114756630 A CN 114756630A
Authority
CN
China
Prior art keywords
flink
data
state
kudu
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210405120.4A
Other languages
English (en)
Other versions
CN114756630B (zh
Inventor
沈浩
成俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN202210405120.4A priority Critical patent/CN114756630B/zh
Publication of CN114756630A publication Critical patent/CN114756630A/zh
Application granted granted Critical
Publication of CN114756630B publication Critical patent/CN114756630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Flink状态的实时数仓建设方法,其特征在于,包括:步骤1:创建并初始化Flink状态,获取Kudu中各表的表名、字段和类型;步骤2:对Flink中的实时用户行为日志进行解析,将解析结果保存为json格式数据;步骤3:对于json格式数据,判断事件属性是否包含在当前的Flink状态中;步骤4:对解析后的数据做预处理,保存为json格式数据,并写入消息订阅系统;步骤5:订阅数据,将json格式数据完全展开,并将展开结果写入Kudu中。达到实时解析成结构化数据的效果,分发topic,落盘Kudu,实时增加日志中新的埋点字段,以供业务实时查看新增埋点数据情况,提高业务效率,发挥出数仓更大的价值。

Description

一种基于Flink状态的实时数仓建设方法
技术领域
本发明涉及计算机技术的数据仓库领域,特别是涉及一种基于Flink状态的实时数仓建设方法。
背景技术
近些年,Kudu在大数据平台的应用越来越广泛。在阿里、小米、网易等公司的大数据架构中,Kudu都有着不可替代的地位,是一个既支持随机读写、又支持OLAP分析的大数据存储引擎,对实时数仓十分友好。
时效性、稳定性、准确性是数据必不可少的要素,Flink因其在实时数仓中优异的性能受到各大公司的喜爱。但目前大多数Flink+Kudu结构的实时数仓只能做到实时解析日志,形成结构化数据,针对各公司埋点业务,若想要实时查看新增埋点数据情况,只能提前增加实时数仓中新埋点的字段及类型,然后库表中该字段才会有数值,这期间会耽误部分时间,如果需要立即查看到新增埋点的数据情况,就需要在一般实时数仓的基础上,做出更有建设性的改进。
专利CN202010898539-基于Flink流式处理的用户行为统计分析方法,提出了Flink+Kafka+SDK埋点的概念,但该专利重点介绍一般的基于Flink的流式计算,并未涉及到底层的实时数仓建设,如实时数据最终的存储方式、数仓中对IP、UserAgent等通用指标的解析,技术人员难以通过本领域的通识直接进行应用。
专利CN201911411864-信贷风控特征变量管理的方法及系统,提出了Flink+Kudu数仓的概念,涉及Jason解析数据,但该专利中是提前将源数据schema信息进行上传至元数据管理系统后再对元数据进行解析,该方法只能解析提前定义好的源数据,每次新增新的源数据信息如新增埋点字段,就需要频繁的更新管理系统文档,业务方与开发人员需要频繁联动,效率低下。
专利CN202011079858-一种基于Kafka的埋点数据实时采集计算和存储的方法,提出了以Key-Value形式解析的SDK埋点采集系统在Kafka结合Flink中的应用,以解决实时埋点需求,但该专利使用的存储数据库是Hbase,一方面Hbase拥有良好的查询性能,但架构设计复杂,且使用HDFS作为分布式存储,因此存储数据,尤其是大量数据时,存储性能较差,另一方面,该专利在对实时数据入数仓时并未对埋点字段数值的类型进行判断,后续任务在使用数据时,无法第一时间得到准确的数值类型。
综合上述现有技术来看,现有Flink+Kudu实时数仓技术尚不能实时根据埋点内容增加字段(字段名和字段类型),或者动态增加字段的效率过低。因此,需要一种更高效适用的基于Flink状态的实时数仓建设方法。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于Flink状态动态增加Kudu字段的实时数仓建设方法,在一般Flink实时数仓的基础上,利用Flink状态,针对用户行为日志,不仅能够做到实时解析成结构化数据,分发topic供业务订阅,落盘Kudu,并且能够实时增加日志中新的埋点字段,供业务实时查看新增埋点数据情况,从而提高业务效率,发挥出更大的价值。
为解决上述技术问题,本发明提供一种基于Flink状态动态增加Kudu字段的实时数仓建设方法,其特征在于,包括以下步骤:
步骤1:从消息订阅系统中订阅数据作为Flink任务中的Source,创建Flink状态,所述Flink状态的存储内容包括Kudu中各表的表名、字段和类型,任务开始时,初始化Flink状态,获取Kudu中各表的表名、字段和类型;
步骤2:对Flink中的实时用户行为日志进行解析,将解析结果以埋点事件、事件属性和属性的值的形式保存为json格式数据,所述事件属性记为Key,所述属性的值记为Value;
步骤3:对于步骤2中的json格式数据,判断事件属性是否包含在当前的Flink状态中;如果是,则解析结果进入步骤4;如果不是,则对该事件属性对应的属性的值进行判定,将该埋点事件的字段及其类型添加至Kudu,并旁路输出至Kudu的一个新增字段中作为记录,更新Flink状态,解析结果进入步骤4;
步骤4:对解析结果做预处理,所述预处理包括IP解析、UserAgent解析,将预处理后的数据以埋点事件、事件属性和属性的值的形式保存为json格式数据,并写入消息订阅系统;
步骤5:订阅步骤4中消息订阅系统的数据,将json格式数据完全展开,去除字段值为null的数据,并将展开结果写入Kudu中。
所述步骤1中,所述消息订阅系统为kafka实时数据源,所述Flink状态的数据结构为new MapStateDescriptor[String,mutable.Map[String,Type]];初始化Flink状态为:MapStateDescriptor[micen_table,mutable.Map[distinct_id->String]]。
所述步骤2中包括,将解密的加密日志和解压的压缩日志展开获得埋点字段,解析成Key-value的json格式形式,其中,Value的类型根据埋点的字段类型进行判断,映射成Kudu相对应的字段类型并保存。
所述步骤3中,判断事件属性是否包含在当前的Flink状态中包括:对步骤2中的json格式数据中的每个事件属性,以集合{distinct_id,lib}的形式与Flink状态中的字段名集合{distinct_id}进行对比,用以判断埋点字段是否存在Flink状态中,得到一个字段差集{lib},其中,lib是新增的埋点字段,在将Json格式数据写入Kudu之前,判断该埋点值的数值类型并在Flink状态中添加新增的埋点字段及其类型,利用自定义的Java API将新增的埋点字段及其类型新增至Kudu,初始化Flink状态,重新读取Kudu表中各表的表名、字段和类型的Schema,所述Flink状态初始化为:
MapStateDescriptor[micen_table,mutable.Map[distinct_id->string,lib_id->string]]。
所述步骤4中,所述预处理包括,在IP解析中,以预设的周期定时从IP数据库链接下载更新IP数据库,若下载失败,则使用原先的IP数据库,并发出IP下载失败告警,基于IP地址库,自定义IP解析方法,输入IP,输出用户行为数据,在UserAgent解析中,根据UserAgent解析包解析出UserAgent延伸出的浏览器信息及其版本数据,用以扩展数仓数据。
所述步骤5中,所述Kudu数据刷新的模式为AUTO_FLUSH_SYNC,在整个实时数仓处理过程中,Kudu写入数据的同时,实时更新Kudu写入目标表的Schema。
所述步骤2中,所述Value的类型根据埋点的字段类型进行判断包括利用Java中的getClass;所述步骤4中,所述用户行为数据包括IP对应的对应的国家、省份、城市、运营商、经纬度。
本发明所达到的有益效果:通过动态增加新增埋点字段,利用Flink状态,针对用户行为日志,不仅能够做到实时解析成结构化数据,分发topic供业务订阅,落盘Kudu,并且能够实时增加日志中新的埋点字段,以供业务实时查看新增埋点数据情况,从而提高业务效率,发挥出数仓更大的价值。
附图说明
图1为本发明的示例性实施例的方法流程示意图;
图2为本发明的示例性实施例中的实时数仓的建设流程示意图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明:
如图1所示,本发明提供一种基于Flink状态的实时数仓建设方法,其特征在于,包括以下步骤:
步骤1:从kafka实时数据源的消息订阅系统中订阅数据作为Flink任务中的Source,创建Flink状态,所述Flink状态的数据结构为new MapStateDescriptor[String,mutable.Map[String,Type]];所述Flink状态的存储内容包括Kudu中各表的表名、字段和类型,任务开始时,初始化Flink状态为MapStateDescriptor[micen_table,mutable.Map[distinct_id->String]],获取Kudu中各表的表名、字段和类型。
步骤2:对Flink中的实时用户行为日志进行解析,将解析的加密日志和解压的压缩日志展开获得埋点字段,结果以埋点事件、事件属性和属性的值的形式保存为Key-value的json格式数据,所述事件属性记为Key,所述属性的值记为Value,Value的类型是根据埋点的字段类型进行判断,利用了Java中的getClass,映射成Kudu相对应的字段类型并保存。
步骤3:对于步骤2中的json格式数据,判断事件属性是否包含在当前的Flink状态中;对步骤2中的json格式数据中的每个事件属性,以集合{distinct_id,lib}的形式与Flink状态中的字段名集合{distinct_id}进行对比,用以判断埋点字段是否存在Flink状态中,得到一个字段差集{lib},其中,lib是新增的埋点字段,在将Json格式数据写入Kudu之前,判断该埋点值的数值类型并在Flink状态中添加新增的埋点字段及其类型,利用自定义的Java API将新增的埋点字段及其类型新增至Kudu,初始化Flink状态,重新读取Kudu表中各表的表名、字段和类型的Schema,所述Flink状态初始化为:MapStateDescriptor[micen_table,mutable.Map[distinct_id->string,lib_id->string]]。如果是,解析后的日志数据直接进入步骤4;如果不是,则对该事件属性对应的属性的值进行判定,将该埋点事件的字段及其类型添加至Kudu,并旁路输出至Kudu的一个新增字段中作为记录,更新Flink状态,解析后的日志数据进入步骤4;
步骤4:对解析后的数据做预处理,所述预处理包括IP解析、UserAgent解析,在IP解析中,以预设的周期定时从IP数据库链接下载更新IP数据库,若下载失败,则使用原先的IP数据库,并发出IP下载失败告警,基于IP地址库,自定义IP解析方法,输入IP,输出用户行为数据,在UserAgent解析中,根据UserAgent解析包解析出UserAgent延伸出的浏览器信息及其版本数据,用以扩展数仓数据。将预处理后的数据以埋点事件、事件属性和属性的值的形式保存为json格式数据,并写入消息订阅系统;所述步骤4中,所述用户行为数据包括IP对应的对应的国家、省份、城市、运营商、经纬度
步骤5:订阅步骤4中消息订阅系统的数据,将json格式数据完全展开,去除字段值为null的数据,并将展开结果写入Kudu中。所述Kudu数据刷新的模式为AUTO_FLUSH_SYNC,在整个实时数仓处理过程中,Kudu写入数据的同时,实时更新Kudu写入目标表的Schema。
如图2所示的本发明示例性实施例中的一种基于Flink状态的实时数仓建设方法中实时数仓的数据处理流程,具体步骤为:
S11:从kafka实时数据源中订阅数据作为Flink任务中的Source,并创建Flink状态保存Kudu中各表字段及其类型,在创建Flink状态时,首先需要考虑的是创建哪种数据结构的状态,按照本发明中的场景,需要创建Flink储存Kudu表元数据的状态,状态的数据结构应该为new MapStateDescriptor[String,mutable.Map[String,Type]],其中mutable.Map[String,Type]的key为表字段名,value为对应的字段值,整个newMapStateDescriptor[String,mutable.Map[String,Type]]可视为一个map,key为Kudu表名,value为相应的表字段与字段值。在Flink程序启动后该状态进行一次初始化,如初始化后为MapStateDescriptor[micen_table,mutable.Map[distinct_id->string]];
S12:对业务项目如micen项目下的每条加密或压缩的日志如:eyJkaXN0aW5jdF9pZCI6IjU2MTYtMDAiLCJsaWIiOiJqcyJ9(此日志是bsae64加密的),进行解密或解压展开成埋点字段,字段值键值对的json:{"distinct_id":"5616-00","lib":"js"},其中"distinct_id","lib"即为埋点字段;
S13:对S12中的json数据中的每个key:distinct_id、lib形成一集合{distinct_id,lib}与s11的Flink MapStateDescriptor状态里micen_table下对应的字段名集合{distinct_id}进行对比,判断该条数据中埋点的字段是否存在micen_table中,得到一个字段差集{lib},即lib是新增的埋点字段,为了将该条数据中所有埋点信息都记录到Kudu表micen_table中,在将数据写入Kudu之前,需要在micen_table中添加该字段及其字段类型。lib对应的值:"js"是一个字符串类型,即string,则判断该新增字段lib的数值类型是string,将lib及其类型作为一个字段,利用KuduJava API添加至micen_table。同时将该条新增字段信息记录至一张新增字段信息表中。最后初始化Flink状态,重新读取Kudu表中各表字段数据。上述操作后,Flink状态初始化为MapStateDescriptor[micen_table,mutable.Map[distinct_id->string,lib_id->string]];现有技术中很少涉及Kudu动态增加埋点字段的内容,但是实时数仓可以动态增加字段十分重要,更加智能,这里利用Flink状态机制来存储Kudu表的一些Schema的原因在于在任务过程中不需要实时建立Connection读取Kudu Schema来对比正在解析的埋点字段,极大的提高了动态增加Kudu字段的效率。
S14:对S13中解析出来的数据做预处理,如IP解析出国家、省份、城市、运营商、经纬度等,UA解析出浏览器、浏览器版本等,根据url补全站点等数据处理,处理后的数据添加至json中,将json写入kafka。各业务方可订阅解析后的数据;
S15:订阅S14中的数据,将json完全展开,去除字段值为null的数据,以key,value的形式通过Kudu Java API写入Kudu,鉴于公司数据量以及实时数仓的稳定性,Kudu数据刷新的模式为AUTO_FLUSH_SYNC。在写入数据的时候实时读取micen_table的schema,防止实时增加字段后,Kudu Client的表schema未刷新。
本发明主要用于提供一种基于Flink状态的实时数仓建设方法,在现有技术技术上做出一些更加灵活的变动,动态增加新增埋点字段;在一般Flink实时数仓的基础上,利用Flink状态,针对用户行为日志,不仅能够做到实时解析成结构化数据,分发topic供业务订阅,落盘Kudu,并且能够实时增加日志中新的埋点字段,供业务实时查看新增埋点数据情况,从而提高业务效率,发挥出数仓更大的价值。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。

Claims (7)

1.一种基于Flink状态的实时数仓建设方法,其特征在于,包括以下步骤:
步骤1:从消息订阅系统中订阅数据作为Flink任务中的Source,创建Flink状态,所述Flink状态的存储内容包括Kudu中各表的表名、字段和类型,任务开始时,初始化Flink状态,获取Kudu中各表的表名、字段和类型;
步骤2:对Flink中的实时用户行为日志进行解析,将解析结果以埋点事件、事件属性和属性的值的形式保存为json格式数据,所述事件属性记为Key,所述属性的值记为Value;
步骤3:对于步骤2中的json格式数据,判断事件属性是否包含在当前的Flink状态中;如果是,则解析结果进入步骤4;如果不是,则对该事件属性对应的属性的值进行判定,将该埋点事件的字段及其类型添加至Kudu,并旁路输出至Kudu的一个新增字段中作为记录,更新Flink状态,解析结果进入步骤4;
步骤4:对解析结果做预处理,所述预处理包括IP解析、UserAgent解析,将预处理后的数据以埋点事件、事件属性和属性的值的形式保存为json格式数据,并写入消息订阅系统;
步骤5:订阅步骤4中消息订阅系统的数据,将json格式数据完全展开,去除字段值为null的数据,并将展开结果写入Kudu中。
2.如权利要求1所述的一种基于Flink状态的实时数仓建设方法,其特征在于:所述步骤1中,所述消息订阅系统为kafka实时数据源,所述Flink状态的数据结构为newMapStateDescriptor[String,mutable.Map[String,Type]];初始化Flink状态为:MapStateDescriptor[micen_table,mutable.Map[distinct_id->String]]。
3.如权利要求2所述的一种基于Flink状态实时数仓建设方法,其特征在于:所述步骤2中包括,将解密的加密日志和解压的压缩日志展开获得埋点字段,解析成Key-value的json格式形式,其中,Value的类型根据埋点的字段类型进行判断,映射成Kudu相对应的字段类型并保存。
4.如权利要求3所述的一种基于Flink状态的实时数仓建设方法,其特征在于:所述步骤3中,判断事件属性是否包含在当前的Flink状态中包括:对步骤2中的json格式数据中的每个事件属性,以集合{distinct_id,lib}的形式与Flink状态中的字段名集合{distinct_id}进行对比,用以判断埋点字段是否存在Flink状态中,得到一个字段差集{lib},其中,lib是新增的埋点字段,在将Json格式数据写入Kudu之前,判断该埋点值的数值类型并在Flink状态中添加新增的埋点字段及其类型,利用自定义的Java API将新增的埋点字段及其类型新增至Kudu,初始化Flink状态,重新读取Kudu表中各表的表名、字段和类型的Schema,所述Flink状态初始化为:
MapStateDescriptor[micen_table,mutable.Map[distinct_id->string,lib_id->string]]。
5.如权利要求4所述的一种基于Flink状态的实时数仓建设方法,其特征在于:所述步骤4中,所述预处理包括,在IP解析中,以预设的周期定时从IP数据库链接下载更新IP数据库,若下载失败,则使用原先的IP数据库,并发出IP下载失败告警,基于IP地址库,自定义IP解析方法,输入IP,输出用户行为数据,在UserAgent解析中,根据UserAgent解析包解析出UserAgent延伸出的浏览器信息及其版本数据,用以扩展数仓数据。
6.如权利要求5所述的一种基于Flink状态的实时数仓建设方法,其特征在于,所述步骤5中,所述Kudu数据刷新的模式为AUTO_FLUSH_SYNC,在整个实时数仓处理过程中,Kudu写入数据的同时,实时更新Kudu写入目标表的Schema。
7.如权利要求6所述的一种基于Flink状态的实时数仓建设方法,其特征在于,所述步骤2中,所述Value的类型根据埋点的字段类型进行判断包括利用Java中的getClass;所述步骤4中,所述用户行为数据包括IP对应的对应的国家、省份、城市、运营商、经纬度。
CN202210405120.4A 2022-04-18 2022-04-18 一种基于Flink状态的实时数仓建设方法 Active CN114756630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210405120.4A CN114756630B (zh) 2022-04-18 2022-04-18 一种基于Flink状态的实时数仓建设方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210405120.4A CN114756630B (zh) 2022-04-18 2022-04-18 一种基于Flink状态的实时数仓建设方法

Publications (2)

Publication Number Publication Date
CN114756630A true CN114756630A (zh) 2022-07-15
CN114756630B CN114756630B (zh) 2024-04-19

Family

ID=82331757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210405120.4A Active CN114756630B (zh) 2022-04-18 2022-04-18 一种基于Flink状态的实时数仓建设方法

Country Status (1)

Country Link
CN (1) CN114756630B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033646A (zh) * 2022-08-11 2022-09-09 深圳联友科技有限公司 一种基于Flink&Doris构建实时数仓系统的方法
CN115328928A (zh) * 2022-08-15 2022-11-11 深圳大道云科技有限公司 kudu表更新方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579691A (zh) * 2020-12-24 2021-03-30 安徽航天信息科技有限公司 一种支持大屏展示的数据处理方法及装置
CN113656503A (zh) * 2021-08-20 2021-11-16 北京健康之家科技有限公司 数据同步方法、装置、系统及计算机可读存储介质
US11226964B1 (en) * 2018-09-28 2022-01-18 Splunk Inc. Automated generation of metrics from log data
CN114036034A (zh) * 2021-10-27 2022-02-11 北京闪送科技有限公司 一种应用于实时流式计算的性能测试方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11226964B1 (en) * 2018-09-28 2022-01-18 Splunk Inc. Automated generation of metrics from log data
CN112579691A (zh) * 2020-12-24 2021-03-30 安徽航天信息科技有限公司 一种支持大屏展示的数据处理方法及装置
CN113656503A (zh) * 2021-08-20 2021-11-16 北京健康之家科技有限公司 数据同步方法、装置、系统及计算机可读存储介质
CN114036034A (zh) * 2021-10-27 2022-02-11 北京闪送科技有限公司 一种应用于实时流式计算的性能测试方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴超;: "大数据采集与存储技术生态及方案选型的探讨", 江苏通信, no. 01, 15 February 2020 (2020-02-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033646A (zh) * 2022-08-11 2022-09-09 深圳联友科技有限公司 一种基于Flink&Doris构建实时数仓系统的方法
CN115328928A (zh) * 2022-08-15 2022-11-11 深圳大道云科技有限公司 kudu表更新方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114756630B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
JP5986195B2 (ja) データエンリッチメントの推奨
US9311334B2 (en) Geospatial database integration using business models
CN114756630B (zh) 一种基于Flink状态的实时数仓建设方法
US8504593B2 (en) Server directory schema comparator
US8892501B2 (en) Capturing OLAP analysis thread as refreshable business intelligence data
US20120072435A1 (en) Multidimensional tags
US9229971B2 (en) Matching data based on numeric difference
US9372876B2 (en) Metadata driven reporting and editing of databases
AU2012271085A1 (en) Recommending data enrichments
US20190245946A1 (en) Referencing change(s) in data utilizing a network resource locator
CN109299352B (zh) 搜索引擎中网站数据的更新方法、装置和搜索引擎
US20110145005A1 (en) Method and system for automatic business content discovery
CN103455335A (zh) 一种多级分类的Web实现方法
US11544229B1 (en) Enhanced tracking of data flows
US10394844B2 (en) Integrating co-deployed databases for data analytics
CN113721862A (zh) 数据处理方法及装置
US20140143270A1 (en) Generating dynamic drilldown reports
US20140143248A1 (en) Integration to central analytics systems
CN111008198B (zh) 业务数据获取方法、装置、存储介质、电子设备
CN112860659A (zh) 数据仓库的构建方法、装置、设备及存储介质
CN112800054A (zh) 数据模型的确定方法、装置、设备及存储介质
US20150087276A1 (en) Method and system for defining an offlinable model graph
CN116305288B (zh) 一种隔离数据库资源的方法、装置、设备和存储介质
CN114817275B (zh) 图数据库的数据读写方法、装置、设备及存储介质
CN116737216A (zh) 技术资源的管理方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant