CN112506960B - 基于ArangoDB引擎的多模型数据存储方法及系统 - Google Patents

基于ArangoDB引擎的多模型数据存储方法及系统 Download PDF

Info

Publication number
CN112506960B
CN112506960B CN202011494396.1A CN202011494396A CN112506960B CN 112506960 B CN112506960 B CN 112506960B CN 202011494396 A CN202011494396 A CN 202011494396A CN 112506960 B CN112506960 B CN 112506960B
Authority
CN
China
Prior art keywords
cluster
data
database
kafka
external source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011494396.1A
Other languages
English (en)
Other versions
CN112506960A (zh
Inventor
孙光宗
李凡平
王堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Issa Data Technology Co ltd
Beijing Isa Intelligent Technology Co ltd
Qingdao Yisa Data Technology Co Ltd
Original Assignee
Anhui Issa Data Technology Co ltd
Beijing Isa Intelligent Technology Co ltd
Qingdao Yisa Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Issa Data Technology Co ltd, Beijing Isa Intelligent Technology Co ltd, Qingdao Yisa Data Technology Co Ltd filed Critical Anhui Issa Data Technology Co ltd
Priority to CN202011494396.1A priority Critical patent/CN112506960B/zh
Publication of CN112506960A publication Critical patent/CN112506960A/zh
Application granted granted Critical
Publication of CN112506960B publication Critical patent/CN112506960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了基于ArangoDB引擎的多模型数据存储方法及系统,方法包括:获取外部来源数据,对所述外部来源数据进行预处理后,将预处理后的外部来源数据推给Kafka集群;利用Flink集群监控Kafka集群,并消费Kafka集群中的数据;在Flink集群上构建计算模型,利用该计算模型对消费后的数据进行计算,将计算后的数据分别存储在ArangoDB数据库和Clickhouse数据库集群中;接收API业务接口的业务数据,根据该业务数据从ArangoDB数据库和Clickhouse数据库集群中读取相应的数据。该方法基于ArangoDB为核心引擎,适用于高性能领域需求。

Description

基于ArangoDB引擎的多模型数据存储方法及系统
技术领域
本发明属于大数据的多模型数据存储技术领域,具体涉及基于ArangoDB引擎的多模型数据存储方法及系统。
背景技术
多模型数据库的优势主要体现在以下方面:开发新项目过程灵活性高。在开发新产品或者新服务时,可能不知道在这个过程中将会出现哪些需求,所以产品的改动或对新特性的需求均会导致数据模型的改变。使用多模型数据库,可以游刃有余地应对数据模型的变化。可以将一项技术应用到多个方案中,而不需要重新学习另外一项新的技术、建立新的技术栈。
业界传统大数据组件集成大多是基于Hadoop架构,由此而衍生出分布式存储组件HDFS、分布式计算Map Reduce、分布式资源管理和调度Yarn等等,与之正导配套的组件正如:高吞吐量的分布式发布订阅消息系统-Kafka,高速、通用大数据计算处理引擎-Spark(基于Hadoop Map Reduce迭代),实时数据处理框架-Storm(基于Hadoop HDFS分布式存储),数据仓库工具-Hive(基于Hadoop整体),分布式的应用程序协调服务-Zookeeper,高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统-Flume(基于Zookeeper调度和Hadoop HDFS分布式存储)及其其它附属组件等等。Hadoop架构组件间耦合度极高,且不适合低延时数据访问,无法高效的对大量小文件进行存储;不支持并发写入、文件随机修改等等弊端显露无疑。
发明内容
针对现有技术中的缺陷,本发明提供基于ArangoDB引擎的多模型数据存储方法及系统,基于ArangoDB为核心引擎,适用于高性能领域需求。
第一方面,一种基于ArangoDB引擎的多模型数据存储方法,包括以下步骤:
获取外部来源数据,对所述外部来源数据进行预处理后,将预处理后的外部来源数据推给Kafka集群;
利用Flink集群监控Kafka集群,并消费Kafka集群中的数据;
在Flink集群上构建计算模型,利用该计算模型对消费后的数据进行计算,将计算后的数据分别存储在ArangoDB数据库和Clickhouse数据库集群中;
接收API业务接口的业务数据,根据该业务数据从ArangoDB数据库和Clickhouse数据库集群中读取相应的数据。
优选地,所述对外部来源数据进行预处理后,将预处理后的外部来源数据推给Kafka集群具体包括:
对外部来源数据进行过滤,得到过滤数据;
将所述过滤数据按照类别推给Kafka集群中对应的Topic,每个Topic对应业务数据中指定的字段。
优选地,所述利用Flink集群监控Kafka集群,并消费Kafka集群中的数据具体包括:
利用Flink集群响应Kafka集群中Partition的偏移状态,确认是否推送该Partition对应的Topic中的过滤数据。
优选地,所述计算模型通过以下方法构建:
在Flink集群上创建StreamExecutionEnvironment,调用相应的Source算子创建原始的DataStream;
调用零到多次转换算子,生成零到多次DataStream;
调用Sink,并提交给JobManager,由JobManager进行优化后,生成所述计算模型。
优选地,所述利用该计算模型对消费后的数据进行计算,将计算后的数据分别存储在ArangoDB数据库和Clickhouse数据库集群中具体包括:
使用Zookeeper集群对Kafka集群中的服务器进行管理,其中Zookeeper集群的主服务器通过以下一种或几种方式选举得到:
定义Zookeeper集群中事务ID最大的服务器为主服务器;
定义Zookeeper集群中选举ID最大的服务器为主服务器。
第二方面,一种基于ArangoDB引擎的多模型数据存储系统,包括:
逻辑层:用于获取外部来源数据,对所述外部来源数据进行预处理后,将预处理后的外部来源数据推给Kafka集群;
Kafka集群;
Flink集群:用于监控Kafka集群,并消费Kafka集群中的数据;还用于在Flink集群上构建计算模型,利用该计算模型对消费后的数据进行计算,将计算后的数据分别存储在ArangoDB数据库和Clickhouse数据库集群中;
ArangoDB数据库;
Clickhouse数据库集群;
接口层:用于接收API业务接口的业务数据,根据该业务数据从ArangoDB数据库和Clickhouse数据库集群中读取相应的数据。
优选地,所述逻辑层具体用于:
对外部来源数据进行过滤,得到过滤数据;
将所述过滤数据按照类别推给Kafka集群中对应的Topic,每个Topic对应业务数据中指定的字段。
优选地,所述Flink集群具体用于:
利用Flink集群响应Kafka集群中Partition的偏移状态,确认是否推送该Partition对应的Topic中的过滤数据。
优选地,所述计算模型通过以下方法构建:
在Flink集群上创建StreamExecutionEnvironment,调用相应的Source算子创建原始的DataStream;
调用零到多次转换算子,生成零到多次DataStream;
调用Sink,并提交给JobManager,由JobManager进行优化后,生成所述计算模型。
优选地,所述Flink集群具体用于:
使用Zookeeper集群对Kafka集群中的服务器进行管理,其中Zookeeper集群的主服务器通过以下一种或几种方式选举得到:
定义Zookeeper集群中事务ID最大的服务器为主服务器;
定义Zookeeper集群中选举ID最大的服务器为主服务器。
由上述技术方案可知,本发明提供的基于ArangoDB引擎的多模型数据存储方法及系统,基于ArangoDB为核心引擎,适用于高性能领域需求。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明实施例一提供的多模型数据存储方法的流程图。
图2为本发明实施例二提供的多模型数据存储系统的架构图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
实施例一:
一种基于ArangoDB引擎的多模型数据存储方法,参见图1,包括以下步骤:
S1:获取外部来源数据,对所述外部来源数据进行预处理后,将预处理后的外部来源数据推给Kafka集群,具体包括:
对外部来源数据进行过滤,得到过滤数据;
将所述过滤数据按照类别推给Kafka集群中对应的Topic,每个Topic对应业务数据中指定的字段。
具体地,Topic为每条发布到Kafka集群的消息的类别,Kafka集群是面向Topic的。外部来源数据主要为有大量的、复杂的数据类型和字段类型的数据,或者是不同来源数据库的原始数据(例如Greeplum、PostgreSQL、Oracle、Hive、Hbase等等),如果将该外部来源数据直接推给工程师,难免会出现由于工程师的操作导致意想不到的疏忽,从而影响后期接口层的快速检索,或者因为数据库自身维护索引的缓慢而影响项目的效果。
所以该方法对外部来源数据进行过滤,包括去除外部来源数据中多余的字段、不合理的字段、或者是未清理完善的垃圾数据,然后统一整合划分到Kafka集群的Topic中,每个类别的数据对应具体的Topic。比如人员库基础信息(包括证件号码、证件类型、姓名等30多个字段)可以对应名为PersonnelInfo的Topic中。账号记录表(包括账号号码、账号类型、来源等20多个字段)可以对应名为AccountInfo的Topic中。
Kafka集群可以批量提交消息或压缩消息,这样对于消息产生者(也就是外部来源数据的来源)而言,几乎感觉不到性能的开支。而消息消费者(例如Flink集群)在进行消息消费时,只需要进行初步统一数据(包括统一字段命名、统一结构、统一数据库存储格式),保证数据不可丢失即可。
S2:利用Flink集群监控Kafka集群,并消费Kafka集群中的数据;具体包括:
利用Flink集群响应Kafka集群中Partition的偏移状态,确认是否推送该Partition对应的Topic中的过滤数据。
具体地,每个Topic包含一个或多个Partition,kafka集群分配的单位为Partition。一般来说,开始会先导入一批历史数据到Kafka集群,然后将每天的动态增加数据同步到Kafka集群中。这样当需要导出历史数据的时候,可能会出现TB甚至PB的数据量(几十亿甚至百亿的数据量存储的存储空间大小),这么多数据的吞吐会给服务器和数据库带来积压。如果通过脚本来定时获取,一则不及时,二则不可靠(不能实时获取数据流状态,如果每秒去查询有会造成较多的网络IO请求)。所以该方法使用Flink集群消费Kafka集群中的消息,响应Kafka集群的Partition的偏移状态,从而确认数据是否推送。例如当需要清洗基础人员信息数据时,可以允许Flink集群访问Kafka集群中Personnelnfo Topic,访问拉取偏移数据,并对应好字段,严格执行数据字段和格式(没有字段则执行默认值,格式不对或者Error报错将舍弃垃圾数据)。
S3:在Flink集群上构建计算模型,利用该计算模型对消费后的数据进行计算,将计算后的数据分别存储在ArangoDB数据库和Clickhouse数据库集群中;
优选地,所述计算模型通过以下方法构建:
在Flink集群上创建StreamExecutionEnvironment,调用相应的Source算子创建原始的DataStream;
调用零到多次转换算子(即Transformation),每调用一次Transformation,就会生成一个新的DataStream;
调用Sink,写的程序就形成一个Data Flow Gragh(数据流图),并提交给JobManager,由JobManager进行优化后,生成所述计算模型(即包含有具体计算逻辑的Task实例)。计算模型运行时,被调度到TaskManager的slot中进行计算。
具体地,本方法将同一批数据分别存储在两个数据库中,是为了对数据的基础检索和关系计算进行分离。该方法将基础搜索放在Clickhouse数据库集群,即保证了格式符合检索,且没有复杂的存储格式,可以用来进行OLAP分析,这样就可以在秒级内响应TB级别检索,多维联表查询也保证在3~5s内完成。也可以自定义方法进行数据检索,比如Clickhouse数据库集群里存储人员信息照片,当想要根据一张照片搜索对应的人或者其它根据相似度精度排序的最新照片,可以通过自定义方法内置CalculateFeature算法搜索即可满足业务。
ArangoDB数据库用来进行关系计算,比如当想要搜索人员A是否和人员D存在关系时,可以通过Edge(ArangoDB数据存在collection中,类型分为docuemnt和edge两种格式,document用来存储多元型基础信息,edge用来存储节点和节点间关系)建立好关系:例如构建A与B存在关系,B与C、D存在关系,这样就可以通过图算法BFS(广度优先遍历算法)和DFS(深度优先遍历算法),实现亚秒级内响应A-B-D的关系和基本详情,大大的简化的计算时间,从而可以基于此进行图关系匹配、知识图谱展示等各类难点大的业务。
优选地,所述利用该计算模型对消费后的数据进行计算,将计算后的数据分别存储在ArangoDB数据库和Clickhouse数据库集群中具体包括:
使用Zookeeper集群对Kafka集群中的服务器进行管理,其中Zookeeper集群的主服务器通过以下一种或几种方式选举得到:
定义Zookeeper集群中事务ID最大的服务器为主服务器;
定义Zookeeper集群中选举ID最大的服务器为主服务器。
具体地,Zookeeper是一个分布式(集群环境)的协调服务框架,主要用来协调分布式Clickhouse数据库集群、Flink集群、Kafka集群,防止数据库或集群因为停电等外部因素或者网络IO等内部因素导致宕机。
集群或数据库中的主服务器(消息生产者和消息消费者只和主服务器进行交互)可以采用以下pk原则选出:
①比较每台Zookeeper集群中服务器的事务ID,事务ID最大的服务器为主服务器。
②如果事务ID比较不出来,比较选举ID,选举ID最大的服务器为主服务器。
③必须要满足过半性,即选举过程的过半同意。这样才能保证Zookeeper集群正常工作,所以,一般在工作中,Zookeeper集群数量一般是奇数个。
S4:接收API业务接口的业务数据,根据该业务数据从ArangoDB数据库和Clickhouse数据库集群中读取相应的数据。
具体地,假设该方法实现的业务为数据检索和查询,即将处理后的数据返回给前端,得到客户想要的需求。API业务接口可以是基于Gin框架下的WebAPI。比如可以搜索查询ArangoDB数据库API业务接口,也可以查询ArangoDB数据库业务场景,可以搜索人的基础信息数据、或者交通出行记录数据,进行关系匹配计算程序等等。
该方法基于ArangoDB为核心引擎集成得到,能够实现自定义适配索引计算、多元化数据存储、秒级亦或亚秒级调度查询、更新、插入、删除等业务,成效斐然。另外还根据业务集成Flink集群、Zookeeper集群、Kafka集群实现实时批流推进,集成Clickhouse数据库集群实现秒级分析OLAP场景的业务扩展。
实施例二:
一种基于ArangoDB引擎的多模型数据存储系统,参见图2,包括:
逻辑层:用于获取外部来源数据,对所述外部来源数据进行预处理后,将预处理后的外部来源数据推给Kafka集群;
Kafka集群;利用Kafka生产者和消费者机制来实现高可靠、高可用的存储数据和发送数据。Kafka集群在发送数据阶段,契合下游组件Flink集群匹配度较高。
Flink:主要负责推流。用于监控Kafka集群,并消费Kafka集群中的数据;还用于在Flink上构建计算模型,利用该计算模型对消费后的数据进行计算,将计算后的数据分别存储在ArangoDB数据库和Clickhouse数据库集群中;
ArangoDB数据库;主要负责存储数据和关系计算、自定义索引和进行Action。
Clickhouse数据库集群;主要负责存储数据和进行OLAP查询。
接口层:主要负责业务查询对接,通过HTTP协议或者TCP协议获取业务数据,实现秒级调度。用于接收API业务接口的业务数据,根据该业务数据从ArangoDB数据库和Clickhouse数据库集群中读取相应的数据。
优选地,所述逻辑层具体用于:
对外部来源数据进行过滤,得到过滤数据;
将所述过滤数据按照类别推给Kafka集群中对应的Topic,每个Topic对应业务数据中指定的字段。
优选地,所述Flink具体用于:
利用Flink响应Kafka集群中Partition的偏移状态,确认是否推送该Partition对应的Topic中的过滤数据。
优选地,所述计算模型通过以下方法构建:
在Flink上创建StreamExecutionEnvironment,调用相应的Source算子创建原始的DataStream;
调用零到多次转换算子,生成零到多次DataStream;
调用Sink,并提交给JobManager,由JobManager进行优化后,生成所述计算模型。
优选地,所述Flink具体用于:
使用Zookeeper集群对Kafka集群中的服务器进行管理,其中Zookeeper集群的主服务器通过以下一种或几种方式选举得到:
定义Zookeeper集群中事务ID最大的服务器为主服务器;
定义Zookeeper集群中选举ID最大的服务器为主服务器。
本发明实施例所提供的系统,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (6)

1.一种基于ArangoDB引擎的多模型数据存储方法,其特征在于,包括以下步骤:
获取外部来源数据,对所述外部来源数据进行预处理后,将预处理后的外部来源数据推给Kafka集群;
利用Flink集群监控Kafka集群,并消费Kafka集群中的数据;
在Flink集群上构建计算模型,利用该计算模型对消费后的数据进行计算,将计算后的数据分别存储在ArangoDB数据库和Clickhouse数据库集群中;
接收API业务接口的业务数据,根据该业务数据从ArangoDB数据库和Clickhouse数据库集群中读取相应的数据;
所述利用该计算模型对消费后的数据进行计算,将计算后的数据分别存储在ArangoDB数据库和Clickhouse数据库集群中具体包括:
使用Zookeeper集群对Kafka集群中的服务器进行管理,其中Zookeeper集群的主服务器通过以下任意一种方式选举得到:
定义Zookeeper集群中事务ID最大的服务器为主服务器;
定义Zookeeper集群中选举ID最大的服务器为主服务器;
所述方法将基础搜索放在Clickhouse数据库集群,ArangoDB数据库用来进行关系计算;
所述计算模型通过以下方法构建:
在Flink集群上创建StreamExecutionEnvironment,调用相应的Source算子创建原始的DataStream;
调用零到多次转换算子,生成零到多次DataStream;
调用Sink,并提交给JobManager,由JobManager进行优化后,生成所述计算模型。
2.根据权利要求1所述多模型数据存储方法,其特征在于,所述对外部来源数据进行预处理后,将预处理后的外部来源数据推给Kafka集群具体包括:
对外部来源数据进行过滤,得到过滤数据;
将所述过滤数据按照类别推给Kafka集群中对应的Topic,每个Topic对应业务数据中指定的字段。
3.根据权利要求2所述多模型数据存储方法,其特征在于,所述利用Flink集群监控Kafka集群,并消费Kafka集群中的数据具体包括:
利用Flink集群响应Kafka集群中Partition的偏移状态,确认是否推送该Partition对应的Topic中的过滤数据。
4.一种基于ArangoDB引擎的多模型数据存储系统,其特征在于,包括:
逻辑层:用于获取外部来源数据,对所述外部来源数据进行预处理后,将预处理后的外部来源数据推给Kafka集群;
Kafka集群;
Flink集群:用于监控Kafka集群,并消费Kafka集群中的数据;还用于在Flink集群上构建计算模型,利用该计算模型对消费后的数据进行计算,将计算后的数据分别存储在ArangoDB数据库和Clickhouse数据库集群中;
ArangoDB数据库;
Clickhouse数据库集群;
接口层:用于接收API业务接口的业务数据,根据该业务数据从ArangoDB数据库和Clickhouse数据库集群中读取相应的数据;
所述Flink集群具体用于:
使用Zookeeper集群对Kafka集群中的服务器进行管理,其中Zookeeper集群的主服务器通过以下任意一种方式选举得到:
定义Zookeeper集群中事务ID最大的服务器为主服务器;
定义Zookeeper集群中选举ID最大的服务器为主服务器;
所述系统将基础搜索放在Clickhouse数据库集群,ArangoDB数据库用来进行关系计算;
所述计算模型通过以下方法构建:
在Flink集群上创建StreamExecutionEnvironment,调用相应的Source算子创建原始的DataStream;
调用零到多次转换算子,生成零到多次DataStream;
调用Sink,并提交给JobManager,由JobManager进行优化后,生成所述计算模型。
5.根据权利要求4所述多模型数据存储系统,其特征在于,所述逻辑层具体用于:
对外部来源数据进行过滤,得到过滤数据;
将所述过滤数据按照类别推给Kafka集群中对应的Topic,每个Topic对应业务数据中指定的字段。
6.根据权利要求5所述多模型数据存储系统,其特征在于,所述Flink集群具体用于:
利用Flink集群响应Kafka集群中Partition的偏移状态,确认是否推送该Partition对应的Topic中的过滤数据。
CN202011494396.1A 2020-12-17 2020-12-17 基于ArangoDB引擎的多模型数据存储方法及系统 Active CN112506960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011494396.1A CN112506960B (zh) 2020-12-17 2020-12-17 基于ArangoDB引擎的多模型数据存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011494396.1A CN112506960B (zh) 2020-12-17 2020-12-17 基于ArangoDB引擎的多模型数据存储方法及系统

Publications (2)

Publication Number Publication Date
CN112506960A CN112506960A (zh) 2021-03-16
CN112506960B true CN112506960B (zh) 2024-03-19

Family

ID=74922091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011494396.1A Active CN112506960B (zh) 2020-12-17 2020-12-17 基于ArangoDB引擎的多模型数据存储方法及系统

Country Status (1)

Country Link
CN (1) CN112506960B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113918238A (zh) * 2021-09-27 2022-01-11 中盈优创资讯科技有限公司 一种基于Flink的异构数据源同步方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468735A (zh) * 2015-11-23 2016-04-06 武汉虹旭信息技术有限责任公司 基于移动互联网海量信息的流式预处理系统及其方法
CN107231443A (zh) * 2017-08-10 2017-10-03 深圳市中青合创传媒科技有限公司 一种应用程序高并发高负荷处理方法和系统
CN109271412A (zh) * 2018-09-28 2019-01-25 中国-东盟信息港股份有限公司 智慧城市的实时流数据处理方法及系统
CN109656725A (zh) * 2018-11-09 2019-04-19 北京字节跳动网络技术有限公司 消息消费者切换方法、装置、存储介质及电子设备
CN109829765A (zh) * 2019-03-05 2019-05-31 北京博明信德科技有限公司 基于Flink和Kafka实时监控销售数据的方法、系统及装置
CN110008286A (zh) * 2019-03-26 2019-07-12 华南理工大学 一种注塑成型装备大数据采集和存储系统及方法
CN110019651A (zh) * 2019-03-01 2019-07-16 广州亚美信息科技有限公司 一种流式规则引擎及业务数据处理方法
CN110147398A (zh) * 2019-04-25 2019-08-20 北京字节跳动网络技术有限公司 一种数据处理方法、装置、介质和电子设备
CN110555038A (zh) * 2018-03-28 2019-12-10 阿里巴巴集团控股有限公司 一种数据处理系统、方法及装置
CN111163173A (zh) * 2019-12-31 2020-05-15 迈普通信技术股份有限公司 集群配置方法、装置、服务器及可读存储介质
CN111881479A (zh) * 2020-07-30 2020-11-03 江苏苏宁银行股份有限公司 一种基于区块链的反洗钱名单共享系统和方法
CN111966943A (zh) * 2020-08-13 2020-11-20 上海哔哩哔哩科技有限公司 流式数据分发方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311047B2 (en) * 2016-10-19 2019-06-04 Salesforce.Com, Inc. Streamlined creation and updating of OLAP analytic databases
JP7211052B2 (ja) * 2018-12-06 2023-01-24 富士通株式会社 ストリーム処理パイプラインの自動生成方法、データストリーム処理プログラムおよびデータストリーム処理システム

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468735A (zh) * 2015-11-23 2016-04-06 武汉虹旭信息技术有限责任公司 基于移动互联网海量信息的流式预处理系统及其方法
CN107231443A (zh) * 2017-08-10 2017-10-03 深圳市中青合创传媒科技有限公司 一种应用程序高并发高负荷处理方法和系统
CN110555038A (zh) * 2018-03-28 2019-12-10 阿里巴巴集团控股有限公司 一种数据处理系统、方法及装置
CN109271412A (zh) * 2018-09-28 2019-01-25 中国-东盟信息港股份有限公司 智慧城市的实时流数据处理方法及系统
CN109656725A (zh) * 2018-11-09 2019-04-19 北京字节跳动网络技术有限公司 消息消费者切换方法、装置、存储介质及电子设备
CN110019651A (zh) * 2019-03-01 2019-07-16 广州亚美信息科技有限公司 一种流式规则引擎及业务数据处理方法
CN109829765A (zh) * 2019-03-05 2019-05-31 北京博明信德科技有限公司 基于Flink和Kafka实时监控销售数据的方法、系统及装置
CN110008286A (zh) * 2019-03-26 2019-07-12 华南理工大学 一种注塑成型装备大数据采集和存储系统及方法
CN110147398A (zh) * 2019-04-25 2019-08-20 北京字节跳动网络技术有限公司 一种数据处理方法、装置、介质和电子设备
CN111163173A (zh) * 2019-12-31 2020-05-15 迈普通信技术股份有限公司 集群配置方法、装置、服务器及可读存储介质
CN111881479A (zh) * 2020-07-30 2020-11-03 江苏苏宁银行股份有限公司 一种基于区块链的反洗钱名单共享系统和方法
CN111966943A (zh) * 2020-08-13 2020-11-20 上海哔哩哔哩科技有限公司 流式数据分发方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
分布式数据流计算系统的数据缓存技术综述;袁旭初 等;《大数据》;第6卷(第03期);101-116 *
可装配的大数据流式计算引擎;李爽 等;《现代信息科技》;第3卷(第13期);100-102 *

Also Published As

Publication number Publication date
CN112506960A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN111984499B (zh) 一种大数据集群的故障检测方法和装置
US11182098B2 (en) Optimization for real-time, parallel execution of models for extracting high-value information from data streams
WO2022133981A1 (zh) 数据处理方法、平台、计算机可读存储介质及电子设备
US12008027B2 (en) Optimization for real-time, parallel execution of models for extracting high-value information from data streams
CN113282611B (zh) 一种流数据同步的方法、装置、计算机设备及存储介质
CN112148578A (zh) 基于机器学习的it故障缺陷预测方法
CN111126852A (zh) 一种基于大数据建模的bi应用系统
CN112506960B (zh) 基于ArangoDB引擎的多模型数据存储方法及系统
Bellavista et al. Design guidelines for big data gathering in industry 4.0 environments
Choudhary et al. A real-time fault tolerant and scalable recommender system design based on Kafka
CN116431324A (zh) 一种基于Kafka高并发数据采集与分发的边缘系统
CN112579552A (zh) 日志存储及调用方法、装置及系统
CN115237989A (zh) 一种矿山数据采集系统
CN115391429A (zh) 基于大数据云计算的时序数据处理方法及装置
US11915044B2 (en) Distributed task assignment in a cluster computing system
CN113378219B (zh) 一种非结构化数据的处理方法和系统
EP3380906A1 (en) Optimization for real-time, parallel execution of models for extracting high-value information from data streams
CN113421131B (zh) 基于大数据内容智能营销系统
CN117708219B (zh) 用于物联网数据的处理方法、处理装置及存储介质
CN111652616B (zh) 交易数据实时监控方法及装置
US12032525B2 (en) Systems and computer implemented methods for semantic data compression
CN116108116A (zh) 基于大数据分析的企业信息一键分析系统
Liu et al. A research on unified storage management and access technology applied in power network dispatch and control big data
Zhang et al. Research and application of streaming Data transmission and processing architecture based on Pulsar
Hao et al. Distributed Message Processing System Based for Internet of Things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 266000 Room 302, building 3, Office No. 77, Lingyan Road, Huangdao District, Qingdao, Shandong Province

Applicant after: QINGDAO YISA DATA TECHNOLOGY Co.,Ltd.

Applicant after: Beijing isa Intelligent Technology Co.,Ltd.

Applicant after: Anhui Issa Data Technology Co.,Ltd.

Address before: 266000 3rd floor, building 3, optical valley software park, 396 Emeishan Road, Huangdao District, Qingdao City, Shandong Province

Applicant before: QINGDAO YISA DATA TECHNOLOGY Co.,Ltd.

Applicant before: Beijing isa Intelligent Technology Co.,Ltd.

Applicant before: Anhui Issa Data Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant