CN109800221A - 一种海量数据关联关系分析方法、装置及系统 - Google Patents
一种海量数据关联关系分析方法、装置及系统 Download PDFInfo
- Publication number
- CN109800221A CN109800221A CN201910103638.0A CN201910103638A CN109800221A CN 109800221 A CN109800221 A CN 109800221A CN 201910103638 A CN201910103638 A CN 201910103638A CN 109800221 A CN109800221 A CN 109800221A
- Authority
- CN
- China
- Prior art keywords
- data
- real
- time
- incidence relation
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 73
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000004140 cleaning Methods 0.000 claims abstract description 17
- 238000010801 machine learning Methods 0.000 claims abstract description 15
- 230000008859 change Effects 0.000 claims description 7
- 238000013480 data collection Methods 0.000 abstract description 9
- 238000010223 real-time analysis Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- VIKNJXKGJWUCNN-XGXHKTLJSA-N norethisterone Chemical compound O=C1CC[C@@H]2[C@H]3CC[C@](C)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 VIKNJXKGJWUCNN-XGXHKTLJSA-N 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种海量数据关联关系分析方法、装置及系统,该方法包括:利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至消息通道;对消息通道输出的数据进行实时的数据清洗处理,以得到清洗后的数据;利用流式实时计算框架内置的机器学习库中的相关算法,对清洗后的数据进行关联关系分析,以得到关联关系分析结果。基于流式计算框架,依靠其机器学习库和内置算法,能够高效地完成亿级海量数据集关联关系的实时分析任务。由于样本数据量大大提高且不受限,故本方案能够提高数据分析准确性。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种海量数据关联关系分析方法、装置及系统。
背景技术
大数据计算的时代已经到来,目前业界对于基于关联规则的数据挖掘越发稳定成熟,计算能力不再成为主要瓶颈,但是对关联规则分析需求多样化、时效性等要求越来越高,尤其是安全领域,许多安全场景要求能够根据预置的规则实时监测威胁、做出预警。
当前对海量数据关联关系分析最常见的实现方式,就是抽取样本数据并通过关系数据库的SQL(Structured Query Language,结构化查询语言)和数据仓库技术实现。
由于是通过数据库技术来实现关联关系分析,考虑到数据库的处理能力等因素,样本数据的数据量通常不大。受制于样本数据量的大小,预测分析的结果误差可能较大。
发明内容
本发明提供了一种海量数据关联关系分析方法、装置及系统,能够提高数据分析准确性。
为了达到上述目的,本发明是通过如下技术方案实现的:
第一方面,本发明提供了一种海量数据关联关系分析方法,包括:
利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至消息通道;
对所述消息通道输出的数据进行实时的数据清洗处理,以得到清洗后的数据;
利用流式实时计算框架内置的机器学习库中的相关算法,对清洗后的数据进行关联关系分析,以得到关联关系分析结果。
进一步地,在所述得到关联关系分析结果之后,进一步包括:将所述关联关系分析结果实时推送给数据显示模块,以使所述显示模块实时显示所述关联关系分析结果,和/或,将所述关联关系分析结果实时存储至至少一种数据存储模块。
进一步地,所述对所述消息通道输出的数据进行实时的数据清洗处理,包括:对所述消息通道输出的数据,实时的依次进行过滤、去重及变更、生成关联键值、组内关联、组间关联这一系列数据清洗处理。
进一步地,所述利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至消息通道,包括:利用Flume中的Source实时采集海量数据库中实时存储的数据,并通过特定的格式化处理,将采集到的数据均处理为event格式的数据,以使一个event格式的数据为由消息头和消息体而组成的一个数据单元,以及将event格式的数据传递给Flume中的一Channel;利用每一个Channel分别缓存传递来的数据;对于Flume中的任一sink,利用该sink,读取并移除该sink所对应Channel中缓存的数据,并将读取到的数据发送至消息通道。
进一步地,所述消息通道包括:Kafka消息队列。
进一步地,所述流式实时计算框架包括:Flink;
对应地,所述相关算法包括:Apriori算法。
第二方面,本发明提供了一种海量数据关联关系分析装置,包括:
数据采集单元、消息通道和数据处理单元;
其中,所述数据采集单元,用于利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至所述消息通道;
所述数据处理单元,用于对所述消息通道输出的数据进行实时的数据清洗处理,以得到清洗后的数据;利用流式实时计算框架内置的机器学习库中的相关算法,对清洗后的数据进行关联关系分析,以得到关联关系分析结果。
进一步地,所述数据处理单元,用于将所述关联关系分析结果实时推送给数据显示模块,以使所述显示模块实时显示所述关联关系分析结果,和/或,将所述关联关系分析结果实时存储至至少一种数据存储模块。
进一步地,所述数据处理单元,用于对所述消息通道输出的数据,实时的依次进行过滤、去重及变更、生成关联键值、组内关联、组间关联这一系列数据清洗处理。
进一步地,所述数据采集单元,用于利用Flume中的Source实时采集海量数据库中实时存储的数据,并通过特定的格式化处理,将采集到的数据均处理为event格式的数据,以使一个event格式的数据为由消息头和消息体而组成的一个数据单元,以及将event格式的数据传递给Flume中的一Channel;利用每一个Channel分别缓存传递来的数据;对于Flume中的任一sink,利用该sink,读取并移除该sink所对应Channel中缓存的数据,并将读取到的数据发送至所述消息通道。
第三方面,本发明提供了一种海量数据关联关系分析系统,包括:
海量数据库、显示模块、至少一种数据存储模块,以及,如上述任一所述的海量数据关联关系分析装置;
其中,所述海量数据库,用于存储外部的每一个业务系统中实时产生的数据;
所述显示模块,用于实时显示所述海量数据关联关系分析装置推送来的关联关系分析结果;
每一个所述数据存储模块,用于存储所述海量数据关联关系分析装置推送来的关联关系分析结果。
本发明提供了一种海量数据关联关系分析方法、装置及系统,该方法包括:利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至消息通道;对消息通道输出的数据进行实时的数据清洗处理,以得到清洗后的数据;利用流式实时计算框架内置的机器学习库中的相关算法,对清洗后的数据进行关联关系分析,以得到关联关系分析结果。基于流式计算框架,依靠其机器学习库和内置算法,能够高效地完成亿级海量数据集关联关系的实时分析任务。由于样本数据量大大提高且不受限,故本发明能够提高数据分析准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种海量数据关联关系分析方法的流程图;
图2是本发明一实施例提供的另一种海量数据关联关系分析方法的流程图;
图3是本发明一实施例提供的一种海量数据关联关系分析装置的示意图;
图4是本发明一实施例提供的一种海量数据关联关系分析系统的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种海量数据关联关系分析方法,可以包括以下步骤:
步骤101:利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至消息通道。
步骤102:对所述消息通道输出的数据进行实时的数据清洗处理,以得到清洗后的数据。
步骤103:利用流式实时计算框架内置的机器学习库中的相关算法,对清洗后的数据进行关联关系分析,以得到关联关系分析结果。
本发明实施例提供了一种海量数据关联关系分析方法,利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至消息通道;对消息通道输出的数据进行实时的数据清洗处理,以得到清洗后的数据;利用流式实时计算框架内置的机器学习库中的相关算法,对清洗后的数据进行关联关系分析,以得到关联关系分析结果。基于流式计算框架,依靠其机器学习库和内置算法,能够高效地完成亿级海量数据集关联关系的实时分析任务。由于样本数据量大大提高且不受限,故本发明实施例能够提高数据分析准确性。
由上述步骤101可知,样本数据的来源为海量数据中的海量大数据,且数据采集具有实时性。样本数据量的提高,有益于提高数据分析准确性。数据采集的实时性,有益于保证关联关系分析的时效性,尤其适用于特定的安全控制场景和其他危急场景。
可见,本发明实施例不仅可以提供亿级海量数据集关联关系的分析,还可解决海量数据集内关联规则类数据挖掘的时效性问题。
在本发明一个实施例中,优选地,这一数据采集工具可以为Flume。其中,Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
基于此,在本发明一个实施例中,所述利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至消息通道,包括:利用Flume中的Source实时采集海量数据库中实时存储的数据,并通过特定的格式化处理,将采集到的数据均处理为event格式的数据,以使一个event格式的数据为由消息头和消息体而组成的一个数据单元,以及将event格式的数据传递给Flume中的一Channel;利用每一个Channel分别缓存传递来的数据;对于Flume中的任一sink,利用该sink,读取并移除该sink所对应Channel中缓存的数据,并将读取到的数据发送至消息通道。
本发明实施例中,一个Source可以向一个或多个Channel传递数据。每一个Channel均对应有一个sink,以将对应Channel中缓存的数据传递至消息通道。
另外,由上述步骤101可知,数据采集工具采集到的数据首先传递至消息通道以进行缓存。基于消息通道的缓存作用,可以顺序处理各个数据,以及能够有效缓解和稳定系统处理压力。
在本发明一个实施例中,优选地,这一消息通道可以为Kafka消息队列。其中,Kafka消息队列是一个分布式的、高吞吐量、高可扩展性消息队列服务,可广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等方面。
由上述步骤102可知,对于消息通道输出的待分析数据,首先对其进行数据清洗处理。基于数据清洗,可对数据进行重新审查和校验,以达到删除重复信息、纠正存在的错误、提供数据一致性等目的。通过数据清洗,可方便后续数据分析处理的顺利执行。
在本发明一个实施例中,所述对所述消息通道输出的数据进行实时的数据清洗处理,包括:对所述消息通道输出的数据,实时的依次进行过滤、去重及变更、生成关联键值、组内关联、组间关联这一系列数据清洗处理。
详细地,基于过滤处理,可以筛除掉敏感数据、残缺数据、无关数据等,以仅保留有用的数据。
详细地,基于去重及变更处理,可以避免出现重复的数据。
详细地,可以根据数据间的关联关系,以生成关联键值。
详细地,对于每一组数据来说,同一组数据的数据间可存在关联,这一关联对应于组内关联,故可基于生成的关联键值,进行组内关联这一数据清洗处理。
对应地,不同组数据的数据间也可存在关联,这一关联对应于组间关联,故在完成组间关联后,同样可基于生成的关联键值,进行组间关联这一数据清洗处理。最后,经组间关联处理后的数据即可进行关联关系分析。
由上述步骤103可知,基于流式实时计算框架来分析处理数据,以可具有流处理特性,适用于大数据处理应用场景。
在本发明一个实施例中,优选地,这一流式实时计算框架可以为Flink;对应地,这一相关算法可以为Apriori算法。
详细地,相比Spark等大数据批处理计算框架,流式实时计算框架的延时可低至毫秒级,吞吐量可达10亿级别,并且支持按数据时间顺序处理。
其中,Flink是一个针对流数据和批数据的分布式处理引擎。通常情况下,其所要处理的主要场景就是流数据,即Flink会把所有任务当成流来处理。
详细地,Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。Apriori算法可被广泛的应用到商业、网络安全等各个领域。
详细地,生成的关联关系分析结果可以进行实时展示,以及可以实时存储。其中,展示和存储可以异步执行。基于此,在本发明一个实施例中,在所述得到关联关系分析结果之后,进一步包括:将所述关联关系分析结果实时推送给数据显示模块,以使所述显示模块实时显示所述关联关系分析结果,和/或,将所述关联关系分析结果实时存储至至少一种数据存储模块。
在本发明一个实施例中,这里的数据存储模块可以为HBase、RDBMS(RelationalDatabase Management System,关系数据库管理系统)、Redis等。
详细地,通过将计算结果异步存储至HBase、RDBMS及Redis中,可为后续数据分析和运营分析提供支撑服务。
如图2所示,本发明一个实施例提供了另一种海量数据关联关系分析方法,具体包括以下步骤:
步骤201:利用Flume实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至Kafka消息队列。
步骤202:对Kafka消息队列输出的数据,实时的依次进行过滤、去重及变更、生成关联键值、组内关联、组间关联这一系列数据清洗处理,以得到清洗后的数据。
步骤203:利用Flink内置的机器学习库中的Apriori算法,对清洗后的数据进行关联关系分析,以得到关联关系分析结果。
步骤204:将关联关系分析结果实时推送给数据显示模块,以使显示模块实时显示关联关系分析结果。
步骤205:将关联关系分析结果分别实时存储至HBase、RDBMS、Redis中。
本发明实施例至少可具有如下优点:支持处理亿级海量数据的关联关系分析;海量数据集内分析关联关系分析服务是实时的,延迟可低至毫秒级别;可按数据的时间顺序进行分析处理。
本发明实施例中,基于开源的分布式、高性能、高可用流式计算框架,依靠其机器学习库和内置的规则引擎,从而能够高效地完成亿级海量数据集关联关系的实时分析任务。
如图3所示,本发明一个实施例提供了一种海量数据关联关系分析装置,可以包括:数据采集单元301、消息通道302和数据处理单元303;
其中,所述数据采集单元301,用于利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至所述消息通道302;
所述数据处理单元303,用于对所述消息通道302输出的数据进行实时的数据清洗处理,以得到清洗后的数据;利用流式实时计算框架内置的机器学习库中的相关算法,对清洗后的数据进行关联关系分析,以得到关联关系分析结果。
在本发明一个实施例中,所述数据处理单元303,用于将所述关联关系分析结果实时推送给数据显示模块,以使所述显示模块实时显示所述关联关系分析结果,和/或,将所述关联关系分析结果实时存储至至少一种数据存储模块。
在本发明一个实施例中,所述数据处理单元303,用于对所述消息通道302输出的数据,实时的依次进行过滤、去重及变更、生成关联键值、组内关联、组间关联这一系列数据清洗处理。
在本发明一个实施例中,所述数据采集单元301,用于利用Flume中的Source实时采集海量数据库中实时存储的数据,并通过特定的格式化处理,将采集到的数据均处理为event格式的数据,以使一个event格式的数据为由消息头和消息体而组成的一个数据单元,以及将event格式的数据传递给Flume中的一Channel;利用每一个Channel分别缓存传递来的数据;对于Flume中的任一sink,利用该sink,读取并移除该sink所对应Channel中缓存的数据,并将读取到的数据发送至所述消息通道302。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
如图4所示,本发明实施例提供了一种海量数据关联关系分析系统,可以包括:海量数据库401、显示模块402、至少一种数据存储模块403,以及,如上述任一所述的海量数据关联关系分析装置404;
其中,所述海量数据库401,用于存储外部的每一个业务系统中实时产生的数据;
所述显示模块402,用于实时显示所述海量数据关联关系分析装置404推送来的关联关系分析结果;
每一个所述数据存储模块403,用于存储所述海量数据关联关系分析装置404推送来的关联关系分析结果。
详细地,这里的数据存储模块可以为HBase、RDBMS、Redis等。
综上所述,本发明的实施例具有至少如下有益效果:
1、本发明实施例中,利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至消息通道;对消息通道输出的数据进行实时的数据清洗处理,以得到清洗后的数据;利用流式实时计算框架内置的机器学习库中的相关算法,对清洗后的数据进行关联关系分析,以得到关联关系分析结果。基于流式计算框架,依靠其机器学习库和内置算法,能够高效地完成亿级海量数据集关联关系的实时分析任务。由于样本数据量大大提高且不受限,故本发明实施例能够提高数据分析准确性。
2、本发明实施例中,不仅可以提供亿级海量数据集关联关系的分析,还可解决海量数据集内关联规则类数据挖掘的时效性问题。
3、本发明实施例中,支持处理亿级海量数据的关联关系分析;海量数据集内分析关联关系分析服务是实时的,延迟可低至毫秒级别;可按数据的时间顺序进行分析处理。
4、本发明实施例中,基于开源的分布式、高性能、高可用流式计算框架,依靠其机器学习库和内置的规则引擎,从而能够高效地完成亿级海量数据集关联关系的实时分析任务。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种海量数据关联关系分析方法,其特征在于,包括:
利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至消息通道;
对所述消息通道输出的数据进行实时的数据清洗处理,以得到清洗后的数据;
利用流式实时计算框架内置的机器学习库中的相关算法,对清洗后的数据进行关联关系分析,以得到关联关系分析结果。
2.根据权利要求1所述的方法,其特征在于,
在所述得到关联关系分析结果之后,进一步包括:将所述关联关系分析结果实时推送给数据显示模块,以使所述显示模块实时显示所述关联关系分析结果,和/或,将所述关联关系分析结果实时存储至至少一种数据存储模块。
3.根据权利要求1所述的方法,其特征在于,
所述对所述消息通道输出的数据进行实时的数据清洗处理,包括:对所述消息通道输出的数据,实时的依次进行过滤、去重及变更、生成关联键值、组内关联、组间关联这一系列数据清洗处理。
4.根据权利要求1所述的方法,其特征在于,
所述利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至消息通道,包括:
利用Flume中的Source实时采集海量数据库中实时存储的数据,并通过特定的格式化处理,将采集到的数据均处理为event格式的数据,以使一个event格式的数据为由消息头和消息体而组成的一个数据单元,以及将event格式的数据传递给Flume中的一Channel;
利用每一个Channel分别缓存传递来的数据;
对于Flume中的任一sink,利用该sink,读取并移除该sink所对应Channel中缓存的数据,并将读取到的数据发送至消息通道。
5.根据权利要求1至4中任一所述的方法,其特征在于,
所述消息通道包括:Kafka消息队列;
和/或,
所述流式实时计算框架包括:Flink;
对应地,所述相关算法包括:Apriori算法。
6.一种海量数据关联关系分析装置,其特征在于,包括:
数据采集单元、消息通道和数据处理单元;
其中,所述数据采集单元,用于利用数据采集工具,实时采集海量数据库中实时存储的数据,并将采集到的数据实时发送至所述消息通道;
所述数据处理单元,用于对所述消息通道输出的数据进行实时的数据清洗处理,以得到清洗后的数据;利用流式实时计算框架内置的机器学习库中的相关算法,对清洗后的数据进行关联关系分析,以得到关联关系分析结果。
7.根据权利要求6所述的海量数据关联关系分析装置,其特征在于,
所述数据处理单元,用于将所述关联关系分析结果实时推送给数据显示模块,以使所述显示模块实时显示所述关联关系分析结果,和/或,将所述关联关系分析结果实时存储至至少一种数据存储模块。
8.根据权利要求6所述的海量数据关联关系分析装置,其特征在于,
所述数据处理单元,用于对所述消息通道输出的数据,实时的依次进行过滤、去重及变更、生成关联键值、组内关联、组间关联这一系列数据清洗处理。
9.根据权利要求6至8中任一所述的海量数据关联关系分析装置,其特征在于,
所述数据采集单元,用于利用Flume中的Source实时采集海量数据库中实时存储的数据,并通过特定的格式化处理,将采集到的数据均处理为event格式的数据,以使一个event格式的数据为由消息头和消息体而组成的一个数据单元,以及将event格式的数据传递给Flume中的一Channel;利用每一个Channel分别缓存传递来的数据;对于Flume中的任一sink,利用该sink,读取并移除该sink所对应Channel中缓存的数据,并将读取到的数据发送至所述消息通道。
10.一种海量数据关联关系分析系统,其特征在于,包括:
海量数据库、显示模块、至少一种数据存储模块,以及,如权利要求6至9中任一所述的海量数据关联关系分析装置;
其中,所述海量数据库,用于存储外部的每一个业务系统中实时产生的数据;
所述显示模块,用于实时显示所述海量数据关联关系分析装置推送来的关联关系分析结果;
每一个所述数据存储模块,用于存储所述海量数据关联关系分析装置推送来的关联关系分析结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910103638.0A CN109800221A (zh) | 2019-02-01 | 2019-02-01 | 一种海量数据关联关系分析方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910103638.0A CN109800221A (zh) | 2019-02-01 | 2019-02-01 | 一种海量数据关联关系分析方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109800221A true CN109800221A (zh) | 2019-05-24 |
Family
ID=66561976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910103638.0A Pending CN109800221A (zh) | 2019-02-01 | 2019-02-01 | 一种海量数据关联关系分析方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800221A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110727680A (zh) * | 2019-09-25 | 2020-01-24 | 武汉奥浦信息技术有限公司 | 一种数据关联存储方法、电子设备及存储介质 |
CN111353892A (zh) * | 2020-03-31 | 2020-06-30 | 中国建设银行股份有限公司 | 交易风险监控方法及装置 |
CN112347137A (zh) * | 2019-08-06 | 2021-02-09 | 阿里巴巴集团控股有限公司 | 数据验证方法、装置及可读存储介质 |
CN113141368A (zh) * | 2021-04-27 | 2021-07-20 | 天翼电子商务有限公司 | 一种支持海量数据实时安全威胁关联分析的系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709003A (zh) * | 2016-12-23 | 2017-05-24 | 长沙理工大学 | 基于Hadoop的海量日志数据处理方法 |
CN106815338A (zh) * | 2016-12-25 | 2017-06-09 | 北京中海投资管理有限公司 | 一种大数据的实时存储、处理和查询系统 |
CN109271412A (zh) * | 2018-09-28 | 2019-01-25 | 中国-东盟信息港股份有限公司 | 智慧城市的实时流数据处理方法及系统 |
-
2019
- 2019-02-01 CN CN201910103638.0A patent/CN109800221A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709003A (zh) * | 2016-12-23 | 2017-05-24 | 长沙理工大学 | 基于Hadoop的海量日志数据处理方法 |
CN106815338A (zh) * | 2016-12-25 | 2017-06-09 | 北京中海投资管理有限公司 | 一种大数据的实时存储、处理和查询系统 |
CN109271412A (zh) * | 2018-09-28 | 2019-01-25 | 中国-东盟信息港股份有限公司 | 智慧城市的实时流数据处理方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347137A (zh) * | 2019-08-06 | 2021-02-09 | 阿里巴巴集团控股有限公司 | 数据验证方法、装置及可读存储介质 |
CN110727680A (zh) * | 2019-09-25 | 2020-01-24 | 武汉奥浦信息技术有限公司 | 一种数据关联存储方法、电子设备及存储介质 |
CN110727680B (zh) * | 2019-09-25 | 2023-07-14 | 武汉奥浦信息技术有限公司 | 一种数据关联存储方法、电子设备及存储介质 |
CN111353892A (zh) * | 2020-03-31 | 2020-06-30 | 中国建设银行股份有限公司 | 交易风险监控方法及装置 |
CN111353892B (zh) * | 2020-03-31 | 2024-07-30 | 中国建设银行股份有限公司 | 交易风险监控方法及装置 |
CN113141368A (zh) * | 2021-04-27 | 2021-07-20 | 天翼电子商务有限公司 | 一种支持海量数据实时安全威胁关联分析的系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800221A (zh) | 一种海量数据关联关系分析方法、装置及系统 | |
CN107943668B (zh) | 计算机服务器集群日志监控方法及监控平台 | |
CN107147639A (zh) | 一种基于复杂事件处理的实时安全预警方法 | |
CN110175154A (zh) | 一种日志记录的处理方法、服务器及存储介质 | |
CN110058977A (zh) | 基于流式处理的监控指标异常检测方法、装置及设备 | |
CN106506266B (zh) | 基于GPU、Hadoop/Spark混合计算框架的网络流量分析方法 | |
CN104951539A (zh) | 互联网数据中心有害信息监测系统 | |
CN110460591B (zh) | 基于改进分层时间记忆网络的cdn流量异常检测装置及方法 | |
CN112181955B (zh) | 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 | |
CN106484709A (zh) | 一种日志数据的审计方法和审计装置 | |
CN106534784A (zh) | 一种用于视频分析数据结果集的采集分析存储统计系统 | |
CN112749153B (zh) | 一种工业网络数据管理系统 | |
CN107273554A (zh) | 电梯智能监控系统与方法 | |
CN108108445A (zh) | 一种智能数据处理方法和系统 | |
US20160179936A1 (en) | Processing time-aligned, multiple format data types in industrial applications | |
CN110908957A (zh) | 电力行业网络安全日志审计分析方法 | |
CN116821646A (zh) | 数据处理链构建方法、数据缩减方法、装置、设备及介质 | |
CN116167370A (zh) | 基于日志时空特征分析的分布式系统异常检测方法 | |
CN111209314A (zh) | 一种电力信息系统海量日志数据实时处理系统 | |
CN114385668A (zh) | 冷数据清理方法、装置、设备及存储介质 | |
CN106250406A (zh) | 一种日志处理方法 | |
CN106202509A (zh) | 一种日志信息的处理方法 | |
Jing et al. | A microservice fault identification method based on LightGBM | |
CN103198146A (zh) | 面向网络流式数据的事件实时过滤方法和系统 | |
CN117411780A (zh) | 一种基于多源数据特征的网络日志异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190524 |