CN117692302B - 一种数据收集存储和智能监控告警的方法及系统 - Google Patents
一种数据收集存储和智能监控告警的方法及系统 Download PDFInfo
- Publication number
- CN117692302B CN117692302B CN202410146349.XA CN202410146349A CN117692302B CN 117692302 B CN117692302 B CN 117692302B CN 202410146349 A CN202410146349 A CN 202410146349A CN 117692302 B CN117692302 B CN 117692302B
- Authority
- CN
- China
- Prior art keywords
- data
- processed
- alarm
- interface
- statistical data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013480 data collection Methods 0.000 title claims abstract description 37
- 238000013500 data storage Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 48
- 230000002776 aggregation Effects 0.000 claims abstract description 25
- 238000004220 aggregation Methods 0.000 claims abstract description 25
- 238000003860 storage Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000004044 response Effects 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000005096 rolling process Methods 0.000 claims description 12
- 230000001960 triggered effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 9
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种数据收集存储和智能监控告警的方法及装置,包括:实时收集待处理数据并进行预处理;对预处理后的待处理数据按租户和接口进行分组,并分别对每组的待处理数据进行聚合统计;对统计数据按接口进行再分组,并进行再次统计获得二次统计数据;通过告警模块获取二次统计数据的详细告警配置信息,将满足预设告警条件的二次统计数据发送到告警群并以预设规则发送告警通知。本发明通过引入先进的数据流处理技术,实现对数据的实时采集和处理;采用高性能的存储系统,提供对海量数据的高效存储和检索;结合算法,实现了对数据的智能监控和实时告警,使得在应对大规模、高实时性数据处理方面具有独特的优势。
Description
技术领域
本发明涉及数据收集存储技术领域,特别涉及一种数据收集存储和智能监控告警的方法及系统。
背景技术
随着信息技术的迅速发展,大数据集群数据规模随之迅速扩张。包括但不限于传感器数据、网络数据、业务数据等,对于企业和个人而言,如何高效地收集、存储、分析这些数据,以及通过智能监控系统实现实时告警成为亟待解决的问题。
传统的数据收集系统主要采用数据库等存储结构,通过批处理的方式进行数据采集,并通常通过设定静态的监控规则进行告警,实时性差、扩展性差,难以适应复杂多变的实际情况。
发明内容
有鉴于此,本发明提出了一种数据收集存储和智能监控告警的方法及系统,具体方案如下:
第一部分,本发明提出了一种数据收集存储和智能监控告警的方法,包括:
实时收集待处理数据并对所述待处理数据进行预处理;
对预处理后的所述待处理数据按租户和接口进行分组,并分别对每组的所述待处理数据进行聚合统计以获得统计数据;
对所述统计数据按接口进行再分组,接口相同的所述统计数据被划分为同一个线程处理,分别对同一个线程的所述统计数据进行再次统计获得二次统计数据,并将所述二次统计数据发送到下游进行数据处理;
通过告警模块获取所述二次统计数据的详细告警配置信息,将满足预设告警条件的所述二次统计数据发送到告警群并以预设规则发送告警通知。
在一个具体实施例中,所述对所述待处理数据进行预处理具体包括:
利用实时流计算引擎实时读取所述待处理数据,并对所述待处理数据进行清洗解析以获得解析结果,将所述解析结果作为所述待处理数据的备注以便于后续统计。
在一个具体实施例中,所述对所述待处理数据进行预处理还包括:
对所述待处理数据进行接口调用测试,将接口调用失败的所述待处理数据存储为失败数据集,以供快速定位查询接口调用失败的所述待处理数据明细。
在一个具体实施例中,所述对预处理后的所述待处理数据按租户和接口进行分组,并分别对每组的所述待处理数据进行聚合统计具体包括:
对预处理后的所述待处理数据按租户和接口进行分组,使租户和接口相同的所述待处理数据进入同一个线程进行处理;
根据所述解析结果分别对每组的所述待处理数据通过滚动窗口进行聚合统计,对各窗口的所述待处理数据分别进行聚合计算获得统计数据并存储以供即时查询。
在一个具体实施例中,对各窗口的所述待处理数据分别进行聚合计算具体包括:
对每一所述滚动窗口的所述待处理数据分别进行聚合计算,以求得接口调用次数、和/或接口流量、和/或调用成功率、和/或平均响应时长、和/或最小响应时长、和/或最大响应时长。
在一个具体实施例中,对同一个线程的所述统计数据进行再次统计获得二次统计数据具体包括:
在每一所述线程中注册一个定时器并为所述定时器设定触发时长;
在所述定时器触发时再次统计所述统计数据的所述接口调用次数、和/或所述接口流量、和/或所述调用成功率、和/或所述平均响应时长、和/或所述最小响应时长、和/或所述最大响应时长。
在一个具体实施例中,所述告警配置信息包括接口、和/或告警频率、和/或成功率告警阈值、和/或是否启用字段。
在一个具体实施例中,所述预设规则具体包括:
两次发送所述告警通知之间间隔2-3小时;
当连续发送所述告警通知3-5次后仍没有处理,则自动降低所述告警通知的发送频率,将两次发送所述告警通知之间的间隔时间自动增加2-3小时,并以此类推。
在一个具体实施例中,还包括:
通过映射集合记录每个所述接口的最新告警时间、和/或连续告警次数、和/或通过告警频率、和/或问题处理效率,并动态调整所述告警模块。
第二部分,本发明提出了一种数据收集存储和智能监控告警的系统,该系统包括:
收集模块,用于实时收集待处理数据并对所述待处理数据进行预处理;
统计模块,用于对预处理后的所述待处理数据按租户和/或接口进行分组,并分别对每组的所述待处理数据进行聚合统计以获得统计数据;
计算模块,用于对所述统计数据按接口进行再分组,接口相同的所述统计数据被划分为同一个线程处理,分别对同一个线程的所述统计数据进行再次统计获得二次统计数据,并将所述二次统计数据发送到下游进行数据处理;
告警模块,用于以预设告警条件获取所述二次统计数据的详细告警配置信息,将满足所述告警条件的所述二次统计数据发送到告警群并以预设规则向开发人员发送告警通知。
有益效果:
本发明提供了一种数据收集存储和智能监控告警的方法及系统,通过引入先进的数据流处理技术,实现对数据的实时采集和处理;采用高性能的存储系统,提供对海量数据的高效存储和检索;结合算法,实现了对数据的智能监控和实时告警。本发明融合实时数据收集、高效存储和智能监控告警,使得在应对大规模、高实时性数据处理方面具有独特的优势。
附图说明
图1是本发明实施例的数据收集存储和智能监控告警的方法流程图;
图2是本发明实施例的数据收集存储和智能监控告警的系统模块示意图;
图3是本发明实施例的数据收集存储和智能监控告警的方法详细流程图;
图4是本发明实施例的数据收集存储和智能监控告警的系统结构示意图。
附图标记:1-收集模块;2-统计模块;3-计算模块;4-告警模块。
具体实施方式
在下文中,将更全面地描述本发明公开的各种实施例。本发明公开可具有各种实施例,并且可在其中做出调整和改变。然而,应理解:不存在将本发明公开的各种实施例限于在此公开的特定实施例的意图,而是应将本发明公开理解为涵盖落入本发明公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。
在本发明公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本发明公开的各种实施例。如在此所使用,单数形式意在也包括复数形式,除非上下文清楚地另有指示。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明公开的各种实施例中被清楚地限定。
实施例1
本发明实施例1公开了一种数据收集存储和智能监控告警的方法,通过引入先进的数据流处理技术,实现对数据的实时采集和处理;采用高性能的存储系统,提供对海量数据的高效存储和检索;结合算法,实现了对数据的智能监控和实时告警。本发明融合实时数据收集、高效存储和智能监控告警,使得在应对大规模、高实时性数据处理方面具有独特的优势。具体流程如说明书附图1和附图3所示。具体方案如下:
一种数据收集存储和智能监控告警的方法,包括:
101.实时收集待处理数据并对待处理数据进行预处理;
102.对预处理后的待处理数据按租户和接口进行分组,并分别对每组的待处理数据进行聚合统计以获得统计数据;
103.对统计数据按接口进行再分组,接口相同的统计数据被划分为同一个线程处理,分别对同一个线程的统计数据进行再次统计获得二次统计数据,并将二次统计数据发送到下游进行数据处理;
104.通过告警模块获取二次统计数据的详细告警配置信息,将满足预设告警条件的二次统计数据发送到告警群并以预设规则发送告警通知。
本实施例的数据收集存储和智能监控告警的方法,适用于多种场景,包括但不限于家庭、商业、汽车或工业领域。例如在家庭安防系统、商业数据中心、智能汽车监控系统或工业设备监测中,可将本实施例的数据收集存储和智能监控告警的方法应用,以便提供更高效率且更安全的数据管理和监测服务。
101.实时收集待处理数据并对待处理数据进行预处理。在本实施例中, 首先利用Flink实时流计算引擎实时读取后端服务所发送请求的响应数据,并对这些数据进行处理、清洗、解析和加工。这些数据可能来自各种设备,例如传感器、监测器或其他网络连接的设备。通过使用Flink实时流计算引擎,能够以高效的方式处理大规模的数据流,并保证数据的实时性和准确性。
清洗数据是为了去除噪声、修复错误和填补缺失值。这样可以确保数据的一致性和可靠性,并为后续的数据分析和应用提供高质量的数据基础。同时,解析数据是将原始数据转换成结构化的格式,方便后续的数据处理和分析操作。在预处理过程中,还可以根据实际需要进行数据加工操作。这包括对数据进行聚合、过滤、转换等操作,以生成更有用的数据形式。例如,可以通过统计分析获得数据的汇总信息,或者将数据转换成特定的格式,以满足不同业务需求。
102.对预处理后的待处理数据按租户和接口进行分组,并分别对每组的待处理数据进行聚合统计以获得统计数据。将预处理后的待处理数据按照租户和接口的组合条件进行分组,将租户和接口相同的数据划分为一组,更方便灵活查询的需求。同时,可以更好地了解不同租户之间的数据差异和特点,为后续的数据分析和应用提供更具体和有价值的信息。并且可以更好地了解每个接口的使用情况和性能表现,为优化系统性能和用户体验提供更具体和有效的指导意见。
进一步的,对每组数据进行聚合统计,以获得更具体和有用的统计数据。例如,可以对每个接口的数据进行平均响应时间、成功率和错误率等方面的统计,以衡量接口的性能表现。在本实施例中,分别对每组待处理数据进行聚合计算,以求得接口调用次数,接口流量,调用成功率,平均响应时长,最小、最大响应时长。通过对预处理后的待处理数据按租户和接口进行分组,并分别对每组的待处理数据进行聚合统计,能够获得更具体和有用的统计数据,从而更好地理解和分析数据,为后续的数据应用和决策提供更准确和有效的支持。
103.对统计数据按接口进行再分组,接口相同的统计数据被划分为同一个线程处理,分别对同一个线程的统计数据进行再次统计获得二次统计数据,并将二次统计数据发送到下游进行数据处理。对统计数据按接口进行再分组,将相同接口的统计数据划分到同一个线程中进行处理。通过将相同接口的统计数据分配给同一个线程,可以充分利用多线程的优势,同时处理多个接口的数据,从而提高整体处理速度,提高处理效率和并发性能。每个线程可以独立地对自己负责的接口进行统计计算,避免了不必要的数据交互和同步操作,提高了处理效率。
在每个线程内部,对统计数据进行再次统计接口调用次数,接口流量,调用成功率,平均响应时长,最小、最大响应时长。可以进一步提高处理效率和并发性能。
104.通过告警模块获取二次统计数据的详细告警配置信息,将满足预设告警条件的二次统计数据发送到告警群并以预设规则发送告警通知。在二次统计数据生成后,通过告警模块获取二次统计数据的详细告警配置信息,告警配置信息包括接口、告警频率、成功率告警阈值、是否启用等字段。在实际应用中,可以针对不同的业务场景和需求进行定制化配置。将二次统计数据与预设的告警条件进行比较,一旦发现满足预设告警条件的二次统计数据,便自动将其发送到告警群并以预设规则发送告警通知。告警群是一个集中的通知平台,可以让相关人员及时获得告警信息并采取措施处理问题。在实际应用中,告警通知可以包括邮件、短信、微信等多种形式,以便不同人群方便地接收和处理告警信息。
同时,可以根据告警级别和紧急程度,设置不同的告警规则和处理流程。例如,对于重要的业务系统或关键性能指标,可以设置更加严格的告警条件和紧急处理流程,以确保问题能够及时得到解决。
在一个具体实施例中,对待处理数据进行预处理具体包括:
利用实时流计算引擎实时读取待处理数据,并对待处理数据进行清洗解析以获得解析结果,将解析结果作为待处理数据的备注以便于后续统计。
在本实施例中,利用Flink实时流计算引擎实时读取后端服务所发送请求的响应数据,并对这些数据进行处理、清洗、解析和加工。Flink是一个强大而灵活的实时流计算引擎,可以处理大规模的数据流,具备高性能、低延迟、容错性和灵活的事件时间处理等特性。在实际应用中,也可根据实际需要选择不同的实时流计算引擎来实时读取待处理数据。
进一步的,对待处理数据进行清洗解析,得到待处理数据的时间并作为待处理数据的备注。备注可以是一个附加字段或属性,用于存储解析结果的相关信息。
在一个具体实施例中,对待处理数据进行预处理还包括:
对待处理数据进行接口调用测试,将接口调用失败的待处理数据存储为失败数据集,以供快速定位查询接口调用失败的待处理数据明细。
在本实施例中,还包括对待处理数据进行接口调用测试。这一步骤的目的是验证待处理数据与外部接口的交互是否正常,并将接口调用失败的待处理数据存储为失败数据集,以便开发人员后续快速定位和查询接口调用失败的待处理数据明细,提高故障排查和处理的效率。在实际应用中,还可将接口调用失败的原因进行分类,并从中分析容易产生异常的原因,以便于有针对性的对数据进行处理,提高对数据进行审查的侧重点。
在一个具体实施例中,对预处理后的待处理数据按租户和接口进行分组,并分别对每组的待处理数据进行聚合统计具体包括:
对预处理后的待处理数据按租户和接口进行分组,使租户和接口相同的待处理数据进入同一个线程进行处理;
根据解析结果分别对每组的待处理数据通过滚动窗口进行聚合统计,对各窗口的待处理数据分别进行聚合计算获得统计数据并存储以供即时查询。
对预处理后的待处理数据按租户和接口的组合条件进行分组。将具有相同租户和接口的待处理数据分配到同一个线程进行处理。这样可以提高数据处理的并行度和效率,减少多线程间的竞争和冲突。
为了更好地理解数据的特征和趋势,进一步根据上述的解析结果备注分别对每组的待处理数据通过滚动窗口进行聚合统计。滚动窗口是一种固定大小的窗口,它会随着时间的推移不断向前移动,并对窗口内的数据进行聚合统计。具体而言,可以设置窗口大小和滑动步长,对每个窗口内的待处理数据进行聚合计算,获得统计数据并存储以供即时查询。在本实施例中,每10s为一个统计窗口,在实际应用中也可根据实际需要调整窗口大小和滑动步长。
对各窗口的待处理数据分别进行聚合计算,以求得接口调用次数,接口流量,调用成功率,平均响应时长,最小、最大响应时长。并将各窗口的统计数据存储以供开发人员即时查询,大量节省了存储空间,避免接口调用大量的无价值数据,从而保证系统对实时性、灵活查询要求的满足。
在一个具体实施例中,对各窗口的待处理数据分别进行聚合计算具体包括:
对每一滚动窗口的待处理数据分别进行聚合计算,以求得接口调用次数、和/或接口流量、和/或调用成功率、和/或平均响应时长、和/或最小响应时长、和/或最大响应时长。
在本实施例中,对每一滚动窗口的待处理数据的聚合计算包括求得接口调用次数、接口流量、调用成功率、平均响应时长、最小响应时长和最大响应时长。在实际应用中,也可根据实际需要调整聚合计算的参数。通过对每一滚动窗口的待处理数据分别进行聚合计算,可以更好地了解数据的特征和趋势,为后续的决策提供有力支持。例如,可以根据接口调用次数和平均响应时长等指标,对接口的性能进行评估和优化;或者根据接口流量和调用成功率等指标,对业务的发展趋势进行预测和规划。
在一个具体实施例中,对同一个线程的统计数据进行再次统计获得二次统计数据具体包括:
在每一线程中注册一个定时器并为定时器设定触发时长;
在定时器触发时再次统计统计数据的接口调用次数、和/或接口流量、和/或调用成功率、和/或平均响应时长、和/或最小响应时长、和/或最大响应时长。
在每个线程内部,需要注册一个定时器,并为定时器设定触发时长。在本实施例中,可以设定每隔5秒钟触发一次定时器,以便于对统计数据的再次统计。在实际应用中,也可根据实际需要调整定时器的触发时长。当定时器触发时,需要再次分别对每一线程的统计数据进行统计,以求得二次统计数据。具体而言,可以根据具体业务需求,统计线程内部的接口调用次数、接口流量、调用成功率、平均响应时长、最小响应时长、最大响应时长等指标。
通过对同一个线程的统计数据进行再次统计获得二次统计数据,可以更好地了解线程的性能和特征,为后续的优化提供有力支持。例如,可以根据二次统计数据,发现某些接口的调用次数和响应时长较高,从而对接口的性能进行优化;或者发现某些线程的流量和成功率较低,从而对线程的资源进行优化和调整。
在一个具体实施例中,告警配置信息包括接口、和/或告警频率、和/或成功率告警阈值、和/或是否启用字段。
在本实施例中,告警配置信息是用来定义在系统运行过程中需要对数据进行监控和告警的相关参数。这些参数包括接口名称、告警频率、成功率告警阈值以及是否启用字段。告警配置信息通常会存储在配置文件、数据库或其他持久化存储中。系统会定期读取这些配置信息,并根据配置的内容来执行相应的告警策略。例如,系统可以根据配置的告警频率和成功率告警阈值来判断是否触发告警,并将告警信息发送给指定的人员或系统。
通过合理配置告警信息,系统可以在出现异常情况时及时发出告警通知,帮助运维人员快速发现和解决问题,确保系统的稳定性和可用性。同时,告警配置也可以根据业务需求进行动态调整,以适应系统运行过程中的变化。
在一个具体实施例中,预设规则具体包括:
两次发送告警通知之间间隔2-3小时;
当连续发送告警通知3-5次后仍没有处理,则自动降低告警通知的发送频率,将两次发送告警通知之间的间隔时间自动增加2-3小时,并以此类推。
在本实施例中,预设规则是用来控制告警通知发送的时间间隔和频率,以保证告警通知的及时性和有效性。在系统运行过程中,预设规则会根据告警通知的发送情况进行自动调整,以适应不同的告警场景。具体而言:两次发送告警通知之间间隔2-3小时:这个规则用来控制告警通知的发送频率。通常情况下,系统在发现异常情况后会立即发送告警通知,但如果异常情况持续存在,频繁地发送告警通知会导致运维人员的疲劳和忽略。因此,需要设置一个合理的告警频率,并确保相邻两次告警通知之间的时间间隔不低于2-3小时。
进一步的,当连续发送告警通知3-5次后仍没有处理,则自动降低告警通知的发送频率:这个规则用来自适应不同的告警场景。当系统发现某个异常情况时,会立即发送告警通知,但如果告警通知一直得不到回复和处理,就会导致重复发送告警通知,甚至出现误报情况。为了避免这种情况,需要设置一个规则,当连续发送告警通知3-5次后仍没有得到回复和处理时,就自动降低告警通知的发送频率,并将相邻两次告警通知之间的时间间隔自动增加2-3小时。
通过合理设置发送告警通知的规则,系统可以在异常情况发生时及时发送告警通知,同时避免重复发送告警通知和误报情况的发生。同时,发送告警通知的规则也可以根据实际情况进行动态调整,以满足不同告警场景的需求。
在一个具体实施例中,还包括:
通过映射集合记录每个接口的最新告警时间、和/或连续告警次数、和/或通过告警频率、和/或问题处理效率,并动态调整告警模块。
在本实施例中,还包括通过映射集合来记录每个接口的最新告警时间、连续告警次数、告警频率和问题处理效率等关键指标,并根据这些指标动态调整告警模块。通过合理记录和分析这些指标,系统可以动态调整告警模块的参数和配置,以适应变化的告警场景。例如,当发现某个接口连续出现异常情况时,系统可以自动增加告警频率和降低告警阈值,以加强对该接口的监控和告警。同时,当运维人员处理问题的效率较低时,系统可以自动增加告警通知的发送频率,加快问题的解决速度。通过这种方式,系统可以提高告警的准确性和有效性,减少误报和漏报的情况,保证系统的稳定性和可用性。
本实施例提供了一种数据收集存储和智能监控告警的方法,通过引入先进的数据流处理技术,实现对数据的实时采集和处理;采用高性能的存储系统,提供对海量数据的高效存储和检索;结合算法,实现了对数据的智能监控和实时告警。本实施例融合实时数据收集、高效存储和智能监控告警,使得在应对大规模、高实时性数据处理方面具有独特的优势。
实施例2
本发明实施例2公开了一种数据收集存储和智能监控告警的系统,将实施例1的一种数据收集存储和智能监控告警的方法系统化,使其更具实用性。数据收集存储和智能监控告警的系统的整体结构图如说明书附图2和附图4所示,具体方案如下:
一种数据收集存储和智能监控告警的系统,该系统包括:
收集模块1,用于实时收集待处理数据并对待处理数据进行预处理;
统计模块2,用于对预处理后的待处理数据按租户和/或接口进行分组,并分别对每组的待处理数据进行聚合统计以获得统计数据;
计算模块3,用于对统计数据按接口进行再分组,接口相同的统计数据被划分为同一个线程处理,分别对同一个线程的统计数据进行再次统计获得二次统计数据,并将二次统计数据发送到下游进行数据处理;
告警模块4,用于以预设告警条件获取二次统计数据的详细告警配置信息,将满足告警条件的二次统计数据发送到告警群并以预设规则向开发人员发送告警通知。
本实施例提出了一种数据收集存储和智能监控告警的系统,将实施例1的一种数据收集存储和智能监控告警的方法系统化,使其更具实用性。
本发明提供了一种数据收集存储和智能监控告警的方法及系统,通过引入先进的数据流处理技术,实现对数据的实时采集和处理;采用高性能的存储系统,提供对海量数据的高效存储和检索;结合算法,实现了对数据的智能监控和实时告警。本发明融合实时数据收集、高效存储和智能监控告警,使得在应对大规模、高实时性数据处理方面具有独特的优势。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。
Claims (6)
1.一种数据收集存储和智能监控告警的方法,其特征在于,包括:
实时收集待处理数据并利用实时流计算引擎实时读取所述待处理数据,并对所述待处理数据进行清洗解析以获得解析结果,将所述解析结果作为所述待处理数据的备注以便于后续统计;
对预处理后的所述待处理数据按租户和接口进行分组,使租户和接口相同的所述待处理数据进入同一个线程进行处理;
根据所述解析结果分别对每组的所述待处理数据通过滚动窗口进行聚合统计;
对每一所述滚动窗口的所述待处理数据分别进行聚合计算,以求得接口调用次数、和/或接口流量、和/或调用成功率、和/或平均响应时长、和/或最小响应时长、和/或最大响应时长以获得统计数据并存储以供即时查询;
对所述统计数据按接口进行再分组,接口相同的所述统计数据被划分为同一个线程处理,在每一所述线程中注册一个定时器并为所述定时器设定触发时长;
在所述定时器触发时再次统计所述统计数据的所述接口调用次数、和/或所述接口流量、和/或所述调用成功率、和/或所述平均响应时长、和/或所述最小响应时长、和/或所述最大响应时长以获得二次统计数据,并将所述二次统计数据发送到下游进行数据处理;
通过告警模块获取所述二次统计数据的详细告警配置信息,将满足预设告警条件的所述二次统计数据发送到告警群并以预设规则发送告警通知。
2.根据权利要求1所述的数据收集存储和智能监控告警的方法,其特征在于,所述对所述待处理数据进行预处理还包括:
对所述待处理数据进行接口调用测试,将接口调用失败的所述待处理数据存储为失败数据集,以供快速定位查询接口调用失败的所述待处理数据明细。
3.根据权利要求1所述的数据收集存储和智能监控告警的方法,其特征在于,所述告警配置信息包括接口、和/或告警频率、和/或成功率告警阈值、和/或是否启用字段。
4.根据权利要求1所述的数据收集存储和智能监控告警的方法,其特征在于,所述预设规则具体包括:
两次发送所述告警通知之间间隔2-3小时;
当连续发送所述告警通知3-5次后仍没有处理,则自动降低所述告警通知的发送频率,将两次发送所述告警通知之间的间隔时间自动增加2-3小时,并以此类推。
5.根据权利要求1所述的数据收集存储和智能监控告警的方法,其特征在于,还包括:
通过映射集合记录每个所述接口的最新告警时间、和/或连续告警次数、和/或通过告警频率、和/或问题处理效率,并动态调整所述告警模块。
6.一种数据收集存储和智能监控告警的系统,其特征在于,包括:
收集模块,用于实时收集待处理数据并对所述待处理数据进行预处理;
统计模块,用于对预处理后的所述待处理数据按租户和/或接口进行分组,并分别对每组的所述待处理数据进行聚合统计以获得统计数据;
计算模块,用于对所述统计数据按接口进行再分组,接口相同的所述统计数据被划分为同一个线程处理,分别对同一个线程的所述统计数据进行再次统计获得二次统计数据,并将所述二次统计数据发送到下游进行数据处理;
告警模块,用于以预设告警条件获取所述二次统计数据的详细告警配置信息,将满足所述告警条件的所述二次统计数据发送到告警群并以预设规则向开发人员发送告警通知;
所述对所述待处理数据进行预处理具体包括:
利用实时流计算引擎实时读取所述待处理数据,并对所述待处理数据进行清洗解析以获得解析结果,将所述解析结果作为所述待处理数据的备注以便于后续统计;
所述对预处理后的所述待处理数据按租户和接口进行分组,并分别对每组的所述待处理数据进行聚合统计具体包括:
对预处理后的所述待处理数据按租户和接口进行分组,使租户和接口相同的所述待处理数据进入同一个线程进行处理;
根据所述解析结果分别对每组的所述待处理数据通过滚动窗口进行聚合统计,对各窗口的所述待处理数据分别进行聚合计算获得统计数据并存储以供即时查询;
所述对各窗口的所述待处理数据分别进行聚合计算具体包括:
对每一所述滚动窗口的所述待处理数据分别进行聚合计算,以求得接口调用次数、和/或接口流量、和/或调用成功率、和/或平均响应时长、和/或最小响应时长、和/或最大响应时长;
所述对同一个线程的所述统计数据进行再次统计获得二次统计数据具体包括:
在每一所述线程中注册一个定时器并为所述定时器设定触发时长;
在所述定时器触发时再次统计所述统计数据的所述接口调用次数、和/或所述接口流量、和/或所述调用成功率、和/或所述平均响应时长、和/或所述最小响应时长、和/或所述最大响应时长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410146349.XA CN117692302B (zh) | 2024-02-02 | 2024-02-02 | 一种数据收集存储和智能监控告警的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410146349.XA CN117692302B (zh) | 2024-02-02 | 2024-02-02 | 一种数据收集存储和智能监控告警的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117692302A CN117692302A (zh) | 2024-03-12 |
CN117692302B true CN117692302B (zh) | 2024-05-28 |
Family
ID=90139420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410146349.XA Active CN117692302B (zh) | 2024-02-02 | 2024-02-02 | 一种数据收集存储和智能监控告警的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117692302B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597861A (zh) * | 2019-09-18 | 2019-12-20 | 中国联合网络通信集团有限公司 | 实时告警方法、装置及设备和计算机可读存储介质 |
CN112416724A (zh) * | 2020-12-04 | 2021-02-26 | 中国建设银行股份有限公司 | 告警处理方法、系统、计算机设备和存储介质 |
CN116846729A (zh) * | 2023-05-16 | 2023-10-03 | 启明信息技术股份有限公司 | 一种基于云容器下多租户模式管理监控告警通知的方法 |
CN116886517A (zh) * | 2023-09-04 | 2023-10-13 | 江苏点石乐投科技有限公司 | 一种基于流量数据的告警系统及方法 |
-
2024
- 2024-02-02 CN CN202410146349.XA patent/CN117692302B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597861A (zh) * | 2019-09-18 | 2019-12-20 | 中国联合网络通信集团有限公司 | 实时告警方法、装置及设备和计算机可读存储介质 |
CN112416724A (zh) * | 2020-12-04 | 2021-02-26 | 中国建设银行股份有限公司 | 告警处理方法、系统、计算机设备和存储介质 |
CN116846729A (zh) * | 2023-05-16 | 2023-10-03 | 启明信息技术股份有限公司 | 一种基于云容器下多租户模式管理监控告警通知的方法 |
CN116886517A (zh) * | 2023-09-04 | 2023-10-13 | 江苏点石乐投科技有限公司 | 一种基于流量数据的告警系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117692302A (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100840129B1 (ko) | 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법 | |
CN112863134B (zh) | 一种农村污水处理设施运行异常的智能诊断系统及方法 | |
CN106940677A (zh) | 一种应用日志数据告警方法及装置 | |
CN108599977B (zh) | 基于统计方法监控系统可用性的系统及方法 | |
CN110213125A (zh) | 一种云环境下基于时序数据的异常检测系统 | |
CN111162949A (zh) | 一种基于Java字节码嵌入技术的接口监测方法 | |
CN108398934B (zh) | 一种用于轨道交通的设备故障监控的系统 | |
CN113297183B (zh) | 一种时间窗口的告警分析方法及装置 | |
CN109948877B (zh) | 一种基于异常事件组合的用电异常精准分析方法 | |
CN110517084B (zh) | 车辆功能活跃度分析方法及系统 | |
CN111245672A (zh) | 一种通用可扩展的追踪业务全链路的监控方法及系统 | |
CN112987696A (zh) | 一种区域配电网设备管理平台及其运行方法 | |
CN110929896A (zh) | 一种系统设备的安全分析方法及装置 | |
CN113271224A (zh) | 节点的定位方法、装置、存储介质及电子装置 | |
CN115441456A (zh) | 一种电网调度支持系统故障诊断方法及装置 | |
CN114283590B (zh) | 车流量高峰预测方法及装置、电子设备 | |
CN117692302B (zh) | 一种数据收集存储和智能监控告警的方法及系统 | |
CN106951360B (zh) | 数据统计完整度计算方法和系统 | |
CN113391611B (zh) | 动力环境监控系统的预警方法、装置及系统 | |
CN116204386B (zh) | 应用服务关系自动识别及监控方法、系统、介质和设备 | |
CN105515192A (zh) | 输变电设备负荷数据接入电力系统的监控预警系统及方法 | |
CN117113135A (zh) | 一种可对异常数据整理分类的碳排放异常监测分析系统 | |
CN114531338A (zh) | 一种基于调用链数据的监控告警和溯源方法及系统 | |
CN116363863A (zh) | 交通数据异常检测方法、装置及交通运维系统 | |
CN114912638A (zh) | 一种有效运行参数上报的数字电缆 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |