CN111723070A - 一种检测数据丢失的方法及系统 - Google Patents

一种检测数据丢失的方法及系统 Download PDF

Info

Publication number
CN111723070A
CN111723070A CN202010558745.5A CN202010558745A CN111723070A CN 111723070 A CN111723070 A CN 111723070A CN 202010558745 A CN202010558745 A CN 202010558745A CN 111723070 A CN111723070 A CN 111723070A
Authority
CN
China
Prior art keywords
offset
data
topic
consumption
feedback information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010558745.5A
Other languages
English (en)
Inventor
刘利刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010558745.5A priority Critical patent/CN111723070A/zh
Publication of CN111723070A publication Critical patent/CN111723070A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种检测数据丢失的方法及系统,所述方法包括获取生产者将数据写入到主题TOPIC中的数据条数作为生产偏移量,获取消费者从所述TOPIC中消费的数据的数据条数作为消费偏移量;判断所述生产偏移量与所述消费偏移量是否一致;若否,则确定所述消费者在消费所述TOPIC中数据过程中存在数据丢失。本申请提供的技术方案可以获取生产偏移量和消费偏移量,然后比较生产偏移量和消费偏移量是否一致,进而可以得知消费者在消费目标类TOPIC中数据过程中时存在数据丢失。

Description

一种检测数据丢失的方法及系统
技术领域
本申请涉及计算机技术领域,特别是涉及一种检测数据丢失的方法及系统。
背景技术
Kafka是一种高吞吐量的分布式发布订阅消息系统,在Kafka中包括生产者、消费者和主题TOPIC。生产者在写入数据时,会将数据发布到目标类TOPIC,消费者通常以消费者组的形式从目标类TOPIC消费数据,消费者组包括多个消费者。
消费者在消费目标类TOPIC中全部数据后,可以保证需要处理的数据均被处理。但是,生产者写入的数据中存在不符合规则的数据时,消费者会直接跳过该部分数据,导致该部分数据无法被消费者消费,也就是说该部分数据被丢失。
但是,消费者在消费目标类TOPIC中数据过程中,无法得知是否存在丢数据的问题。
发明内容
为了解决上述技术问题,本申请提供了一种检测数据丢失的方法及系统,可以得知消费者在消费目标类TOPIC中数据过程中时存在数据丢失。
本申请实施例公开了如下技术方案:
第一方面,本申请提供了一种检测数据丢失的方法,包括:
获取生产者将数据写入到主题TOPIC中的数据条数作为生产偏移量,获取消费者从所述TOPIC中消费的数据的数据条数作为消费偏移量;判断所述生产偏移量与所述消费偏移量是否一致;若否,则确定所述消费者在消费所述TOPIC中数据过程中存在数据丢失
可选的,在所述消费者消费所述TOPIC中数据后,若所述生产偏移量与所述消费偏移量一致;所述方法还包括:获取所述TOPIC中的数据被存储为所述HDFS文件的数据条数作为分布式HDFS文件偏移量;判断所述HDFS文件偏移量与所述消费偏移量是否一致;若否,则生成第二反馈信息,所述第二反馈信息指示所述TOPIC中的数据被存储为所述HDFS文件过程中存在数据丢失。
可选的,在所述消费者消费所述TOPIC中数据后,若所述生产偏移量与所述消费偏移量一致;所述方法还包括:获取所述TOPIC中的数据参与实时计算的数据条数作为实时计算偏移量;判断所述实时计算偏移量与所述消费偏移量是否一致;若否,则生成第三反馈信息,所述第三反馈信息指示所述TOPIC中的数据参与实时计算过程中存在数据丢失。
可选的,所述方法还包括:当判断所述生产偏移量与所述消费偏移量不一致时,获取所述生产偏移量与所述消费偏移量的第一差值;若所述第一差值大于第一预设阈值,则将所述第一差值写入到所述第一反馈信息中,所述第一反馈信息用于提示数据丢失的数量。
所述方法还包括:当所述HDFS文件偏移量与所述消费偏移量不一致时,获取所述HDFS文件偏移量与所述消费偏移量的第二差值;若所述第二差值大于第二预设阈值,则将所述第二差值写入到所述第二反馈信息中,所述第二反馈信息用于提示数据丢失的数量。
所述方法还包括:当所述实时计算偏移量与所述消费偏移量不一致时,获取所述实时计算偏移量与所述消费偏移量的第三差值;若所述第三差值大于第三预设阈值,则将所述第三差值写入到所述第三反馈信息中,所述第三反馈信息用于提示数据丢失的数量。
第二方面,本申请提供了一种检测数据丢失的系统,包括:获取单元、判断单元和反馈单元;所述获取单元,用于获取生产者将数据写入到主题TOPIC中的数据条数作为生产偏移量,获取消费者从所述TOPIC中消费的数据的数据条数作为消费偏移量;所述判断单元,用于判断所述生产偏移量与所述消费偏移量是否一致;所述反馈单元,若判断结果为否时,用于反馈所述消费者在消费所述TOPIC中数据过程中存在数据丢失。
可选的,在所述消费者消费所述TOPIC中数据后,若所述生产偏移量与所述消费偏移量一致;所述获取单元,还用于获取所述TOPIC中的数据被存储为所述HDFS文件的数据条数作为分布式HDFS文件偏移量;所述判断单元,还用于判断所述HDFS文件偏移量与所述消费偏移量是否一致;所述反馈单元,若判断结果为否时,还用于生成第二反馈信息,所述第二反馈信息指示所述TOPIC中的数据被存储为所述HDFS文件过程中存在数据丢失。
可选的,在所述消费者消费所述TOPIC中数据后,若所述生产偏移量与所述消费偏移量一致;所述获取单元,还用于获取所述TOPIC中的数据参与实时计算的数据条数作为实时计算偏移量;所述判断单元,还用于判断所述实时计算偏移量与所述消费偏移量是否一致;所述反馈单元,若判断结果为否时,还用于生成第三反馈信息,所述第三反馈信息指示所述TOPIC中的数据参与实时计算过程中存在数据丢失。
可选的,所述获取单元,还用于当判断所述生产偏移量与所述消费偏移量不一致时,获取所述生产偏移量与所述消费偏移量的第一差值;所述反馈单元,还用于若所述第一差值大于第一预设阈值,则将所述第一差值写入到所述第一反馈信息中,所述第一反馈信息用于提示数据丢失的数量。
可选的,所述获取单元,还用于当所述HDFS文件偏移量与所述消费偏移量不一致时,获取所述HDFS文件偏移量与所述消费偏移量的第二差值;所述反馈单元,还用于若所述第二差值大于第二预设阈值,则将所述第二差值写入到所述第二反馈信息中,所述第二反馈信息用于提示数据丢失的数量。
可选的,所述获取单元,还用于当所述实时计算偏移量与所述消费偏移量不一致时,获取所述实时计算偏移量与所述消费偏移量的第三差值;所述反馈单元,还用于若所述第三差值大于第三预设阈值,则将所述第三差值写入到所述第三反馈信息中,所述第三反馈信息用于提示数据丢失的数量。
由上述技术方案可以看出,本申请具有以下优点:
本发明提供的一种检测数据丢失的方法及系统,所述方法包括获取生产者将数据写入到主题TOPIC中的数据条数作为生产偏移量,获取消费者从所述TOPIC中消费的数据的数据条数作为消费偏移量;判断所述生产偏移量与所述消费偏移量是否一致;若否,则确定所述消费者在消费所述TOPIC中数据过程中存在数据丢失。本申请提供的技术方案可以获取生产偏移量和消费偏移量,然后比较生产偏移量和消费偏移量是否一致,进而可以得知消费者在消费目标类TOPIC中数据过程中时存在数据丢失。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种检测数据丢失的方法流程图;
图2为本申请实施例提供的一种生产消费的示意图;
图3为本申请实施例提供的又一种检测数据丢失的方法流程图;
图4A为本申请实施例提供的再一种检测数据丢失的方法流程图;
图4B为本申请实施例提供的另一种检测数据丢失的方法流程图;
图5为本申请实施例提供的一种检测数据丢失的系统示意图。
具体实施方式
在Kafka中,消费者在消费目标类TOPIC中全部数据后,可以保证需要处理的数据均被处理。但是,目标类TOPIC中数据并不是全部都符合规则,因此,会存在部分数据无法被消费者消费的情况,消费者会直接跳过该部分数据,进而导致该部分数据无法被消费,从而出现数据丢失的情况。
为了解决上述问题,本申请提供了一种检测数据丢失的方法及系统,该方法通过获取生产者将数据写入到主题TOPIC中的数据条数作为生产偏移量以及消费者从所述TOPIC中消费的数据的数据条数作为消费偏移量,然后比较生产偏移量和消费偏移量,当生产偏移量和消费偏移量不一致时,则确定存在数据丢失。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面以具体的场景介绍本申请的实施例,
实施例一:
本申请实施例一提供了一种检测数据丢失的方法,下面结合附图具体说明。
参见图1,该图为本申请实施例提供的一种检测数据丢失的方法流程图。
该方法包括:
步骤101:获取生产者将数据写入到主题TOPIC中的数据条数作为生产偏移量,获取消费者从所述TOPIC中消费的数据的数据条数作为消费偏移量。
当生产者将数据写入到TOPIC中时,生产者每写入一数据条数据,生产偏移量将会增加1个计数,即生产偏移量为生产者将数据写入到TOPIC中的数据条数。
同理,消费偏移量为消费者从TOPIC中消费数据的数据条数。
为了便于本领域技术人员的理解,下面结合附图具体说明。
参见图2,该图为本申请实施例提供的一种生产消费的示意图。
每当生产者201产生一个数据2A后,会将该数据2A写入到TOPIC中,此时生产者将数据2A写入到了TOPIC中,生产偏移量会增加一个计数。
每当消费者202从TOPIC中消费一个数据2B后,消费偏移量会增加一个计数。
步骤102:判断所述生产偏移量与所述消费偏移量是否一致。
当生产者写入数据的数据条数和消费者消费数据的数据条数一致时,则可以确定消费者将生产者生产的数据全部消费,消费者没有跳过任何一部分数据,而是将生产者写入的数据全部消费。因此,需要先判断生产偏移量和消费偏移量是否一致。
步骤103:若否,则确定所述消费者在消费所述TOPIC中数据过程中存在数据丢失。
当所述生产偏移量与所述消费偏移量不一致时,则确定所述消费者在消费所述TOPIC中数据过程中存在数据丢失。
需要说明的是,为了检测全部类别的TOPIC是否存在丢失数据,本领域技术人员还可以根据实际情况,自定义需要检测的目标类别的TOPIC。
以上所述的方法,可以通过编写scala代码,每日定时获取kafka中TOPIC的生产偏移量和消费偏移量,并将检测结果存储到数据库表中,也可以将异常的检测结果进行标准,以提示数据丢失。
本领域技术人员可以根据实际情况设置异常的检测结果,例如,当数据丢失大于5时,则认为是检测结果异常,也可以是一旦出现数据丢失则认为检测结果异常,对此,本申请不限定。
本申请提供的一种检测数据丢失的方法,所述方法包括获取生产者将数据写入到主题TOPIC中的数据条数作为生产偏移量,获取消费者从所述TOPIC中消费的数据的数据条数作为消费偏移量;判断所述生产偏移量与所述消费偏移量是否一致;若否,则确定所述消费者在消费所述TOPIC中数据过程中存在数据丢失。本申请提供的技术方案可以获取生产偏移量和消费偏移量,然后比较生产偏移量和消费偏移量是否一致,进而可以得知消费者在消费目标类TOPIC中数据过程中时存在数据丢失。
实施例二:
本申请实施例二提供了又一种检测数据丢失的方法,下面结合附图具体说明。
参见图3,该图为本申请实施例提供的又一种检测数据丢失的方法流程图。
该方法在实施例一的基础上还包括:
步骤301:当判断所述生产偏移量与所述消费偏移量不一致时,获取所述生产偏移量与所述消费偏移量的第一差值。
当生产偏移量和消费偏移量不一致时,可以获取生产偏移量和消费偏移量的第一差值,从而得知数据丢失的程度。
步骤302:若所述第一差值大于第一预设阈值,则将所述第一差值写入到所述第一反馈信息中,所述第一反馈信息用于提示数据丢失的数量。
当第一差值大于第一预设阈值时,则确定数据丢失的程度达到预设的程度,从而触发将第一差值写入到第一反馈信息中,然后利用该第一反馈信息提示数据丢失的数量。
实施例三:
本申请实施例三提供了再一种检测数据丢失的方法,下面结合附图具体说明。
参见图4A,该图为本申请实施例提供的再一种检测数据丢失的方法流程图。
在所述消费者消费所述TOPIC中数据后,若所述生产偏移量与所述消费偏移量一致;该方法还包括:
步骤401:获取所述TOPIC中的数据被存储为所述HDFS文件的数据条数作为分布式HDFS文件偏移量。
步骤402:判断所述HDFS文件偏移量与所述消费偏移量是否一致。
步骤403:若否,则生成第二反馈信息,所述第二反馈信息指示所述TOPIC中的数据被存储为所述HDFS文件过程中存在数据丢失。
步骤404:当所述HDFS文件偏移量与所述消费偏移量不一致时,获取所述HDFS文件偏移量与所述消费偏移量的第二差值。
步骤405:若所述第二差值大于第二预设阈值,则将所述第二差值写入到所述第二反馈信息中,所述第二反馈信息用于提示数据丢失的数量。
需要说明的是,当消费者消费TOPIC中的数据后,TOPIC中的数据还需要参与实时计算或存储为HDFS文件,其中,参与实时计算的数据条数并不影响存储为HDFS的数据条数。因此,当确定所述消费者在消费所述TOPIC中数据过程中不存在数据丢失的情况时,则还需要判断后续存储为HDFS文件过程中是否存在丢失数据。
参见图4B,该图为本申请实施例提供的另一种检测数据丢失的方法流程图。
该方法包括:
步骤406:获取所述TOPIC中的数据参与实时计算的数据条数作为实时计算偏移量。
步骤407:判断所述实时计算偏移量与所述消费偏移量是否一致。
步骤408:若否,则生成第三反馈信息,所述第三反馈信息指示所述TOPIC中的数据参与实时计算过程中存在数据丢失。
步骤409:当所述实时计算偏移量与所述消费偏移量不一致时,获取所述实时计算偏移量与所述消费偏移量的第三差值。
步骤410:若所述第三差值大于第三预设阈值,则将所述第三差值写入到所述第三反馈信息中,所述第三反馈信息用于提示数据丢失的数量。
其中,步骤401-405与步骤406-410可以是同时执行的两种并列的方案,步骤401-405执行过程不影响步骤406-410的执行过程。
实施例四:
本申请实施例四提供了一种检测数据丢失的系统,下面结合附图具体说明。
参见图5,该图为本申请实施例提供的一种检测数据丢失的系统示意图。
该系统包括:获取单元501、判断单元502和反馈单元503。
所述获取单元501,用于获取生产者将数据写入到主题TOPIC中的数据条数作为生产偏移量,获取消费者从所述TOPIC中消费的数据的数据条数作为消费偏移量。
所述判断单元502,用于判断所述生产偏移量与所述消费偏移量是否一致。
所述反馈单元503,若判断结果为否时,用于反馈所述消费者在消费所述TOPIC中数据过程中存在数据丢失。
可选的,在所述消费者消费所述TOPIC中数据后,若所述生产偏移量与所述消费偏移量一致;所述获取单元501,还用于获取所述TOPIC中的数据被存储为所述HDFS文件的数据条数作为分布式HDFS文件偏移量;所述判断单元502,还用于判断所述HDFS文件偏移量与所述消费偏移量是否一致;所述反馈单元503,若判断结果为否时,还用于生成第二反馈信息,所述第二反馈信息指示所述TOPIC中的数据被存储为所述HDFS文件过程中存在数据丢失。
可选的,在所述消费者消费所述TOPIC中数据后,若所述生产偏移量与所述消费偏移量一致;所述获取单元501,还用于获取所述TOPIC中的数据参与实时计算的数据条数作为实时计算偏移量;所述判断单元502,还用于判断所述实时计算偏移量与所述消费偏移量是否一致;所述反馈单元503,若判断结果为否时,还用于生成第三反馈信息,所述第三反馈信息指示所述TOPIC中的数据参与实时计算过程中存在数据丢失。
可选的,所述获取单元501,还用于当判断所述生产偏移量与所述消费偏移量不一致时,获取所述生产偏移量与所述消费偏移量的第一差值;所述反馈单元503,还用于若所述第一差值大于第一预设阈值,则将所述第一差值写入到所述第一反馈信息中,所述第一反馈信息用于提示数据丢失的数量。
可选的,所述获取单元501,还用于当所述HDFS文件偏移量与所述消费偏移量不一致时,获取所述HDFS文件偏移量与所述消费偏移量的第二差值;所述反馈单元503,还用于若所述第二差值大于第二预设阈值,则将所述第二差值写入到所述第二反馈信息中,所述第二反馈信息用于提示数据丢失的数量。
可选的,所述获取单元501,还用于当所述实时计算偏移量与所述消费偏移量不一致时,获取所述实时计算偏移量与所述消费偏移量的第三差值;所述反馈单元503,还用于若所述第三差值大于第三预设阈值,则将所述第三差值写入到所述第三反馈信息中,所述第三反馈信息用于提示数据丢失的数量。
本申请提供的一种检测数据丢失的系统,包括:获取单元、判断单元和反馈单元;所述获取单元,用于获取生产者将数据写入到主题TOPIC中的数据条数作为生产偏移量,获取消费者从所述TOPIC中消费的数据的数据条数作为消费偏移量;所述判断单元,用于判断所述生产偏移量与所述消费偏移量是否一致;所述反馈单元,若判断结果为否时,用于反馈所述消费者在消费所述TOPIC中数据过程中存在数据丢失。本申请提供的技术方案可以获取生产偏移量和消费偏移量,然后比较生产偏移量和消费偏移量是否一致,进而可以得知消费者在消费目标类TOPIC中数据过程中时存在数据丢失。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。

Claims (12)

1.一种检测数据丢失的方法,其特征在于,包括:
获取生产者将数据写入到主题TOPIC中的数据条数作为生产偏移量,获取消费者从所述TOPIC中消费的数据的数据条数作为消费偏移量;
判断所述生产偏移量与所述消费偏移量是否一致;
若否,则确定所述消费者在消费所述TOPIC中数据过程中存在数据丢失。
2.根据权利要求1所述的方法,其特征在于,在所述消费者消费所述TOPIC中数据后,若所述生产偏移量与所述消费偏移量一致;所述方法还包括:
获取所述TOPIC中的数据被存储为所述HDFS文件的数据条数作为分布式HDFS文件偏移量;
判断所述HDFS文件偏移量与所述消费偏移量是否一致;
若否,则生成第二反馈信息,所述第二反馈信息指示所述TOPIC中的数据被存储为所述HDFS文件过程中存在数据丢失。
3.根据权利要求1所述的方法,其特征在于,在所述消费者消费所述TOPIC中数据后,若所述生产偏移量与所述消费偏移量一致;所述方法还包括:
获取所述TOPIC中的数据参与实时计算的数据条数作为实时计算偏移量;
判断所述实时计算偏移量与所述消费偏移量是否一致;
若否,则生成第三反馈信息,所述第三反馈信息指示所述TOPIC中的数据参与实时计算过程中存在数据丢失。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当判断所述生产偏移量与所述消费偏移量不一致时,获取所述生产偏移量与所述消费偏移量的第一差值;
若所述第一差值大于第一预设阈值,则将所述第一差值写入到所述第一反馈信息中,所述第一反馈信息用于提示数据丢失的数量。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述HDFS文件偏移量与所述消费偏移量不一致时,获取所述HDFS文件偏移量与所述消费偏移量的第二差值;
若所述第二差值大于第二预设阈值,则将所述第二差值写入到所述第二反馈信息中,所述第二反馈信息用于提示数据丢失的数量。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当所述实时计算偏移量与所述消费偏移量不一致时,获取所述实时计算偏移量与所述消费偏移量的第三差值;
若所述第三差值大于第三预设阈值,则将所述第三差值写入到所述第三反馈信息中,所述第三反馈信息用于提示数据丢失的数量。
7.一种检测数据丢失的系统,其特征在于,包括:获取单元、判断单元和反馈单元;
所述获取单元,用于获取生产者将数据写入到主题TOPIC中的数据条数作为生产偏移量,获取消费者从所述TOPIC中消费的数据的数据条数作为消费偏移量;
所述判断单元,用于判断所述生产偏移量与所述消费偏移量是否一致;
所述反馈单元,若判断结果为否时,用于反馈所述消费者在消费所述TOPIC中数据过程中存在数据丢失。
8.根据权利要求7所述的系统,其特征在于,在所述消费者消费所述TOPIC中数据后,若所述生产偏移量与所述消费偏移量一致;所述获取单元,还用于获取所述TOPIC中的数据被存储为所述HDFS文件的数据条数作为分布式HDFS文件偏移量;
所述判断单元,还用于判断所述HDFS文件偏移量与所述消费偏移量是否一致;
所述反馈单元,若判断结果为否时,还用于生成第二反馈信息,所述第二反馈信息指示所述TOPIC中的数据被存储为所述HDFS文件过程中存在数据丢失。
9.根据权利要求7所述的系统,其特征在于,在所述消费者消费所述TOPIC中数据后,若所述生产偏移量与所述消费偏移量一致;所述获取单元,还用于获取所述TOPIC中的数据参与实时计算的数据条数作为实时计算偏移量;
所述判断单元,还用于判断所述实时计算偏移量与所述消费偏移量是否一致;
所述反馈单元,若判断结果为否时,还用于生成第三反馈信息,所述第三反馈信息指示所述TOPIC中的数据参与实时计算过程中存在数据丢失。
10.根据权利要求7所述的系统,其特征在于,所述获取单元,还用于当判断所述生产偏移量与所述消费偏移量不一致时,获取所述生产偏移量与所述消费偏移量的第一差值;
所述反馈单元,还用于若所述第一差值大于第一预设阈值,则将所述第一差值写入到所述第一反馈信息中,所述第一反馈信息用于提示数据丢失的数量。
11.根据权利要求8所述的系统,其特征在于,所述获取单元,还用于当所述HDFS文件偏移量与所述消费偏移量不一致时,获取所述HDFS文件偏移量与所述消费偏移量的第二差值;
所述反馈单元,还用于若所述第二差值大于第二预设阈值,则将所述第二差值写入到所述第二反馈信息中,所述第二反馈信息用于提示数据丢失的数量。
12.根据权利要求9所述的系统,其特征在于,所述获取单元,还用于当所述实时计算偏移量与所述消费偏移量不一致时,获取所述实时计算偏移量与所述消费偏移量的第三差值;
所述反馈单元,还用于若所述第三差值大于第三预设阈值,则将所述第三差值写入到所述第三反馈信息中,所述第三反馈信息用于提示数据丢失的数量。
CN202010558745.5A 2020-06-18 2020-06-18 一种检测数据丢失的方法及系统 Pending CN111723070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010558745.5A CN111723070A (zh) 2020-06-18 2020-06-18 一种检测数据丢失的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010558745.5A CN111723070A (zh) 2020-06-18 2020-06-18 一种检测数据丢失的方法及系统

Publications (1)

Publication Number Publication Date
CN111723070A true CN111723070A (zh) 2020-09-29

Family

ID=72567396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010558745.5A Pending CN111723070A (zh) 2020-06-18 2020-06-18 一种检测数据丢失的方法及系统

Country Status (1)

Country Link
CN (1) CN111723070A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107509119A (zh) * 2017-07-11 2017-12-22 北京潘达互娱科技有限公司 一种监控报警方法与装置
CN109344030A (zh) * 2018-09-21 2019-02-15 四川长虹电器股份有限公司 流式故障数据写入处理的方法
CN109766195A (zh) * 2018-12-13 2019-05-17 平安普惠企业管理有限公司 监测消息队列中数据丢失的方法及相关产品

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107509119A (zh) * 2017-07-11 2017-12-22 北京潘达互娱科技有限公司 一种监控报警方法与装置
CN109344030A (zh) * 2018-09-21 2019-02-15 四川长虹电器股份有限公司 流式故障数据写入处理的方法
CN109766195A (zh) * 2018-12-13 2019-05-17 平安普惠企业管理有限公司 监测消息队列中数据丢失的方法及相关产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王岩等: "一种基于Kafka的可靠的Consumer的设计方案", 《软件》 *

Similar Documents

Publication Publication Date Title
CN111143102B (zh) 异常数据检测方法、装置、存储介质及电子设备
CN106817295A (zh) 一种消息处理装置和方法
CN107861864A (zh) 自动化测试方法、系统及计算机可读存储介质
JPWO2020214587A5 (zh)
CN109697247B (zh) 一种数据准确性的检测方法及装置
GB2604081A (en) Identification of constituent events in an event storm in operations management
WO2019019429A1 (zh) 一种虚拟机异常检测方法、装置、设备及存储介质
CN113254918B (zh) 信息处理方法、电子设备和计算机可读存储介质
JP2013205894A (ja) 異常検出装置、プログラムおよび異常検出方法
CN111400294B (zh) 数据异常监测方法、装置及系统
CN113946983A (zh) 产品可靠性薄弱环节评估方法、装置和计算机设备
CN111723070A (zh) 一种检测数据丢失的方法及系统
CN110399903B (zh) 异常数据的检测方法及装置、计算机可读存储介质
CN104142885B (zh) 一种用于对被测程序进行异常测试的方法和装置
CN107402970B (zh) 信息生成方法及装置
US11940890B2 (en) Timing index anomaly detection method, device and apparatus
CN114629690B (zh) 设备安全基线合规检测方法、装置和计算机设备
CN116307342A (zh) 触控显示屏的生产控制方法及控制装置
US11526162B2 (en) Method for detecting abnormal event and apparatus implementing the same method
CN113821443A (zh) 应用程序的功能检测方法、装置、设备及存储介质
CN111428886A (zh) 一种故障诊断的深度学习模型自适应更新的方法及装置
CN114334696A (zh) 质量检测方法及装置、电子设备和计算机可读存储介质
CN113176971A (zh) 一种单板自检方法及装置
CN112463534B (zh) 一种日报生成方法、装置、设备及介质
CN114741673B (zh) 行为风险检测方法、聚类模型构建方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200929

RJ01 Rejection of invention patent application after publication