CN106850257B - 一种流式数据的检测方法及装置 - Google Patents

一种流式数据的检测方法及装置 Download PDF

Info

Publication number
CN106850257B
CN106850257B CN201611198394.1A CN201611198394A CN106850257B CN 106850257 B CN106850257 B CN 106850257B CN 201611198394 A CN201611198394 A CN 201611198394A CN 106850257 B CN106850257 B CN 106850257B
Authority
CN
China
Prior art keywords
time slot
data
record
time
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611198394.1A
Other languages
English (en)
Other versions
CN106850257A (zh
Inventor
欧阳明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201611198394.1A priority Critical patent/CN106850257B/zh
Publication of CN106850257A publication Critical patent/CN106850257A/zh
Application granted granted Critical
Publication of CN106850257B publication Critical patent/CN106850257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • H04L43/106Active monitoring, e.g. heartbeat, ping or trace-route using time related information in packets, e.g. by adding timestamps

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种流式数据的检测方法及装置。所述流式数据的检测方法包括:数据源节点为目标数据流中每组数据配置基于时间的时隙标记;所述数据处理节点根据所述时隙标记生成时隙记录;所述数据处理节点根据所述时隙记录生成第一时隙清单;数据中心根据预设时间间隔分别获取每个数据节点生成的所述第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单;根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个处理节点中的故障节点。本发明实施例提供的流式数据的检测方法及装置,通过给流式数据配置基于时间的时隙标记,提高流式数据检测的准确度及效率。

Description

一种流式数据的检测方法及装置
技术领域
本发明实施例涉及互联网大数据处理技术领域,尤其涉及一种流式数据的检测方法及装置。
背景技术
在大数据时代,随着数据量的爆炸式增长及对数据处理的环节的增加,在数据运营方面的精细化处理对各家互联网企业提出了更高的要求。如何让不断增长的数据完整无缺的展现在用户面前、如何检测各个节点是否正常工作成为很多大数据系统的关键性问题。
目前绝大多数的大数据处理采用流式数据处理方式,即数据处理采用流水线作业,各个数据处理环节依赖上一处理环节的输出。现有技术中,在采用流式数据处理方式处理大数据时,当某一环节出现问题时,检测结果很难准确定位到具体环节,使得故障点耦合度高,数据检测的精确度及效率较低。
发明内容
本发明提供一种流式数据的检测方法及装置,以提高数据检测的准确度及效率。
第一方面,本发明实施例提供了一种流式数据的检测方法,所述流式数据的检测方法包括:
数据源节点为目标数据流中每组数据配置基于时间的时隙标记,所述每组数据经所述数据源节点依次发送至多个数据处理节点;
所述数据处理节点根据所述时隙标记生成时隙记录,所述时隙记录包括具有相同时隙标记的多组数据对应的初始接收时间、更新时间以及所述多组数据对应的数据量;
所述数据处理节点根据所述时隙记录生成第一时隙清单,所述第一时隙清单包括至少一条所述时隙记录;
数据中心根据预设时间间隔分别获取每个数据节点生成的所述第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单,所述第二时隙清单与所述数据处理节点一一对应;
根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个处理节点中的故障节点。
进一步地,所述数据源节点为目标数据流中每组数据配置基于时间的时隙标记,包括:
若所述目标数据流中断,则生成测试空数据包;
为所述测试空数据包配置基于时间的时隙标记。
进一步地,所述数据处理节点根据所述时隙记录生成第一时隙清单,包括:
当所述数据处理节点将待添加时隙记录添加到时隙清单时,判断所述第一时隙清单中的时隙记录数量是否到达记录数量阈值;
如果所述第一时隙清单中的时隙记录数量到达所述记录数量阈值,则采用回滚的方式将所述待添加时隙记录更新至所述第一时隙清单。
进一步地,所述将每个数据处理节点对应的多个所述第一时隙清单进行合并,包括:
获取待合并的第一时隙清单中的第一时隙记录;
从已存储的第一时隙清单中,查找具有相同时隙标识的第二时隙记录;
根据所述第一时隙记录和所述第二时隙记录分别对应的初始接收时间和更新时间确定合并操作类型,所述合并操作类型包括:累加操作、忽略操作和覆盖操作;
根据确定的合并操作类型将所述第一时隙记录与所述第二时隙记录进行合并。
进一步地,所述根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个处理节点中的故障节点,包括:
获取预设参考时间段内,时隙单位对应的平均数据处理量,所述时隙单位为所述时隙标识对应的时长;
根据所述平均数据处理量和预设波动比例,确定波动区间,所述预设波动比例大于1;
如果目标第二时隙清单中目标时隙记录中的数据量超出所述波动区间,则确定所述目标第二时隙清单对应的数据处理节点为故障节点。
第二方面,本发明实施例还提供了一种流式数据的检测装置,该流式数据的检测装置包括:
时隙标记配置模块,用于数据源节点为目标数据流中每组数据配置基于时间的时隙标记,所述每组数据经所述数据源节点依次发送至多个数据处理节点;
时隙记录生成模块,用于所述数据处理节点根据所述时隙标记生成时隙记录,所述时隙记录包括具有相同时隙标记的多组数据对应的初始接收时间、更新时间以及所述多组数据对应的数据量;
第一时隙清单生成模块,用于所述数据处理节点根据所述时隙记录生成第一时隙清单,所述第一时隙清单包括至少一条所述时隙记录;
第二时隙清单生成模块,用于数据中心根据预设时间间隔分别获取每个数据节点生成的所述第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单,所述第二时隙清单与所述数据处理节点一一对应;
故障节点确定模块,用于根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个处理节点中的故障节点。
进一步地,所述时隙标记配置模块,用于:
若所述目标数据流中断,则生成测试空数据包;
为所述测试空数据包配置基于时间的时隙标记。
进一步地,所述第一时隙清单生成模块,用于:
当所述数据处理节点将待添加时隙记录添加到时隙清单时,判断所述第一时隙清单中的时隙记录数量是否到达记录数量阈值;
如果所述第一时隙清单中的时隙记录数量到达所述记录数量阈值,则采用回滚的方式将所述待添加时隙记录更新至所述第一时隙清单。
进一步地,所述第二时隙清单生成模块,用于:
获取待合并的第一时隙清单中的第一时隙记录;
从已存储的第一时隙清单中,查找具有相同时隙标识的第二时隙记录;
根据所述第一时隙记录和所述第二时隙记录分别对应的初始接收时间和更新时间确定合并操作类型,所述合并操作类型包括:累加操作、忽略操作和覆盖操作;
根据确定的合并操作类型将所述第一时隙记录与所述第二时隙记录进行合并。
进一步地,所述故障节点确定模块,用于:
获取预设参考时间段内,时隙单位对应的平均数据处理量,所述时隙单位为所述时隙标识对应的时长;
根据所述平均数据处理量和预设波动比例,确定波动区间,所述预设波动比例大于1;
如果目标第二时隙清单中目标时隙记录中的数据量超出所述波动区间,则确定所述目标第二时隙清单对应的数据处理节点为故障节点。
本发明实施例,数据源节点为目标数据流中每组数据配置基于时间的时隙标记,并根据时隙标记生成时隙记录,然后根据时隙记录生成第一时隙清单;数据中心根据预设时间间隔分别获取每个数据节点生成的第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单,最后根据多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定多个处理节点中的故障节点。处理流式数据的环节较多,现有技术中,当某一环节出现问题时,检测结果很难准确定位到具体环节,使得故障点耦合度高,数据检测的精确度及效率较低。本申请中,给流式数据配置基于时间的时隙标记,使得流式数据在每个环节中检测时可通过时隙标记确定数据被检测的情况,可将检测结果准确定位到具体处理环节,提高流式数据检测的准确度及效率。
附图说明
图1是本发明实施例一中的一种流式数据的检测方法的流程图;
图2是本发明实施例一中的一种流式数据的检测方法实际场景的流程图;
图3是本发明实施例一中的一种流式数据的检测方法的流程图;
图4是本发明实施例一中的一种流式数据的检测方法的流程图;
图5是本发明实施例一中的一种流式数据的检测方法的流程图;
图6是本发明实施例一中的一种流式数据的检测方法的流程图;
图7是本发明实施例二中的一种流式数据的检测装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种流式数据的检测方法的流程图,本实施例可适用于流式数据完整性检测的场景,该方法可以由服务器来执行,如图1所示,该流式数据的检测方法具体包括如下步骤:
步骤110,数据源节点为目标数据流中每组数据配置基于时间的时隙标记,所述每组数据经所述数据源节点依次发送至多个数据处理节点。
其中,数据源节点可以是数据入口环节,数据的来源可以有两种途径,一种是主动式的(数据采集设备主动采集的),一种是被动式的(数据由其他设备输送过来的)。基于时间的时隙标记可以是按照固定的时隙间隔将数据进行打标,时隙间隔可以根据数据流量进行设定,例如可以是5秒、1分钟、1小时等等。数据处理节点可以包括数据采集节点、数据预处理节点、数据清洗节点、数据分析节点和数据入库节点等,图2为本发明实施例一提供的一种流式数据的检测方法的实际场景的流程图。
在本应用场景下,数据源节点为目标数据流中每组数据配置基于时间的时隙标记的过程可以是,首先将流式数据按照记录集的形式拆分,记录集的形式可以是文件存储或者目录结构存储,当流式数据进入数据源节点时,数据源节点按照预设的时隙间隔将数据记录集进行打标,同一时隙间隔内的记录集打相同的时隙标记,其中,时隙标记的主要索引字段可以是时隙值,时隙值可以根据数据的采集时间进行取模计算获得,每一次时隙间隔可定义为一时隙心跳。示例性的,时隙间隔设置为1小时,表1列出了在相应的时间间隔内对应的时隙值。
表1
时隙值 采集时间区间
16090100 2016-9-1 00:00:00~2016-9-1 00:59:59
16090101 2016-9-1 01:00:00~2016-9-1 01:59:59
…… ……
16090123 2016-9-1 23:00:00~2016-9-1 23:59:59
表1列出了2016年9月1日这一天内每个数据采集区间对应的时隙标记的时隙值,从表1可以看出,时隙值按照时间的时间顺序递增。配置了时隙标记的数据经数据源节点将依次发送至后续多个数据处理节点,后续数据处理环节在检测时都按照该时隙标记。
图3为本发明实施例一提供的一种流式数据的检测方法的流程图,如图3所示,优选的,步骤110包括:
步骤111,若目标数据流中断,则生成测试空数据包。
在本应用场景中,当某一时隙区间没有数据流入即目标数据流中断时,数据源节点会生成测试空数据包。空数据包的形式可以是空文件或空目录,并给该空文件或空目录添加特殊的字符串以表示其中没有数据。
步骤112,为测试空数据包配置基于时间的时隙标记。
在本应用场景下,测试空数据包出现在哪个采集时间区间,给为该测试空数据包配置基于该采集时间区间的时隙标记。示例性的,若测试空数据包出现在采集时间区间为表1中的“2016-9-1 01:00:00~2016-9-1 01:59:59”,那么该测试空数据包的时隙标记的时隙值为“16090101”。
本实施例提供的技术方案,若目标数据流中断,则生成测试空数据包,并为测试空数据包配置基于时间的时隙标记,使得测试空数据包在后续处理节点被测试时显示数据为零而不是没有时隙心跳,可有效的防止处理节点被误判为出故障,进一步提高测试的准确性。
步骤120,数据处理节点根据时隙标记生成时隙记录,时隙记录包括具有相同时隙标记的多组数据对应的初始接收时间、更新时间以及多组数据对应的数据量。
其中,时隙记录可以包括时隙值、初次记录时间、更新时间、记录数、输入量、拆分增量、合并减量、输出量和备份数据等。时隙值可以根据数据的采集时间进行取模计算获得,标记在每条数据记录集上,是时隙标记的主要索引字段,每条数据的统计结果均按照时隙值进行汇总;初次记录时间可以是本时隙心跳在某一处理节点第一次产生数据的记录时间;更新时间可以是本时隙心跳在该处理节点最近一次产生数据的记录时间;记录数可以是本时隙心跳内的所有记录集总数;输入量可以是本时隙心跳内所有记录集中的原始输入数据总量;拆分增量可以是本时隙心跳内因业务需要进行拆分导致的数据条数增量;合并减量可以是本时隙心跳内因业务需要进行数据去重导致的数据条数减量;输出量可以是本时隙心跳内所有记录集中的输出数据量总量;数据备份可以是本时隙心跳内的输入记录集的所有原始数据备份路径。
步骤130,数据处理节点根据时隙记录生成第一时隙清单,第一时隙清单包括至少一条时隙记录。
其中,第一时隙清单可以包括多条时隙记录,分别记录每条时隙记录对应的时隙值、初次记录时间、更新时间、记录数、输入量、拆分增量、合并减量、输出量和备份数据。示例性的,表2为本发明实施例一中的某一处理节点的时隙清单的部分时隙记录。
表2
Figure BDA0001188554720000091
本应用场景下,数据处理节点根据时隙记录生成第一时隙清单的方法可以是当数据处理节点将待添加时隙记录添加到时隙清单时,判断第一时隙清单中的时隙记录数量是否到达记录数量阈值,如果第一时隙清单中的时隙记录数量到达记录数量阈值,则采用回滚的方式将待添加时隙记录更新至第一时隙清单。可选的,当数据处理节点将待添加时隙记录添加到时隙清单时,判断第一时隙清单中是否已经有和待添加时隙记录相同时隙值的时隙记录,如果有,则将待添加时隙记录替换掉原有的时隙记录,示例性的,在某一处理节点中,如果隙清单里已经有一条16090100的记录,当该处理节点又产生一条16090100记录时则直接进行数据的更新操作,即将新产生的16090100记录替换原来的16090100记录。
图4为本发明实施例一提供的一种流式数据的检测方法的流程图,如图4所示,优选的,步骤130包括:
步骤131,当数据处理节点将待添加时隙记录添加到时隙清单时,判断第一时隙清单中的时隙记录数量是否到达记录数量阈值。
记录数量阈值可以是第一时隙清单中可存储时隙记录数量的最大值,该阈值可以根据处理节点的实际资源占用情况来确定,在实际应用场景中,该阈值可设置为任意正整数,如100、200或500等。
步骤132,如果第一时隙清单中的时隙记录数量到达记录数量阈值,则采用回滚的方式将待添加时隙记录更新至第一时隙清单。
其中,回滚的方式可以是将新产生的时隙记录替换最早产生的时隙记录。在本应用场景下,处理节点产生新的时隙记录后,首先查找第一时隙清单中是否与新时隙记录相同时隙值得时隙记录,若没有,则继续判断第一时隙清单的时隙记录数量是否到达阈值,若没有达到,则将新时隙记录添加至第一时隙清单中,若已经达到记录数量阈值,则将新时隙记录替换第一清单中最早产生的时隙记录。
本实施例提供的技术方案,当数据处理节点将待添加时隙记录添加到时隙清单时,判断第一时隙清单中的时隙记录数量是否到达记录数量阈值,如果第一时隙清单中的时隙记录数量到达记录数量阈值,则采用回滚的方式将待添加时隙记录更新至第一时隙清单。第一清单设置记录数量阈值,使得处理节点的时隙清单简洁清晰,在提高数据检测效率同时,有效节省处理节点的资源空间。
步骤140,数据中心根据预设时间间隔分别获取每个数据节点生成的第一时隙清单,并将每个数据处理节点对应的多个第一时隙清单进行合并,得到第二时隙清单,第二时隙清单与数据处理节点一一对应。
其中,预设时间间隔可以是控制中心设置的时间周期,可以是任意的时间间隔正整数,例如1小时、2小时或24小时等。在本应用场景下,将每个数据处理节点对应的多个第一时隙清单进行合并的方法可以是,首先获取待合并的第一时隙清单中的第一时隙记录,然后从已存储的第一时隙清单中查找具有相同时隙标识的第二时隙记录,再次根据第一时隙记录和第二时隙记录分别对应的初始接收时间和更新时间确定合并操作类型,最后根据确定的合并操作类型将第一时隙记录与第二时隙记录进行合并。
图5为本发明实施例一提供的一种流式数据的检测方法的流程图,如图5所示,优选的,步骤140包括:
步骤141,获取待合并的第一时隙清单中的第一时隙记录。
其中,第一时隙记录可以是记录在第一时隙清单中的任意一个时隙记录。
步骤142,从已存储的第一时隙清单中,查找具有相同时隙标识的第二时隙记录。
其中,时隙标识可以是时隙值。
步骤143,根据第一时隙记录和第二时隙记录分别对应的初始接收时间和更新时间确定合并操作类型,合并操作类型包括:累加操作、忽略操作和覆盖操作。
在本应场景下,根据第一时隙记录和第二时隙记录分别对应的初始接收时间和更新时间确定合并操作类型的方法可以是:若第一时隙记录(更新时间)<第二时隙记录(初次记录时间),表示第一时隙记录为新的时隙记录,将第一时隙记录中的信息累加进第二时隙记录中得到新的第二时隙记录;若第一时隙记录(初次记录时间)=第二时隙记录(初次记录时间)且第一时隙记录(更新时间)=第二时隙记录(更新时间),则表示第二时隙记录与第一时隙记录是相同的时隙记录,忽略,不进行合并操作;若第一时隙记录(初次记录时间)=第二时隙记录(初次记录时间)且如若第一时隙记录(更新时间)<第二时隙记录(更新时间),则表示第二时隙记录包含第一时隙记录,将第二时隙记录覆盖第一时隙记录。
步骤144,根据确定的合并操作类型将第一时隙记录与第二时隙记录进行合并。
在本应用场景下,将第一时隙记录与第二时隙记录按照确定的累加操作、忽略操作或覆盖操作进行合并。可选的,如果第一时隙记录与第二时隙记录的时隙值不同,则将第一时隙记录添加至已经存储的第一时隙清单形成第二时隙清单即可。
本实施例的技术方案,将具有相同时隙标识的第一时隙记录和第二时隙记录按照确定的合并规则进行合并,可有效的避免数据冲突。
步骤150,根据多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定多个处理节点中的故障节点。
其中,数据量可以是数据输入量或数据输出量。确定多个处理节点中的故障节点的方法可以采用波动算法对各个处理节点的数据进行严格比对,处理节点之间互相校验来确定哪个节点出现瓶颈或异常。
图6为本发明实施例一提供的一种流式数据的检测方法的流程图,如图6所示,优选的,步骤150包括:
步骤151,获取预设参考时间段内,时隙单位对应的平均数据处理量,时隙单位为时隙标识对应的时长。
其中,预设参考时间段可以是任意的时间段,例如:1天、1周或1个月。示例性的,预设参考时间段为1天,时隙单位为1小时,假设在一天中某个处理节点总的数据输入量为30万,一天有24小时,那么平均数据处理量即为30万除以24得到1.25万。
步骤152,根据平均数据处理量和预设波动比例,确定波动区间,预设波动比例大于1。
在本应用场景下,根据平均数据处理量和预设波动比例确定波动区间的方法可以是,假设定义的波动比例为P(P>1),预设参考时间段内,时隙单位对应的平均数据处理量为N,那么波动区间为N/P-N*P。示例性的,利用上述求出的平均数据处理量1.24万,假设波动比例取1.2,则波动区间为1.03万-1.488万。
步骤153,如果目标第二时隙清单中目标时隙记录中的数据量超出波动区间,则确定目标第二时隙清单对应的数据处理节点为故障节点。
在本应用场景下,假设目标第二时隙清单对应的处理节点为数据清洗节点,若数据清洗节点在控制中心的第二时隙清单中某一条时隙记录的数据量超出波动区间,则表示数据清洗节点出现故障。
本实施例的技术方案,数据源节点为目标数据流中每组数据配置基于时间的时隙标记,并根据时隙标记生成时隙记录,然后根据时隙记录生成第一时隙清单;数据中心根据预设时间间隔分别获取每个数据节点生成的第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单,最后根据多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定多个处理节点中的故障节点。处理流式数据的环节较多,现有技术中,当某一环节出现问题时,检测结果很难准确定位到具体环节,使得故障点耦合度高,数据检测的精确度及效率较低。本申请中,给流式数据配置基于时间的时隙标记,使得流式数据在每个环节中检测时可通过时隙标记确定数据被检测的情况,可将检测结果准确定位到具体处理环节,提高流式数据检测的准确度及效率。
实施例二
图7为本发明实施例二提供的一种流式数据的检测装置的结构示意图,如图7所示,该流式数据的检测装置包括:时隙标记配置模块210,时隙记录生成模块220,第一时隙清单生成模块230,第二时隙清单生成模块240和故障节点确定模块250。
时隙标记配置模块210,用于数据源节点为目标数据流中每组数据配置基于时间的时隙标记,每组数据经数据源节点依次发送至多个数据处理节点;
时隙记录生成模块220,用于数据处理节点根据时隙标记生成时隙记录,时隙记录包括具有相同时隙标记的多组数据对应的初始接收时间、更新时间以及多组数据对应的数据量;
第一时隙清单生成模块230,用于数据处理节点根据时隙记录生成第一时隙清单,第一时隙清单包括至少一条时隙记录;
第二时隙清单生成模块240,用于数据中心根据预设时间间隔分别获取每个数据节点生成的第一时隙清单,并将每个数据处理节点对应的多个第一时隙清单进行合并,得到第二时隙清单,第二时隙清单与数据处理节点一一对应;
故障节点确定模块250,用于根据多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定多个处理节点中的故障节点。
优选的,时隙标记配置模块210,用于:
若目标数据流中断,则生成测试空数据包;
为测试空数据包配置基于时间的时隙标记。
优选的,第一时隙清单生成模块230,用于:
当数据处理节点将待添加时隙记录添加到时隙清单时,判断第一时隙清单中的时隙记录数量是否到达记录数量阈值;
如果第一时隙清单中的时隙记录数量到达记录数量阈值,则采用回滚的方式将待添加时隙记录更新至第一时隙清单。
优选的,第二时隙清单生成模块240,用于:
获取待合并的第一时隙清单中的第一时隙记录;
从已存储的第一时隙清单中,查找具有相同时隙标识的第二时隙记录;
根据第一时隙记录和第二时隙记录分别对应的初始接收时间和更新时间确定合并操作类型,合并操作类型包括:累加操作、忽略操作和覆盖操作;
根据确定的合并操作类型将第一时隙记录与第二时隙记录进行合并。
优选的,故障节点确定模块250,用于:
获取预设参考时间段内,时隙单位对应的平均数据处理量,时隙单位为时隙标识对应的时长;
根据平均数据处理量和预设波动比例,确定波动区间,预设波动比例大于1;
如果目标第二时隙清单中目标时隙记录中的数据量超出波动区间,则确定目标第二时隙清单对应的数据处理节点为故障节点。
上述装置可执行本发明前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明前述所有实施例所提供的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种流式数据的检测方法,其特征在于,包括:
数据源节点为目标数据流中每组数据配置基于时间的时隙标记,所述每组数据经所述数据源节点依次发送至多个数据处理节点;
所述数据处理节点根据所述时隙标记生成时隙记录,所述时隙记录包括具有相同时隙标记的多组数据对应的初始接收时间、更新时间以及所述多组数据对应的数据量;
所述数据处理节点根据所述时隙记录生成第一时隙清单,所述第一时隙清单包括至少一条所述时隙记录;
数据中心根据预设时间间隔分别获取每个数据处理节点生成的所述第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单,所述第二时隙清单与所述数据处理节点一一对应;
根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个数据处理节点中的故障节点。
2.根据权利要求1所述的流式数据的检测方法,其特征在于,所述数据源节点为目标数据流中每组数据配置基于时间的时隙标记,包括:
若所述目标数据流中断,则生成测试空数据包;
为所述测试空数据包配置基于时间的时隙标记。
3.根据权利要求1所述的流式数据的检测方法,其特征在于,所述数据处理节点根据所述时隙记录生成第一时隙清单,包括:
当所述数据处理节点将待添加时隙记录添加到时隙清单时,判断所述第一时隙清单中的时隙记录数量是否到达记录数量阈值;
如果所述第一时隙清单中的时隙记录数量到达所述记录数量阈值,则采用回滚的方式将所述待添加时隙记录更新至所述第一时隙清单。
4.根据权利要求1所述的流式数据的检测方法,其特征在于,所述将每个数据处理节点对应的多个所述第一时隙清单进行合并,包括:
获取待合并的第一时隙清单中的第一时隙记录;
从已存储的第一时隙清单中,查找具有相同时隙标记的第二时隙记录;
根据所述第一时隙记录和所述第二时隙记录分别对应的初始接收时间和更新时间确定合并操作类型,所述合并操作类型包括:累加操作、忽略操作和覆盖操作;
根据确定的合并操作类型将所述第一时隙记录与所述第二时隙记录进行合并。
5.根据权利要求1所述的流式数据的检测方法,其特征在于,所述根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个处理节点中的故障节点,包括:
获取预设参考时间段内,时隙单位对应的平均数据处理量,所述时隙单位为所述时隙标记对应的时长;
根据所述平均数据处理量和预设波动比例,确定波动区间,所述预设波动比例大于1;
如果目标第二时隙清单中目标时隙记录中的数据量超出所述波动区间,则确定所述目标第二时隙清单对应的数据处理节点为故障节点。
6.一种流式数据的检测装置,其特征在于,包括:
时隙标记配置模块,用于数据源节点为目标数据流中每组数据配置基于时间的时隙标记,所述每组数据经所述数据源节点依次发送至多个数据处理节点;
时隙记录生成模块,用于所述数据处理节点根据所述时隙标记生成时隙记录,所述时隙记录包括具有相同时隙标记的多组数据对应的初始接收时间、更新时间以及所述多组数据对应的数据量;
第一时隙清单生成模块,用于所述数据处理节点根据所述时隙记录生成第一时隙清单,所述第一时隙清单包括至少一条所述时隙记录;
第二时隙清单生成模块,用于数据中心根据预设时间间隔分别获取每个数据处理节点生成的所述第一时隙清单,并将每个数据处理节点对应的多个所述第一时隙清单进行合并,得到第二时隙清单,所述第二时隙清单与所述数据处理节点一一对应;
故障节点确定模块,用于根据所述多个数据处理节点对应的多个第二时隙清单中记录的数据量,确定所述多个数据处理节点中的故障节点。
7.根据权利要求6所述的流式数据的检测装置,其特征在于,所述时隙标记配置模块,用于:
若所述目标数据流中断,则生成测试空数据包;
为所述测试空数据包配置基于时间的时隙标记。
8.根据权利要求6所述的流式数据的检测装置,其特征在于,所述第一时隙清单生成模块,用于:
当所述数据处理节点将待添加时隙记录添加到时隙清单时,判断所述第一时隙清单中的时隙记录数量是否到达记录数量阈值;
如果所述第一时隙清单中的时隙记录数量到达所述记录数量阈值,则采用回滚的方式将所述待添加时隙记录更新至所述第一时隙清单。
9.根据权利要求6所述的流式数据的检测装置,其特征在于,所述第二时隙清单生成模块,用于:
获取待合并的第一时隙清单中的第一时隙记录;
从已存储的第一时隙清单中,查找具有相同时隙标记的第二时隙记录;
根据所述第一时隙记录和所述第二时隙记录分别对应的初始接收时间和更新时间确定合并操作类型,所述合并操作类型包括:累加操作、忽略操作和覆盖操作;
根据确定的合并操作类型将所述第一时隙记录与所述第二时隙记录进行合并。
10.根据权利要求6所述的流式数据的检测装置,其特征在于,所述故障节点确定模块,用于:
获取预设参考时间段内,时隙单位对应的平均数据处理量,所述时隙单位为所述时隙标记对应的时长;
根据所述平均数据处理量和预设波动比例,确定波动区间,所述预设波动比例大于1;
如果目标第二时隙清单中目标时隙记录中的数据量超出所述波动区间,则确定所述目标第二时隙清单对应的数据处理节点为故障节点。
CN201611198394.1A 2016-12-22 2016-12-22 一种流式数据的检测方法及装置 Active CN106850257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611198394.1A CN106850257B (zh) 2016-12-22 2016-12-22 一种流式数据的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611198394.1A CN106850257B (zh) 2016-12-22 2016-12-22 一种流式数据的检测方法及装置

Publications (2)

Publication Number Publication Date
CN106850257A CN106850257A (zh) 2017-06-13
CN106850257B true CN106850257B (zh) 2020-03-20

Family

ID=59136838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611198394.1A Active CN106850257B (zh) 2016-12-22 2016-12-22 一种流式数据的检测方法及装置

Country Status (1)

Country Link
CN (1) CN106850257B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3944122B2 (ja) * 2003-06-05 2007-07-11 株式会社東芝 情報記録媒体、情報記録方法、情報記録装置、情報再生方法、情報再生装置
CN102271091B (zh) * 2011-09-06 2013-09-25 电子科技大学 一种网络异常事件分类方法
CN103345514B (zh) * 2013-07-09 2016-06-08 焦点科技股份有限公司 大数据环境下的流式数据处理方法
KR101534477B1 (ko) * 2013-10-31 2015-07-07 삼성에스디에스 주식회사 설비 제어 망에서 확률 모델을 활용한 능동 수동 데이터 수집 장치 및 방법
CN105227601A (zh) * 2014-06-17 2016-01-06 华为技术有限公司 流处理系统中的数据处理方法、装置和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于WSN的实时动态交通流数据获取相关技术研究;丁男;《中国博士学位论文全文数据库工程科技辑》;20150515;第2012卷(第5期);全文 *

Also Published As

Publication number Publication date
CN106850257A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
US10649838B2 (en) Automatic correlation of dynamic system events within computing devices
CN108089893B (zh) 冗余资源的确定方法、装置、终端设备与存储介质
US10877935B2 (en) Stream computing system and method
CN109587008B (zh) 检测异常流量数据的方法、装置及存储介质
US10664837B2 (en) Method and system for real-time, load-driven multidimensional and hierarchical classification of monitored transaction executions for visualization and analysis tasks like statistical anomaly detection
CN110995482B (zh) 告警分析方法、装置、计算机设备及计算机可读存储介质
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US8028194B2 (en) Sequencing technique to account for a clock error in a backup system
CN107995266A (zh) 埋点数据处理方法、装置、计算机设备和存储介质
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
CN107992415B (zh) 一种交易系统的故障定位和分析方法及相关服务器
CN110191000B (zh) 一种数据处理方法、消息追踪监控方法和分布式系统
CN103198010A (zh) 软件测试方法、装置及系统
CN107748790B (zh) 一种线上服务系统、数据加载方法、装置及设备
JP6079243B2 (ja) 障害分析支援装置、障害分析支援方法、及びプログラム
CN109408383B (zh) 一种Java内存泄漏分析方法及装置
CN112988446B (zh) 一种故障根因检测方法及装置
CN102930207A (zh) 一种api日志监控方法及装置
CN105159925B (zh) 一种数据库集群数据分配方法及系统
CN112433991A (zh) 一种问题定位方法和装置
CN102546205B (zh) 一种故障关系生成及故障确定方法及装置
CN106708648B (zh) 一种文本数据的存储校验方法和系统
CN106850257B (zh) 一种流式数据的检测方法及装置
US10223398B2 (en) Merging filtered out anomaly data with normal data from device polling
CN115599830A (zh) 一种数据关联关系的确定方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant