CN110750562A - 基于Storm的实时数据比对预警方法及系统 - Google Patents

基于Storm的实时数据比对预警方法及系统 Download PDF

Info

Publication number
CN110750562A
CN110750562A CN201810803452.1A CN201810803452A CN110750562A CN 110750562 A CN110750562 A CN 110750562A CN 201810803452 A CN201810803452 A CN 201810803452A CN 110750562 A CN110750562 A CN 110750562A
Authority
CN
China
Prior art keywords
data
comparison
real
early warning
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810803452.1A
Other languages
English (en)
Other versions
CN110750562B (zh
Inventor
李巍
柳庆
张舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suqian City Public Security Bureau
Wuhan Fenghuo Zhongzhi Wisdom Star Technology Co ltd
Original Assignee
Wuhan Beacon Wisdom Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Beacon Wisdom Star Technology Co Ltd filed Critical Wuhan Beacon Wisdom Star Technology Co Ltd
Priority to CN201810803452.1A priority Critical patent/CN110750562B/zh
Publication of CN110750562A publication Critical patent/CN110750562A/zh
Application granted granted Critical
Publication of CN110750562B publication Critical patent/CN110750562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种基于Storm的实时数据比对预警方法及系统,该方法包括以下步骤:S1、将来自多种数据源的实时多维数据进行数据清洗和标准化后,以json数据格式按不同数据源分主题发送至分布式Kafka消息队列;S2、将数据比对规则存储在RDBMS;S3、从RDBMS加载比对规则到内存,利用Storm集群技术,将Kafka集群中的实时多维数据与内存中的比对规则进行比对碰撞,并新建Kafka主题存放实时比对的预警结果;S4、消费Kafka预警结果主题,将结果写入RDBMS,通过查询接口接收查询请求,进行预警展示。本发明不受数据源的限制,适用于不同来源的实时数据接入;提高了系统稳定性;提升整个业务场景下数据处理的性能,保证实时数据的低延迟比对预警。

Description

基于Storm的实时数据比对预警方法及系统
技术领域
本发明涉及数据处理及实时计算领域,尤其涉及一种基于Storm的实时数据比对预警方法及系统。
背景技术
数据的价值随着时间的流逝而降低,事件出现后必须尽快对它们进行处理,最好事件出现时便立刻对其进行处理,发生一个事件进行一次处理,而不是缓存起来成一批处理。若把持续到达的数据简单地放到传统数据库管理系统(DBMS)中,并在其中进行操作,是不切实际的。传统的 DBMS 并不是为快速连续地存放单的数据单元而设计的,而且也不支持“持续处理”,而“持续处理”是数据流应用的典型特征。若采用 MapReduce 来处理实时数据流也很难稳定地满足应用需求,这是因为 Hadoop MapReduce 框架为批处理做了高度优化,典型的是通过调度批量任务来操作静态数据,任务不是常驻服务,数据也不是实时流入。
实时数据比对预警是公安行业治安防控领域的重要应用,从现有海量多维数据的采集汇总到最终预警需经过多个环节,对预警的实时性要求较高。若将数据直接增量抽入HDFS,会由于入库的延迟无法保障时效性,不满足公安实时作战的需求,甚至会出现因数据量过大而导致的数据积压情况。
发明内容
本发明的目的在于提供一种基于Storm的实时数据比对预警方法及系统,旨在实现实时多维数据的接入、低延迟比对预警以及查询统计功能,帮助用户实时掌控目标对象信息。
本发明是这样实现的:
一方面,本发明提供一种基于Storm的实时数据比对预警方法,包括以下步骤:
S1、将来自多种数据源的实时多维数据进行数据清洗和标准化后,以json数据格式按不同数据源分主题发送至分布式Kafka消息队列;
S2、将数据比对规则存储在RDBMS;
S3、从RDBMS加载比对规则到内存,利用Storm集群技术,将Kafka集群中的实时多维数据与内存中的比对规则进行比对碰撞,并新建Kafka主题存放实时比对的预警结果;
S4、消费Kafka预警结果主题,将结果写入RDBMS,通过查询接口接收查询请求,进行预警展示。
进一步地,所述步骤S1包括:
当数据源为增量更新的数据库时,采用Logstash工具定时增量抽取数据到分布式Kafka消息队列;所述Logstash工具包括输入插件、过滤插件以及输出插件,所述输入插件根据输入数据源配置,所述过滤插件根据过滤需要配置,所述输出插件配置为指定数据输出源为Kafka集群对应主题及json数据格式,所述输入插件、所述过滤插件以及所述输出插件形成管道连接数据输入源与数据输出源,形成数据的自动处理与抽取。
进一步地,所述步骤S1包括:
当数据源为实时上传的文件时,自动从服务器下载解析数据文件,并清洗、标准化为json数据格式输入分布式Kafka消息队列,具体包括:首先连接ftp服务器,获取相应文件名,判断是否已经下载;若否,则自动下载新文件到目标服务器,逐行解析文件,转换为json数据格式;启动Kafka生产者,将上述json数据流写入Kafka集群对应主题。
进一步地,所述步骤S1包括:
当数据源为服务接口时,自动从服务接口获取实时更新数据,并清洗、标准化为json数据格式输入分布式Kafka消息队列,具体包括:首先根据配置调度策略,增量获取实时更新数据;然后滤除无用字段,标准化字段类型,转换为json数据格式;启动Kafka生产者,将上述json数据流写入Kafka集群对应主题。
进一步地,所述步骤S2具体包括:
在RDBMS新建比对规则表,设计并固定表结构,用于比对规则的存储与标准化管理;通过规则录入接口接收比对规则,通过输入信息监控、验证录入的规则格式,不匹配规则的不入库并予以提醒,通过验证的规则写入数据库进行存储。
进一步地,所述步骤S3具体包括:
S31、全量读取比对规则表,加载比对规则到内存,配置调度策略,定期刷新比对规则;
S32、利用Storm集群技术中的Spout组件接收Kafka集群推送的实时流数据,在open方法进行初始化时新建Kafka消费者,后在nextTuple方法中获取实时多维数据并传送给Storm集群技术中的Bolt组件;
S33、利用Storm集群技术中的Bolt组件获取实时多维数据,在prepare方法中新建Kafka生产者,execute方法与内存中的比对规则进行关键字段匹配,判断是否匹配成功;若成功,则标准化预警数据为json数据格式,调用生产者,将预警数据发送给Kafka集群;若未命中,则丢弃该条数据,不做处理;
S34、设置Spout组件和Bolt组件属性,创建拓扑,打包上传至Storm集群服务器,开始拓扑比对计算。
进一步地,所述步骤S4具体包括:
S41、在RDBMS中新建预警结果表,设计并固定表结构,用于比对结果的存储和标准化管理;
S42、新建消费者,获取Kafka集群中预警结果主题数据,标准化后写入上述预警结果表;
S43、通过查询接口接收用户查询请求,按照不同维度进行查询,在前台页面展示查询的预警结果。
进一步地,所述方法还包括:
S5,查询比对规则,对临时对象进行布控比对申请、审批、撤控,对接入数据、预警结果、比对规则进行统计展示。
进一步地,所述步骤S5具体包括:
S51、通过比对规则查询接口接收比对规则查询的请求,按不同维度进行查询,并在前台查询展示;
S52、进行临时对象的比对申请、审批、撤控,将临时对象打上标记,提交比对规则申请,审批通过后予以入库;对比对规则表的临时对象记录进行删除操作;
S53、按不同维度对接入数据、预警结果、比对规则进行统计查询,并在前台页面展示。
另一方面,本发明还提供一种基于Storm的实时数据比对预警系统,包括:
数据接入模块,用于将来自多种数据源的实时多维数据进行数据清洗和标准化后,以json数据格式按不同数据源分主题发送至分布式Kafka消息队列;
规则录入模块,用于将数据比对规则存储在RDBMS;
实时比对模块,用于从RDBMS加载比对规则到内存,利用Storm集群技术,将Kafka集群中的实时多维数据与内存中的比对规则进行比对碰撞,并新建Kafka主题存放实时比对的预警结果;
预警展示模块,用于消费Kafka预警结果主题,将结果写入RDBMS,通过查询接口接收查询请求,进行预警展示。
进一步地,所述数据接入模块包括:
数据库接入单元,用于数据库增量更新数据的实时同步,采用Logstash工具定时增量抽取数据到分布式Kafka消息队列;所述Logstash工具包括输入插件、过滤插件以及输出插件,所述输入插件根据输入数据源配置,所述过滤插件根据过滤需要配置,所述输出插件配置为指定数据输出源为Kafka集群对应主题及json数据格式,所述输入插件、所述过滤插件以及所述输出插件形成管道连接数据输入源与数据输出源,形成数据的自动处理与抽取。
进一步地,所述数据接入模块包括:
文件接入单元,用于文件类数据的实时同步,自动从服务器下载解析数据文件,并清洗、标准化为json数据格式输入分布式Kafka消息队列,具体包括:首先连接ftp服务器,获取相应文件名,判断是否已经下载;若否,则自动下载新文件到目标服务器,逐行解析文件,转换为json数据格式;启动Kafka生产者,将上述json数据流写入Kafka集群对应主题。
进一步地,所述数据接入模块包括:
接口接入单元,用于接口类数据的实时同步,自动从服务接口获取实时更新数据,并清洗、标准化为json数据格式输入分布式Kafka消息队列,具体包括:首先根据配置调度策略,增量获取实时更新数据;然后滤除无用字段,标准化字段类型,转换为json数据格式;启动Kafka生产者,将上述json数据流写入Kafka集群对应主题。
进一步地,所述规则录入模块具体用于:
在RDBMS新建比对规则表,设计并固定表结构,用于比对规则的存储与标准化管理;通过规则录入接口接收比对规则,通过输入信息监控、验证录入的规则格式,不匹配规则的不入库并予以提醒,通过验证的规则写入数据库进行存储。
进一步地,所述实时比对模块具体包括:
加载规则单元,用于全量读取比对规则表,加载比对规则到内存,配置调度策略,定期刷新比对规则;
实时数据接收单元,用于利用Storm集群技术中的Spout组件接收Kafka集群推送的实时流数据,在open方法进行初始化时新建Kafka消费者,后在nextTuple方法中获取实时多维数据并传送给Storm集群技术中的Bolt组件;
比对逻辑处理单元,用于利用Storm集群技术中的Bolt组件获取实时多维数据,在prepare方法中新建Kafka生产者,execute方法与内存中的比对规则进行关键字段匹配,判断是否匹配成功;若成功,则标准化预警数据为json数据格式,调用生产者,将预警数据发送给Kafka集群;若未命中,则丢弃该条数据,不做处理;
拓扑计算单元,用于设置Spout组件和Bolt组件属性,创建拓扑,打包上传至Storm集群服务器,开始拓扑比对计算。
进一步地,所述预警展示模块包括:
结果保存单元,用于在RDBMS中新建预警结果表,设计并固定表结构,用于比对结果的存储和标准化管理;新建消费者,获取Kafka集群中预警结果主题数据,标准化后写入上述预警结果表;
查询展示单元,由于通过查询接口接收用户查询请求,按照不同维度进行查询,在前台页面展示查询的预警结果。
进一步地,还包括比对管理模块,用于对临时对象进行布控比对申请、审批、撤控,对接入数据、预警结果、比对规则进行统计展示。
进一步地,所述比对管理模块具体包括:
规则查询单元,用于通过比对规则查询接口接收比对规则查询的请求,按不同维度进行查询,并在前台查询展示;
临时比对单元,用于进行临时对象的比对申请、审批、撤控,将临时对象打上标记,提交比对规则申请,审批通过后予以入库;对比对规则表的临时对象记录进行删除操作;
统计展示单元,用于按不同维度对接入数据、预警结果、比对规则进行统计查询,并在前台页面展示。
与现有技术相比,本发明具有以下有益效果:
本发明提供的这种基于Storm的实时数据比对预警方法及系统,根据不同数据源设计实时数据接入方式并清洗、标准化后输入分布式消息队列Kafka,同时加载比对规则到内存,基于Storm集群技术进行实时比对碰撞,将比对结果输入Kafka后再写入RDBMS进行持久化存储,其效果在于:第一,不受数据源的限制,适用于不同来源的实时数据接入;第二,分布式消息队列Kafka,一方面为接入的实时数据缓冲,一方面解耦Storm集群与RDBMS的交互,提高了系统稳定性;第三,加载比对规则到内存,基于Storm集群技术进行高效拓扑比对计算,从而提升整个业务场景下数据处理的性能,保证实时数据的低延迟比对预警。
附图说明
图1为本发明实施例提供的一种基于Storm的实时数据比对预警方法的整体流程图;
图2为本发明实施例提供的一种基于Storm的实时数据比对预警方法的数据接入流程图;
图3为本发明实施例提供的一种基于Storm的实时数据比对预警方法的实时比对流程图;
图4为本发明实施例提供的一种基于Storm的实时数据比对预警系统的框图;
图5为本发明实施例提供的数据接入模块的框图;
图6为本发明实施例提供的实时比对模块的框图;
图7为本发明实施例提供的预警展示模块的框图;
图8为本发明实施例提供的比对管理模块的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种基于Storm的实时数据比对预警方法,包括以下步骤:
步骤S1、将来自多种数据源的实时多维数据按时间、数据类型等多方面进行数据清洗和标准化后,以json数据格式按不同数据源分主题发送至分布式Kafka消息队列,并统计接入的实时数据量,利用RDBMS存储;数据源包括增量更新的数据库、实时上传的文件以及服务接口传输的数据等。
如图2所示,作为实施方式之一,步骤S1具体包括:
S11、当数据源为增量更新的数据库时,采用Logstash工具定时增量抽取数据到分布式Kafka消息队列;所述Logstash工具包括输入插件、过滤插件以及输出插件,先通过编写配置文件对输入插件、过滤插件以及输出插件进行配置,具体地,所述输入插件根据输入数据源配置,配置内容包括数据库URL、用户名、密码、调度规则、sql语句等;所述过滤插件根据过滤需要配置,配置内容包括字段过滤、字段类型改变等;所述输出插件配置为指定数据输出源为Kafka集群对应主题及json数据格式,完成上述配置后,启动Logstash实例,所述输入插件、所述过滤插件以及所述输出插件形成管道连接数据输入源与数据输出源,形成数据的自动处理与抽取;程序解析抽取日志,统计数据日增量,写入RDBMS的数据统计表;
S12、当数据源为实时上传的文件时,通过程序自动从服务器下载解析数据文件,并清洗、标准化为json数据格式输入分布式Kafka消息队列,具体包括:首先连接ftp服务器,获取相应文件名,判断是否已经下载;若否,则自动下载新文件到目标服务器,逐行解析文件,转换为json数据格式,并统计数据量,按天汇总统计结果写入RDBMS的数据统计表;启动Kafka生产者,将上述json数据流写入Kafka集群对应主题;清理删除目标服务器上已解析文件,降低空间占用;
S13、当数据源为服务接口时,通过程序自动从服务接口获取实时更新数据,并清洗、标准化为json数据格式输入分布式Kafka消息队列,具体包括:首先根据配置调度策略,增量获取实时更新数据;然后滤除无用字段,标准化字段类型,转换为json数据格式,并统计数据量,按天汇总统计结果写入RDBMS的数据统计表;启动Kafka生产者,将上述json数据流写入Kafka集群对应主题。
本发明实施例根据不同数据源设计不同的实时数据接入方式,不受数据源的限制,适用于不同来源的实时数据接入,实时数据清洗、标准化后输入分布式消息队列Kafka,一方面为接入的实时数据缓冲,一方面解耦Storm集群与RDBMS的交互,提高了系统稳定性。
步骤S2、将数据比对规则存储在RDBMS,通过规则录入接口接收比对规则,使比对规则标准化入库。
作为实施方式之一,所述步骤S2具体包括:
在RDBMS新建比对规则表,设计并固定表结构,用于比对规则的存储与标准化管理;通过规则录入接口接收比对规则,通过输入的字符数、字符类型、正则表达式等手段监控、验证录入的规则格式,不匹配规则的不入库并予以提醒,通过验证的规则写入数据库进行存储。
步骤S3、从RDBMS加载比对规则到内存,利用Storm集群技术,将Kafka集群中的实时多维数据与内存中的比对规则进行比对碰撞,并新建Kafka主题存放实时比对的预警结果。
如图3所示,作为实施方式之一,所述步骤S3具体包括:
S31、全量读取比对规则表,加载比对规则到内存,配置调度策略,定期刷新比对规则;
S32、利用Storm集群技术中的Spout组件接收Kafka集群推送的实时流数据,在open方法进行初始化时新建Kafka消费者,后在nextTuple方法中获取实时多维数据并传送给Storm集群技术中的Bolt组件;
S32、利用Storm集群技术中的Bolt组件获取实时多维数据,在prepare方法中新建Kafka生产者,execute方法与内存中的比对规则进行关键字段匹配,判断是否匹配成功;若成功,则标准化预警数据为json数据格式,调用生产者,将预警数据发送给Kafka集群;若未命中,则丢弃该条数据,不做处理;
S34、设置Spout组件和Bolt组件属性,创建拓扑,打包上传至Storm集群服务器,开始拓扑比对计算。
本发明实施例中,通过加载比对规则到内存,基于Storm集群技术进行高效拓扑比对计算,从而提升整个业务场景下数据处理的性能,保证实时数据的低延迟比对预警。
步骤S4、消费Kafka预警结果主题,将结果写入RDBMS,通过查询接口接收查询请求,进行预警展示。
作为实施方式之一,所述步骤S4具体包括:
S41、在RDBMS中新建预警结果表,设计并固定表结构,用于比对结果的存储和标准化管理;
S42、新建消费者,获取Kafka集群中预警结果主题数据,标准化后写入上述预警结果表;
S43、通过查询接口接收用户查询请求,按照预警事件、预警类别等维度进行查询,在前台页面展示查询的预警结果。
本发明实施例提供将比对结果存储在RDBMS中的预警结果表中,并提供查询接口供用户查询,帮助用户实时掌控目标对象信息。
作为本实施例的优选,所述方法还包括:
步骤S5,查询比对规则,对临时对象进行布控比对申请、审批、撤控,对接入数据、预警结果、比对规则进行统计展示。
进一步地,所述步骤S5具体包括:
S51、通过比对规则查询接口接收比对规则查询的请求,按规则类型、比对目标等维度进行查询,并在前台查询展示;
S52、进行临时对象的比对申请、审批、撤控,将临时对象打上标记,提交比对规则申请,审批通过后予以入库;对比对规则表的临时对象记录进行删除操作;
S53、按日期、数据源分类等维度对接入数据、预警结果、比对规则进行统计查询,并在前台页面展示。
基于同一发明构思,本发明实施例还提供一种基于Storm的实时数据比对预警系统,该系统的实施可以参见前述方法的实施,重复之处不再赘述。
下述为本发明实施例提供的一种基于Storm的实时数据比对预警系统,可以用于执行上述基于Storm的实时数据比对预警方法实施例,如图4所示,该系统包括:
数据接入模块10,用于将来自多种数据源的实时多维数据进行数据清洗和标准化后,以json数据格式按不同数据源分主题发送至分布式Kafka消息队列;
规则录入模块20,用于将数据比对规则存储在RDBMS;
实时比对模块30,用于从RDBMS加载比对规则到内存,利用Storm集群技术,将Kafka集群中的实时多维数据与内存中的比对规则进行比对碰撞,并新建Kafka主题存放实时比对的预警结果;
预警展示模块40,用于消费Kafka预警结果主题,将结果写入RDBMS,通过查询接口接收查询请求,进行预警展示。
如图5所示,作为实施方式之一,所述数据接入模块10包括:
数据库接入单元101,用于数据库增量更新数据的实时同步,采用Logstash工具定时增量抽取数据到分布式Kafka消息队列;所述Logstash工具包括输入插件、过滤插件以及输出插件,所述输入插件根据输入数据源配置,所述过滤插件根据过滤需要配置,所述输出插件配置为指定数据输出源为Kafka集群对应主题及json数据格式,所述输入插件、所述过滤插件以及所述输出插件形成管道连接数据输入源与数据输出源,形成数据的自动处理与抽取。
文件接入单元102,用于文件类数据的实时同步,自动从服务器下载解析数据文件,并清洗、标准化为json数据格式输入分布式Kafka消息队列,具体包括:首先连接ftp服务器,获取相应文件名,判断是否已经下载;若否,则自动下载新文件到目标服务器,逐行解析文件,转换为json数据格式;启动Kafka生产者,将上述json数据流写入Kafka集群对应主题。
接口接入单元103,用于接口类数据的实时同步,自动从服务接口获取实时更新数据,并清洗、标准化为json数据格式输入分布式Kafka消息队列,具体包括:首先根据配置调度策略,增量获取实时更新数据;然后滤除无用字段,标准化字段类型,转换为json数据格式;启动Kafka生产者,将上述json数据流写入Kafka集群对应主题。
作为实施方式之一,所述规则录入模块20具体用于:
在RDBMS新建比对规则表,设计并固定表结构,用于比对规则的存储与标准化管理;通过规则录入接口接收比对规则,通过输入信息监控、验证录入的规则格式,不匹配规则的不入库并予以提醒,通过验证的规则写入数据库进行存储。
如图6所示,作为实施方式之一,所述实时比对模块30具体包括:
加载规则单元301,用于全量读取比对规则表,加载比对规则到内存,配置调度策略,定期刷新比对规则;
实时数据接收单元302,用于利用Storm集群技术中的Spout组件接收Kafka集群推送的实时流数据,在open方法进行初始化时新建Kafka消费者,后在nextTuple方法中获取实时多维数据并传送给Storm集群技术中的Bolt组件;
比对逻辑处理单元303,用于利用Storm集群技术中的Bolt组件获取实时多维数据,在prepare方法中新建Kafka生产者,execute方法与内存中的比对规则进行关键字段匹配,判断是否匹配成功;若成功,则标准化预警数据为json数据格式,调用生产者,将预警数据发送给Kafka集群;若未命中,则丢弃该条数据,不做处理;
拓扑计算单元304,用于设置Spout组件和Bolt组件属性,创建拓扑,打包上传至Storm集群服务器,开始拓扑比对计算。
如图7所示,作为实施方式之一,所述预警展示模块40包括:
结果保存单元401,用于在RDBMS中新建预警结果表,设计并固定表结构,用于比对结果的存储和标准化管理;新建消费者,获取Kafka集群中预警结果主题数据,标准化后写入上述预警结果表;
查询展示单元402,通过查询接口接收用户查询请求,按照不同维度进行查询,在前台页面展示查询的预警结果。
如图8所示,作为本实施例的优选,该系统还包括比对管理模块50,用于对临时对象进行布控比对申请、审批、撤控,对接入数据、预警结果、比对规则进行统计展示。
作为实施方式之一,所述比对管理模块50具体包括:
规则查询单元501,用于通过比对规则查询接口接收比对规则查询的请求,按不同维度进行查询,并在前台查询展示;
临时比对单元502,用于进行临时对象的比对申请、审批、撤控,将临时对象打上标记,提交比对规则申请,审批通过后予以入库;对比对规则表的临时对象记录进行删除操作;
统计展示单元503,用于按不同维度对接入数据、预警结果、比对规则进行统计查询,并在前台页面展示。
本发明实施例提供的这种基于Storm的实时数据比对预警方法及系统,适用于分布式大数据实时流计算领域,根据不同数据源设计实时数据接入方式并清洗、标准化后输入分布式消息队列Kafka,同时加载比对规则到内存,基于Storm集群技术进行实时比对碰撞,将比对结果输入Kafka后再写入RDBMS进行持久化存储,实现实时多维数据的接入、低延迟比对预警以及查询统计功能,帮助用户实时掌控目标对象信息,其效果在于:第一,不受数据源的限制,适用于不同来源的实时数据接入;第二,分布式消息队列Kafka,一方面为接入的实时数据缓冲,一方面解耦Storm集群与RDBMS的交互,提高了系统稳定性;第三,加载比对规则到内存,基于Storm集群技术进行高效拓扑比对计算,从而提升整个业务场景下数据处理的性能,保证实时数据的低延迟比对预警。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于Storm的实时数据比对预警方法,其特征在于,包括以下步骤:
S1、将来自多种数据源的实时多维数据进行数据清洗和标准化后,以json数据格式按不同数据源分主题发送至分布式Kafka消息队列;
S2、将数据比对规则存储在RDBMS;
S3、从RDBMS加载比对规则到内存,利用Storm集群技术,将Kafka集群中的实时多维数据与内存中的比对规则进行比对碰撞,并新建Kafka主题存放实时比对的预警结果;
S4、消费Kafka预警结果主题,将结果写入RDBMS,通过查询接口接收查询请求,进行预警展示。
2.如权利要求1所述的基于Storm的实时数据比对预警方法,其特征在于,所述步骤S1包括:
当数据源为增量更新的数据库时,采用Logstash工具定时增量抽取数据到分布式Kafka消息队列;所述Logstash工具包括输入插件、过滤插件以及输出插件,所述输入插件根据输入数据源配置,所述过滤插件根据过滤需要配置,所述输出插件配置为指定数据输出源为Kafka集群对应主题及json数据格式,所述输入插件、所述过滤插件以及所述输出插件形成管道连接数据输入源与数据输出源,形成数据的自动处理与抽取。
3.如权利要求1所述的基于Storm的实时数据比对预警方法,其特征在于,所述步骤S1包括:
当数据源为实时上传的文件时,自动从服务器下载解析数据文件,并清洗、标准化为json数据格式输入分布式Kafka消息队列,具体包括:首先连接ftp服务器,获取相应文件名,判断是否已经下载;若否,则自动下载新文件到目标服务器,逐行解析文件,转换为json数据格式;启动Kafka生产者,将上述json数据流写入Kafka集群对应主题。
4.如权利要求1所述的基于Storm的实时数据比对预警方法,其特征在于,所述步骤S1包括:
当数据源为服务接口时,自动从服务接口获取实时更新数据,并清洗、标准化为json数据格式输入分布式Kafka消息队列,具体包括:首先根据配置调度策略,增量获取实时更新数据;然后滤除无用字段,标准化字段类型,转换为json数据格式;启动Kafka生产者,将上述json数据流写入Kafka集群对应主题。
5.如权利要求1所述的基于Storm的实时数据比对预警方法,其特征在于,所述步骤S2具体包括:
在RDBMS新建比对规则表,设计并固定表结构,用于比对规则的存储与标准化管理;通过规则录入接口接收比对规则,通过输入信息监控、验证录入的规则格式,不匹配规则的不入库并予以提醒,通过验证的规则写入数据库进行存储。
6.如权利要求1所述的基于Storm的实时数据比对预警方法,其特征在于,所述步骤S3具体包括:
S31、全量读取比对规则表,加载比对规则到内存,配置调度策略,定期刷新比对规则;
S32、利用Storm集群技术中的Spout组件接收Kafka集群推送的实时流数据,在open方法进行初始化时新建Kafka消费者,后在nextTuple方法中获取实时多维数据并传送给Storm集群技术中的Bolt组件;
S33、利用Storm集群技术中的Bolt组件获取实时多维数据,在prepare方法中新建Kafka生产者,execute方法与内存中的比对规则进行关键字段匹配,判断是否匹配成功;若成功,则标准化预警数据为json数据格式,调用生产者,将预警数据发送给Kafka集群;若未命中,则丢弃该条数据,不做处理;
S34、设置Spout组件和Bolt组件属性,创建拓扑,打包上传至Storm集群服务器,开始拓扑比对计算。
7.如权利要求1所述的基于Storm的实时数据比对预警方法,其特征在于,所述步骤S4具体包括:
S41、在RDBMS中新建预警结果表,设计并固定表结构,用于比对结果的存储和标准化管理;
S42、新建消费者,获取Kafka集群中预警结果主题数据,标准化后写入上述预警结果表;
S43、通过查询接口接收用户查询请求,按照不同维度进行查询,在前台页面展示查询的预警结果。
8.如权利要求1所述的基于Storm的实时数据比对预警方法,其特征在于,所述方法还包括:
S5,查询比对规则,对临时对象进行布控比对申请、审批、撤控,对接入数据、预警结果、比对规则进行统计展示。
9.如权利要求8所述的基于Storm的实时数据比对预警方法,其特征在于,所述步骤S5具体包括:
S51、通过比对规则查询接口接收比对规则查询的请求,按不同维度进行查询,并在前台查询展示;
S52、进行临时对象的比对申请、审批、撤控,将临时对象打上标记,提交比对规则申请,审批通过后予以入库;对比对规则表的临时对象记录进行删除操作;
S53、按不同维度对接入数据、预警结果、比对规则进行统计查询,并在前台页面展示。
10.一种基于Storm的实时数据比对预警系统,其特征在于,包括:
数据接入模块,用于将来自多种数据源的实时多维数据进行数据清洗和标准化后,以json数据格式按不同数据源分主题发送至分布式Kafka消息队列;
规则录入模块,用于将数据比对规则存储在RDBMS;
实时比对模块,用于从RDBMS加载比对规则到内存,利用Storm集群技术,将Kafka集群中的实时多维数据与内存中的比对规则进行比对碰撞,并新建Kafka主题存放实时比对的预警结果;
预警展示模块,用于消费Kafka预警结果主题,将结果写入RDBMS,通过查询接口接收查询请求,进行预警展示。
CN201810803452.1A 2018-07-20 2018-07-20 基于Storm的实时数据比对预警方法及系统 Active CN110750562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810803452.1A CN110750562B (zh) 2018-07-20 2018-07-20 基于Storm的实时数据比对预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810803452.1A CN110750562B (zh) 2018-07-20 2018-07-20 基于Storm的实时数据比对预警方法及系统

Publications (2)

Publication Number Publication Date
CN110750562A true CN110750562A (zh) 2020-02-04
CN110750562B CN110750562B (zh) 2023-10-27

Family

ID=69274774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810803452.1A Active CN110750562B (zh) 2018-07-20 2018-07-20 基于Storm的实时数据比对预警方法及系统

Country Status (1)

Country Link
CN (1) CN110750562B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339175A (zh) * 2020-02-28 2020-06-26 成都运力科技有限公司 数据处理方法、装置、电子设备及可读存储介质
CN111369302A (zh) * 2020-03-17 2020-07-03 中国邮政储蓄银行股份有限公司 实时生成积分的方法、系统及计算机可读存储介质
CN111522832A (zh) * 2020-05-09 2020-08-11 深圳市铭墨科技有限公司 一种大数据实时更新方法、系统、设备和存储介质
CN111625583A (zh) * 2020-05-21 2020-09-04 广西电网有限责任公司 业务数据处理方法、装置、计算机设备和存储介质
CN111641524A (zh) * 2020-05-25 2020-09-08 北京青云科技股份有限公司 监控数据处理方法、装置、设备和存储介质
CN111797154A (zh) * 2020-07-03 2020-10-20 紫光云技术有限公司 一种基于json的实时抽取方法
CN111835847A (zh) * 2020-07-10 2020-10-27 中国联合网络通信集团有限公司 数据处理方法、装置、设备及存储介质
CN111897878A (zh) * 2020-08-25 2020-11-06 中国工商银行股份有限公司 主辅数据同步方法及系统
CN112035531A (zh) * 2020-09-02 2020-12-04 中国平安人寿保险股份有限公司 敏感数据处理方法、装置、设备及介质
CN112052295A (zh) * 2020-08-06 2020-12-08 中信银行股份有限公司 一种数据同步方法、装置、电子设备和可读存储介质
CN112068898A (zh) * 2020-09-01 2020-12-11 上海熙菱信息技术有限公司 一种可配置插件式服务集成系统及方法
CN112202862A (zh) * 2020-09-23 2021-01-08 北京明朝万达科技股份有限公司 一种基于kafka的集群数据以及文件的同步方法及装置
CN112256796A (zh) * 2020-10-26 2021-01-22 首都信息发展股份有限公司 异构数据实时同步系统及装置
CN112527879A (zh) * 2020-12-15 2021-03-19 中国人寿保险股份有限公司 基于Kafka的实时数据抽取方法及相关设备
CN112800064A (zh) * 2021-02-05 2021-05-14 成都延华西部健康医疗信息产业研究院有限公司 一种基于Confluent社区开源版的实时大数据应用开发方法及系统
CN112802313A (zh) * 2020-12-31 2021-05-14 新奥数能科技有限公司 一种设备的报警方法及装置
CN112817730A (zh) * 2021-02-24 2021-05-18 上海交通大学 深度神经网络服务批处理调度方法、系统及gpu
CN113766462A (zh) * 2020-06-03 2021-12-07 中国移动通信集团重庆有限公司 物联网卡管理方法、装置及计算设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030084053A1 (en) * 2001-11-01 2003-05-01 Actimize Ltd. System and method for analyzing and utilizing data, by executing complex analytical models in real time
CA2517861A1 (en) * 2004-09-01 2006-03-01 Microsoft Corporation Rule-based filtering and alerting
US8259684B1 (en) * 2008-10-30 2012-09-04 Clearwire Ip Holdings Llc Seasonality optimization of wireless networks
CN104104738A (zh) * 2014-08-06 2014-10-15 江苏瑞中数据股份有限公司 一种基于ftp的数据交换系统
CN104618343A (zh) * 2015-01-06 2015-05-13 中国科学院信息工程研究所 一种基于实时日志的网站威胁检测的方法及系统
CN105976242A (zh) * 2016-04-21 2016-09-28 中国农业银行股份有限公司 一种基于实时流数据分析的交易欺诈检测方法及系统
CN106446221A (zh) * 2016-09-30 2017-02-22 北京奇虎科技有限公司 数据分析方法及装置
CN107070890A (zh) * 2017-03-10 2017-08-18 北京市天元网络技术股份有限公司 一种通信网优系统中的流数据处理装置及通信网优系统
WO2018103315A1 (zh) * 2016-12-09 2018-06-14 上海壹账通金融科技有限公司 监控数据的处理方法、装置、服务器及存储设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030084053A1 (en) * 2001-11-01 2003-05-01 Actimize Ltd. System and method for analyzing and utilizing data, by executing complex analytical models in real time
CA2517861A1 (en) * 2004-09-01 2006-03-01 Microsoft Corporation Rule-based filtering and alerting
US8259684B1 (en) * 2008-10-30 2012-09-04 Clearwire Ip Holdings Llc Seasonality optimization of wireless networks
CN104104738A (zh) * 2014-08-06 2014-10-15 江苏瑞中数据股份有限公司 一种基于ftp的数据交换系统
CN104618343A (zh) * 2015-01-06 2015-05-13 中国科学院信息工程研究所 一种基于实时日志的网站威胁检测的方法及系统
CN105976242A (zh) * 2016-04-21 2016-09-28 中国农业银行股份有限公司 一种基于实时流数据分析的交易欺诈检测方法及系统
CN106446221A (zh) * 2016-09-30 2017-02-22 北京奇虎科技有限公司 数据分析方法及装置
WO2018103315A1 (zh) * 2016-12-09 2018-06-14 上海壹账通金融科技有限公司 监控数据的处理方法、装置、服务器及存储设备
CN107070890A (zh) * 2017-03-10 2017-08-18 北京市天元网络技术股份有限公司 一种通信网优系统中的流数据处理装置及通信网优系统

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339175A (zh) * 2020-02-28 2020-06-26 成都运力科技有限公司 数据处理方法、装置、电子设备及可读存储介质
CN111339175B (zh) * 2020-02-28 2023-08-11 成都运力科技有限公司 数据处理方法、装置、电子设备及可读存储介质
CN111369302A (zh) * 2020-03-17 2020-07-03 中国邮政储蓄银行股份有限公司 实时生成积分的方法、系统及计算机可读存储介质
CN111522832A (zh) * 2020-05-09 2020-08-11 深圳市铭墨科技有限公司 一种大数据实时更新方法、系统、设备和存储介质
CN111522832B (zh) * 2020-05-09 2024-04-19 深圳市铭墨科技有限公司 一种大数据实时更新方法、系统、设备和存储介质
CN111625583A (zh) * 2020-05-21 2020-09-04 广西电网有限责任公司 业务数据处理方法、装置、计算机设备和存储介质
CN111625583B (zh) * 2020-05-21 2022-07-29 广西电网有限责任公司 业务数据处理方法、装置、计算机设备和存储介质
CN111641524A (zh) * 2020-05-25 2020-09-08 北京青云科技股份有限公司 监控数据处理方法、装置、设备和存储介质
CN113766462A (zh) * 2020-06-03 2021-12-07 中国移动通信集团重庆有限公司 物联网卡管理方法、装置及计算设备
CN111797154A (zh) * 2020-07-03 2020-10-20 紫光云技术有限公司 一种基于json的实时抽取方法
CN111835847B (zh) * 2020-07-10 2021-12-14 中国联合网络通信集团有限公司 数据处理方法、装置、设备及存储介质
CN111835847A (zh) * 2020-07-10 2020-10-27 中国联合网络通信集团有限公司 数据处理方法、装置、设备及存储介质
CN112052295A (zh) * 2020-08-06 2020-12-08 中信银行股份有限公司 一种数据同步方法、装置、电子设备和可读存储介质
CN111897878B (zh) * 2020-08-25 2023-09-29 中国工商银行股份有限公司 主辅数据同步方法及系统
CN111897878A (zh) * 2020-08-25 2020-11-06 中国工商银行股份有限公司 主辅数据同步方法及系统
CN112068898A (zh) * 2020-09-01 2020-12-11 上海熙菱信息技术有限公司 一种可配置插件式服务集成系统及方法
CN112068898B (zh) * 2020-09-01 2024-04-19 上海熙菱信息技术有限公司 一种可配置插件式服务集成系统及方法
CN112035531B (zh) * 2020-09-02 2023-11-28 中国平安人寿保险股份有限公司 敏感数据处理方法、装置、设备及介质
CN112035531A (zh) * 2020-09-02 2020-12-04 中国平安人寿保险股份有限公司 敏感数据处理方法、装置、设备及介质
CN112202862A (zh) * 2020-09-23 2021-01-08 北京明朝万达科技股份有限公司 一种基于kafka的集群数据以及文件的同步方法及装置
CN112202862B (zh) * 2020-09-23 2023-12-05 北京明朝万达科技股份有限公司 一种基于kafka的集群数据以及文件的同步方法及装置
CN112256796A (zh) * 2020-10-26 2021-01-22 首都信息发展股份有限公司 异构数据实时同步系统及装置
CN112256796B (zh) * 2020-10-26 2024-03-26 首都信息发展股份有限公司 异构数据实时同步系统及装置
CN112527879B (zh) * 2020-12-15 2024-04-16 中国人寿保险股份有限公司 基于Kafka的实时数据抽取方法及相关设备
CN112527879A (zh) * 2020-12-15 2021-03-19 中国人寿保险股份有限公司 基于Kafka的实时数据抽取方法及相关设备
CN112802313B (zh) * 2020-12-31 2022-11-04 新奥数能科技有限公司 一种设备的报警方法及装置
CN112802313A (zh) * 2020-12-31 2021-05-14 新奥数能科技有限公司 一种设备的报警方法及装置
CN112800064A (zh) * 2021-02-05 2021-05-14 成都延华西部健康医疗信息产业研究院有限公司 一种基于Confluent社区开源版的实时大数据应用开发方法及系统
CN112800064B (zh) * 2021-02-05 2023-06-02 成都延华西部健康医疗信息产业研究院有限公司 一种基于Confluent社区开源版的实时大数据应用开发方法及系统
CN112817730A (zh) * 2021-02-24 2021-05-18 上海交通大学 深度神经网络服务批处理调度方法、系统及gpu

Also Published As

Publication number Publication date
CN110750562B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN110750562A (zh) 基于Storm的实时数据比对预警方法及系统
US10339038B1 (en) Method and system for generating production data pattern driven test data
CN109656999B (zh) 大数据量的数据同步方法、设备、存储介质及装置
US20180322170A1 (en) Event processing system
US20190228005A1 (en) Bulk data insertion in analytical databases
US10031901B2 (en) Narrative generation using pattern recognition
CN110765101A (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN111191046A (zh) 一种实现信息搜索的方法、装置、计算机存储介质及终端
US20240095256A1 (en) Method and system for persisting data
CN110895761A (zh) 一种售后服务申请信息的处理方法和装置
US7599903B2 (en) Systems and methods for extracting data sets from an online relational database into a data warehouse
CN113157729A (zh) 批量邮件自动处理方法和装置
CN105719072A (zh) 关联多段组件交易的系统及方法
US11947545B2 (en) Systems and methods for configuring data stream filtering
CN110062112A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN107329956B (zh) 一种项目信息标准化方法及装置
US20180196858A1 (en) Api driven etl for complex data lakes
US20220156228A1 (en) Data Tagging And Synchronisation System
CN114297211A (zh) 一种数据在线分析系统、方法、设备及存储介质
CN110688355A (zh) 变更容器状态的方法和装置
CN107562901B (zh) 一种客户端数据的更新方法及系统
CN113779017A (zh) 数据资产管理的方法和装置
CN112435151A (zh) 一种基于关联分析的政务信息数据处理方法及系统
CN111291127A (zh) 一种数据同步方法、装置、服务器及存储介质
CN111831534A (zh) 一种对数据报表进行准确性验证的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230925

Address after: 223800 No. 152, Hongzehu Road, Sucheng District, Suqian City, Jiangsu Province

Applicant after: SUQIAN CITY PUBLIC SECURITY BUREAU

Applicant after: WUHAN FENGHUO ZHONGZHI WISDOM STAR TECHNOLOGY CO.,LTD.

Address before: 430035 Room 401, building 4, No. 10, Changsheng Road, Changfeng Township, Qiaokou District, Wuhan City, Hubei Province

Applicant before: WUHAN FENGHUO ZHONGZHI WISDOM STAR TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant