CN112084387A - 一种实时数据分类统计方法、系统、可读介质及设备 - Google Patents
一种实时数据分类统计方法、系统、可读介质及设备 Download PDFInfo
- Publication number
- CN112084387A CN112084387A CN202010847108.XA CN202010847108A CN112084387A CN 112084387 A CN112084387 A CN 112084387A CN 202010847108 A CN202010847108 A CN 202010847108A CN 112084387 A CN112084387 A CN 112084387A
- Authority
- CN
- China
- Prior art keywords
- real
- data
- kafka
- time
- time operation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种实时数据分类统计方法,包括:由消息中间件kafka获取用户操作工业大数据平台系统而产生的实时操作数据;采用Flink分布式流数据处理引擎对所述实时操作数据进行分类统计,得到对所述实时操作数据的分类统计结果;采用Elasticsearch分布式全文搜索引擎对所述分类统计结果进行分类存储。本发明实现了对用户操作工业大数据平台系统而产生的实时操作数据的分类统计以及分类存储,提高了对数据处理的实时性。本发明还提供了一种实时数据分类统计系统、计算机可读介质及设备。
Description
技术领域
本发明涉及数据分析处理技术领域,具体涉及一种实时数据分类统计方法、系统、可读介质及设备。
背景技术
对于一些工业大数据平台系统,需要对用户操作工业大数据平台系统的实时操作数据进行分类统计。比如一种工业大数据竞赛系统可提供给用户开展在线答题竞赛,用户登录该竞赛系统会产生登录数据,进入到答题环节会产生答题数据,如果竞赛系统还具备发布竞赛博客、删除博客、点赞博客、浏览博客等功能,用户在实现这些系统功能过程中还会产生相应的实时操作数据。为便于对用户操作行为的统计分析,需要对用户的这些实时操作行为进行分类统计,但现有的数据分类统计方法对于数据分类统计的实时性不够理想,无法做到对用户操作行为的实时分类统计。
而且,工业大数据平台系统用户通常希望对分类统计结果进行分类查询,但现有的数据分类统计系统一般将分类统计结果以数据集形式进行集中式地存储,用户无法针对特定的实时操作数据查询系统对其的分类统计结果,比如用户无法查询自身或其他用户的博客点赞数,给系统用户带去了使用上的不便。
发明内容
本发明的目的在于提供一种实时数据分类统计方法、系统、可读介质及设备,以实现对用户操作工业大数据平台系统而产生的实时操作数据的分类统计以及分类存储。
为达此目的,本发明采用以下技术方案:
提供一种实时数据分类统计方法,包括:
由消息中间件kafka获取用户操作工业大数据平台系统而产生的实时操作数据;
采用Flink分布式流数据处理引擎对所述实时操作数据进行分类统计,得到对所述实时操作数据的分类统计结果;
采用Elasticsearch分布式全文搜索引擎对所述分类统计结果进行分类存储。
作为本发明的一种优选方案,所述工业大数据平台包括工业大数据竞赛系统,用户操作所述工业大数据竞赛系统而产生的所述实时操作数据包括浏览博客、发布博客、点赞博客、删除博客、回答问题、确认参加比赛、确认退出比赛中的任意一种或多种。
作为本发明的一种优选方案,所述消息中间件kafka的业务逻辑通过AOP软件开发方式实现。
作为本发明的一种优选方案,所述消息中间件kafka的业务逻辑以kafka配置文件形式保存。
作为本发明的一种优选方案,所述消息中间件kafka对监听到的所述实时操作数据采用动态工厂模式,以反射的方式将不同类型的所述实时操作数据分发给所述Flink分布式流数据处理引擎分别进行数据处理。
本发明还提供了一种实时数据分类统计系统,可实现所述的实时数据分类统计方法,该系统包括:
初始化模块,用于提供给工业大数据平台系统加载kafka配置文件,然后初始化消息中间件kafka并注册消息监听;
消息监听模块,连接所述初始化模块,用于通过所述消息中间件kafka监听用户操作工业大数据平台而产生的实时操作数据,并将监听到的所述实时操作数据以kafka消息的形式发送给Flink分布式流数据处理引擎进行进一步的数据分类统计;
数据处理模块,连接所述消息监听模块,用于通过所述Flink分布式流数据处理引擎对不同类型的所述kafka消息进行分别处理,得到对所述kafka消息的分类统计结果;
数据存储模块,连接所述数据处理模块,用于对所述分类统计结果进行分布式存储。
作为本发明的一种优选方案,采用Elasticsearch分布式全文搜索引擎对所述分类统计结果进行分布式存储。
作为本发明的一种优选方案,所述消息中间件kafka对监听到的所述实时操作数据采用动态工厂模式,以反射的方式将不同类型的所述实时操作数据分发给所述Flink分布式流数据处理引擎分别进行数据的分类统计。
本发明还提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行所述的实时数据分类统计方法。
本发明另外还提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器中的所述执行指令时,所述处理器执行所述的实时数据分类统计方法。
本发明通过消息中间件kafka实现了对用户操作工业大数据平台系统的操作行为的实时监听,并通过Flink分布式流数据处理引擎和Elasticsearch分布式全文搜索引擎实现了对监听到的kafka消息的分类统计和分类存储。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的实时数据分类统计方法的方法步骤图;
图2是本发明一实施例提供的实时数据分类统计方法的实现逻辑图。
图3是本发明一实施例提供的实时数据分类统计系统的结构示意图;
图4是所述消息中间件kafka监听用户实时操作数据的实现逻辑图;
图5是初始化消息监听流程的示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
图1示出了本发明一实施例提供的实时数据分类统计方法的方法步骤图,如图1所示,本实施例提供的实时数据分类统计方法包括:
步骤S1,由消息中间件kafka获取用户操作工业大数据平台系统而产生的实时操作数据;
步骤S2,采用Flink分布式流数据处理引擎对实时操作数据进行分类统计,得到对实时操作数据的分类统计结果;
步骤S3,采用Elasticsearch分布式全文搜索引擎对分类统计结果进行分类存储。
图2示出了本发明一实施例提供的实时数据分类统计方法的实现逻辑图;图4示出了消息中间件kafka监听用户实时操作数据的实现逻辑图,以下结合图2和图4,对本实施例提供的实时数据分类统计方法的实现原理进行阐述:
首先消息中间件kafka获取用户操作工业大数据平台系统的实时操作数据;这里所述的工业大数据平台系统泛指应用在工业企业的平台系统,包括但不限于工业企业办公系统、业务处理系统等,比如工业大数据平台系统为一种工业大数据竞赛系统,用户可以通过工业大数据竞赛系统向竞赛组织方提交竞赛申请、确认是否参加比赛,是否退赛,或者通过工业大数据竞赛系统发布竞赛信息等。发布竞赛信息的形式可以是发布有关竞赛信息的博客,参赛者同时可删除博客、浏览其他用户的博客、点赞博客等。所以这里所述的用户操作工业大数据平台系统而产生的实时操作数据为用户通过点击等行为实现工业大数据平台系统提供的各项系统功能的数据。
消息中间件kafka对于监听到的kafka消息(获取到的实时操作数据以kafka消息形式存储)采用动态工厂模式,以反射的方式转换为不同类型的实时操作数据,转换的不同类型的实时操作数据比如为如图2中所示的点赞或取消点赞博客、发布或删除博客、参加或退出比赛等数据;然后将转换的各类实时操作数据分发给Flink分布式流数据处理引擎分别进行数据统计,Flink分布式流数据处理引擎分类统计各类实时操作数据的业务逻辑是预先设计好的,比如对于点赞或取消点赞博客的操作行为,Flink分布式流数据处理引擎统计该用户的博客点赞数或取消博客点赞的数量。对于用户浏览其他用户博客的行为,Flink分布式流数据处理引擎则根据用户的博客浏览行为数据统计该用户的博客浏览数量。
最后采用Elasticsearch分布式全文搜索引擎对分类统计结果进行分类存储,以便于用户查询对各种实时操作数据的分类统计结果。
为了降低消息中间件kafka业务逻辑各部分间的耦合度,提高程序的可重用性以及提高软件开发效率,本发明优选通过AOP(Aspect Oriented Programming)面向切面编程技术实现对消息中间件kafka业务逻辑的设计开发。
为便于将消息中间件kafka的业务逻辑集成在工业大数据平台系统中,本实施例中,消息中间件kafka的业务逻辑以kafka配置文件(可以是jar数据格式)形式保存。工业大数据平台系统只需要加载kafka配置文件并注册kafka消息监听即可实现消息中间件kafka的业务逻辑功能。
本发明还提供了一种实时数据分类统计系统,可实现上述的实时数据分类统计方法,如图3所示,该系统包括:
初始化模块1,用于提供给工业大数据平台系统加载kafka配置文件,然后初始化消息中间件kafka并注册消息监听;具体地,如图5所示,工业大数据平台系统初始化消息监听流程的步骤如下:
首先工业大数据平台系统加载通过AOP技术设计开发并形成的kafka配置文件以启动kafka服务,然后注册消息监听,消息中间件kafka进入数据监听状态。
实时数据分类统计系统还包括:
消息监听模块2,连接初始化模块1,用于通过消息中间件kafka监听用户操作工业大数据平台而产生的实时操作数据,并将监听到的实时操作数据以kafka消息的形式发送给Flink分布式流数据处理引擎进行进一步的数据分类统计;
数据处理模块3,连接消息监听模块2,用于通过Flink分布式流数据处理引擎对不同类型的kafka消息进行分别处理,得到对kafka消息的分类统计结果;
数据存储模块4,连接数据处理模块3,用于对分类统计结果进行分布式存储。
实时数据分类统计系统优选采用Elasticsearch分布式全文搜索引擎对分类统计结果进行分布式存储。
为了提高数据分类统计的效率,消息中间件kafka在向Flink分布式流数据处理引擎发送kafka消息前,将监听到的kafka消息(监听到的实时操作数据以kafka消息存储)采用动态工厂模式,以反射的方式将不同类型的kafka消息分发给分布式流数据处理引擎分别进行数据的分类统计。
本发明还提供了一种计算机可读存储介质,包括执行指令,当电子设备(比如计算机)的处理器执行该执行指令时,处理器执行上述的实时数据分类统计方法。
本发明另外还提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当处理器执行存储器中的执行指令时,处理器执行上述的实时数据分类统计方法。
综上,本发明具有以下有益效果:
1、采用消息中间件kafka获取并分发用户的实时操作数据,实现了本发明提供的实时数据分类统计系统与工业大数据平台系统的解耦和流量削峰;
2、采用Flink分布式流数据处理引擎实现了对消息中间件kafka监听到的不同种类的海量数据的实时并行处理,提高了对工业大数据平台系统数据分析处理的实时性;
3、采用Elasticsearch分布式全文搜索引擎实现了对海量数据分类统计结果的模糊智能搜索;
4、利用AOP技术实现了对消息中间件kafka业务逻辑的各个部分的隔离,降低了消息中间件kafka业务逻辑的各部分之间的耦合度,提高了程序的可重用性和软件开发效率。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。
Claims (10)
1.一种实时数据分类统计方法,其特征在于,包括:
由消息中间件kafka获取用户操作工业大数据平台系统而产生的实时操作数据;
采用Flink分布式流数据处理引擎对所述实时操作数据进行分类统计,得到对所述实时操作数据的分类统计结果;
采用Elasticsearch分布式全文搜索引擎对所述分类统计结果进行分类存储。
2.根据权利要求1所述的实时数据分类统计方法,其特征在于,所述工业大数据平台包括工业大数据竞赛系统,用户操作所述工业大数据竞赛系统而产生的所述实时操作数据包括浏览博客、发布博客、点赞博客、删除博客、回答问题、确认参加比赛、确认退出比赛中的任意一种或多种。
3.根据权利要求1所述的实时数据分类统计方法,其特征在于,所述消息中间件kafka的业务逻辑通过AOP软件开发方式实现。
4.根据权利要求3所述的实时数据分类统计方法,其特征在于,所述消息中间件kafka的业务逻辑以kafka配置文件形式保存。
5.根据权利要求1所述的实时数据分类统计方法,其特征在于,所述消息中间件kafka对监听到的所述实时操作数据采用动态工厂模式,以反射的方式将不同类型的所述实时操作数据分发给所述Flink分布式流数据处理引擎分别进行数据处理。
6.一种实时数据分类统计系统,可实现如权1~5任意一项所述的方法,其特征在于,包括:
初始化模块,用于提供给工业大数据平台系统加载kafka配置文件,然后初始化消息中间件kafka并注册消息监听;
消息监听模块,连接所述初始化模块,用于通过所述消息中间件kafka监听用户操作工业大数据平台而产生的实时操作数据,并将监听到的所述实时操作数据以kafka消息的形式发送给Flink分布式流数据处理引擎进行进一步的数据分类统计;
数据处理模块,连接所述消息监听模块,用于通过所述Flink分布式流数据处理引擎对不同类型的所述kafka消息进行分别处理,得到对所述kafka消息的分类统计结果;
数据存储模块,连接所述数据处理模块,用于对所述分类统计结果进行分布式存储。
7.根据权利要求6所述的实时数据分类统计系统,其特征在于,采用Elasticsearch分布式全文搜索引擎对所述分类统计结果进行分布式存储。
8.根据权利要求6所述的实时数据分类统计服务系统,其特征在于,所述消息中间件kafka对监听到的所述实时操作数据采用动态工厂模式,以反射的方式将不同类型的所述实时操作数据分发给所述Flink分布式流数据处理引擎分别进行数据的分类统计。
9.一种计算机可读存储介质,包括执行指令,其特征在于,当电子设备的处理器执行所述执行指令时,所述处理器执行如权1~5任意一项所述的方法。
10.一种电子设备,包括处理器以及存储有执行指令的存储器,其特征在于,当所述处理器执行所述存储器中的所述执行指令时,所述处理器执行如权1~5任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847108.XA CN112084387A (zh) | 2020-08-21 | 2020-08-21 | 一种实时数据分类统计方法、系统、可读介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847108.XA CN112084387A (zh) | 2020-08-21 | 2020-08-21 | 一种实时数据分类统计方法、系统、可读介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112084387A true CN112084387A (zh) | 2020-12-15 |
Family
ID=73728477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010847108.XA Pending CN112084387A (zh) | 2020-08-21 | 2020-08-21 | 一种实时数据分类统计方法、系统、可读介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084387A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9842000B2 (en) * | 2015-09-18 | 2017-12-12 | Salesforce.Com, Inc. | Managing processing of long tail task sequences in a stream processing framework |
CN109710731A (zh) * | 2018-11-19 | 2019-05-03 | 北京计算机技术及应用研究所 | 一种基于Flink的数据流多向处理系统 |
CN110555004A (zh) * | 2019-07-30 | 2019-12-10 | 北京奇艺世纪科技有限公司 | 服务的监控方法、装置、计算机设备及存储介质 |
CN111078499A (zh) * | 2019-12-09 | 2020-04-28 | 江苏艾佳家居用品有限公司 | 一种基于flink的微服务性能实时监控方法 |
CN111309409A (zh) * | 2020-02-26 | 2020-06-19 | 山东爱城市网信息技术有限公司 | 一种api服务调用实时统计方法 |
-
2020
- 2020-08-21 CN CN202010847108.XA patent/CN112084387A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9842000B2 (en) * | 2015-09-18 | 2017-12-12 | Salesforce.Com, Inc. | Managing processing of long tail task sequences in a stream processing framework |
CN109710731A (zh) * | 2018-11-19 | 2019-05-03 | 北京计算机技术及应用研究所 | 一种基于Flink的数据流多向处理系统 |
CN110555004A (zh) * | 2019-07-30 | 2019-12-10 | 北京奇艺世纪科技有限公司 | 服务的监控方法、装置、计算机设备及存储介质 |
CN111078499A (zh) * | 2019-12-09 | 2020-04-28 | 江苏艾佳家居用品有限公司 | 一种基于flink的微服务性能实时监控方法 |
CN111309409A (zh) * | 2020-02-26 | 2020-06-19 | 山东爱城市网信息技术有限公司 | 一种api服务调用实时统计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108880887B (zh) | 基于微服务的陪护机器人云服务系统及方法 | |
CN111831420B (zh) | 用于任务调度的方法、相关装置及计算机程序产品 | |
US7856498B2 (en) | Collaborative alert management and monitoring | |
AU2007275428B2 (en) | System and method for providing remote access to events from a database access system | |
JP4986478B2 (ja) | ディジタル監視システムのための規則ベースのインテリジェント・アラーム・マネジメント・システム | |
CN102710593A (zh) | 一种图形聚合中的消息分发方法及装置、系统 | |
CN110234069A (zh) | 一种寻车方法、装置及终端设备 | |
CN102609409B (zh) | 一种在线翻译方法、装置、系统及服务器 | |
CN106296135A (zh) | 事件提醒方法、装置及终端 | |
CN111694644A (zh) | 基于机器人操作系统的消息处理方法、装置及计算机设备 | |
CN109547299A (zh) | 信息处理方法、装置、智能控制系统、智能网关及服务器 | |
CN107609086B (zh) | 一种app推送方法及其引擎系统 | |
CN113765777A (zh) | 设备控制方法、消息中转方法、设备、可读介质和物联网 | |
CN112084387A (zh) | 一种实时数据分类统计方法、系统、可读介质及设备 | |
CN110119269B (zh) | 控制任务对象的方法、装置、服务器及存储介质 | |
CN105279014A (zh) | 事件处理系统和方法 | |
CN115333942B (zh) | 事件重试方法及装置、存储介质及电子设备 | |
CN115277613A (zh) | 一种基于业务的机器人聊天系统 | |
KR20090090047A (ko) | Rfid 비즈니스 인식 프레임워크 | |
CN110413271B (zh) | 基于Unity3D生命周期的智能消息管理方法 | |
CN113485681B (zh) | 一种基于Activiti的巡管业务流程查询方法 | |
CN115378792B (zh) | 告警处理方法、装置及存储介质 | |
CN113836146B (zh) | 一种特征标签生成方法、装置、电子设备及存储介质 | |
CN109726526A (zh) | 设备授权情况告警管理装置及基于设备授权情况进行告警的方法 | |
CN113608900B (zh) | 一种算法模型的调用方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201215 |