CN109345377B - 一种数据实时处理系统及数据实时处理方法 - Google Patents

一种数据实时处理系统及数据实时处理方法 Download PDF

Info

Publication number
CN109345377B
CN109345377B CN201811143434.1A CN201811143434A CN109345377B CN 109345377 B CN109345377 B CN 109345377B CN 201811143434 A CN201811143434 A CN 201811143434A CN 109345377 B CN109345377 B CN 109345377B
Authority
CN
China
Prior art keywords
task
data
operator
module
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811143434.1A
Other languages
English (en)
Other versions
CN109345377A (zh
Inventor
焦悦光
胡宗星
张晓林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nine Chapter Yunji Technology Co Ltd Beijing
Original Assignee
Nine Chapter Yunji Technology Co Ltd Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nine Chapter Yunji Technology Co Ltd Beijing filed Critical Nine Chapter Yunji Technology Co Ltd Beijing
Priority to CN201811143434.1A priority Critical patent/CN109345377B/zh
Publication of CN109345377A publication Critical patent/CN109345377A/zh
Application granted granted Critical
Publication of CN109345377B publication Critical patent/CN109345377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种数据实时处理系统及数据实时处理方法,包括:人机界面模块、任务管理模块和流式计算引擎模块;所述人机界面模块,用于显示用户界面并接收用户的输入,根据用户的输入,生成任务的定义并提交至所述任务管理模块,所述任务的定义包括:所述任务中的算子和所述任务中的算子与算子之间的连接关系;所述任务管理模块,与所述人机界面模块连接,用于根据所述任务的定义,构建任务,并将构建的任务提交至所述流式计算引擎模块;所述流式计算引擎模块,与所述任务管理模块连接,用于运行所述任务。数据实时处理系统的智能化程度高,能够提高数据实时处理系统的使用便利性。

Description

一种数据实时处理系统及数据实时处理方法
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种数据实时处理系统及数据实时处理方法。
背景技术
随着数据的急剧膨胀,大数据处理技术得到了飞速的发展。目前,大数据处理平台按照计算模式可以划分为离线计算和实时计算。随着经济社会信息实时化的程度不断提高,人们对数据实时计算的需求也越来越高。例如:用于反欺诈、判断资金是否流入非法途径的风险控制系统(风控系统、合规检查等)、用于数据抽取、转换、加载(ExtractTransform Load,简称ETL)的数据处理系统等场景需要用到实时计算。
然而,现有的实时计算系统,对使用者要求很高,需要大量定制化的逻辑,用户使用时便利性不高。
发明内容
有鉴于此,本发明提供一种数据实时处理系统及数据实时处理方法,用于解决现有的数据实时处理系统使用便利性不高的问题。
为解决上述技术问题,第一方面,本发明提供一种数据实时处理系统,包括:人机界面模块、任务管理模块和流式计算引擎模块;
所述人机界面模块,用于显示用户界面并接收用户的输入,根据用户的输入,生成任务的定义并提交至所述任务管理模块,所述任务的定义包括:所述任务中的算子和所述任务中的算子与算子之间的连接关系;
所述任务管理模块,与所述人机界面模块连接,用于根据所述任务的定义,构建任务,并将构建的任务提交至所述流式计算引擎模块;
所述流式计算引擎模块,与所述任务管理模块连接,用于运行所述任务。
优选的,所述用户界面为图形化界面或者命令行界面。
优选的,所述人机界面模块,还用于根据用户的输入,产生所述任务的操作命令并提交至所述任务管理模块,所述任务的操作命令包括以下至少之一:提交任务、暂停任务和停止任务;
所述任务管理模块,还用于根据所述任务的操作命令,生成所述任务的相关操作指示,向所述流式计算引擎模块发送所述任务的相关操作指示;
所述流式计算引擎模块,还用于根据所述任务的相关操作指示,执行所述任务的相关操作。
优选的,所述人机界面模块,还用于根据用户的输入,产生系统运行状态的查询命令并提交至所述任务管理模块,所述系统运行状态包括以下至少之一:所述任务管理模块的后台状态、所述流式计算引擎的状态和所述任务的运行状态;
所述任务管理模块,还用于根据所述查询命令,获取系统运行状态信息,并将所述系统运行状态信息返回至所述人机界面模块;
所述人机界面模块,还用于显示所述系统运行状态信息。
优选的,所述数据实时处理系统还包括:
配置信息服务模块,与所述任务管理模块和所述流式计算引擎模块连接;
其中,所述人机界面模块,还用于根据用户的输入,生成配置信息并提交至所述任务管理模块;所述配置信息包括:配置管理策略和配置数据,所述配置数据包括以下至少之一:所述任务的配置数据和所述任务中的算子的配置数据;
所述任务管理模块,还用于对所述配置信息进行处理,并写入所述配置信息服务模块;
所述配置信息服务模块,用于存储处理后的所述配置信息;
所述流式计算引擎模块,还用于从所述配置信息服务模块读取处理后的所述配置信息,根据处理后的所述配置信息,运行所述任务管理模块提交的任务。
优选的,所述配置信息服务模块,还用于根据所述配置管理策略,更新所述配置数据。
优选的,所述配置信息服务模块,进一步用于从所述任务管理模块和/或所述流式计算引擎模块获取系统运行状态信息,根据所述系统运行状态信息和/或所述配置管理策略,更新所述配置数据,所述系统运行状态信息包括以下至少之一:所述任务管理模块的后台状态信息、所述流式计算引擎的状态信息和所述任务的运行状态信息。
优选的,所述配置信息服务模块,还用于在更新所述配置信息时,生成通知信息,向所述流式计算引擎模块发送所述通知信息。
优选的,所述任务的算子包括:输入算子、数据处理算子和输出算子;
所述输入算子,用于从数据源中获取数据;
所述数据处理算子,用于对获取的数据进行计算,生成待输出数据;
所述输出算子,用于将所述待输出数据按预设方式输出。
优选的,所述数据处理算子包括模型应用算子,所述任务的算子还包括机器学习算子和模型发布算子,所述机器学习算子用于对所述模型应用算子的计算模型进行训练,得到新的计算模型;所述模型发布算子用于发布所述新的计算模型;
所述配置信息服务模块,还用于存储所述模型发布算子发布的新的计算模型;
所述模型应用算子用于从所述配置信息服务模块获取所述新的计算模型,并使用所述新的计算模型。
优选的,所述配置信息中包括所述算子的并行度;
所述流式计算引擎模块,进一步用于读取所述配置信息,并根据所述算子的并行度,创建与所述算子的并行度数量相同的实例,当所述实例的数量为至少两个时,所述至少两个实例对同一数据流的不同部分并行处理。
优选的,所述任务中包括至少两个算子,所述至少两个算子并行运行。
优选的,所述流式计算引擎模块中的流式计算引擎包括以下至少之一:flink、spark和storm。
优选的,所述流式计算引擎模块中包括至少两个流式计算引擎;
所述任务管理模块,进一步用于根据所述任务的定义,调用所述至少两个流式计算引擎中的一流式计算引擎的接口构建任务,并将构建的任务提交至所述流式计算引擎模块。
优选的,所述流式计算引擎模块中能够同时运行至少两个所述任务。
优选的,所述人机界面模块,还用于根据用户的输入,产生系统健康状况信息的显示命令并提交至所述任务管理模块,
所述任务管理模块,还用于根据所述显示命令,获取系统健康状况信息,并将所述系统健康状况信息返回至所述人机界面模块,所述系统健康状况信息包括以下至少之一预设指标:集群磁盘读/写流量、集群中央处理器CPU使用率、集群硬盘使用率、集群网络输入/输出流量、集群内存使用率、节点磁盘读/写流量、节点CPU使用率、节点硬盘使用率、节点网络输入/输出流量、节点内存使用率;
所述人机界面模块,还用于显示所述系统健康状况信息。
第二方面,本发明还提供一种数据实时处理方法,该数据实时处理方法应用于上述的数据实时处理系统,包括:
显示用户界面并接收用户的输入,根据用户的输入,生成任务的定义,所述任务的定义包括:所述任务中的算子和所述任务中的算子与算子之间的连接关系;
根据所述任务的定义,构建任务;
运行所述任务。
优选的,所述用户界面为图形化界面或者命令行界面。
优选的,所述方法还包括:
根据用户的输入,产生所述任务的操作命令,所述任务的操作命令包括以下至少之一:提交任务、暂停任务和停止任务;
根据所述任务的操作命令,生成所述任务的相关操作指示;
根据所述任务的相关操作指示,执行所述任务的相关操作。
优选的,所述数据实时处理方法还包括:
根据用户的输入,产生系统运行状态的查询命令,所述系统运行状态包括以下至少之一:任务管理模块的后台状态、流式计算引擎的状态和所述任务的运行状态;
根据所述查询命令,获取系统运行状态信息;
显示所述系统运行状态信息。
优选的,所述显示用户界面并接收用户的输入的步骤之后,还包括:
根据用户的输入,生成配置信息;所述配置信息包括:配置管理策略和配置数据,所述配置数据包括以下至少之一:所述任务的配置数据和所述任务中的算子的配置数据;
对所述配置信息进行处理;
存储处理后的所述配置信息;
读取处理后的所述配置信息,根据处理后的所述配置信息,运行所述任务。
优选的,所述数据实时处理方法还包括:
根据所述配置管理策略,更新所述配置数据。
优选的,所述根据所述配置管理策略,更新所述配置数据的步骤包括:
获取系统运行状态信息,根据所述系统运行状态信息和/或所述配置管理策略,更新所述配置数据,所述系统运行状态信息包括以下至少之一:任务管理模块的后台状态信息、流式计算引擎的状态信息和所述任务的运行状态信息。
优选的,所述根据所述配置管理策略,更新所述配置数据的步骤包括:
在更新所述配置信息时,生成通知信息。
优选的,所述任务的算子包括:输入算子、数据处理算子和输出算子;
所述输入算子,用于从数据源中获取数据;
所述数据处理算子,用于对获取的数据进行计算,生成待输出数据;
所述输出算子,用于将所述待输出数据按预设方式输出。
优选的,所述数据处理算子包括模型应用算子,所述任务的算子还包括机器学习算子和模型发布算子,所述机器学习算子用于对所述模型应用算子的计算模型进行训练,得到新的计算模型;所述模型发布算子用于发布所述新的计算模型;
所述方法还包括:
存储所述模型发布算子发布的新的计算模型;
所述模型应用算子用于获取所述新的计算模型,并使用所述新的计算模型。
优选的,所述配置信息中包括所述算子的并行度;
所述读取处理后的所述配置信息,根据处理后的所述配置信息,运行所述任务的步骤包括:
读取所述配置信息,并根据所述算子的并行度,创建与所述算子的并行度数量相同的实例,当所述实例的数量为至少两个时,所述至少两个实例对同一数据流的不同部分并行处理。
优选的,所述任务中包括至少两个算子,所述至少两个算子并行运行。
优选的,所述运行所述任务的步骤包括:
采用流式计算引擎运行所述任务,所述流式计算引擎包括以下至少之一:flink、spark和storm。
优选的,流式计算引擎的个数为至少两个;
所述根据所述任务的定义,构建任务的步骤包括:
根据所述任务的定义,调用所述至少两个流式计算引擎中的一流式计算引擎的接口构建任务。
优选的,所述运行所述任务的步骤包括:
同时运行至少两个所述任务。
优选的,所述方法还包括:
根据用户的输入,产生系统健康状况信息的显示命令;
根据所述显示命令,获取系统健康状况信息,所述系统健康状况信息包括以下至少之一预设指标:集群磁盘读/写流量、集群中央处理器CPU使用率、集群硬盘使用率、集群网络输入/输出流量、集群内存使用率、节点磁盘读/写流量、节点CPU使用率、节点硬盘使用率、节点网络输入/输出流量、节点内存使用率;
显示所述系统健康状况信息。
第三方面,本发明还提供一种数据实时处理系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器执行所述计算机程序时实现上述的数据实时处理方法。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述数据实时处理方法中的步骤。
本发明的上述技术方案的有益效果如下:区别于现有技术的情况,本发明能够根据用户的输入自动生成任务的定义,调用流式计算引擎构建任务,控制流式计算引擎模块运行任务,智能化程度高,提高了数据实时处理系统的使用便利性,加快了数据处理的速度,保证了数据处理的实时性。
附图说明
图1为本发明实施例一的数据实时处理系统的结构示意图;
图2-3为本发明实施例的任务拓扑图;
图4-5为本发明实施例的预设指标的示意图;
图6为应用本发明实施例的数据实时处理系统的工作流程图;
图7为本发明实施例二的数据实时处理方法的流程示意图;
图8为本发明实施例三的数据实时处理系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例一的数据实时处理系统的结构示意图,该数据实时处理系统10包括:人机界面模块11、任务管理模块12和流式计算引擎模块13;
所述人机界面模块11,用于显示用户界面并接收用户的输入,根据用户的输入,生成任务的定义并提交至所述任务管理模块12,所述任务的定义包括:所述任务中的算子和所述任务中的算子与算子之间的连接关系;
所述任务管理模块12,与所述人机界面模块11连接,用于根据所述任务的定义,构建任务,并将构建的任务提交至所述流式计算引擎模块13;
所述流式计算引擎模块13,与所述任务管理模块12连接,用于运行所述任务。
本发明实施例的数据实时处理系统,能够根据用户的输入自动生成任务的定义,调用流式计算引擎构建任务,控制流式计算引擎模块运行任务,智能化程度高,提高了数据实时处理系统的使用便利性,加快了数据处理的速度,保证了数据处理的实时性。
本发明实施例中,所述用户界面可以为图形化界面或者命令行界面。
具体而言,用户界面可以是基于浏览器或桌面应用的图形用户界面(GraphicalUser Interface,简称GUI),也可以是命令行界面(command-line interface,简称CLI),例如,用户输入编程语言指令的界面。
本发明实施例中,所述任务为在线实时的任务,不是离线的任务,任务在7×24小时不间断运行,可以处理持续产生、逻辑上永远不会结束的输入数据流,计算数据可以是逐条处理即进来一条处理一条,也可以基于时间、数量、会话进行数据处理,例如:累计2分钟处理一次,又如:累计100条处理一次。
本发明实施例中,任务管理模块接收来自人机界面模块的任务定义,调用相应流式计算引擎的接口构建任务。通常情况下,不同的流式计算引擎,其用于构建任务的接口一般也不同,需要任务管理模块进行不同的处理。
本发明实施例中,所述人机界面模块,还用于根据用户的输入,产生所述任务的操作命令并提交至所述任务管理模块,所述任务的操作命令包括以下至少之一:提交任务、暂停任务和停止任务;
所述任务管理模块,还用于根据所述任务的操作命令,生成所述任务的相关操作指示,向所述流式计算引擎模块发送所述任务的相关操作指示;
所述流式计算引擎模块,还用于根据所述任务的相关操作指示,执行所述任务的相关操作。
也就是说,任务管理模块接收来自人机界面模块的任务的操作命令,向流式计算引擎发起提交任务、暂停任务和/或停止任务的操作指示,能够根据用户针对任务的运行状况发出的操作命令,及时进行相应处理。
本发明实施例中,所述人机界面模块,还用于根据用户的输入,产生系统运行状态的查询命令并提交至所述任务管理模块,所述系统运行状态包括以下至少之一:所述任务管理模块的后台状态、所述流式计算引擎的状态和所述任务的运行状态;
所述任务管理模块,还用于根据所述查询命令,获取系统运行状态信息,并将所述系统运行状态信息返回至所述人机界面模块;
所述人机界面模块,还用于显示所述系统运行状态信息。
也就是说,人机界面模块还用于向任务管理模块发起查询操作,任务管理模块从流式计算引擎模块获取系统运行状态信息,并返回至人机界面模块,将系统运行状态信息呈现给用户,以便于用户监控整个系统的运行状态,及时进行相应处理,更加灵活方便。
其中,所述任务管理模块的后台状态包括:基于用户输入生成的配置信息、任务的定义等。
所述流式计算引擎的状态包括流式计算引擎的运行参数,例如:资源使用率、任务数量等。
所述任务的运行状态包括:运行状态、暂停状态或停止状态。
优选的,本发明实施例的数据实时处理系统还包括:
配置信息服务模块,与所述任务管理模块和所述流式计算引擎模块连接;
其中,所述人机界面模块,还用于根据用户的输入,生成配置信息并提交至所述任务管理模块;所述配置信息包括:配置管理策略和配置数据,所述配置数据包括以下至少之一:所述任务的配置数据和所述任务中的算子的配置数据;
所述任务管理模块,还用于对所述配置信息进行处理,并写入所述配置信息服务模块;
所述配置信息服务模块,用于存储处理后的所述配置信息;
所述流式计算引擎模块,还用于从所述配置信息服务模块读取处理后的所述配置信息,根据处理后的所述配置信息,运行所述任务管理模块提交的任务。
也就是说,配置信息服务模块的功能是存储配置信息,并提供配置信息访问接口,以使配置信息服务模块的访问者流式计算引擎模块读取最新的配置信息,根据读取的配置信息,运行任务。
其中,所述任务管理模块对所述配置信息进行的处理包括对配置信息进行校验和整理等步骤。
所述配置管理策略包括下述至少之一:计算资源利用率最大化、基于时间变化等。由于不同时间的交易量不同,配置管理策略可以是随时间变化而周期性变化的,例如:银行的工作日比周末交易量大,又如:双十一等交易高峰时段的交易量很大,配置管理策略可以在交易高峰时段调整判断阈值。
所述任务的配置数据包括数据配置类型。所述数据配置类型即为数据配置字段,包括数据输入类型、数据输出类型。例如,监控的客户的交易金额、交易地点、交易时间等。所述任务的配置数据还包括任务的名称、任务的类型等参数。所述任务的配置数据还包括任务的计算规则和/或计算模型。
所述任务中的算子的配置数据包括算子的并行度、算子的名称、算子的类型等。其中,不同类型的算子的配置数据中算子的具体参数不同。
所述计算模型包含数据处理算法,计算规则可以与计算模型对应。
例如,所述任务为风险控制任务,可以配置该任务的计算规则为监控交易金额,判断资金是否流入非法途径,设置金额上限,判断资金(例如放贷)是否流入股市等。若配置该任务的计算规则为监控交易金额,该计算规则对应的计算模型可以为异常检测模型。
在本发明的其他一些实施例中,所述配置信息也可以是数据实时处理系统默认的配置信息。
本发明实施例中,所述任务的定义可以由所述任务的配置数据、所述任务中的算子的连接关系和所述任务中的算子的配置数据构成。
其中,算子表示对数据的处理和传输,是完成各计算规则/计算模型的计算抽象及用于上下游关联算子的数据传输。算子可以从指定的数据源(如消息队列,数据库,网络等)获取数据,可以将数据输出到指定的目的(消息队列,数据库,网络等),可以接收前一个算子输出的数据进行处理以后传输到下一个算子。算子之间的连接关系是表示数据流向的逻辑关系。
其中,所述任务的算子至少包括:输入算子、数据处理算子和输出算子;
所述输入算子,用于从数据源中获取数据;
所述数据处理算子,用于对获取的数据进行计算,生成待输出数据;
所述输出算子,用于将所述待输出数据按预设方式输出。
具体的,请参阅图2,图2是本发明实施例的任务拓扑图。图2中的任务包括:输入算子、数据处理算子、输出算子。其中,数据处理算子可以包括以下至少之一:模型应用算子、数据预处理算子、数据后处理算子。
算子的类型是系统预先定义的,但是用户可以在编辑任务时对其配置进行修改,例如:修改算子的配置数据,使得计算结果更精确。用户也可以自定义新的算子。
优选的,用户可以设置初始的配置数据和配置的管理策略,配置信息可以基于用户更新、定时更新或事件触发更新。本发明实施例中,更新配置信息的方式有多种,下面举例进行说明。
作为其中一种可选的实施方式:所述配置信息服务模块,还用于根据所述配置管理策略,更新所述配置数据。
例如,用户增加了算子并行度,配置信息服务模块更新算子并行度。流式计算引擎读取到新的算子并行度,可以根据配置的管理策略(例如:计算资源利用率最大化)自动增加算子中同时运行的实例的数量。
作为另一种可选的实施方式:所述配置信息服务模块,进一步用于从所述任务管理模块和/或所述流式计算引擎模块获取系统运行状态信息,根据所述系统运行状态信息和/或所述配置管理策略,更新所述配置数据,所述系统运行状态信息包括以下至少之一:所述任务管理模块的后台状态信息、所述流式计算引擎的状态信息和所述任务的运行状态信息。
也就是说,配置信息服务模块具有自动管理配置信息的能力,可以根据系统运行状态信息和/或配置管理策略更新配置数据。
作为又一种可选的实施方式:所述数据处理算子包括模型应用算子,所述任务的算子还包括机器学习算子和模型发布算子,所述机器学习算子用于对所述模型应用算子的计算模型进行训练,得到新的计算模型;所述模型发布算子用于发布所述新的计算模型;
所述配置信息服务模块,还用于存储所述模型发布算子发布的新的计算模型;
所述模型应用算子用于从所述配置信息服务模块获取所述新的计算模型,并使用所述新的计算模型。
即,模型应用算子进行计算的同时,机器学习算子也在不断进行学习,学习的结果是获得一个计算模型,该计算模型被送到模型发布算子进行发布,并将该计算模型存入配置信息服务模块。一般来说,机器学习算子得到一个模型需要大量数据的积累,是一个较缓慢的过程,因此模型的发布不是实时的,可以以一定的时间间隔发布,也可以等新的计算模型与上次发布的计算模型的效果评估差异达到一定阈值时进行发布。
模型发布算子将新的计算模型更新到配置信息服务模块,模型应用算子从配置信息服务模块获取最新的计算模型。计算模型从模型发布算子到模型应用算子的传递是通过配置信息服务模块间接完成的。模型应用算子总是使用模型发布算子发布的最新的计算模型进行计算。
也就是说,流式计算引擎模块接收任务管理模块提交的任务并运行时,流式计算引擎中的各任务中的算子可以访问配置信息服务模块,获取最新的配置数据和最新的计算模型,从而实现配置数据和计算模型的动态改变。优选的,配置信息服务模块可以采用通知机制,当配置信息有更新时,通知算子进行读取操作,确保了算子能实时获取最新的配置信息,还能避免因频繁读取配置信息带来的运行效率下降问题。
由于算子的配置数据和计算模型可以改变,同一个算子可以适应于多种不同场景,这样就减少了所需算子的类型,提高了算子代码的复用性。
作为再一种可选的实施方式:所述配置信息服务模块,还用于根据所述配置管理策略,更新计算规则。
在算子的运行周期中,不同的时间段对应的配置信息可以不同,从而,所述配置管理策略可以为基于时间变化,可针对不同的时间段,实时更新计算规则,以适应需求,从而,计算规则调整更为及时,计算结果更为准确。
例如,在不同场景下,基于交易的上下文(预先设定一计算规则,例如为判断过去24小时实时交易中,所有满足开户、销户且转出超过10W的账号为非法账号,则单纯看一笔交易没任何意义,必须基于账号观察24小时内的交易流水,这就是交易上下文),需要用到不同的计算规则来判断是否异常,例如,在双十一等交易高峰时段,系统自动调整计算规则,提高判断阈值、交易频率和交易额度,在常规时段会被判断为异常的,在交易高峰时段不会被判断为异常。其中,可通过机器学习算子自动调整计算规则,例如,基于数据集的动态变化,一分钟之内交易多少笔属于异常,不同的时间段,判断规则不同。
又如,若模型应用算子采用的计算模型为异常检测模型,初始使用该模型时用户自定义计算规则,随着业务动态变化,例如不同交易时段数据不同(例如银行工作日比周末交易量大、双十一交易量很大等),导致计算规则不同,刚开始训练时机器学习算子用于训练该模型的数据集有限,随着机器学习算子接收到的训练用数据越来越多,即随着业务的数据规模和/或数据分布的变化,机器学习算子训练得到的计算模型不断完善,可以自动地动态调整计算规则,并动态发布新的计算模型,提供给模型应用算子。
优选的,所述配置信息服务模块,还用于在更新所述配置信息时,生成通知信息,向所述流式计算引擎模块发送所述通知信息。
也就是说,配置信息服务模块可以采用通知机制,当配置信息有更新时,通知配置信息服务模块的访问者(即流式计算引擎模块)进行读取操作,不仅确保了访问者能实时获取最新的配置信息,还能避免因频繁读取配置信息带来的运行效率下降问题。
也可以是所述流式计算引擎模块实时或定时地读取配置信息服务模块中的最新的配置信息。
在本发明的一些优选实施例中,所述配置信息中包括所述算子的并行度;
所述流式计算引擎模块,进一步用于读取所述配置信息,并根据所述算子的并行度,创建与所述算子的并行度数量相同的实例,当所述实例的数量为至少两个时,所述至少两个实例对同一数据流的不同部分并行处理。
即,流式计算引擎模块中的流式计算引擎在运行一个任务时,同一个算子可能有多个实例并行运行(实例为执行该算子所定义的数据处理和/或传送操作的进程或线程。多个实例可以运行在同一台主机或者多个主机上,对同一数据流的不同部分并行处理)。
可以根据用户的配置,或者,数据实时处理系统可自动调整实例的个数(即算子的并行度)。例如:某个算子的并行度设置为8,即该算子可以同时运行8个实例。所有算子的所有实例都同时在运行,并且不会自动退出。因此能够对输入数据流进行实时、不间断的处理。
在本发明的一些优选实施例中,所述任务中包括至少两个算子,所述至少两个算子并行运行。
即,所述任务中包括至少两个算子,不同算子之间是并行运行的,同一个算子可以是并行运行多个实例的,即分布式并行计算,从而数据处理的效率更高。
例如,请参阅图3,图3是本发明实施例的任务拓扑图。图3中的任务包括:输入算子、数据预处理算子、模型应用算子、数据后处理算子、输出算子、机器学习算子和模型发布算子。
输入算子可以从用户设置的输入数据源获取数据,数据预处理算子对获得的原始数据进行解析,转变为统一的用于内部处理的格式;模型应用算子可以根据接收的一个序列化了的计算模型进行计算并产生输出数据,该计算模型来自配置信息服务模块(可以是用户手动配置的计算模型,也可以是模型发布算子发布的计算模型);数据后处理算子将数据转换为预定的(例如用户期望)的格式;输出算子则将数据按预定的(例如用户指定)的方式和目的输出。
数据预处理算子输出的数据可以同时送入一个机器学习算子进行实时在线的学习,学习的结果是获得一个计算模型,该计算模型被送到一个模型发布算子进行发布。发布的操作是将模型序列化以后存入配置信息服务模块。
模型应用算子通过配置信息服务模块间接得到了模型发布算子发布的计算模型,从而实现了计算模型的在线学习和动态更新,该模型应用算子的计算模型包含数据处理算法。模型更新的时候不需要将任务停止。
以一个在银行进行风险预警的应用场景为例,输入算子输入所有账号的交易记录,预处理算子解析交易记录,从中得到账号、交易时间、交易类型、交易金额等信息,模型应用算子使用异常检测模型对输入信息进行计算,得出是否异常的判断结果,输出算子将异常的交易记录推送到用户界面上实时显示。机器学习算子可以使用孤立森林(iForest)算法、神经网络算法、支持向量机算法、稳健回归算法、最近邻算法等至少之一建立异常检测模型,随着时间的推移,机器学习算子学习的数据越来越多,得到的模型就会越来越可靠。
图3中所有的算子都是并行运行的,同一个算子也可以并行运行多个实例。例如,模型应用算子进行计算的同时,机器学习算子也在不断的进行学习。模型应用算子总是使用模型发布算子发布的最新模型进行计算。在预处理算子处理第二条/第二批输入数据时,模型应用算子可计算第一条/第一批输入数据。从而,在更新配置信息时,不需要将运行中的任务停止,即,算子对输入数据一条一条处理,任务处理可以是不断流的。而现有的数据分析处理系统中,一个任务的输入数据是一次性的(例如输入一批数据),工作流中的模块依次处理完成则任务结束,在更新时,必须断流,给业务带来了极大影响。
本发明实施例中,数据预处理算子和数据后处理算子用于解析数据,所述解析包括数据过滤、数据变换、数据标准化和缺失值处理中的至少之一。数据预处理算子可以降低数据处理量,进一步提升计算速度,数据后处理算子可以使数据按预定的格式输出。
在本发明的其他一些实施例中,数据预处理算子和数据后处理算子不是必要的。机器学习算子和模型发布算子也不是必要的,是为了进一步优化更新更优的计算模型,以获取更精确的计算结果。
在本发明的一些优选实施例中,所述流式计算引擎模块中的流式计算引擎包括以下至少之一:flink、spark和storm。
也就是说,可以根据业务场景,同时使用或仅使用一种引擎,例如flink或spark,其中,spark支持实时和批量计算、成熟度更高、社区活跃度更高、可以做到秒级;flink对实时计算的支持程度更高、可以做到毫秒级;storm是一个分布式的、容错的实时计算系统,能够方便地在一个计算机集群中编写与扩展复杂的实时计算,能够保证每个消息都会得到处理,处理速度快,在一个小集群中,每秒可以处理数以百万计的消息,可以使用任意编程语言进行开发。
当然,所述流式计算引擎模块中的流式计算引擎也可以为集成的引擎。用户可以基于任务的性质和要求指定使用的流式计算引擎,例如,用户需要同时执行两个任务,一个任务需要高实时性,可以选用flink,另一个任务对实时性要求不高,但需要高性能的批量计算,则可以选用spark。
系统也可以基于任务的性质和要求智能地自动指定流式计算引擎。
优选的,所述流式计算引擎模块中包括至少两个流式计算引擎;
所述任务管理模块,进一步用于根据所述任务的定义,调用所述至少两个流式计算引擎中的一流式计算引擎的接口构建任务,并将构建的任务提交至所述流式计算引擎模块。
即,任务管理模块能够自动调用相应的流式计算引擎的接口构建任务,智能化程度高,能进一步提高用户使用实时计算系统的便利性。
优选的,所述流式计算引擎模块中能够同时运行至少两个所述任务。
也就是说,多个任务可以同时运行,当需要同时运行多个任务时,用户可以创建多个任务并提交到指定的流式计算引擎。每一流式计算引擎可以同时运行一个或多个任务。
在本发明的其他一些优选实施例中,所述人机界面模块,还用于根据用户的输入,产生系统健康状况信息的显示命令并提交至所述任务管理模块,
所述任务管理模块,还用于根据所述显示命令,获取系统健康状况信息,并将所述系统健康状况信息返回至所述人机界面模块,所述系统健康状况信息包括以下至少之一预设指标:集群磁盘读/写流量、集群中央处理器CPU使用率、集群硬盘使用率、集群网络输入/输出流量、集群内存使用率、节点磁盘读/写流量、节点CPU使用率、节点硬盘使用率、节点网络输入/输出流量、节点内存使用率;
所述人机界面模块,还用于显示所述系统健康状况信息。
也就是说,本发明的数据实时处理系统可通过实时监控预设指标,将预设指标展示在用户界面或运维界面,从而能够实时衡量数据实时处理系统的健康状况,便于用户发现异常时,可以及时进行干预。例如,当集群磁盘读/写流量突然降低,分析其原因,从而能及时进行硬件故障维护等。
所述系统健康状况信息的显示方式多样化,例如,以图形方式显示,请参阅图4和图5,图4-5是本发明实施例的预设指标的示意图。通过图形展示的方式,更加直观,便于用户实时监控数据实时处理系统的健康状况。
请参阅图6,图6是应用本发明实施例的数据实时处理系统的工作流程图。具体的工作流程如下:
(1)用户登陆数据实时处理系统,进入用户界面,创建并绘制任务。
其中,用户界面以图形界面为例,用户输入包括但不限于:编辑任务的配置信息,添加与删除算子,编辑算子的配置信息,在算子之间绘制连接线,编辑连接线的配置信息。
(2)用户绘制任务完成后发起“提交”命令,任务管理模块将任务提交到流式计算引擎模块。
即,人机界面模块将任务的定义提交至任务管理模块,任务管理模块调用流式计算引擎的接口构建任务,并将构建的任务提交到流式计算引擎模块。
(3)流式计算引擎模块负责任务的调度和执行。
(4)运行中的任务可以从配置信息服务模块得到配置信息。
即,流式计算引擎模块中的流式计算引擎运行任务时,任务中的算子可以从配置信息服务模块读取最新的配置信息,并进行计算。配置信息服务模块中的配置信息可以是人机界面模块根据用户输入生成,并由任务管理模块校验、整理后,写入配置信息服务模块的,也可以是任务在运行过程中更新的配置信息,还可以是数据实时处理系统默认的配置信息。配置信息服务模块在更新所述配置信息时,可以通知流式计算引擎模块。
(5)用户通过用户界面监控数据实时处理系统及系统中的每个任务的运行状况。
具体而言,用户可以在用户界面发起查询命令,任务管理模块可以获取系统运行状态信息,并返回至人机界面模块进行显示,以便于用户监控系统及系统中的每个任务的运行状况。
(6)用户对某个任务发起“停止”命令,流式计算引擎模块停止运行该任务。
本发明的数据实时处理系统能够提供风险监控、精准营销、实时预警与事中分析等多种分析手段,数据分析处理能力强大,能够为企业多种业务场景提供实时处理的支撑,为企业提供面向未来的大数据技术和人工智能计算架构的支撑,且实际应用的业务场景与技术指标要求考虑全面,能够为企业未来的大数据技术提供高效可靠的基础设施。
基于同样的发明构思,本发明还提供一种数据实时处理方法。请参阅图7,图7是本发明实施例二的数据实时处理方法的流程示意图,该数据实时处理方法包括:
步骤71:显示用户界面并接收用户的输入,根据用户的输入,生成任务的定义,所述任务的定义包括:所述任务中的算子和所述任务中的算子与算子之间的连接关系;
步骤72:根据所述任务的定义,构建任务;
步骤73:运行所述任务。
本发明实施例的数据实时处理方法,能够根据用户的输入自动生成任务的定义,调用流式计算引擎构建任务,控制流式计算引擎模块运行任务,智能化程度高,提高了数据实时处理系统的使用便利性,加快了数据处理的速度,保证了数据处理的实时性。
优选的,所述用户界面为图形化界面或者命令行界面。
优选的,所述方法还包括:
根据用户的输入,产生所述任务的操作命令,所述任务的操作命令包括以下至少之一:提交任务、暂停任务和停止任务;
根据所述任务的操作命令,生成所述任务的相关操作指示;
根据所述任务的相关操作指示,执行所述任务的相关操作。
优选的,所述数据实时处理方法还包括:
根据用户的输入,产生系统运行状态的查询命令,所述系统运行状态包括以下至少之一:任务管理模块的后台状态、流式计算引擎的状态和所述任务的运行状态;
根据所述查询命令,获取系统运行状态信息;
显示所述系统运行状态信息。
优选的,所述显示用户界面并接收用户的输入的步骤之后,还包括:
根据用户的输入,生成配置信息;所述配置信息包括:配置管理策略和配置数据,所述配置数据包括以下至少之一:所述任务的配置数据和所述任务中的算子的配置数据;
对所述配置信息进行处理;
存储处理后的所述配置信息;
读取处理后的所述配置信息,根据处理后的所述配置信息,运行所述任务。
优选的,所述数据实时处理方法还包括:
根据所述配置管理策略,更新所述配置数据。
优选的,所述根据所述配置管理策略,更新所述配置数据的步骤包括:
获取系统运行状态信息,根据所述系统运行状态信息和/或所述配置管理策略,更新所述配置数据,所述系统运行状态信息包括以下至少之一:任务管理模块的后台状态信息、流式计算引擎的状态信息和所述任务的运行状态信息。
优选的,所述根据所述配置管理策略,更新所述配置数据的步骤包括:
在更新所述配置信息时,生成通知信息。
优选的,所述任务的算子包括:输入算子、数据处理算子和输出算子;
所述输入算子,用于从数据源中获取数据;
所述数据处理算子,用于对获取的数据进行计算,生成待输出数据;
所述输出算子,用于将所述待输出数据按预设方式输出。
优选的,所述数据处理算子包括模型应用算子,所述任务的算子还包括机器学习算子和模型发布算子,所述机器学习算子用于对所述模型应用算子的计算模型进行训练,得到新的计算模型;所述模型发布算子用于发布所述新的计算模型;
所述方法还包括:
存储所述模型发布算子发布的新的计算模型;
所述模型应用算子用于获取所述新的计算模型,并使用所述新的计算模型。
优选的,所述配置信息中包括所述算子的并行度;
所述读取处理后的所述配置信息,根据处理后的所述配置信息,运行所述任务的步骤包括:
读取所述配置信息,并根据所述算子的并行度,创建与所述算子的并行度数量相同的实例,当所述实例的数量为至少两个时,所述至少两个实例对同一数据流的不同部分并行处理。
优选的,所述任务中包括至少两个算子,所述至少两个算子并行运行。
优选的,所述运行所述任务的步骤包括:
采用流式计算引擎运行所述任务,所述流式计算引擎包括以下至少之一:flink、spark和storm。
优选的,流式计算引擎的个数为至少两个;
所述根据所述任务的定义,构建任务的步骤包括:
根据所述任务的定义,调用所述至少两个流式计算引擎中的一流式计算引擎的接口构建任务。
优选的,所述运行所述任务的步骤包括:
同时运行至少两个所述任务。
优选的,所述方法还包括:
根据用户的输入,产生系统健康状况信息的显示命令;
根据所述显示命令,获取系统健康状况信息,所述系统健康状况信息包括以下至少之一预设指标:集群磁盘读/写流量、集群中央处理器CPU使用率、集群硬盘使用率、集群网络输入/输出流量、集群内存使用率、节点磁盘读/写流量、节点CPU使用率、节点硬盘使用率、节点网络输入/输出流量、节点内存使用率;
显示所述系统健康状况信息。
本发明实施例的数据实时处理方法能够实现本发明实施例一的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
请参阅图8,图8是本发明实施例三的数据实时处理系统的结构示意图,该数据实时处理系统80包括:存储器81、处理器82及存储在所述存储器81上并可在所述处理器82上运行的计算机程序;所述处理器82执行所述计算机程序时实现如下步骤:
显示用户界面并接收用户的输入,根据用户的输入,生成任务的定义,所述任务的定义包括:所述任务中的算子和所述任务中的算子与算子之间的连接关系;
根据所述任务的定义,构建任务;
运行所述任务。
本发明实施例的数据实时处理系统,能够根据用户的输入自动生成任务的定义,调用流式计算引擎构建任务,控制流式计算引擎模块运行任务,智能化程度高,提高了数据实时处理系统的使用便利性,加快了数据处理的速度,保证了数据处理的实时性。
优选的,所述用户界面为图形化界面或者命令行界面。
优选的,计算机程序被处理器82执行时还可实现如下步骤:
根据用户的输入,产生所述任务的操作命令,所述任务的操作命令包括以下至少之一:提交任务、暂停任务和停止任务;
根据所述任务的操作命令,生成所述任务的相关操作指示;
根据所述任务的相关操作指示,执行所述任务的相关操作。
优选的,计算机程序被处理器82执行时还可实现如下步骤:
根据用户的输入,产生系统运行状态的查询命令,所述系统运行状态包括以下至少之一:任务管理模块的后台状态、流式计算引擎的状态和所述任务的运行状态;
根据所述查询命令,获取系统运行状态信息;
显示所述系统运行状态信息。
优选的,计算机程序被处理器82执行时还可实现如下步骤:
所述显示用户界面并接收用户的输入的步骤之后,还包括:
根据用户的输入,生成配置信息;所述配置信息包括:配置管理策略和配置数据,所述配置数据包括以下至少之一:所述任务的配置数据和所述任务中的算子的配置数据;
对所述配置信息进行处理;
存储处理后的所述配置信息;
读取处理后的所述配置信息,根据处理后的所述配置信息,运行所述任务。
优选的,计算机程序被处理器82执行时还可实现如下步骤:
根据所述配置管理策略,更新所述配置数据。
优选的,计算机程序被处理器82执行时还可实现如下步骤:
所述根据所述配置管理策略,更新所述配置数据的步骤包括:
获取系统运行状态信息,根据所述系统运行状态信息和/或所述配置管理策略,更新所述配置数据,所述系统运行状态信息包括以下至少之一:任务管理模块的后台状态信息、流式计算引擎的状态信息和所述任务的运行状态信息。
优选的,计算机程序被处理器82执行时还可实现如下步骤:
所述根据所述配置管理策略,更新所述配置数据的步骤包括:
在更新所述配置信息时,生成通知信息。
优选的,所述任务的算子包括:输入算子、数据处理算子和输出算子;
所述输入算子,用于从数据源中获取数据;
所述数据处理算子,用于对获取的数据进行计算,生成待输出数据;
所述输出算子,用于将所述待输出数据按预设方式输出。
优选的,所述数据处理算子包括模型应用算子,所述任务的算子还包括机器学习算子和模型发布算子,所述机器学习算子用于对所述模型应用算子的计算模型进行训练,得到新的计算模型;所述模型发布算子用于发布所述新的计算模型;
计算机程序被处理器82执行时还可实现如下步骤:
所述方法还包括:
存储所述模型发布算子发布的新的计算模型;
所述模型应用算子用于获取所述新的计算模型,并使用所述新的计算模型。
优选的,所述配置信息中包括所述算子的并行度;
计算机程序被处理器82执行时还可实现如下步骤:
所述读取处理后的所述配置信息,根据处理后的所述配置信息,运行所述任务的步骤包括:
读取所述配置信息,并根据所述算子的并行度,创建与所述算子的并行度数量相同的实例,当所述实例的数量为至少两个时,所述至少两个实例对同一数据流的不同部分并行处理。
优选的,所述任务中包括至少两个算子,所述至少两个算子并行运行。
优选的,计算机程序被处理器82执行时还可实现如下步骤:
所述运行所述任务的步骤包括:
采用流式计算引擎运行所述任务,所述流式计算引擎包括以下至少之一:flink、spark和storm。
优选的,流式计算引擎的个数为至少两个;
计算机程序被处理器82执行时还可实现如下步骤:
所述根据所述任务的定义,构建任务的步骤包括:
根据所述任务的定义,调用所述至少两个流式计算引擎中的一流式计算引擎的接口构建任务。
优选的,计算机程序被处理器82执行时还可实现如下步骤:
所述运行所述任务的步骤包括:
同时运行至少两个所述任务。
优选的,计算机程序被处理器82执行时还可实现如下步骤:
根据用户的输入,产生系统健康状况信息的显示命令;
根据所述显示命令,获取系统健康状况信息,所述系统健康状况信息包括以下至少之一预设指标:集群磁盘读/写流量、集群中央处理器CPU使用率、集群硬盘使用率、集群网络输入/输出流量、集群内存使用率、节点磁盘读/写流量、节点CPU使用率、节点硬盘使用率、节点网络输入/输出流量、节点内存使用率;
显示所述系统健康状况信息。
本发明实施例四提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例二中数据实时处理方法中的步骤。具体工作过程与上述对应实施例二中的一致,故在此不再赘述,详细请参阅以上对应实施例中方法步骤的说明。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (30)

1.一种数据实时处理系统,其特征在于,包括:人机界面模块、任务管理模块和流式计算引擎模块;
所述人机界面模块,用于显示用户界面并接收用户的输入,根据用户的输入,生成任务的定义并提交至所述任务管理模块,所述任务的定义包括:所述任务中的算子和所述任务中的算子与算子之间的连接关系;
所述任务管理模块,与所述人机界面模块连接,用于根据所述任务的定义,构建任务,并将构建的任务提交至所述流式计算引擎模块;
所述流式计算引擎模块,与所述任务管理模块连接,用于运行所述任务;
还包括:
配置信息服务模块,与所述任务管理模块和所述流式计算引擎模块连接;
其中,所述人机界面模块,还用于根据用户的输入,生成配置信息并提交至所述任务管理模块,所述配置信息包括:配置管理策略和配置数据;其中,所述配置数据包括以下至少之一:所述任务的配置数据和所述任务中的算子的配置数据;
所述配置信息服务模块,进一步用于从所述任务管理模块和/或所述流式计算引擎模块获取系统运行状态信息,根据所述系统运行状态信息和/或所述配置管理策略,更新所述配置数据;所述系统运行状态信息包括以下至少之一:所述任务管理模块的后台状态信息、所述流式计算引擎的状态信息和所述任务的运行状态信息;
所述流式计算引擎模块,还用于从所述配置信息服务模块读取处理后的所述配置信息,根据处理后的所述配置信息,运行所述任务管理模块提交的任务;
流式计算引擎模块运行所述任务管理模块提交的任务时,流式计算引擎中的任务中的算子访问配置信息服务模块,获取最新的配置数据和最新的计算模型。
2.如权利要求1所述的数据实时处理系统,其特征在于,所述用户界面为图形化界面或者命令行界面。
3.如权利要求1所述的数据实时处理系统,其特征在于,
所述人机界面模块,还用于根据用户的输入,产生所述任务的操作命令并提交至所述任务管理模块,所述任务的操作命令包括以下至少之一:提交任务、暂停任务和停止任务;
所述任务管理模块,还用于根据所述任务的操作命令,生成所述任务的相关操作指示,向所述流式计算引擎模块发送所述任务的相关操作指示;
所述流式计算引擎模块,还用于根据所述任务的相关操作指示,执行所述任务的相关操作。
4.如权利要求1所述的数据实时处理系统,其特征在于,
所述人机界面模块,还用于根据用户的输入,产生系统运行状态的查询命令并提交至所述任务管理模块,所述系统运行状态包括以下至少之一:所述任务管理模块的后台状态、所述流式计算引擎的状态和所述任务的运行状态;
所述任务管理模块,还用于根据所述查询命令,获取系统运行状态信息,并将所述系统运行状态信息返回至所述人机界面模块;
所述人机界面模块,还用于显示所述系统运行状态信息。
5.如权利要求1所述的数据实时处理系统,其特征在于,所述任务管理模块,还用于对所述配置信息进行处理,并写入所述配置信息服务模块;
所述配置信息服务模块,用于存储处理后的所述配置信息。
6.如权利要求5所述的数据实时处理系统,其特征在于,
所述配置信息服务模块,还用于在更新所述配置信息时,生成通知信息,向所述流式计算引擎模块发送所述通知信息。
7.如权利要求5所述的数据实时处理系统,其特征在于,
所述任务的算子包括:输入算子、数据处理算子和输出算子;
所述输入算子,用于从数据源中获取数据;
所述数据处理算子,用于对获取的数据进行计算,生成待输出数据;
所述输出算子,用于将所述待输出数据按预设方式输出。
8.如权利要求7所述的数据实时处理系统,其特征在于,
所述数据处理算子包括模型应用算子,所述任务的算子还包括机器学习算子和模型发布算子,所述机器学习算子用于对所述模型应用算子的计算模型进行训练,得到新的计算模型;所述模型发布算子用于发布所述新的计算模型;
所述配置信息服务模块,还用于存储所述模型发布算子发布的新的计算模型;
所述模型应用算子用于从所述配置信息服务模块获取所述新的计算模型,并使用所述新的计算模型。
9.如权利要求5-8任一项所述的数据实时处理系统,其特征在于,所述配置信息中包括所述算子的并行度;
所述流式计算引擎模块,进一步用于读取所述配置信息,并根据所述算子的并行度,创建与所述算子的并行度数量相同的实例,当所述实例的数量为至少两个时,所述至少两个实例对同一数据流的不同部分并行处理。
10.如权利要求1所述的数据实时处理系统,其特征在于,所述任务中包括至少两个算子,所述至少两个算子并行运行。
11.如权利要求1所述的数据实时处理系统,其特征在于,所述流式计算引擎模块中的流式计算引擎包括以下至少之一:flink、spark和storm。
12.如权利要求1所述的数据实时处理系统,其特征在于,所述流式计算引擎模块中包括至少两个流式计算引擎;
所述任务管理模块,进一步用于根据所述任务的定义,调用所述至少两个流式计算引擎中的一流式计算引擎的接口构建任务,并将构建的任务提交至所述流式计算引擎模块。
13.如权利要求1所述的数据实时处理系统,其特征在于,所述流式计算引擎模块中能够同时运行至少两个所述任务。
14.如权利要求1所述的数据实时处理系统,其特征在于,
所述人机界面模块,还用于根据用户的输入,产生系统健康状况信息的显示命令并提交至所述任务管理模块,
所述任务管理模块,还用于根据所述显示命令,获取系统健康状况信息,并将所述系统健康状况信息返回至所述人机界面模块,所述系统健康状况信息包括以下至少之一预设指标:集群磁盘读/写流量、集群中央处理器CPU使用率、集群硬盘使用率、集群网络输入/输出流量、集群内存使用率、节点磁盘读/写流量、节点CPU使用率、节点硬盘使用率、节点网络输入/输出流量、节点内存使用率;
所述人机界面模块,还用于显示所述系统健康状况信息。
15.一种数据实时处理方法,应用于如权利要求1至14中任一项所述的数据实时处理系统,其特征在于,包括:
显示用户界面并接收用户的输入,根据用户的输入,生成任务的定义,所述任务的定义包括:所述任务中的算子和所述任务中的算子与算子之间的连接关系;
根据所述任务的定义,构建任务;
运行所述任务;
所述显示用户界面并接收用户的输入的步骤之后,还包括:
根据用户的输入,生成配置信息,所述配置信息包括:配置管理策略和配置数据;其中,所述配置数据包括以下至少之一:所述任务的配置数据和所述任务中的算子的配置数据;
获取系统运行状态信息,根据所述系统运行状态信息和/或所述配置管理策略,更新所述配置数据;所述系统运行状态信息包括以下至少之一:所述任务管理模块的后台状态信息、所述流式计算引擎的状态信息和所述任务的运行状态信息;
读取处理后的所述配置信息,根据处理后的所述配置信息,运行所述任务;
运行所述任务时,任务中的算子获取最新的配置数据和最新的计算模型。
16.如权利要求15所述的数据实时处理方法,其特征在于,所述用户界面为图形化界面或者命令行界面。
17.如权利要求15所述的数据实时处理方法,其特征在于,所述方法还包括:
根据用户的输入,产生所述任务的操作命令,所述任务的操作命令包括以下至少之一:提交任务、暂停任务和停止任务;
根据所述任务的操作命令,生成所述任务的相关操作指示;
根据所述任务的相关操作指示,执行所述任务的相关操作。
18.如权利要求15所述的数据实时处理方法,其特征在于,还包括:
根据用户的输入,产生系统运行状态的查询命令,所述系统运行状态包括以下至少之一:任务管理模块的后台状态、流式计算引擎的状态和所述任务的运行状态;
根据所述查询命令,获取系统运行状态信息;
显示所述系统运行状态信息。
19.如权利要求15所述的数据实时处理方法,其特征在于,所述方法还包括:
对所述配置信息进行处理;
存储处理后的所述配置信息。
20.如权利要求19所述的数据实时处理方法,其特征在于,所述根据所述配置管理策略,更新所述配置数据的步骤包括:
在更新所述配置信息时,生成通知信息。
21.如权利要求19所述的数据实时处理方法,其特征在于,
所述任务的算子包括:输入算子、数据处理算子和输出算子;
所述输入算子,用于从数据源中获取数据;
所述数据处理算子,用于对获取的数据进行计算,生成待输出数据;
所述输出算子,用于将所述待输出数据按预设方式输出。
22.如权利要求21所述的数据实时处理方法,其特征在于,
所述数据处理算子包括模型应用算子,所述任务的算子还包括机器学习算子和模型发布算子,所述机器学习算子用于对所述模型应用算子的计算模型进行训练,得到新的计算模型;所述模型发布算子用于发布所述新的计算模型;
所述方法还包括:
存储所述模型发布算子发布的新的计算模型;
所述模型应用算子用于获取所述新的计算模型,并使用所述新的计算模型。
23.如权利要求19-22任一项所述的数据实时处理方法,其特征在于,
所述配置信息中包括所述算子的并行度;
所述读取处理后的所述配置信息,根据处理后的所述配置信息,运行所述任务的步骤包括:
读取所述配置信息,并根据所述算子的并行度,创建与所述算子的并行度数量相同的实例,当所述实例的数量为至少两个时,所述至少两个实例对同一数据流的不同部分并行处理。
24.如权利要求15所述的数据实时处理方法,其特征在于,所述任务中包括至少两个算子,所述至少两个算子并行运行。
25.如权利要求15所述的数据实时处理方法,其特征在于,所述运行所述任务的步骤包括:
采用流式计算引擎运行所述任务,所述流式计算引擎包括以下至少之一:flink、spark和storm。
26.如权利要求15所述的数据实时处理方法,其特征在于,流式计算引擎的个数为至少两个;
所述根据所述任务的定义,构建任务的步骤包括:
根据所述任务的定义,调用所述至少两个流式计算引擎中的一流式计算引擎的接口构建任务。
27.如权利要求15所述的数据实时处理方法,其特征在于,所述运行所述任务的步骤包括:
同时运行至少两个所述任务。
28.如权利要求15所述的数据实时处理方法,其特征在于,还包括:
根据用户的输入,产生系统健康状况信息的显示命令;
根据所述显示命令,获取系统健康状况信息,所述系统健康状况信息包括以下至少之一预设指标:集群磁盘读/写流量、集群中央处理器CPU使用率、集群硬盘使用率、集群网络输入/输出流量、集群内存使用率、节点磁盘读/写流量、节点CPU使用率、节点硬盘使用率、节点网络输入/输出流量、节点内存使用率;
显示所述系统健康状况信息。
29.一种数据实时处理系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述计算机程序时实现如权利要求15至28中任一项所述的数据实时处理方法。
30.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求15至28任一项所述的数据实时处理方法中的步骤。
CN201811143434.1A 2018-09-28 2018-09-28 一种数据实时处理系统及数据实时处理方法 Active CN109345377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811143434.1A CN109345377B (zh) 2018-09-28 2018-09-28 一种数据实时处理系统及数据实时处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811143434.1A CN109345377B (zh) 2018-09-28 2018-09-28 一种数据实时处理系统及数据实时处理方法

Publications (2)

Publication Number Publication Date
CN109345377A CN109345377A (zh) 2019-02-15
CN109345377B true CN109345377B (zh) 2020-03-27

Family

ID=65307599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811143434.1A Active CN109345377B (zh) 2018-09-28 2018-09-28 一种数据实时处理系统及数据实时处理方法

Country Status (1)

Country Link
CN (1) CN109345377B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611447B (zh) * 2019-02-25 2022-07-22 华为技术有限公司 一种计算机及服务器
CN110009100B (zh) * 2019-03-28 2021-01-05 安徽寒武纪信息科技有限公司 自定义算子的计算方法及相关产品
CN111767995B (zh) * 2019-04-02 2023-12-05 上海寒武纪信息科技有限公司 运算方法、装置及相关产品
CN110297859B (zh) * 2019-06-10 2021-07-06 恩亿科(北京)数据科技有限公司 处理实时数据的方法和装置
CN110232525B (zh) * 2019-06-14 2024-04-26 腾讯科技(深圳)有限公司 一种企业风险获取方法、装置、服务器及存储介质
CN110377621B (zh) * 2019-07-17 2023-12-01 深圳前海微众银行股份有限公司 一种基于计算引擎的界面处理方法及装置
CN110674174B (zh) * 2019-09-24 2020-09-01 北京九章云极科技有限公司 一种数据实时处理方法及数据实时处理系统
CN112817573B (zh) * 2019-11-18 2024-03-01 北京沃东天骏信息技术有限公司 用于构建流式计算应用的方法、装置、计算机系统和介质
CN111026925A (zh) * 2019-11-29 2020-04-17 中电福富信息科技有限公司 一种基于Flink的孤立森林算法并行化的异常检测方法及装置
CN110968620A (zh) * 2019-12-10 2020-04-07 国网信通亿力科技有限责任公司 一种敏捷数据分析方法
CN113127061A (zh) * 2019-12-31 2021-07-16 奇安信科技集团股份有限公司 数据处理方法及系统
CN111813871B (zh) * 2020-06-30 2021-06-18 北京九章云极科技有限公司 一种数据实时处理系统及方法
CN113535354A (zh) * 2021-06-30 2021-10-22 深圳市云网万店电子商务有限公司 调整Flink SQL算子并行度的方法及装置
CN114385136B (zh) * 2021-12-29 2022-11-22 武汉达梦数据库股份有限公司 一种Flink框架运行ETL的流程分解方法和装置
CN115794064B (zh) * 2022-10-25 2024-02-06 中电金信软件有限公司 任务处理流程的配置方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678790A (zh) * 2016-07-29 2018-02-09 华为技术有限公司 流计算方法、装置及系统
CN108037961A (zh) * 2017-12-07 2018-05-15 北京锐安科技有限公司 一种应用程序配置方法、装置、服务器和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970903B (zh) * 2014-05-27 2017-05-24 重庆大学 基于Web的大型工业系统反馈数据实时处理方法及系统
CN106406836A (zh) * 2015-07-31 2017-02-15 中国电力科学研究院 面向电力系统分析的软件平台及其运行和分布式开发方法
CN105512162B (zh) * 2015-09-28 2019-04-16 杭州圆橙科技有限公司 一种基于Storm的流数据实时智能化处理框架
CN105610992A (zh) * 2016-03-31 2016-05-25 浪潮通信信息系统有限公司 一种分布式流计算系统任务分配负载均衡方法
CN107305501B (zh) * 2016-04-25 2020-11-17 百度在线网络技术(北京)有限公司 一种多流流式数据的处理方法和系统
CN107943945B (zh) * 2017-11-24 2018-12-11 清华大学 一种大数据分析开发平台中异构算子管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678790A (zh) * 2016-07-29 2018-02-09 华为技术有限公司 流计算方法、装置及系统
CN108037961A (zh) * 2017-12-07 2018-05-15 北京锐安科技有限公司 一种应用程序配置方法、装置、服务器和存储介质

Also Published As

Publication number Publication date
CN109345377A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109345377B (zh) 一种数据实时处理系统及数据实时处理方法
US11627053B2 (en) Continuous data sensing of functional states of networked computing devices to determine efficiency metrics for servicing electronic messages asynchronously
US11995062B2 (en) System and method for improved data consistency in data systems including dependent algorithms
CN109725899B (zh) 数据流式处理方法及装置
CN110245178A (zh) 营销自动化管理平台系统及其管理方法
CN110389748A (zh) 业务数据处理方法及终端设备
CN111177250A (zh) 一种异常交易监测方法、系统及存储介质
US20220036259A1 (en) Application capacity forecasting
JP7461696B2 (ja) 分散処理システムのリソース評価方法、システム、プログラム
CN110991871A (zh) 风险监测方法、装置、设备与计算机可读存储介质
US20220215303A1 (en) Automated Rules Execution Testing And Release System
CN113570468A (zh) 一种企业支付风控服务平台
CN114207590A (zh) 服务质量标准决定的自动化操作数据管理
CN113468159A (zh) 一种数据应用全链路管控方法及系统
CN108804601A (zh) 电网运营监测大数据主动式分析方法及装置
CN115374968A (zh) 一种银行机房管理方法、装置及设备
Dogani et al. K-agrued: a container autoscaling technique for cloud-based web applications in kubernetes using attention-based gru encoder-decoder
CN116886517B (zh) 一种基于流量数据的告警系统及方法
CN117408561A (zh) 一种住宅工程建设监理方法、装置及电子设备
CN113793213B (zh) 一种异步信贷风控断点续作的决策方式的实现方法及装置
CN116166813A (zh) 大数据自动化运维的管理方法、系统、设备及存储介质
CN116383471B (zh) 资管行业大数据场景下数据浏览器提取数据的方法及系统
CN114358911B (zh) 开票数据风险控制方法、装置、计算机设备和存储介质
Wan et al. Diting: A real-time distributed feature serving system for machine learning
CN115129424B (zh) 一种数据资产管理平台及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant