CN110532060B - 一种混合网络环境数据采集方法及系统 - Google Patents

一种混合网络环境数据采集方法及系统 Download PDF

Info

Publication number
CN110532060B
CN110532060B CN201910736943.3A CN201910736943A CN110532060B CN 110532060 B CN110532060 B CN 110532060B CN 201910736943 A CN201910736943 A CN 201910736943A CN 110532060 B CN110532060 B CN 110532060B
Authority
CN
China
Prior art keywords
data collection
task
resource
center
collection system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910736943.3A
Other languages
English (en)
Other versions
CN110532060A (zh
Inventor
曾晓烨
罗志达
陈晓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PCI Technology Group Co Ltd
Original Assignee
PCI Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PCI Technology Group Co Ltd filed Critical PCI Technology Group Co Ltd
Priority to CN201910736943.3A priority Critical patent/CN110532060B/zh
Publication of CN110532060A publication Critical patent/CN110532060A/zh
Application granted granted Critical
Publication of CN110532060B publication Critical patent/CN110532060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请实施例公开了一种混合网络环境数据采集方法及系统。本申请实施例提供的技术方案通过数据收集系统对资源中心的资源负荷情况进行监听,并将数据采集任务分解成Flume‑NG进程可执行的子任务,并发送至协调中心,由Flume‑Proxy进程作为Flume‑NG进程的代理对Flume‑NG进程的启停进行控制,进而从协调中心获取子任务进行处理,减少因计算能力不足而导致处理时间过长,效率低下的问题,实现计算资源在混合网络环境下的动态伸缩。

Description

一种混合网络环境数据采集方法及系统
技术领域
本申请实施例涉及计算机领域,尤其涉及一种混合网络环境数据采集方法及系统。
背景技术
近年来,随着计算资源种类日益增加、规模不断扩大、计算能力不断加大以及应用需求日渐多样化,很多计算环境可能不仅由物理机来提供服务,也同时也可以由虚拟机或容器来提供服务。
虚拟机技术是虚拟化技术的一种,所谓虚拟化技术就是将事物从一种形式转变成另一种形式,最常用的虚拟化技术有操作系统中内存的虚拟化,实际运行时用户需要的内存空间可能远远大于物理机器的内存大小,利用内存的虚拟化技术,用户可以将一部分硬盘虚拟化为内存。而容器是一种轻量级操作系统层面的虚拟机,它为应用软件及其依赖组件提供了一个资源独立的运行环境。应用软件所依赖的组件会被打包成一个可重用的镜像,镜像运行环境并不会与主操作系统共享内存、CPU和硬盘空间,由此也保证了容器内部的进程与容器外部进程的独立关系。
目前,数据采集等任务通常在单一的计算资源环境(如物理机)中进行,由于单一计算资源的计算能力有限,在任务计算量比较大时,依靠当前的计算资源处理任务,会出现任务处理时间过长,导致工作效率低下的情况。
发明内容
本申请实施例提供一种混合网络环境数据采集方法及系统,根据任务的计算量分配合适的计算资源进行处理,提升工作效率。
在第一方面,本申请实施例提供了一种混合网络环境数据采集方法,包括:
数据收集系统将数据采集任务发送至协调中心;
数据收集系统根据数据采集任务的计算量通知资源中心调用计算资源,并在计算资源中启动Flume-Proxy进程,所述计算资源包括容器、虚拟机和/或物理机中的一种或多种;
数据收集系统向Flume-Proxy进程发送任务启动指令;
Flume-Proxy进程响应于任务启动指令从协调中心获取并启动Flume-NG进程执行所述数据采集任务。
进一步的,所述数据收集系统将数据采集任务发送至协调中心包括:
数据收集系统将数据采集任务分解为若干子任务;
数据收集系统将所述子任务发送至协调中心。
进一步的,所述数据收集系统根据数据采集任务的计算量通知资源中心调用计算资源,并在计算资源中启动Flume-Proxy进程包括:
数据收集系统根据每个子任务的计算量通知资源中心调用对应的计算资源,并在对应的计算资源中启动Flume-Proxy进程;
所述数据收集系统向Flume-Proxy进程发送任务启动指令包括:
数据收集系统向启动的Flume-Proxy进程发送指向子任务的任务启动指令;
所述Flume-Proxy进程响应于任务启动指令从协调中心获取并启动Flume-NG进程执行所述数据采集任务包括:
Flume-Proxy进程响应于任务启动指令从协调中心获取并启动Flume-NG进程执行所述任务启动指令所指向的子任务。
进一步的,所述Flume-NG进程之间利用Kafka作为数据采集任务之间的消息中间件。
进一步的,所述数据收集系统根据数据采集任务的计算量通知资源中心调用计算资源包括:
数据收集系统根据数据采集任务的计算量与任务分配原则通知资源中心调用计算资源;
所述任务分配原则包括:优先使用剩余可用资源最大的计算资源的原则、同一个数据采集任务的子任务分配至同一类型的计算资源的原则、优先使用容器和/或虚拟机的原则的一种或多种的组合。
进一步的,所述方法还包括:
Flume-Proxy进程定期向协调中心写入本节点的资源负荷情况;
数据收集系统从协调中心获取资源中心中每种计算资源的负荷情况。
在第二方面,本申请实施例提供了一种混合网络环境数据采集系统,包括:
数据收集系统,用于将数据采集任务发送至协调中心,根据数据采集任务的计算量向资源中心发送资源调用通知,还用于向资源中心发送任务启动指令;
协调中心,用于接收来自数据收集系统的数据采集任务,并将数据采集任务发送至资源中心;
资源中心,用于响应于数据收集系统的资源调用通知调用计算资源,并在计算资源中启动Flume-Proxy进程,Flume-Proxy进程响应于任务启动指令从协调中心获取并启动Flume-NG进程执行所述数据采集任务,所述计算资源包括容器、虚拟机和/或物理机中的一种或多种。
进一步的,所述数据收集系统还用于将数据采集任务分解为若干子任务,所述数据收集系统发送至协调中心的数据采集任务包括所述子任务。
在第三方面,本申请实施例提供了一种计算机设备,包括:显示屏、存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的混合网络环境数据采集方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的混合网络环境数据采集方法。
本申请实施例通过数据收集系统对资源中心的资源负荷情况进行监听,并将数据采集任务分解成Flume-NG进程可执行的子任务,并发送至协调中心,由Flume-Proxy进程作为Flume-NG进程的代理对Flume-NG进程的启停进行控制,进而从协调中心获取子任务进行处理,减少因计算能力不足而导致处理时间过长,效率低下的问题,实现计算资源在混合网络环境下的动态伸缩。
附图说明
图1是本申请实施例提供的一种混合网络环境数据采集方法的流程图;
图2是本申请实施例提供的另一种混合网络环境数据采集方法的流程图;
图3是本申请实施例提供的一种混合网络环境数据采集系统的结构示意图;
图4是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1给出了本申请实施例提供的一种混合网络环境数据采集方法的流程图,本实施例提供的混合网络环境数据采集方法可以由混合网络环境数据采集系统来执行,该混合网络环境数据采集系统可通过硬件和/或软件的方式实现,并集成在计算机设备或计算机集群中。参考图1,该混合网络环境数据采集方法具体包括:
S101:数据收集系统将数据采集任务发送至协调中心。
具体的,数据收集系统(dgs-admin)作为数据采集流程的可视化工具,其具备数据采集流程设计、数据采集流程管理、数据采集任务管理、运行环境配置等功能。数据收集系统将接收到的数据采集流程解析为Flume工具可执行的数据采集任务,并将数据采集任务发送至协调中心。
示例性的,其中数据收集系统接收数据采集任务的操作可由数据运维人员进行操作触发。数据运维人员根据当地的计算资源(如物理机)的计算能力和当前需要处理的数据采集任务的计算量确定是否发送至数据收集系统中进行计算资源扩容处理。
可选的,数据收集系统接收数据采集任务还可以由当地或云端的计算资源根据本地的计算能力和当前需要处理的数据采集任务的计算量确定是否需要发送至数据收集系统中进行处理,在当地的计算资源的计算能力足够时,在本地执行数据采集任务即可,在当地的计算资源的计算能力不足时,自动将数据采集任务的全部或部分(如超出本地计算能力范围的部分)发送至数据收集系统。可以理解的是,发送至数据收集系统中的数据采集任务可以是整个数据采集流程,也可以是根据当地计算资源的计算能力,从整个数据采集流程中分割出来的部分。
进一步的,协调中心(ZooKeeper)是一个分布式的、开放源码的分布式应用程序协调服务,是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
S102:数据收集系统根据数据采集任务的计算量通知资源中心调用计算资源,并在计算资源中启动Flume-Proxy进程。
具体的,协调中心对资源中心各计算资源的资源负荷情况进行收集,其中资源负荷情况通过各计算资源中运行的Flume-Proxy进程上传得到。数据收集系统从协调中心获取并监听各计算资源的资源负荷情况,对接收到的数据采集任务的计算量进行计算,并根据各计算资源的资源负荷情况为数据收集任务配置合适的计算资源(如剩余可用资源最大且足够执行该数据收集任务的计算资源),并向资源中心中对应的计算资源发出资源调用通知,通知其调用对应类型的计算资源,并在对应计算资源中启动Flume-Proxy进程。
进一步的,Flume-Proxy进程是Flume-NG进程的代理模块,负责Flume-NG进程的启停,及计算资源的运行状态、资源负荷的收集、汇报。Flume-NG进程是Flume一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。
本申请实施例中计算资源包括容器、虚拟机和/或物理机的一种或多种的组合,形成混合网络环境。
S103:数据收集系统向Flume-Proxy进程发送任务启动指令。
S104:Flume-Proxy进程响应于任务启动指令从协调中心获取并启动Flume-NG进程执行所述数据采集任务。
具体的,在启动对应计算资源中的Flume-Proxy进程后,数据收集系统向该Flume-Proxy进程发送任务启动指令,并且该任务启动指令指向对应分配至该计算资源的数据采集任务。此时Flume-Proxy进程响应于任务启动指令启动Flume-NG进程,同时Flume-Proxy进程从协调中心获取并执行该任务启动指令指向的数据采集任务。具体的,Flume-Proxy进程执行数据采集任务通过启动Flume-NG进程来进行,Flume-NG进程的处理过程即为数据采集任务的处理过程。
上述,通过数据收集系统对资源中心的资源负荷情况进行监听,并将数据采集任务发送至协调中心,由Flume-Proxy进程作为Flume程序的代理对Flume-NG进程的启停进行控制,Flume-Proxy进程从协调中心获取数据采集任务并启动Flume-NG进程进行处理,减少因计算能力不足而导致处理时间过长,效率低下的问题,实现计算资源在混合网络环境下的动态伸缩。
在上述实施例的基础上,图2给出了本申请实施例提供的另一种混合网络环境数据采集方法的流程图。该混合网络环境数据采集方法是对上述混合网络环境数据采集方法的具体化。参考图2,该混合网络环境数据采集方法包括:
S201:数据收集系统将数据采集任务分解为若干子任务。
具体的,数据收集系统在接收到数据采集任务后,将数据采集任务的流程解析并分解为若干可由Flume程序执行的子任务。可以理解的是,若数据采集任务的计算量较小,可以将数据采集任务本身作为子任务而不进行分解。
示例性的,其中数据收集系统接收数据采集任务可由数据运维人员进行操作触发,还可以由当地的计算资源根据其计算能力和当前需要处理的数据采集任务的计算量确定是否需要发送至数据收集系统中进行计算资源的扩容处理。
进一步的,数据收集任务的分解规则可以由数据运维人员定义并选择,还可以由数据收集系统根据预设的分割规则自动进行分割。分割规则可以是按照数据处理的类型、时间或按任务节点进行分割。
S202:数据收集系统将所述子任务发送至协调中心。
S203:数据收集系统根据每个子任务的计算量与任务分配原则通知资源中心调用对应的计算资源,并在对应的计算资源中启动Flume-Proxy进程。
示例性的,本实施例中计算资源包括容器、虚拟机和物理机混合部署组合成的混合网络环境。
其中容器由Docker工具进行创建,并且容器和Docker由K8S工具进行管理。其中Docker作为创建容器的工具,是应用容器引擎,而K8S(Kubernetes)是基于容器的集群管理平台。在需要调配容器类型的计算资源时,数据收集系统向资源中心中对应用于运行容器环境的计算资源发送K8S命令,此时Docker响应于K8S命令动态创建容器,并在创建完成的容器中启动Flume-Proxy进程,Flume-Proxy进程启动后向协调中心注册本节点为临时节点。
本实施例中虚拟机由OpenStack进行创建,在需要调配虚拟机类型的计算资源时,数据收集系统向资源中心中对应用于运行虚拟机环境的计算资源调用OpenStackAPI动态创建Flume模板的虚拟机,并且Flume-Proxy进程随着虚拟机的创建而启动,并在指定节点下向协调中心注册本进程信息并作为临时节点。
本实施例中物理机类型的计算资源由预先规划的主机来提供,在需要调配物理机类型的计算资源时,数据收集系统通过SSH协议远程通知资源中心中对应用于运行物理机环境的计算资源启动Flume-Proxy进程,并且Flume-Proxy进程启动后往指定节点下注册本进程信息,作为临时节点。
示例性的,任务分配原则包括:优先使用剩余可用资源最大的计算资源的原则、同一个数据采集任务的子任务分配至同一类型的计算资源的原则、优先使用容器和/或虚拟机的原则的一种或多种的组合。在任务分配原则由多种进行组合时,不同类型的任务分配原则设置不同的优先级别。
需要注意的是,每个Flume-Proxy进程定期向协调中心写入本节点的资源负荷情况。计算资源的负荷情况包括主机IP、端口、CPU利用情况、内存利用情况、I/O、资源类型(物理机/虚拟机/容器)等。同时数据收集系统从协调中心获取资源中心中每种计算资源的负荷情况。数据收集系统对异构混合环境中可用的计算资源进行维护,并对资源中心的资源负荷情况进行监听,数据收集系统根据解析后得到的Flume任务数量计算运行所需的计算资源并结合任务分配原则确定分配的计算资源。
S204:数据收集系统向启动的Flume-Proxy进程发送指向子任务的任务启动指令。
具体的,数据收集系统根据数据采集任务的每个子任务和Flume-Proxy进程的对应情况,向每个响应于资源调用通知而启动的Flume-Proxy进程发送指向其所对应的子任务的任务启动指令。
S205:Flume-Proxy进程响应于任务启动指令从协调中心获取并启动Flume-NG进程执行所述任务启动指令所指向的子任务。
在Flume-Proxy进程接收到任务启动指令时,Flume-Proxy进程响应于任务启动指令从协调中心获取子任务并启动Flume-NG进程,对该子任务进行处理,该子任务为Flume-Proxy进程所接收的任务启动指令所指向的子任务。
同时,数据收集系统在分配新的数据采集任务的同时,还时刻监听协调中心采集的各Flume-Proxy进程、Flume-NG进程的运行情况,其中Flume-NG进程的运行情况由Flume-Proxy进程进行采集并上报至协调中心,数据收集中心对Flume-NG进程的运行情况进行监视,并且Flume-Proxy进程在接收数据采集任务时,实时将该节点的状态更新至协调中心,数据收集中心在发现有进程异常退出时,向对应计算资源或Flume-Proxy进程发送重启指令,重启对应子任务的执行操作。
可以理解的是,在Flume-Proxy进程完成其接收的子任务后,数据收集系统可继续为该Flume-Proxy进程分配新的任务,或者通知Flume-Proxy进程关闭该Flume-NG进程,在对应计算资源无数据采集任务执行时,数据收集系统可通知对应计算资源关闭容器或虚拟机,实现计算资源的动态缩容。
进一步的,为了使得Flume流程中的任务能够协同工作,Flume-NG进程之间利用Kafka作为数据采集任务之间的消息中间件。Kafka是用于构建实时数据管道和流的应用程序,是消息中间件的一种。
上述,通过数据收集系统对资源中心的资源负荷情况进行监听,并将数据采集任务分割成子任务后发送至协调中心,由Flume-Proxy进程作为Flume-NG进程的代理对Flume-NG进程的启停进行控制,进而从协调中心获取子任务进行处理,减少因计算能力不足而导致处理时间过长,效率低下的问题,并且一个数据采集任务可分成若干子任务同时处理,提高了整体数据采集处理的吞吐量,根据数据采集任务的计算量分配对应的计算资源,实现计算资源在混合网络环境下的动态伸缩。
在上述实施例的基础上,图3为本申请实施例提供的一种混合网络环境数据采集系统的结构示意图。参考图3,本实施例提供的混合网络环境数据采集系统包括数据收集系统31、协调中心32和资源中心33。
其中,数据收集系统31,用于将数据采集任务发送至协调中心32,根据数据采集任务的计算量向资源中心33发送资源调用通知,还用于向资源中心33发送任务启动指令;协调中心32,用于接收来自数据收集系统31的数据采集任务,并将数据采集任务发送至资源中心33;资源中心33,用于响应于数据收集系统31的资源调用通知调用计算资源,并在计算资源中启动Flume-Proxy进程,Flume-Proxy进程响应于任务启动指令从协调中心32获取并启动Flume-NG进程执行所述数据采集任务,所述计算资源包括容器、虚拟机和/或物理机中的一种或多种。
上述,通过数据收集系统31对资源中心33的资源负荷情况进行监听,并将数据采集任务发送至协调中心32,由Flume-Proxy进程作为Flume-NG进程的代理对Flume-NG进程的启停进行控制,进而从协调中心32获取数据采集任务,并由Flume-NG进程进行处理,减少因计算能力不足而导致处理时间过长,效率低下的问题,实现计算资源在混合网络环境下的动态伸缩。
进一步的,数据收集系统31还用于将数据采集任务分解为若干子任务,数据收集系统31发送至协调中心32的数据采集任务包括所述子任务。
本申请实施例提供的混合网络环境数据采集系统可以用于执行上述实施例提供的混合网络环境数据采集方法,具备相应的功能和有益效果。
本申请实施例提供了一种计算机设备,该计算机设备可集成本申请实施例提供的混合网络环境数据采集系统。图4为本申请实施例提供的计算机设备的结构示意图。参考图4,该计算机设备包括:通信模块43、输入装置45、输出装置46、显示屏44、存储器42以及一个或多个处理器41;所述存储器42,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器41执行,使得所述一个或多个处理器41实现如本申请实施例所提供的混合网络环境数据采集方法。该计算机设备的处理器41、存储器42、通信模块43、显示屏44、输入装置45以及输出装置46可以通过总线或者其他方式连接,图4中以通过总线连接为例。
存储器42作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请任意实施例所述的混合网络环境数据采集方法对应的程序指令/模块(例如,混合网络环境数据采集系统中的数据收集系统31、协调中心32和资源中心33)。存储器42可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
进一步的,通信装置用于与其他设备建立有线和/或无线连接,并进行数据传输。
处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的混合网络环境数据采集方法。
上述提供的计算机设备可用于执行上述实施例提供的混合网络环境数据采集方法,具备相应的功能和有益效果。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行混合网络环境数据采集方法,该混合网络环境数据采集方法包括:数据收集系统将数据采集任务发送至协调中心;数据收集系统根据数据采集任务的计算量通知资源中心调用计算资源,并在计算资源中启动Flume-Proxy进程,所述计算资源包括容器、虚拟机和/或物理机;数据收集系统向Flume-Proxy进程发送任务启动指令;Flume-Proxy进程响应于任务启动指令从协调中心获取并启动Flume-NG进程执行所述数据采集任务。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的混合网络环境数据采集方法,还可以执行本申请任意实施例所提供的混合网络环境数据采集方法中的相关操作。
上述实施例中提供的混合网络环境数据采集系统、计算机设备及存储介质可执行本申请任意实施例所提供的混合网络环境数据采集方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的混合网络环境数据采集方法。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。

Claims (10)

1.一种混合网络环境数据采集方法,其特征在于,包括:
根据本地的计算资源的计算能力和当前需要处理的数据采集任务的计算量确定是否发送数据采集任务至数据收集系统中进行计算资源扩容处理;
如果是,则数据收集系统将数据采集任务发送至协调中心;
数据收集系统根据数据采集任务的计算量通知资源中心调用计算资源,并在计算资源中启动Flume-Proxy进程,其中,包括所述数据收集系统根据各计算资源的资源负荷情况通知所述资源中心为数据收集任务调用对应类型的计算资源;
所述计算资源包括容器、虚拟机和/或物理机中的一种或多种;
数据收集系统向Flume-Proxy进程发送任务启动指令;
Flume-Proxy进程响应于任务启动指令从协调中心获取并启动Flume-NG进程执行所述数据采集任务。
2.根据权利要求1所述的混合网络环境数据采集方法,其特征在于,所述数据收集系统将数据采集任务发送至协调中心包括:
数据收集系统将数据采集任务分解为若干子任务;
数据收集系统将所述子任务发送至协调中心。
3.根据权利要求2所述的混合网络环境数据采集方法,其特征在于,所述数据收集系统根据数据采集任务的计算量通知资源中心调用计算资源,并在计算资源中启动Flume-Proxy进程包括:
数据收集系统根据每个子任务的计算量通知资源中心调用对应的计算资源,并在对应的计算资源中启动Flume-Proxy进程;
所述数据收集系统向Flume-Proxy进程发送任务启动指令包括:
数据收集系统向启动的Flume-Proxy进程发送指向子任务的任务启动指令;
所述Flume-Proxy进程响应于任务启动指令从协调中心获取并启动Flume-NG进程执行所述数据采集任务包括:
Flume-Proxy进程响应于任务启动指令从协调中心获取并启动Flume-NG进程执行所述任务启动指令所指向的子任务。
4.根据权利要求1所述的混合网络环境数据采集方法,其特征在于,所述Flume-NG进程之间利用Kafka作为数据采集任务之间的消息中间件。
5.根据权利要求2所述的混合网络环境数据采集方法,其特征在于,所述数据收集系统根据数据采集任务的计算量通知资源中心调用计算资源包括:
数据收集系统根据数据采集任务的计算量与任务分配原则通知资源中心调用计算资源;
所述任务分配原则包括:优先使用剩余可用资源最大的计算资源的原则、同一个数据采集任务的子任务分配至同一类型的计算资源的原则、优先使用容器和/或虚拟机的原则的一种或多种的组合。
6.根据权利要求1所述的混合网络环境数据采集方法,其特征在于,所述方法还包括:
Flume-Proxy进程定期向协调中心写入本节点的资源负荷情况;
数据收集系统从协调中心获取资源中心中每种计算资源的负荷情况。
7.一种混合网络环境数据采集系统,其特征在于,包括:
数据收集系统,用于根据本地的计算资源的计算能力和当前需要处理的数据采集任务的计算量确定是否发送数据采集任务至数据收集系统中进行计算资源扩容处理,如果是,则将数据采集任务发送至协调中心,根据数据采集任务的计算量向资源中心发送资源调用通知,还用于向资源中心发送任务启动指令;
协调中心,用于接收来自数据收集系统的数据采集任务,并将数据采集任务发送至资源中心,其中,包括所述数据收集系统根据各计算资源的资源负荷情况通知所述资源中心为数据收集任务调用对应类型的计算资源;
资源中心,用于响应于数据收集系统的资源调用通知调用计算资源,并在计算资源中启动Flume-Proxy进程,Flume-Proxy进程响应于任务启动指令从协调中心获取并启动Flume-NG进程执行所述数据采集任务,所述计算资源包括容器、虚拟机和/或物理机中的一种或多种。
8.根据权利要求7所述的混合网络环境数据采集系统,其特征在于,所述数据收集系统还用于将数据采集任务分解为若干子任务,所述数据收集系统发送至协调中心的数据采集任务包括所述子任务。
9.一种计算机设备,其特征在于,包括:显示屏、存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6任一所述的混合网络环境数据采集方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6任一所述的混合网络环境数据采集方法。
CN201910736943.3A 2019-08-10 2019-08-10 一种混合网络环境数据采集方法及系统 Active CN110532060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910736943.3A CN110532060B (zh) 2019-08-10 2019-08-10 一种混合网络环境数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910736943.3A CN110532060B (zh) 2019-08-10 2019-08-10 一种混合网络环境数据采集方法及系统

Publications (2)

Publication Number Publication Date
CN110532060A CN110532060A (zh) 2019-12-03
CN110532060B true CN110532060B (zh) 2022-05-03

Family

ID=68662939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910736943.3A Active CN110532060B (zh) 2019-08-10 2019-08-10 一种混合网络环境数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN110532060B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732528B (zh) * 2021-01-08 2022-11-11 卓望数码技术(深圳)有限公司 基于it运维监控的指标采集方法、系统、设备及存储介质
CN112764898A (zh) * 2021-01-18 2021-05-07 北京思特奇信息技术股份有限公司 一种容器间任务调度的方法和系统
CN116088412B (zh) * 2023-04-10 2023-06-20 深圳华龙讯达信息技术股份有限公司 一种基于plc工业网关的可移动设备监测系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108037973A (zh) * 2017-12-20 2018-05-15 苏州优圣美智能系统有限公司 一种与数据处理工具交互的数据流建模和处理系统
CN108073705A (zh) * 2017-12-18 2018-05-25 郑州云海信息技术有限公司 一种分布式海量数据聚合采集方法
CN108681489A (zh) * 2018-05-25 2018-10-19 西安交通大学 一种超算环境下的海量数据实时采集与处理方法
CN109117252A (zh) * 2017-06-26 2019-01-01 北京京东尚科信息技术有限公司 基于容器的任务处理的方法、系统及容器集群管理系统
CN109586947A (zh) * 2018-10-11 2019-04-05 上海交通大学 分布式设备信息采集系统和方法
CN109710392A (zh) * 2018-12-21 2019-05-03 万达信息股份有限公司 一种基于混合云的异构资源调度方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9608865B2 (en) * 2014-07-09 2017-03-28 Cisco Technology, Inc. Method, system and logic for configuring a local link based on a remote link partner
US10275278B2 (en) * 2016-09-14 2019-04-30 Salesforce.Com, Inc. Stream processing task deployment using precompiled libraries
CN107479990B (zh) * 2017-08-11 2020-12-18 恒丰银行股份有限公司 一种分布式软件服务系统
CN107656813A (zh) * 2017-09-29 2018-02-02 上海联影医疗科技有限公司 一种负载调度的方法、装置及终端
CN107943555B (zh) * 2017-10-17 2021-11-23 华南理工大学 一种云计算环境下的大数据存储和处理平台及处理方法
CN108228393A (zh) * 2017-12-14 2018-06-29 浙江航天恒嘉数据科技有限公司 一种可扩展的大数据高可用的实现方法
CN109062658B (zh) * 2018-06-29 2021-06-04 优刻得科技股份有限公司 实现计算资源服务化的调度方法、装置、介质、设备及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117252A (zh) * 2017-06-26 2019-01-01 北京京东尚科信息技术有限公司 基于容器的任务处理的方法、系统及容器集群管理系统
CN108073705A (zh) * 2017-12-18 2018-05-25 郑州云海信息技术有限公司 一种分布式海量数据聚合采集方法
CN108037973A (zh) * 2017-12-20 2018-05-15 苏州优圣美智能系统有限公司 一种与数据处理工具交互的数据流建模和处理系统
CN108681489A (zh) * 2018-05-25 2018-10-19 西安交通大学 一种超算环境下的海量数据实时采集与处理方法
CN109586947A (zh) * 2018-10-11 2019-04-05 上海交通大学 分布式设备信息采集系统和方法
CN109710392A (zh) * 2018-12-21 2019-05-03 万达信息股份有限公司 一种基于混合云的异构资源调度方法

Also Published As

Publication number Publication date
CN110532060A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN107087019B (zh) 一种基于端云协同计算架构的任务调度方法及装置
CN110532060B (zh) 一种混合网络环境数据采集方法及系统
CN106330769B (zh) 一种业务处理方法及服务器
US8745434B2 (en) Platform for continuous mobile-cloud services
CN110677305B (zh) 一种云计算环境下的自动伸缩方法和系统
US8032780B2 (en) Virtualization based high availability cluster system and method for managing failure in virtualization based high availability cluster system
US10505791B2 (en) System and method to handle events using historical data in serverless systems
US20160378570A1 (en) Techniques for Offloading Computational Tasks between Nodes
CN113301078B (zh) 网络系统、服务部署与网络划分方法、设备及存储介质
WO2013104217A1 (zh) 基于云基础设施的针对应用系统维护部署的管理系统和方法
CN101741912A (zh) 一种处理计算任务的方法、网络设备及分布式网络系统
CN110389843B (zh) 一种业务调度方法、装置、设备及可读存储介质
US10498817B1 (en) Performance tuning in distributed computing systems
CN112579304A (zh) 基于分布式平台的资源调度方法、装置、设备及介质
CN103810015A (zh) 虚拟机创建方法和设备
CN112631725A (zh) 一种基于云边端协同的智慧城市的管理系统及方法
CN110958311A (zh) 一种基于yarn的共享集群弹性伸缩系统及方法
CN107203413A (zh) 一种资源数据调度系统及方法
CN109117244B (zh) 一种虚拟机资源申请排队机制的实现方法
CN111124640A (zh) 任务分配方法及系统、存储介质、电子装置
CN109960579B (zh) 一种调整业务容器的方法及装置
CN114301917A (zh) 一种弹性伸缩的设备接入系统及其工作方法
Baresi et al. PAPS: A serverless platform for edge computing infrastructures
CN113467931B (zh) 算力任务的处理方法、装置及系统
CN115297127B (zh) 一种解决异构多云统一调度及管理的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 306, zone 2, building 1, Fanshan entrepreneurship center, Panyu energy saving technology park, No. 832 Yingbin Road, Donghuan street, Panyu District, Guangzhou City, Guangdong Province

Applicant after: Jiadu Technology Group Co.,Ltd.

Address before: Room 306, zone 2, building 1, Fanshan entrepreneurship center, Panyu energy saving technology park, No. 832 Yingbin Road, Donghuan street, Panyu District, Guangzhou City, Guangdong Province

Applicant before: PCI-SUNTEKTECH Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant