CN113296946B - 边端协同的并发实时流式数据分析任务处理方法及设备 - Google Patents

边端协同的并发实时流式数据分析任务处理方法及设备 Download PDF

Info

Publication number
CN113296946B
CN113296946B CN202110563103.9A CN202110563103A CN113296946B CN 113296946 B CN113296946 B CN 113296946B CN 202110563103 A CN202110563103 A CN 202110563103A CN 113296946 B CN113296946 B CN 113296946B
Authority
CN
China
Prior art keywords
real
streaming data
data analysis
configuration
time streaming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110563103.9A
Other languages
English (en)
Other versions
CN113296946A (zh
Inventor
钱柱中
吴昆�
陆桑璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110563103.9A priority Critical patent/CN113296946B/zh
Publication of CN113296946A publication Critical patent/CN113296946A/zh
Application granted granted Critical
Publication of CN113296946B publication Critical patent/CN113296946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种边端协同的并发实时流式数据分析任务处理方法及设备。所述方法包括以下步骤:基于帕累托最优对服务器站点上运行的实时流式数据分析任务的配置进行初步筛选,确定实时流式数据分析任务的可选配置集合;根据实时流式数据分析任务的可选配置集合,基于服务器站点执行任务的总效用值最大化的原则为该站点上执行的所有实时流式数据分析任务选择侧写策略和执行策略;根据确定的侧写策略以及执行策略执行实时流式数据分析任务。该方法通过在服务器站点分配较少资源用于实时流式数据分析任务各个配置的侧写过程,将节省下来的资源用于任务的执行过程,实现在较小的影响当前周期内的执行准确率的情况下,实现长期的准确率方面的优化。

Description

边端协同的并发实时流式数据分析任务处理方法及设备
技术领域
本发明属于边缘计算领域,具体是一种边端协同的并发实时流式数据分析任务处理方法及设备。
背景技术
随着人工智能技术的发展,实时流式数据处理成为信息获取的关键手段。一方面许多应用对于实时流式数据处理要求较低的时延,另一方面为了减少在广域网上传输大量元数据对于广域网造成的压力,实时流式数据分析任务越来越多的在靠近数据产生端的边缘站点上进行执行。对于实时流式数据分析任务来说,数据处理的采样周期越高,每次采样的采样率越高,数据处理得到的准确率就越高。由于边缘站点上的可用计算资源是有限的,当边缘站点上同时执行多个实时流式数据分析任务时,实时视频流的处理效果与处理时延成为需要进行权衡的两个方面。当一个实时流式数据分析任务的采样周期和每个采样周期中采样率较高时,其需要的处理时间就较多,很可能导致其他实时流式数据分析任务的处理产生排队,进而出现较高的时延。因而,当站点上同时运行着多条实时流式数据分析任务时,需要合理的为每个视频流选择合适的采样周期以及每个采样周期中的采样率(以下将实时流式数据分析任务中某一特定采样周期以及采样率的组合称为配置(Configuration),其中最高采样周期以及最高采样率的组合称为黄金配置(GoldenConfiguration)),从而在保证各个实时流式数据分析任务达到各自最低准确率要求以及时延要求的情况下,系统总体的准确率达到最大。在对系统中运行的多条实时流式数据分析任务进行资源分配时,配置所对应的实时视频流分析的准确率信息是必须提前获得的,因此需要通过侧写的方法周期性的获取实时视频流分析各个配置所对应的准确率信息。侧写是指通过执行某一任务的子任务来预测任务完整执行的效果的技术,对于实时流式数据分析而言,侧写即是指通过短暂的执行流式数据分析的某一配置,对该配置接下来一段时间的分析准确率进行估计。
然而周期性的对实时流式数据分析的各个配置进行侧写本身会占用服务器站点上比较多的计算资源,如何平衡侧写过程和执行过程的计算资源,从而最大化实时流式数据分析任务的分析准确率,是当前迫切需要解决的问题。
发明内容
为了解决现有技术中的问题,本发明提出一种边端协同的并发实时流式数据分析任务处理方法,旨在为多个并发执行的实时流式数据分析任务确定侧写策略以及任务执行策略,以最大化总体执行准确率。
本发明的另一目的在于提供一种边端协同的并发实时流式数据分析任务处理设备。
为了达到上述发明目的,本发明采用以下技术方案:
第一方面,提出一种边端协同的并发实时流式数据分析任务处理方法,包括以下步骤:
基于帕累托最优对服务器站点上运行的实时流式数据分析任务的配置进行初步筛选,确定实时流式数据分析任务的可选配置集合;
根据实时流式数据分析任务的可选配置集合,基于服务器站点执行任务的总效用值最大化的原则为该站点上执行的所有实时流式数据分析任务选择侧写策略和执行策略;
根据确定的侧写策略以及执行策略执行实时流式数据分析任务。
进一步地,所述基于帕累托最优对服务器站点上运行的实时流式数据分析任务的配置进行初步筛选,确定实时流式数据分析任务的可选配置集合包括:
每个实时流式数据分析任务的所有配置项的可选值集合的笛卡尔积构成实时流式数据分析任务的候选配置方案集合;
将单一实时流式数据分析任务的所有配置方案及其计算资源开销进行升序排序;
分析相邻配置方案之间的优先级以及计算资源开销的变化情况;
将在后续一定不会被选到的配置方案从候选配置方案集合中除去。
进一步地,配置方案的优先级的计算方式如下:
以cij表示实时流式数据分析任务i以配置j执行的配置方案,根据配置方案cij的计算资源开销wij以及侧写次数pij和执行次数eij,计算配置方案cij的优先级μ′ij
其中μij是当前时刻配置方案cij的统计准确率,aij为配置方案cij处理一秒钟的数据量的平均准确率,/>表示本次策略更新之前的μij,wi0为黄金配置的计算资源开销。
进一步地,后续一定不会被选到的配置方案为满足以下任一条件的配置方案:
μ′ij-1>μ′ij,wij-1<wij (a)
其中μ′ij-1为配置方案cij-1的优先级,wij-1配置方案cij-1的计算资源开销,cij-1为实时流式数据分析任务i以配置j-1执行的配置方案;μ′ij+1为配置方案cij+1的优先级,wij+1配置方案cij+1的计算资源开销,cij+1为实时流式数据分析任务i以配置j+1执行的配置方案。
进一步地,所述基于服务器站点执行任务的总效用值最大化的原则为该站点上执行的所有实时流式数据分析任务选择侧写策略和执行策略包括:
对每个实时流式数据分析任务的所有可选配置方案,按照其计算资源开销进行升序排序,并为每个实时流式数据分析任务选择一个初始配置方案;
尝试将初始配置方案替换为先前排序中的下一个配置方案,在满足约束条件的前提下,从其他配置方案中选择单位计算资源能够获得最大效用值的配置方案进行替换。
进一步地,所述效用值的表达形式为:
其中xij为每一秒中实时流式数据分析任务i执行时是否使用配置j的指示向量,当xij=1时代表实时流式数据分析任务i在当前时刻会以配置j进行执行。
所述约束条件包括:
ijwijxij<T
yi,xij∈{0,1}
max(yi,μijxij)≥Hi
其中yi为每一秒中实时流式数据分析任务i是否需要进行侧写的指示向量,当yi=1时代表实时流式数据分析任务i在当前的一秒中需要进行侧写;Hi为实时流式数据分析任务i要求达到的最低准确率。
进一步地,所述根据确定的侧写策略以及执行策略执行实时流式数据分析任务包括:
对于每个实时流式数据分析任务的每一个采样周期,根据之前确定的侧写策略以及执行策略判断是否需要对这一采样周期进行采样;
对于需要处理的采样周期,将所有流的所有样本放入待处理队列当中;
控制进程依次从队列中取出样本进行处理。
第二方面,提供一种边端协同的并发实时流式数据分析任务处理设备,包括:
配置筛选模块,用于基于帕累托最优对服务器站点上运行的实时流式数据分析任务的配置进行初步筛选,确定实时流式数据分析任务的可选配置集合;
策略确定模块,用于根据可选配置集合,基于服务器站点上执行任务的总效用值最大化的原则为该站点上执行的所有实时流式数据分析任务选择侧写策略和执行策略;以及
任务执行模块,用于根据确定的侧写策略以及执行策略执行实时流式数据分析任务的。
进一步地,所述配置筛选模块包括:
候选集合建立单元,用于将每个实时流式数据分析任务的所有配置项的可选值集合的笛卡尔积构成实时流式数据分析任务的候选配置方案集合;
排序单元,用于将单一实时流式数据分析任务的所有配置方案及其计算资源开销进行升序排序;
可用性计算单元,用于分析相邻配置方案之间的优先级以及计算资源开销的变化情况,并将在后续一定不会被选到的配置方案从候选配置方案集合中除去。
进一步地,所述策略确定模块包括:
初始配置方案计算单元,用于对每个实时流式数据分析任务的所有可选配置方案,按照其计算资源开销进行升序排序,并为每个实时流式数据分析任务选择一个初始配置方案;
替换优化单元,用于尝试将初始配置方案替换为先前排序中的下一个配置方案,在满足约束条件的前提下,从其他配置方案中选择单位计算资源能够获得最大效用值的配置方案进行替换。
进一步地,所述任务执行模块包括:
采样周期筛选单元,用于对于每个实时流式数据分析任务的每一采样周期,根据之前确定的侧写策略以及执行策略判断是否需要对这一采样周期进行处理;
处理样本定序单元,用于对于需要处理的采样周期,将所有流的所有样本放入待处理队列当中;
处理单元,用于控制进程依次从队列中取出样本进行处理。
相比于现有技术,本发明具有以下有益效果:针对边缘系统中,各并发实时流式数据分析系统运行的实际场景,首次提出边端协同的并发实时流式数据分析任务处理方法,通过在服务器站点分配较少资源用于实时流式数据分析任务各个配置的侧写过程,同时将节省下来的资源用于实时流式数据分析任务的执行过程,实现在较小的影响当前周期内的执行准确率的情况下,实现长期的准确率方面的优化,该方法可以有效提升长期时间内并发实时流式数据分析的分析准确率。
附图说明
图1为根据本发明实施例的边缘网络环境示意图;
图2为根据本发明实施例的并发实时流式数据分析任务处理方法流程图;
图3为根据本发明实施例的并发实时流式数据分析任务执行示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
本发明针对边缘计算系统的计算资源约束下,并发实时流式数据分析任务的侧写过程以及执行过程的资源分配问题,通过协调并发实时流式数据分析任务的侧写过程以及执行过程中对于边缘计算系统的计算资源的使用,提高边缘计算系统中的并发实时流式数据分析任务的分析准确率。其优化理念在于,通过在服务器站点分配较少资源用于实时流式数据分析任务各个配置的侧写过程,同时将节省下来的资源用于实时流式数据分析任务的执行过程,实现在较小的影响当前周期内的执行准确率的情况下,实现长期的准确率方面的优化。为了便于对具体方法步骤进行清楚的说明,在本实施例中,结合以下网络系统进行描述。
参照图1,在一边缘计算系统中,终端设备通过AP接入网络,终端上产生实时流式数据分析任务经由上行链路传送至边缘计算服务器,边缘计算服务器通过对实时流式数据分析任务进行侧写,确定执行策略并执行分析,返回分析结果。为了描述的便利,以下描述中边缘计算服务器简称为服务器站点或站点。在本实施例中,实时流式数据分析任务为实时视频流分析任务,任务目的是对智慧工地项目的实时视频流进行视频分析,对其中的工人行为进行分析,在监测到可能存在的危险行为时及时发生报警。此外,还可以是边缘设备的传感器数据分析类任务或者是对于边缘设备本身运行情况的分析任务。其中,在服务器站点上,同时执行了多个实时流式数据分析任务,构成集合I,每一个实时流式数据分析任务包含一些可以更改的配置项Knob,每个实时流式数据分析任务的配置项的集合为Ki,每一个配置项包含若干个可选的值,构成配置项的可选值集合Sik。配置项的可选值指的是配置项可以调整的范围,如对于采样周期而言即是采样的时间间隔的可选范围,例如一种范围可以是{1s、2s、3s},符号表示中小写i表示第i个任务,小写k表示第k个配置项。由每个实时流式数据分析任务的所有配置项的可选值集合的笛卡尔积构成实时流式数据分析任务的所有配置集合Ci={ci0,ci1,ci2,ci3,...},ci0是指黄金配置,即最高采样周期以及最高采样率的笛卡尔积;ci1表示第i个分析任务的第一种配置,也就是第一种[采样周期+采样率]的笛卡尔积,其余含义类推。其中各个配置处理完1秒钟的数据量需要的处理时间为Wi={wi0,wi1,wi2,wi3,...},wi0是指黄金配置的计算资源开销,各个配置处理1秒钟的数据量的平均准确率为Ai={ai1,ai2,ai3,...},由于黄金配置是作为其他配置计算准确率时的验证集,因此准确率为1。wi1和ai1分别表示第i个任务按配置1执行所需的计算资源,以及这种执行下的平均准确率。可以通过模拟实验或历史数据处理得到,因为这些数据基本上不随时间变化。平均准确率由所选配置与黄金配置进行计算得到,不同任务的计算方式可能不同,对于视频流任务,可以是所选配置分析得到的Bounding Box和黄金配置的Bounding Box计算fl score。对于文本日志类分析任务,可以是所选配置分析得到的报警与黄金配置的报警的差异diff。实时流式数据分析任务需要进行分析的数据流不断到达系统,每秒钟服务器站点上能够用于实时流式数据分析任务的处理时间为T。各个实时流式数据分析任务需要达到的最低准确率为Hi。每一秒中各个实时流式数据分析任务执行时使用的配置的指示向量为xij,当xij=1时代表实时流式数据分析任务i在当前时刻会以配置j进行执行。每一秒中各个实时流式数据分析任务是否需要进行侧写的指示向量为yi,当yi=1时代表该实时流式数据分析任务在当前的一秒中需要进行侧写。
本发明的并发实时流式数据分析任务处理方法通过为并发实时流式数据分析任务确定侧写策略以及执行策略(即确定xij和yi的值),从而在保证每个实时流式数据分析任务的准确率达到要求(即准确率大于Hi)的情况下最大化系统中执行的所有实时流式数据分析任务的准确率。参照图2,该方法的概述如下:(S1)基于帕累托最优对服务器站点上运行的实时流式数据分析任务的配置进行初步筛选,确定实时流式数据分析任务的配置的可选集合;(S2)当对所有配置进行完筛选之后,基于站点上执行的任务的总效用值最大化的原则为该站点上执行的所有实时流式数据分析任务选择侧写策略和执行策略;(S3)服务器根据确定的侧写策略以及执行策略执行实时流式数据分析任务。需要对于实时流式数据分析任务的侧写过程和执行过程同时进行确定出于下述两方面的考虑:一是边缘系统的服务器站点计算资源有限,并且侧写过程和执行过程都需要消耗大量的GPU处理时间,当对于实时流式数据分析任务的侧写过程占用了比较多的计算资源时,执行过程能够被分配到的计算资源就会减少,这会使得实时流式数据分析任务的分析准确率下降,当侧写过程拥有的计算资源过少时,容易导致资源分配时使用的信息过时,导致资源分配的期望效果与实际效果存在较大差距,这种差异很多时候会导致系统的整体性能下降,因此需要对侧写需要的资源以及流式数据分析需要的资源进行合理分析。二是现有系统大多数情况下将侧写过程与执行过程看作两个独立的过程,这导致侧写过程的结果不能用于输出,由于侧写过程大多数情况下会使用黄金配置作为准确率计算时的验证集,将侧写过程与执行过程看作两个独立的过程会浪费黄金配置的处理结果,导致系统的输出非最优。而且现有的侧写过程往往都是针对于单一任务进行的优化,目的是使得单一任务的精度更高或者代价更小,而现实中实时流式数据分析都是多条流并发执行,多条流的侧写过程之间也存在着资源竞争,不同的流的侧写需要的资源不同,因此需要综合考虑,对不同的流使用不同的分配原则。
具体而言,(S1)在每次决策开始时,基于帕累托最优对服务器站点上运行的实时流式数据分析任务的配置进行初步筛选,后续计算侧写策略以及执行策略根据筛选后的配置集合进行。
筛选办法设计的主要挑战是如何设计较为合理的筛选标准。由于配置的计算资源开销较好确定,因此筛选标准面对的主要问题即为如何确定执行某一配置或者侧写某一配置的优先级。这是由于实时流式数据分析任务的特点导致的。同一配置下,实时流式数据分析任务的准确率受到视频流内容中物体的大小以及运行速度的影响,视频流内容中物体的大小以及运行速度的变化是随机的无法进行预测,因此某一配置的执行准确率是后验的,所以希望尽量在配置性能变差时侧写相关配置并调整策略,但是在侧写之前却缺乏对应的信息。本发明设计了一种基于配置的资源开销、执行情况以及站点可用资源的实时流式数据分析任务优先级确定办法来实现这一目标。
优先级确定办法包含实时流式数据分析任务的当前正在执行的配置的稳定性以及当前正在执行的配置执行的时间。假定对实时流式数据分析任务i,当前正在执行的配置为j,稳定性定义为wij/wi0,这是由于通常开销较大的配置,其识别能力相对较强,在面对数据样本分布发生变化时其分析准确率的变化较小。本发明使用稳定性和当前正在执行的配置执行的时间表征当前配置的处理准确率的置信区间。在进行筛选时,某一配置的优先级为:
其中μij是当前时刻对于配置cij的统计准确率,计算方式如下:
pij以及eij分别是系统侧写配置cij的次数以及系统执行配置cij的次数,表示本次策略更新之前的μij
筛选的执行步骤如下:
(1)计算所有流的所有配置的优先级μ′ij
(2)将同一实时流式数据分析任务的所有配置按照计算资源开销wij升序排序;
(3)按照升序的顺序计算配置cij-1,cij,cij+1是否满足以下两个条件:
(a)
μ′ij-1>μ′ij,wij-1<wij
(b)
(4)当cij-1,cij,cij+1满足任意一个条件时将cij从可选配置集合中出去;
(5)重复上述过程直到集合中不再包含满足上述条件的配置。
(S2)当对所有配置进行完筛选之后,基于站点上执行的任务的总效用值最大化的原则为该站点上执行的所有实时流式数据分析任务选择侧写策略和执行策略。总效用值最大化即希望最大化以下表达式:
由于aij是后验的,因此可以使用μ′ij代替进行求解。
侧写策略和执行策略确定的主要难点在于,为了保证站点上的实时流式数据分析任务的顺利执行,所有实时流式数据分析任务的侧写策略以及执行策略必须满足以下的约束条件:
一是在每个时刻站点上确定的所有实时流式数据分析任务的侧写策略以及执行策略消耗的总的计算资源必须满足站点能够提供的总计算资源的限制,即:
ijwijxij<T
二是每个时刻确定的侧写策略以及执行策略必须满足逻辑上的合理性,即如果实时流式数据分析任务i在该时刻不进行侧写,则该任务最多只会存在一个运行的执行配置,如果实时流式数据分析任务i在该时刻进行侧写,则该任务可以同时运行多个不同的配置,即有如下的约束条件:
yi,xij∈{0,1}
三是每个时刻分析的准确率要高于任务预期值,即:
max(yi,μijxij)≥Hi
在以上的几个约束条件的限制下,寻找最优的侧写策略以及执行策略是NPH问题。本发明的方法得到的解的值至少是最优解的值的侧写策略和执行策略的确定步骤如下:
(1)将可选配置按照wij进行升序排序,并对所有实时流式数据分析任务取其资源开销较小的任务作为初始配置。
(2)计算当前所选的配置与其下一个可选配置之间的单位资源能够获得的准确率提升量,即计算如下表达式的值:
(3)将所有的实时流式数据分析任务的δi,并选取其中最大的δi,将其对应的配置换入选择的配置集合中,将原本的配置换出。
(4)重复上述过程直到换入新的配置之后不满足以下约束:
ijwijxij<T
(5)假设最后一个不能被换入的配置是cij,设换入配置cij之前得到的解的值为U,如果有:
μ′ij>U
则将cij换入,并将其他所有流的配置换成开销最小的配置,否则维持当前的解作为最终的解。
当确定了侧写策略以及执行策略时,也就确定了采样周期和采样率,终端设备与边缘服务器进行通信时则根据边缘服务器确定的采样周期和采样率进行传输。
根据本发明的另一实施例,提供一种边端协同的并发实时流式数据分析任务处理设备,包括:
配置筛选模块,用于基于帕累托最优对服务器站点上运行的实时流式数据分析任务的配置进行初步筛选,确定实时流式数据分析任务的可选配置集合;
策略确定模块,用于根据实时流式数据分析任务的可选配置集合,基于服务器站点执行任务的总效用值最大化的原则为该站点上执行的所有实时流式数据分析任务确定侧写策略和执行策略;以及
任务执行模块,用于根据确定的侧写策略以及执行策略执行实时流式数据分析任务。
其中,配置筛选模块为所有实时流式数据分析任务筛选可行配置,具体包括:
候选集合建立单元,用于将每个实时流式数据分析任务的所有配置项的可选值集合的笛卡尔积构成实时流式数据分析任务的候选配置方案集合;
排序单元,用于将单一实时流式数据分析任务的所有配置方案及其计算资源开销进行升序排序;
可用性计算单元,用于分析相邻配置方案之间的优先级以及计算资源开销的变化情况,并将在后续一定不会被选到的配置方案从候选配置方案集合中除去。
其中优先级μ′ij的计算方式以及后续一定不会被选到的配置方案的确定方法同上述方法实施例中的方法,不再赘述。
策略确定模块具体包括:
初始配置方案计算单元,用于对每个实时流式数据分析任务的所有可选配置方案,按照其计算资源开销进行升序排序,并为每个实时流式数据分析任务选择一个初始配置方案;初始配置方案可以是该实时流式数据分析任务选择需要计算资源最小的配置;
替换优化单元,用于将初始配置方案替换为先前排序中的下一个配置方案,在满足约束条件的前提下,从其他配置方案中选择单位计算资源能够获得最大效用值的配置方案进行替换。
任务执行模块具体包括:
采样周期筛选单元,用于对于每个实时流式数据分析任务的每一采样周期,服务器根据之前确定的侧写策略yi以及执行策略xij判断是否需要对这一采样周期进行处理;
处理样本定序单元,用于对于需要处理的采样周期,将所有流的所有样本放入待处理队列当中;
处理单元,用于控制进程依次从队列中取出样本进行处理。
应理解,本发明实施例中的并发实时流式数据分析任务处理设备可以实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,本发明中的流式数据分析任务处理方法在各系统中均适用,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (6)

1.一种边端协同的并发实时流式数据分析任务处理方法,其特征在于,包括以下步骤:
基于帕累托最优对服务器站点上运行的实时流式数据分析任务的配置进行初步筛选,确定实时流式数据分析任务的可选配置集合,包括:每个实时流式数据分析任务的所有配置项的可选值集合的笛卡尔积构成实时流式数据分析任务的候选配置方案集合;将单一实时流式数据分析任务的所有配置方案及其计算资源开销进行升序排序;分析相邻配置方案之间的优先级以及计算资源开销的变化情况;将在后续一定不会被选到的配置方案从候选配置方案集合中除去,留下的配置方案构成实时流式数据分析任务的可选配置集合;
根据实时流式数据分析任务的可选配置集合,基于服务器站点执行任务的总效用值最大化的原则为该站点上执行的所有实时流式数据分析任务选择侧写策略和执行策略,包括:对每个实时流式数据分析任务的所有可选配置方案,按照其计算资源开销进行升序排序,并为每个实时流式数据分析任务选择一个初始配置方案;将初始配置方案替换为先前排序中的下一个配置方案,在满足约束条件的前提下,从其他配置方案中选择单位计算资源能够获得最大总效用值的配置方案进行替换;
根据确定的侧写策略以及执行策略执行实时流式数据分析任务。
2.根据权利要求1所述的并发实时流式数据分析任务处理方法,其特征在于,按照下述方式分析相邻配置方案之间的优先级:
以cij表示实时流式数据分析任务i以配置j执行的配置方案,根据配置方案cij的计算资源开销wij以及侧写次数pij和执行次数eij,按下式计算配置方案cij的优先级μ′ij
其中μij是当前时刻配置方案cij的统计准确率,aij为配置方案cij处理一秒钟的数据量的平均准确率,/>表示本次策略更新之前的μij,wi0为黄金配置的计算资源开销。
3.根据权利要求2所述的并发实时流式数据分析任务处理方法,其特征在于,后续一定不会被选到的配置方案为满足以下任一条件的配置方案:
μ′ij-1>μ′ij,wij-1<wij (a)
其中μ′ij-1为配置方案cij-1的优先级,wij-1配置方案cij-1的计算资源开销,cij-1为实时流式数据分析任务i以配置j-1执行的配置方案;μ′ij+1为配置方案cij+1的优先级,wij+1配置方案cij+1的计算资源开销,cij+1为实时流式数据分析任务i以配置j+1执行的配置方案。
4.根据权利要求2所述的并发实时流式数据分析任务处理方法,其特征在于,所述总效用值的表达形式为:
其中xij为每一秒中实时流式数据分析任务i执行时是否使用配置j的指示向量,当xij=1时代表实时流式数据分析任务i在当前时刻会以配置j进行执行;aij为配置方案cij处理一秒钟的数据量的平均准确率;
所述约束条件包括:
ijwijxij<T
yi,xij∈{0,1}
max(yi,μijxij)≥Hi
其中yi为每一秒中实时流式数据分析任务i是否需要进行侧写的指示向量,当yi=1时代表实时流式数据分析任务i在当前的一秒中需要进行侧写;T为每秒钟服务器站点上能够用于实时流式数据分析任务的处理时间;Hi为实时流式数据分析任务i要求达到的最低准确率。
5.根据权利要求1所述的并发实时流式数据分析任务处理方法,其特征在于,所述根据确定的侧写策略以及执行策略执行实时流式数据分析任务包括:
对于每个实时流式数据分析任务的每一个采样周期,根据之前确定的侧写策略以及执行策略判断是否需要对这一采样周期进行采样;
对于需要处理的采样周期,将所有流的所有样本放入待处理队列当中;
控制进程依次从队列中取出样本进行处理。
6.一种边端协同的并发实时流式数据分析任务处理设备,其特征在于,包括:
配置筛选模块,用于基于帕累托最优对服务器站点上运行的实时流式数据分析任务的配置进行初步筛选,确定实时流式数据分析任务的可选配置集合,所述配置筛选模块包括:候选集合建立单元,用于将每个实时流式数据分析任务的所有配置项的可选值集合的笛卡尔积构成实时流式数据分析任务的候选配置方案集合;排序单元,用于将单一实时流式数据分析任务的所有配置方案及其计算资源开销进行升序排序;可用性计算单元,用于分析相邻配置方案之间的优先级以及计算资源开销的变化情况,并将在后续一定不会被选到的配置方案从候选配置方案集合中除去,留下的配置方案构成实时流式数据分析任务的可选配置集合;
策略确定模块,用于根据可选配置集合,基于服务器站点上执行任务的总效用值最大化的原则为该站点上执行的所有实时流式数据分析任务选择侧写策略和执行策略,所述策略确定模块包括:初始配置方案计算单元,用于对每个实时流式数据分析任务的所有可选配置方案,按照其计算资源开销进行升序排序,并为每个实时流式数据分析任务选择一个初始配置方案;替换优化单元,用于将初始配置方案替换为先前排序中的下一个配置方案,在满足约束条件的前提下,从其他配置方案中选择单位计算资源能够获得最大总效用值的配置方案进行替换;以及
任务执行模块,用于根据确定的侧写策略以及执行策略执行实时流式数据分析任务。
CN202110563103.9A 2021-05-24 2021-05-24 边端协同的并发实时流式数据分析任务处理方法及设备 Active CN113296946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110563103.9A CN113296946B (zh) 2021-05-24 2021-05-24 边端协同的并发实时流式数据分析任务处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110563103.9A CN113296946B (zh) 2021-05-24 2021-05-24 边端协同的并发实时流式数据分析任务处理方法及设备

Publications (2)

Publication Number Publication Date
CN113296946A CN113296946A (zh) 2021-08-24
CN113296946B true CN113296946B (zh) 2023-11-17

Family

ID=77323989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110563103.9A Active CN113296946B (zh) 2021-05-24 2021-05-24 边端协同的并发实时流式数据分析任务处理方法及设备

Country Status (1)

Country Link
CN (1) CN113296946B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176723A (zh) * 2011-03-25 2011-09-07 北京航空航天大学 一种支持制造资源和能力按需使用和动态协同的制造云系统
CN106911592A (zh) * 2016-06-01 2017-06-30 阿里巴巴集团控股有限公司 一种自适应资源分配方法及装置
CN106951330A (zh) * 2017-04-10 2017-07-14 郑州轻工业学院 一种云服务中心服务效用最大化的虚拟机分配方法
CN107193655A (zh) * 2017-05-17 2017-09-22 南京大学 一种基于效用函数的面向大数据处理的公平资源调度方法
CN109918152A (zh) * 2019-03-18 2019-06-21 中科麦迪人工智能研究院(苏州)有限公司 基于策略流的任务执行方法、装置、服务器和存储介质
KR102032521B1 (ko) * 2018-12-26 2019-10-15 래블업(주) 컨테이너 기반의 gpu 가상화 방법 및 시스템
CN112000388A (zh) * 2020-06-05 2020-11-27 国网江苏省电力有限公司信息通信分公司 基于多边缘集群协同的并发任务调度方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10310908B2 (en) * 2016-08-19 2019-06-04 International Business Machines Corporation Dynamic usage balance of central processing units and accelerators

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176723A (zh) * 2011-03-25 2011-09-07 北京航空航天大学 一种支持制造资源和能力按需使用和动态协同的制造云系统
CN106911592A (zh) * 2016-06-01 2017-06-30 阿里巴巴集团控股有限公司 一种自适应资源分配方法及装置
CN106951330A (zh) * 2017-04-10 2017-07-14 郑州轻工业学院 一种云服务中心服务效用最大化的虚拟机分配方法
CN107193655A (zh) * 2017-05-17 2017-09-22 南京大学 一种基于效用函数的面向大数据处理的公平资源调度方法
KR102032521B1 (ko) * 2018-12-26 2019-10-15 래블업(주) 컨테이너 기반의 gpu 가상화 방법 및 시스템
CN109918152A (zh) * 2019-03-18 2019-06-21 中科麦迪人工智能研究院(苏州)有限公司 基于策略流的任务执行方法、装置、服务器和存储介质
CN112000388A (zh) * 2020-06-05 2020-11-27 国网江苏省电力有限公司信息通信分公司 基于多边缘集群协同的并发任务调度方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An Uncertainty-Aware Approach to Optimal Configuration of Stream Processing Systems;Pooyan Jamshidi 等;《2016 IEEE 24th International Symposium on Modeling, Analysis and Simulation of Computer and Telecommunication Systems (MASCOTS)》;第39-48页 *
大数据流式计算框架的任务调度优化方法研究;梁秋红 等;《中州大学学报》;第125-128页 *
面向实时流数据处理的边缘计算资源调度算法;查满霞 等;《计算机应用》;第142-148页 *

Also Published As

Publication number Publication date
CN113296946A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN104317658B (zh) 一种基于MapReduce的负载自适应任务调度方法
CN109271015B (zh) 一种降低大规模分布式机器学习系统能耗的方法
CN109324875B (zh) 一种基于强化学习的数据中心服务器功耗管理与优化方法
CN104657205B (zh) 一种基于虚拟化的视频内容分析方法及系统
CN111611062B (zh) 云边协同分层计算方法及云边协同分层计算系统
CN108270805B (zh) 用于数据处理的资源分配方法及装置
CN113472597B (zh) 分布式卷积神经网络细粒度的参数传输调度方法及装置
CN112231081B (zh) 云环境下基于pso-ahp的单调速率资源调度方法及系统
CN1878090A (zh) 用于通过调节网络控制进行自动的系统管理的系统和方法
CN112162835A (zh) 一种异构云环境下实时任务的调度优化方法
CN116185645B (zh) 基于神经网络的集群资源智能调度方法、系统及存储介质
CN103442087B (zh) 一种基于响应时间趋势分析的Web服务系统访问量控制装置和方法
CN117215764A (zh) 算力资源处理方法、装置、设备及存储介质
CN111199316A (zh) 一种基于执行时间评估的云雾协同计算电网调度方法
CN109976873B (zh) 容器化分布式计算框架的调度方案获取方法及调度方法
CN107025141B (zh) 一种基于大数据混合作业模型的调度方法
CN113296946B (zh) 边端协同的并发实时流式数据分析任务处理方法及设备
EP4300305A1 (en) Methods and systems for energy-efficient scheduling of periodic tasks on a group of processing devices
CN110366210B (zh) 一种针对有状态数据流应用的计算卸载方法
CN116028193B (zh) 一种混部集群的大数据任务动态高能效调度方法和系统
CN115378789B (zh) 一种多层次协作的流资源管理方法及系统
CN116795545A (zh) 基于网算容器的信息物理生产系统及其管理方法
CN112598112B (zh) 一种基于图神经网络的资源调度方法
CN114866430A (zh) 边缘计算的算力预测方法、算力编排方法及系统
CN113946440A (zh) 一种绿色云环境下的资源调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant