CN112148926A - 一种图数据流的处理方法、处理装置和存储介质 - Google Patents

一种图数据流的处理方法、处理装置和存储介质 Download PDF

Info

Publication number
CN112148926A
CN112148926A CN201910571735.2A CN201910571735A CN112148926A CN 112148926 A CN112148926 A CN 112148926A CN 201910571735 A CN201910571735 A CN 201910571735A CN 112148926 A CN112148926 A CN 112148926A
Authority
CN
China
Prior art keywords
graph
calculation
computing
graph data
data flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910571735.2A
Other languages
English (en)
Inventor
李德友
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201910571735.2A priority Critical patent/CN112148926A/zh
Publication of CN112148926A publication Critical patent/CN112148926A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种图数据流的处理方法、处理装置和存储介质,具体为获取计算任务;根据各个计算任务之间的依赖关系,将各个表示计算任务的图节点用方向线连接成有向无环图,采用有向无环图进行集成各个计算任务以建立图数据流计算模型;配置图数据流计算模型中的各个图节点的算法组件参数,其中,算法组件为计算任务使用的算法计算框架;运行配置后的图数据流计算模型,并生成各个计算任务的计算结果;将计算结果渲染在对应的图数据流计算模型中的各个图节点上,以使点击图节点后显示对应的计算结果。本申请实施例通过可视化建模,集成算法计算框架,简化计算开发流程,并可视化的呈现计算结果,提升了图数据流建模及调度计算的效率。

Description

一种图数据流的处理方法、处理装置和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种图数据流的处理方法、处理装置和存储介质。
背景技术
图数据流是从数据传递和加工角度,以图形方式来表达系统的逻辑功能、数据在系统内部的逻辑流向和逻辑变换过程,是结构化系统分析方法的主要表达工具及用于表示软件模型的一种图示方法。通过图数据流对数据进行加工,可以高效快速的进行数据分析,获取计算结果。
图数据调度计算是一种利用主流学习框架对图数据进行计算的方式。一般地,将计算作业(Job)包含的计算任务(Task)按照有向无环图形成某种路径查找算法并进行排序,调度按有向无环图的最短路径提交Tasks到分布式集群进行计算。其主要的应用场景有MapReduce作业调度计算,HiveSQL作业调度计算,Sqoop数据传输作业等。当前图数据流调度计算方式一般是使用Oozie、Azkaban等主流开源技术。其中,Oozie用于Java、MapReduce、Pig、Hive、Sqoop、Distcp等Hadoop技术栈服务。而Azkaban用于Java、Hadoop、Spark、Hive、Pig等Hadoop技术栈。这种技术主要是通过XML存储任务依赖关系,本地开发、编译、上传作业压缩包、配置调度。同时,通过Web管理页面可以查看Job列表。另外,基于操作系统Crontab。通过Crontab结合MakeFile等任务依赖框架,达到图数据流调度计算的目的。
在现有的图数据流调度计算技术中,任务依赖关系通过代码实现,且多需要编译,没有可视化建模页面供用户使用。同时,图节点排序算法单一,用户没法根据业务场景选择更优算法。另外,不支持特征工程、机器学习、深度学习等算法计算任务。Oozie、Azkaban等主流开源技术主要适用于Hadoop技术栈、Java开发语言,而不适用于机器学习语言Python和主流机器学习框架Sklearn、Tensorflow、PySparkML等。图数据流调度计算系统单点,受限于操作系统环境,不支持分布式,满足不了复杂的应用场景。
发明内容
本申请实施例提供了一种图数据流的处理方法,该方法通过对计算任务进行可视化建模,同时配置算法计算框架,提升了图数据流建模和调度计算的效率。
该方法包括:
获取各个计算任务;
根据所述各个计算任务之间的依赖关系,将各个表示所述计算任务的图节点用方向线连接成有向无环图,采用所述有向无环图进行集成所述各个计算任务以建立图数据流计算模型;
配置所述图数据流计算模型中的各个所述图节点的算法组件参数,其中,所述算法组件为所述计算任务使用的算法计算框架;
运行配置后的所述图数据流计算模型,并生成各个所述计算任务的计算结果;
将所述计算结果链接在对应的所述图数据流计算模型中的各个所述图节点上,以使点击所述图节点后显示对应的所述计算结果。
可选地,对所述图数据流计算模型中的有向无环图中的各个所述图节点进行排序,确定各个所述图节点对应的所述计算任务的调度队列,并配置所述有向无环图的调度策略,其中,所述调度策略包括调度起始时间和调度周期。
可选地,检测所述算法组件参数是否有效;
当所述算法组件参数无效时,终止运行,并重新配置所述算法组件参数。
可选地,将所述配置后的图数据流计算模型中的各个所述计算任务按照所述调度顺序提交到与所述算法组件参数对应的计算框架,并根据所述调度策略在所述计算框架内对每个所述计算任务进行计算。
在本发明的另一个实施例中,提供了一种图数据流的处理装置,该装置包括:
获取模块,用于获取计算任务;
构建模块,用于根据各个所述计算任务的依赖关系,将各个表示所述计算任务的图节点用方向线连接成有向无环图,采用所述有向无环图进行集成所述各个计算任务以建立图数据流计算模型;
第一配置模块,用于配置所述图数据流计算模型中的各个所述图节点的算法组件参数,其中,所述算法组件为所述计算任务使用的算法计算框架;
生成模块,用于运行配置后的所述图数据流计算模型,并生成各个所述计算任务的计算结果;
链接模块,用于将所述计算结果链接在对应的所述图数据流计算模型中的各个所述图节点上,以使点击所述图节点后显示对应的所述计算结果。
可选地,该处理装置包括:
确定模块,用于对所述图数据流计算模型中的有向无环图中的各个所述图节点进行排序,确定各个所述图节点对应的所述计算任务的调度队列,并配置所述有向无环图的调度策略,其中,所述调度策略包括调度起始时间和调度周期。
可选地,该处理装置包括:
检测模块,用于检测所述算法组件参数是否有效;
第二配置模块,用于当所述算法组件参数无效时,终止运行,并重新配置所述算法组件参数。
可选地,该处理装置包括:
计算模块,用于将所述配置后的图数据流计算模型中的各个所述计算任务按照所述调度顺序提交到与所述算法组件参数对应的计算框架,并根据所述调度策略在所述计算框架内对每个所述计算任务进行计算。
在本发明的另一个实施例中,提供了一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行上述一种图数据流的处理方法中的各个步骤。
在本发明的另一个实施例中,提供了一种终端设备,包括处理器,所述处理器用于执行上述一种图数据流的处理方法中的各个步骤。
如上可见,基于上述实施例,首先获取计算任务,其次,根据各个计算任务的依赖关系,将各个表示计算任务的图节点用方向线连接成有向无环图,采用有向无环图进行集成各个计算任务以建立图数据流计算模型,然后,配置图数据流计算模型中的各个图节点的算法组件参数,其中,算法组件为计算任务使用的算法计算框架,运行配置后的图数据流计算模型,并生成各个计算任务的计算结果,最后,将计算结果链接在对应的图数据流计算模型中的各个图节点上,以使点击所述图节点后显示对应的所述计算结果。本申请实施例通过对计算任务进行可视化的建模,使用户可以快速且有选择的完成图数据流调度作业的构建,同时,对计算结果也进行可视化的呈现。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例10所提供的一种图数据流的处理方法中具体流程的示意图;
图2示出了本申请实施例20提供的图数据流计算模型中的有向无环图的示意图。;
图3示出了本申请提供的实施例30中一种图数据流的处理方法的具体流程的示意图;
图4示出了本申请实施例40提供的一种图数据流的处理方法中的图数据流的计算系统的示意图;
图5示出了本申请实施例50提供的一种图数据流的处理装置的示意图;
图6示出了本申请实施例60所提供的一种终端设备的示意图。
具体实施方式
为使本申请的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
基于现有技术中的问题,本申请实施例提供了一种图数据流的处理方法,通过将各个计算任务抽象为图节点,并根据各个计算任务之间的依赖关系建立图数据流计算模型,用户可以自行选择排序算法对各个计算任务组成的图数据流计算模型中的有向无环图进行排序,确定各个计算任务的计算顺序。同时,将可能使用到的算法计算框架抽象为算法组件,用户只需选择需用的算法组件,并配置算法组件参数。运行配置后的图数据流模型,并将计算结果对应的呈现在各个计算任务对应的图节点中。极大的简化了用户的开发流程,提高了图数据流模型开发的效率,同时,可视化的呈现建模过程和计算结果。
本申请的应用领域主要是在计算机技术领域中,适用于图计算应用技术中。如图1所示,为本申请实施例10所提供的一种图数据流的处理方法中具体流程的示意图。其中,详细步骤如下:
S11,获取各个计算任务。
本步骤中,各个计算任务是在分布式集群系统中,将各个独立的需要处理的数据分发到各个计算节点上,利用各种算法计算框架,对计算任务进行计算。计算任务是将需要处理的海量实时数据进行抽象化处理,形成多个计算任务。
S12,根据各个计算任务之间的依赖关系,将各个表示计算任务的图节点用方向线连接成有向无环图,采用有向无环图进行集成各个计算任务以建立图数据流计算模型。
本步骤中,各个计算任务之间会按照预先设定的消息流的处理顺序进行计算,当一个计算任务对应的计算节点完成计算结果后,会按照各个计算任务之间的依赖关系将各个计算任务分配在对应的计算节点上,并将计算结果沿着计算任务之间的依赖关系进行传递。一个计算节点上的计算任务的计算结果会对与它有依赖关系的计算任务的计算结果产生影响。根据各个计算任务之间的依赖关系,将各个表示计算任务的图节点用方向线连接,以将各个计算任务集成为有向无环图,以建立图数据流计算模型。其中,有向无环图即由有方向的连接线将图中所有计算节点关联起来,且不能有死循环。如图2所示,为本申请实施例20提供的图数据流计算模型中的有向无环图的示意图。
图数据流计算模型为可视化建模,用户可以通过有向无环图的绘制组件,拖拽表示计算任务的图节点到画布,然后通过方向线连接各个有依赖关系的图节点,建立各个计算任务的有向无环图,以通过可视化建模快速完成图数据流计算模型的构建。
S13,配置图数据流计算模型中的各个图节点的算法组件参数,其中,算法组件为计算任务使用的算法计算框架。
本步骤中,用户可以直接对图数据流计算模型中的各个图节点的算法组件参数进行配置。具体的,算法组件深度集成各个算法计算框架,如机器学习、深度学习主流开发语言框架Python、Sklearn、PySparkML、Tensorflow、Keras、Hadoop、Java等算法计算框架,并将各个算法计算框架的接口抽象为特征工程、机器学习、深度学习类的算法组件。用户不需要编写代码,只需要根据业务需求,对有向无环图中的各个图节点选择对应的算法组件,并对算法组件参数进行配置。
S14,运行配置后的图数据流计算模型,并生成各个计算任务的计算结果。
本步骤中,在配置完图数据流计算模型中各个图节点的算法组件参数后,运行配置后的图数据流计算模型。在运行时,首先会检测配置的算法组件参数是否完整有效,并在算法组件参数完整有效时,进入调度计算阶段;若算法组件参数不符合完整有效的条件,则终止运行,并提示用户重新配置算法组件参数。在进入运行状态时,对图数据流中的有向无环图中的各个图节点进行排序,确定各个计算任务的计算顺序。然后通过解析有向无环图形成的图拓扑,将各个计算任务转化为组件实例提交到调度队列,调度器提交计算任务到算法计算框架,异步获取计算结果。
S15,将计算结果链接在对应的图数据流计算模型中的各个图节点,以使点击图节点后显示对应的计算结果。
本步骤中,在获取各个计算任务按照顺序以及用户配置的算法组件计算得到的计算结果后,将计算结果及状态渲染到图节点,以使用户可以直观的获取计算结果。其中,计算结果可能是根据计算任务生成的各种数据和图像,如折线图、表格和概率值等。用户可以通过点击计算任务对应的图节点选择显示对应的计算结果,以直观的观看计算任务的计算结果。
基于本申请的上述实施例,首先获取计算任务,其次,根据各个计算任务的依赖关系,将各个表示计算任务的图节点用方向线连接成有向无环图,以建立图数据流计算模型,然后,配置图数据流计算模型中的各个图节点的算法组件参数,其中,算法组件为计算任务可能使用到的各个算法计算框架,运行配置后的图数据流计算模型,并生成各个计算任务的计算结果,最后,将计算结果渲染在对应的图数据流计算模型中的各个图节点上。本申请实施例通过对计算任务进行可视化的建模,将各个计算任务抽象成各个图节点,并建立包含各个图节点以及各个图节点之间的依赖关系的有向无环图。通过用户配置各个图节点的预先存储的算法计算框架,使用户可以快速且有选择的完成图数据流调度作业的构建,并生成对应的计算结果。并将计算结果对应的渲染在各个图节点上,以对计算结果进行可视化的呈现。
如图3所示,为本申请提供的实施例30中一种图数据流的处理方法的具体流程的示意图。其中,该具体流程的详细过程如下:
S301,获取各个计算任务。
S302,根据各个计算任务的依赖关系,建立图数据流计算模型。
这里,将各个计算任务抽象为各个图节点,并根据各个图节点之间的依赖关系建立如图2所示的有向无环图,以有向无环图为基础建立图数据计算模型。
另外,用户可以根据业务需求,在线创建、更新、删除各个计算任务对应的图节点之间的数据流依赖关系,实时变更图数据流计算模型。
S303,选择算法计算框架,并根据业务需求,配置算法组件参数。
这里,算法技术框架支持Hadoop、Java技术栈,以及机器学习、深度学习主流开发语言框架Python、Sklearn、PySparkML、Tensorflow、Keras等算法计算框架。深度集成Hadoop、PySparkML、Tensorflow等算法计算框架,并将框架计算接口抽象为特征工程、机器学习、深度学习类算法组件。用户不需要编写代码,只需要根据业务需求,对有向无环图中相应的计算任务选择相应的算法组件,并配置算法组件参数即可。
S304,选择图节点排序算法和调度策略。
这里,对图数据流计算模型中的有向无环图中的各个图节点进行排序,确定各个图节点对应的计算任务的调度队列,并配置有向无环图的调度策略,其中,调度策略包括调度起始时间和调度周期。具体的,在构建完成各个计算任务组成的图数据流计算模型后,根据有向无环图,选择图节点的排序算法,如设置最短路径、深度优先、宽度优先三种主流搜索排序算法供用户选择。用户可根据不同业务场景灵活选择相应排序算法,更高效的完成图数据流计算作业。对如图2中的有向无环图适用最短路径搜索算法,排序结果为:C→G→H→E→B→A→F→D。在确定完上述各个计算任务的计算顺序后,根据业务需要,用户可以自行配置图数据流计算模型的调度起始时间和调度周期。
S305,运行配置后的图数据流计算模型。
S306,检测算法组件参数是否有效。
这里,当算法组件参数无效时,终止运行,并重新配置算法组件参数。
S307,生成计算结果。
这里,在运行完算法组件参数有效的图数据流计算模型后,图数据流计算模型生成对应的计算结果。具体的,将配置后的图数据流计算模型中的各个计算任务按照所述调度顺序提交到与算法组件参数对应的计算框架,并根据调度策略在计算框架内对每个计算任务进行计算。在提交调度后,首先解析图数据流计算模型中的图拓扑顺序以及图节点的排序,转化图节点为计算任务提交到调度序列,并将计算任务提交到对应的算法计算框架,生成各个计算任务对应的计算结果。
S308,将计算结果链接在对应的各个图节点上。
本申请实施例基于上述步骤实现一种图数据流的处理方法。本申请实施例通过可视化的对图数据流计算模型进行建模,包括对图数据流计算模型进行创建或更新等操作。进一步地,用户可以根据业务模型设计,为各个计算任务选择模型不同的算法组件,并根据依赖关系用方向线连接计算任务抽象成的图节点。根据算法组件接口定义,配置算法组件参数。选择图节点的排序算法,配置具体的调度策略,如调度起始时间、调度周期等。进一步地,点击运行,首先会检测图数据流的算法组件参数是否配置完整有效。若是,进入调度计算阶段;若否,终止运行,提示用户,重新配置算法组件参数。进一步地,图解析器解析有向无环图的图拓扑,针对用户配置的排序算法对图节点进行排序。然后图节点转化为组件实例提交到调度队列,同时,提交计算任务到计算框架,异步获取计算结果及状态并渲染到图节点。
本申请实施例从如下几方面解决了现有的图数据流调度计算技术中存在的问题:
首先,可视化建模。现有技术方案主要通过开发程序来保存数据流图拓扑,且开发语言不一,如Java、XML、Makefile等,开发维护成本较高。本申请实施例通过提供可视化建模,拖拽算法组件在Canvas画布上创建有向无环图,选择图节点打开配置栏,用户可以快速配置图节点的属性信息。并在整张图配置完成后,点击保存,图的拓扑及图节点对应的计算任务会持久化到后端数据库。通过页面在线创建、更新、删除数据流依赖关系,相比现有技术,方便快捷。
其次,集成机器学习框架及算法组件。现有技术方案主要支持Hadoop、Java技术栈,但对机器学习、深度学习主流开发语言框架Python、Sklearn、PySparkML、Tensorflow、Keras等支持较差。本申请实施例通过开发调度计算中间件深度集成Hadoop、PySparkML、Tensorflow计算框架,并将框架计算接口抽象为特征工程、机器学习、深度学习类算法组件。用户不需要编写代码,只需要根据业务需求,对有向无环图中相应图节点的算法组件配置参数即可。极大简化了用户开发流程、提高模型开发的效率。
排序算法。现有技术方案固定的提供一种排序算法。本申请实施例实现了最短路径、深度优先、宽度优先三种主流搜索排序算法供用户选择。用户可根据不同业务场景灵活选择相应排序算法,更高效的完成图数据流计算作业。
本申请实施例提供的一种图数据流的处理方法使得用户在图数据流的调度计算过程中,高效创建配置图数据流,快捷配置任务依赖,直接使用算法组件、灵活选择计算任务的排序算法。用户只需要关注业务逻辑本身,极大的提高了图数据流调度计算的效率。
如图4所示,为本申请实施例40提供的一种图数据流的处理方法中的图数据流的计算系统的示意图。其中,图数据流的计算系统包含可视化建模和调度计算两个核心部分。具体的,可视化建模部分主要由绘图模块40构成。绘图模块40包含有向无环图绘制组件401和图节点配置组件402。其中,有向无环图绘制组件401主要通过拖拽计算任务到画布形成各个图节点,方向线连接图节点构成计算依赖关系。图节点配置组件402,通过配置图节点的算法组件参数,传递计算任务入参。系统通过可视化建模快速完成图数据流计算模型的构建。
在完成建模后,进入调度计算部分。调度计算部分主要由图解析模块41、图节点转换模块42和调度模块43构成。具体的,图解析模块41,包含有向无环图解析组件410及图节点排序组件412。两者先后完成对可视化的图数据流计算模型中的图拓扑的解析,并根据排序算法计算出图节点的计算顺序。图节点转换模块42,由计算框架路由组件421和计算任务转化组件422构成。计算框架路由组件421,根据节点属性识别图节点所属的计算框架,并增加该属性到节点。计算任务转化组件422,根据计算框架及其接口规范将计算组件实例化为计算任务。调度模块43,包括任务队列管理组件431和分布式计算任务网关组件432。任务队列管理组件431用于调度所有计算任务的生产、消费、结果、异常等。分布式计算任务网关组件432,将计算任务转化为符合其所属计算框架接口规范的计算作业,提交到分布式集群高效计算,异步获取计算结果等。
基于同一发明构思,本申请实施例50还提供一种图数据流的处理装置的示意图,其中,如图5所示,该装置包括:
获取模块501,用于获取计算任务;
构建模块502,用于根据各个计算任务的依赖关系,将各个表示计算任务的图节点用方向线连接成有向无环图,采用所述有向无环图进行集成所述各个计算任务以建立图数据流计算模型;
第一配置模块503,用于配置图数据流计算模型中的各个图节点的算法组件参数,其中,算法组件为计算任务可能使用到的各个算法计算框架;
生成模块504,用于运行配置后的图数据流计算模型,并生成各个计算任务的计算结果;
链接模块505,用于将所述计算结果链接在对应的所述图数据流计算模型中的各个所述图节点上,以使点击所述图节点后显示对应的所述计算结果。
本实施例中,获取模块501、构建模块502、第一配置模块503、生成模块504和链接模块505的具体功能和交互方式,可参见图1对应的实施例的记载,在此不再赘述。
可选地,该处理装置包括:
确定模块506,用于对所述图数据流计算模型中的有向无环图中的各个所述图节点进行排序,确定各个所述图节点对应的所述计算任务的调度队列,并配置所述有向无环图的调度策略,其中,所述调度策略包括调度起始时间和调度周期。
可选地,该处理装置包括:
检测模块507,用于检测所述算法组件参数是否有效;
第二配置模块508,用于当所述算法组件参数无效时,终止运行,并重新配置所述算法组件参数。
可选地,该处理装置包括:
计算模块509,用于将所述配置后的图数据流计算模型中的各个所述计算任务按照所述调度顺序提交到与所述算法组件参数对应的计算框架,并根据所述调度策略在所述计算框架内对每个所述计算任务进行计算。
如图6所示,本申请的又一实施例60还提供一种终端设备,包括处理器60,其中,处理器60用于执行上述一种图数据流的处理方法中的各个步骤。
从图6中还可以看出,上述实施例提供的终端设备还包括非瞬时计算机可读存储介质61,该非瞬时计算机可读存储介质61上存储有计算机程序,该计算机程序被处理器60运行时执行上述一种图数据流的处理方法中的各个步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘和FLASH等,该存储介质上的计算机程序被运行时,能够执行上述的一种图数据流的处理方法中的各个步骤。
本申请实施例中提供的一种图数据流的处理方法解决了现有图数据流调度计算技术方案存在的问题,通过可视化建模及配置式方便、快速构建图数据流计算调度。极大提高了图数据流计算模型的建模及调度计算的效率。通过选择图数据流计算中要用到的图节点,每个图节点本质上对应了一个计算任务,底层计算任务转化组件对其完成转换操作。然后,根据业务逻辑,用方向线将图节点连接起来形成有向无环图,被方向线连接的节点底层会自动添加上游图节点和下游图节点属性,本质上是建立了计算任务之间的依赖关系。接着,分别对每个图节点进行显式属性配置,底层对应的是计算任务的输入输出。最后,整张图即构成了一个图数据流调度计算实例。可视化建模解决了现有技术方案中需要大量开发、繁琐的编译构建部署等过程的问题,极大地简化了图数据流建模过程。另外,将特征工程、机器学习、深度学习等建模过程中包含的具体计算逻辑抽象为算法组件,每个算法组件本质上是对一种算法的抽象。抽象算法组件通过计算框架路由组件完成到计算框架的解析映射,通过计算任务转化组件将组件实例化为所属计算框架的计算任务。解决了现有技术方案中不支持的特征工程、机器学习、深度学习等调度计算的问题。用户不用再担心诸如开发语言、计算框架、调度计算等问题,只需要根据需求知道业务逻辑,选择相应的算法组件进行简单配置即可完成原本复杂的机器学习建模开发过程。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种图数据流的处理方法,其特征在于,包括:
获取各个计算任务;
根据所述各个计算任务之间的依赖关系,将各个表示所述计算任务的图节点用方向线连接成有向无环图,采用所述有向无环图进行集成所述各个计算任务以建立图数据流计算模型;
配置所述图数据流计算模型中的各个所述图节点的算法组件参数,其中,所述算法组件为所述计算任务使用的算法计算框架;
运行配置后的所述图数据流计算模型,并生成各个所述计算任务的计算结果;
将所述计算结果链接在对应的所述图数据流计算模型中的各个所述图节点上,以使点击所述图节点后显示对应的所述计算结果。
2.根据权利要求1所述的处理方法,其特征在于,所述配置图数据流计算模型中的各个所述图节点的算法组件参数的步骤和所述运行配置后的所述图数据流计算模型的步骤之间,该方法进一步包括:
对所述图数据流计算模型中的有向无环图中的各个所述图节点进行排序,确定各个所述图节点对应的所述计算任务的调度队列,并配置所述有向无环图的调度策略,其中,所述调度策略包括调度起始时间和调度周期。
3.根据权利要求2所述的处理方法,其特征在于,所述运行配置后的图数据流计算模型的步骤和所述生成各个计算任务的计算结果的步骤之间,该方法进一步包括:
检测所述算法组件参数是否有效;
当所述算法组件参数无效时,终止运行,并重新配置所述算法组件参数。
4.根据权利要求3所述的处理方法,其特征在于,所述重新配置所述算法组件参数的步骤和所述生成各个计算任务的计算结果的步骤之间,该方法进一步包括:
将所述配置后的图数据流计算模型中的各个所述计算任务按照所述调度顺序提交到与所述算法组件参数对应的计算框架,并根据所述调度策略在所述计算框架内对每个所述计算任务进行计算。
5.一种图数据流的处理装置,其特征在于,包括:
获取模块,用于获取计算任务;
构建模块,用于根据各个所述计算任务的依赖关系,将各个表示所述计算任务的图节点用方向线连接成有向无环图,采用所述有向无环图进行集成所述各个计算任务以建立图数据流计算模型;
第一配置模块,用于配置所述图数据流计算模型中的各个所述图节点的算法组件参数,其中,所述算法组件为所述计算任务使用的算法计算框架;
生成模块,用于运行配置后的所述图数据流计算模型,并生成各个所述计算任务的计算结果;
链接模块,用于将所述计算结果链接在对应的所述图数据流计算模型中的各个所述图节点上,以使点击所述图节点后显示对应的所述计算结果。
6.根据权利要求5所述的处理装置,其特征在于,所述处理装置进一步包括:
确定模块,用于对所述图数据流计算模型中的有向无环图中的各个所述图节点进行排序,确定各个所述图节点对应的所述计算任务的调度队列,并配置所述有向无环图的调度策略,其中,所述调度策略包括调度起始时间和调度周期。
7.根据权利要求6所述的方法,其特征在于,所述处理装置进一步包括:
检测模块,用于检测所述算法组件参数是否有效;
第二配置模块,用于当所述算法组件参数无效时,终止运行,并重新配置所述算法组件参数。
8.根据权利要求7所述的方法,其特征在于,所述处理装置进一步包括:
计算模块,用于将所述配置后的图数据流计算模型中的各个所述计算任务按照所述调度顺序提交到与所述算法组件参数对应的计算框架,并根据所述调度策略在所述计算框架内对每个所述计算任务进行计算。
9.一种非瞬时计算机可读存储介质,其特征在于,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如权利要求1至4任一项所述的一种图数据流的处理方法中的各个步骤。
10.一种终端设备,其特征在于,包括处理器,所述处理器用于执行如权利要求1至4中任一项所述的一种图数据流的处理方法中的各个步骤。
CN201910571735.2A 2019-06-28 2019-06-28 一种图数据流的处理方法、处理装置和存储介质 Pending CN112148926A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910571735.2A CN112148926A (zh) 2019-06-28 2019-06-28 一种图数据流的处理方法、处理装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910571735.2A CN112148926A (zh) 2019-06-28 2019-06-28 一种图数据流的处理方法、处理装置和存储介质

Publications (1)

Publication Number Publication Date
CN112148926A true CN112148926A (zh) 2020-12-29

Family

ID=73869009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910571735.2A Pending CN112148926A (zh) 2019-06-28 2019-06-28 一种图数据流的处理方法、处理装置和存储介质

Country Status (1)

Country Link
CN (1) CN112148926A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239243A (zh) * 2021-07-08 2021-08-10 湖南星汉数智科技有限公司 基于多计算平台的图数据分析方法、装置和计算机设备
CN113434134A (zh) * 2021-06-21 2021-09-24 北京达佳互联信息技术有限公司 组件处理方法、装置、电子设备及存储介质
CN113779484A (zh) * 2021-01-07 2021-12-10 北京沃东天骏信息技术有限公司 一种数据计算方法和装置
CN114676324A (zh) * 2022-03-28 2022-06-28 网易(杭州)网络有限公司 一种数据处理方法、装置及设备
CN115098181A (zh) * 2022-05-26 2022-09-23 浪潮软件集团有限公司 一种国产cpu和os的视频流组配方法及装置
CN117591123A (zh) * 2023-11-20 2024-02-23 芯瑞微(上海)电子科技有限公司 基于有向无环图和无锁多线程模式的3d模型处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045790A (zh) * 2015-03-13 2015-11-11 北京航空航天大学 图数据搜索系统、方法和设备
CN107450902A (zh) * 2016-04-29 2017-12-08 埃森哲环球解决方案有限公司 具有可视化建模工具的系统架构
CN107451663A (zh) * 2017-07-06 2017-12-08 阿里巴巴集团控股有限公司 算法组件化、基于算法组件建模方法、装置以及电子设备
CN107450972A (zh) * 2017-07-04 2017-12-08 阿里巴巴集团控股有限公司 一种调度方法、装置以及电子设备
CN108628605A (zh) * 2018-04-28 2018-10-09 百度在线网络技术(北京)有限公司 流式数据处理方法、装置、服务器和介质
CN109726216A (zh) * 2018-12-29 2019-05-07 北京九章云极科技有限公司 一种基于有向无环图的数据处理方法和处理系统
CN109800275A (zh) * 2018-12-14 2019-05-24 北京达佳互联信息技术有限公司 模型构建方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045790A (zh) * 2015-03-13 2015-11-11 北京航空航天大学 图数据搜索系统、方法和设备
CN107450902A (zh) * 2016-04-29 2017-12-08 埃森哲环球解决方案有限公司 具有可视化建模工具的系统架构
CN107450972A (zh) * 2017-07-04 2017-12-08 阿里巴巴集团控股有限公司 一种调度方法、装置以及电子设备
CN107451663A (zh) * 2017-07-06 2017-12-08 阿里巴巴集团控股有限公司 算法组件化、基于算法组件建模方法、装置以及电子设备
CN108628605A (zh) * 2018-04-28 2018-10-09 百度在线网络技术(北京)有限公司 流式数据处理方法、装置、服务器和介质
CN109800275A (zh) * 2018-12-14 2019-05-24 北京达佳互联信息技术有限公司 模型构建方法和系统
CN109726216A (zh) * 2018-12-29 2019-05-07 北京九章云极科技有限公司 一种基于有向无环图的数据处理方法和处理系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779484A (zh) * 2021-01-07 2021-12-10 北京沃东天骏信息技术有限公司 一种数据计算方法和装置
CN113434134A (zh) * 2021-06-21 2021-09-24 北京达佳互联信息技术有限公司 组件处理方法、装置、电子设备及存储介质
CN113434134B (zh) * 2021-06-21 2024-04-16 北京达佳互联信息技术有限公司 组件处理方法、装置、电子设备及存储介质
CN113239243A (zh) * 2021-07-08 2021-08-10 湖南星汉数智科技有限公司 基于多计算平台的图数据分析方法、装置和计算机设备
CN114676324A (zh) * 2022-03-28 2022-06-28 网易(杭州)网络有限公司 一种数据处理方法、装置及设备
CN115098181A (zh) * 2022-05-26 2022-09-23 浪潮软件集团有限公司 一种国产cpu和os的视频流组配方法及装置
CN117591123A (zh) * 2023-11-20 2024-02-23 芯瑞微(上海)电子科技有限公司 基于有向无环图和无锁多线程模式的3d模型处理方法
CN117591123B (zh) * 2023-11-20 2024-07-02 芯瑞微(上海)电子科技有限公司 基于有向无环图和无锁多线程模式的3d模型处理方法

Similar Documents

Publication Publication Date Title
CN112148926A (zh) 一种图数据流的处理方法、处理装置和存储介质
CN106775632B (zh) 一种业务流程可灵活扩展的高性能地理信息处理方法及系统
US11074107B1 (en) Data processing system and method for managing AI solutions development lifecycle
CN111736821B (zh) 可视化建模分析方法、系统、计算机设备和可读存储介质
CN111861020A (zh) 模型部署方法、装置、设备及存储介质
CN103984818A (zh) 基于Flex技术的AUV设计流程可视化建模方法
CN107632845B (zh) 一种转轮叶片多轴铣削加工的集成知识云服务方法和系统
CN113656021B (zh) 一种面向业务场景的油气大数据分析系统及方法
CN113849178A (zh) 基于表单驱动结合动态规则引擎的web系统开发框架
CN112199086A (zh) 自动编程控制系统、方法、装置、电子设备及存储介质
CN103093034A (zh) 基于云计算的产品协同设计方法
CN113010598B (zh) 面向遥感大数据处理的动态自适应分布式协同工作流系统
CN112130812B (zh) 一种基于数据流混合编排的分析模型构建方法及系统
CN117521710A (zh) 一种跨模态智能体实现方法
Van Mierlo et al. A multi-paradigm approach for modelling service interactions in model-driven engineering processes
CN112632082B (zh) 一种创建Flink作业的方法及装置
US8185491B2 (en) Method of organizing software design decision instances
CN113010296A (zh) 基于形式化模型的任务解析与资源分配方法及系统
CN116401025A (zh) 一种数据处理系统及数据处理方法
CN107505852B (zh) 一种包含仿真信息的云制造服务描述文件的构建方法
US20130346141A1 (en) Workflow modeling with workets and transitions
Bohács et al. Production logistics simulation supported by process description languages
Di Martino et al. A platform for mbdaaas based on patterns and skeletons: The python based algorithms compiler
CN104660697B (zh) 基于Kepler科学工作流传感网服务组合方法
Takeda et al. MERA: Meta language for software engineering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

CB02 Change of applicant information