CN115039079A - 管理起源信息以用于数据处理管道 - Google Patents

管理起源信息以用于数据处理管道 Download PDF

Info

Publication number
CN115039079A
CN115039079A CN201980103517.4A CN201980103517A CN115039079A CN 115039079 A CN115039079 A CN 115039079A CN 201980103517 A CN201980103517 A CN 201980103517A CN 115039079 A CN115039079 A CN 115039079A
Authority
CN
China
Prior art keywords
origin
data
information
data processing
storing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980103517.4A
Other languages
English (en)
Inventor
S·纳亚克
A·舒克拉
F·斯文松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN115039079A publication Critical patent/CN115039079A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0658Controller construction arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3442Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for planning or managing the needed capacity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0607Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种用于通过网络接口管理与起源系统中的一个或多个互连的起源实体相关联的起源信息以用于分布式云环境中的数据处理管道的方法,其中,每个数据处理管道被配置为读入数据,变换该数据,以及输出变换后的数据。该方法包括由配置组件执行的以下步骤:获得至少一个声明性意图,该至少一个声明性意图表示指示用于存储用于每个数据处理管道的起源信息的要求和优先级级别的配置;基于所获得的至少一个声明性意图,导出用于存储用于每个数据处理管道的起源信息的要求和优先级级别,其中,优先级级别中的一个优先级级别—第一优先级级别—高于其它优先级级别—第二优先级级别;基于所导出的要求和优先级级别,估计用于在起源系统中存储起源信息的存储容量;根据所导出的用于存储起源信息以及用于每个数据处理管道的要求和优先级级别,存储起源信息;以及当用于在起源系统中存储起源信息的实际存储消耗满足基于所估计的存储容量而设置的存储容量阈值时:减少用于在起源系统中存储第二优先级级别的起源信息的数据量。还公开了对应的计算机程序产品、装置、配置组件和系统。

Description

管理起源信息以用于数据处理管道
技术领域
本公开一般涉及起源(provenance)信息领域。更具体地,本公开涉及通过网络接口管理起源系统中的起源信息以用于分布式云环境中的数据处理管道。
背景技术
起源系统随着时间的推移捕获大量数据(即,起源信息),并期望各种起源信息(例如,元数据)可能在各种上下文(有时甚至出乎意料)中变得有用。
由于起源系统可包括大量可能的配置和策略组合,因此系统运营商可能很难设计将使起源系统运行良好的正确控件。
用于起源系统的已知配置和策略组合的第一个缺点是系统运营商需要粗略/精细配置控件和策略/规则框架来调谐系统以便满足使数据起源信息有用。
用于起源系统的已知配置和策略组合的第二个缺点是这样的控件和规则的大量组合变得太麻烦而无法处理以正确配置系统控件。
因此,需要用于通过网络接口管理起源系统中的的起源信息以用于分布式云环境中的数据处理管道的替代方法。
发明内容
应当强调,当在本说明书中使用时,术语“包括/包含”被视为指定声明的特征、整数、步骤或组件的存在,但是并不排除一个或多个其他特征、整数、步骤、组件或其组合的存在或增加。如本文所使用的,单数形式“一”、“一个”和“该”旨在同样包括复数形式,除非上下文明确地另有所指。
通常,当在本文提及布置时,将其理解为物理产品;例如装置。物理产品可以包括一个或多个部件,例如形式为一个或多个控制器、一个或多个处理器等的控制电路。
一些实施例的一个目的是解决或缓解、减轻或消除至少一些上述或其他缺点。
根据第一方面,这通过一种用于通过网络接口管理与起源系统中的一个或多个互连的起源实体相关联的起源信息以用于分布式云环境中的数据处理管道的方法来实现,其中,每个所述数据处理管道被配置为读入数据,变换所述数据,以及输出变换后的数据。
所述方法包括由配置组件执行的步骤。
所述方法包括:获得至少一个声明性意图,所述至少一个声明性意图表示指示用于存储用于每个所述数据处理管道的起源信息的要求和优先级级别的配置;以及基于所获得的至少一个声明性意图,导出用于存储用于每个所述数据处理管道的起源信息的所述要求和优先级级别,其中,所述优先级级别中的一个优先级级别—第一优先级级别—高于其它优先级级别—第二优先级级别。
所述方法还包括:基于所导出的要求和优先级级别,估计用于在所述起源系统中存储起源信息的存储容量;根据所导出的用于存储起源信息以及用于每个所述数据处理管道的要求和优先级级别,存储所述起源信息;以及当用于在所述起源系统中存储起源信息的实际存储消耗满足基于所估计的存储容量而设置的存储容量阈值时:减少用于在所述起源系统中存储所述第二优先级级别的起源信息的数据量。
在一些实施例中,减少用于存储起源信息的数据量包括发送用于导致以下中的任一项的信号:压缩在所述起源系统中的本地存储中所存储的起源信息,移除在所述起源系统中的本地存储中所存储的起源信息的索引,以及将在所述起源系统的本地存储中所存储的压缩或非压缩的起源信息移动到所述分布式云环境中的远程存储。
在一些实施例中,表示所述配置的所述至少一个声明性意图指示每个所述数据处理管道基于以下中的一项或多项而与对应的优先级级别相关联:所述数据处理管道的年龄,所述数据处理管道的特定标签,与所述数据处理管道相关联的特定客户端/客户端组,以及所述数据处理管道的特定数据源。
在一些实施例中,表示所述配置的所述至少一个声明性意图指示用于标识时间间隔的时间间隔要求,在所述时间间隔期间,与所述一个或多个互连的起源实体相关联的所述起源信息应当被存储在所述起源系统中。
在一些实施例中,表示所述配置的所述至少一个声明性意图指示用于连续存储与所述起源系统中的所述一个或多个互连的起源实体相关联的起源信息的连续要求。
在一些实施例中,所述方法还包括:由所述配置组件向与所述声明性意图相关联的客户端通知所存储的起源信息可用于供应。
在一些实施例中,所述方法还包括:通过所述网络接口向所述客户端提供对所存储的起源信息的访问。
在一些实施例中,所述方法还包括:通过所述网络接口向所述客户端提供所存储的起源信息的数据流。
在一些实施例中,向所述客户端提供的对所存储的起源信息的访问或所存储的起源信息的数据流用作用于以下中的任一项的数据:调试,分析查询,调度,以及优化。
在一些实施例中,取决于数据类型和收集环境,所述起源信息包括以下中的一项或多项:与在何处收集数据有关的信息,与出于何种目的而收集数据有关的信息,与针对何种上下文而收集数据有关的信息,与针对谁而收集数据有关的信息,与谁已经访问所收集的数据有关的信息,所收集的数据的属性,对所收集的数据的更新,所收集的数据的创建,以及所收集的数据的谱系。
在一些实施例中,所述起源系统中的所述一个或多个互连的起源实体表示图结构的一个或多个互连的节点,并且所述互连表示所述图结构的子图的节点之间的边和关系。
在一些实施例中,所述图结构是图数据库。
在一些实施例中,所述配置组件包括多个子组件,每个子组件充当用于对应的数据处理管道的单独配置组件。
在一些实施例中,所存储的起源信息涉及以下中的任一项:工业机器人,建筑物中的传感器,以及生产机器。
第二方面是一种包括非暂时性计算机可读介质的计算机程序产品,所述非暂时性计算机可读介质存储包括程序指令的计算机程序。所述计算机程序能够加载到数据处理单元中,并且被配置为当所述计算机程序由所述数据处理单元运行时,使得执行根据第一方面所述的方法。
第三方面是一种用于配置组件的装置,所述配置组件适于通过网络接口管理与起源系统中的一个或多个互连的起源实体相关联的起源信息以用于分布式云环境中的数据处理管道,其中,每个所述数据处理管道被配置为读入数据,变换所述数据,以及输出变换后的数据。
所述装置包括控制器,所述控制器被配置为使得:获得至少一个声明性意图,所述至少一个声明性意图表示指示用于存储用于每个所述数据处理管道的起源信息的要求和优先级级别的配置;基于所获得的至少一个声明性意图,导出用于存储用于每个所述数据处理管道的起源信息的所述要求和优先级级别,其中,所述优先级级别中的一个优先级级别—第一优先级级别—高于其它优先级级别—第二优先级级别。
所述控制器还被配置为使得:基于所导出的要求和优先级级别,估计用于在所述起源系统中存储起源信息的存储容量;根据所导出的用于存储起源信息以及用于每个所述数据处理管道的要求和优先级级别,存储所述起源信息;以及当用于在所述起源系统中存储起源信息的实际存储消耗满足基于所估计的存储容量而设置的存储容量阈值时:减少用于在所述起源系统中存储所述第二优先级级别的起源信息的数据量。
在一些实施例中,减少用于存储起源信息的数据量包括发送用于导致以下中的任一项的信号:压缩在所述起源系统中的本地存储中所存储的起源信息,移除在所述起源系统中的本地存储中所存储的起源信息的索引,以及将在所述起源系统的本地存储中所存储的压缩或非压缩的起源信息移动到所述分布式云环境中的远程存储。
在一些实施例中,表示所述配置的所述至少一个声明性意图指示每个所述数据处理管道基于以下中的一项或多项而与对应的优先级级别相关联:所述数据处理管道的年龄,所述数据处理管道的特定标签,与所述数据处理管道相关联的特定客户端/客户端组,以及所述数据处理管道的特定数据源。
在一些实施例中,表示所述配置的所述至少一个声明性意图指示用于标识时间间隔的时间间隔要求,在所述时间间隔期间,与所述一个或多个互连的起源实体相关联的所述起源信息应当被存储在所述起源系统中。
在一些实施例中,表示所述配置的所述至少一个声明性意图指示用于连续存储与所述起源系统中的所述一个或多个互连的起源实体相关联的起源信息的连续要求。
在一些实施例中,所述控制器还被配置为使得向与所述声明性意图相关联的客户端通知所存储的起源信息可用于供应。
在一些实施例中,所述装置还被配置为通过所述网络接口向所述客户端提供对所存储的起源信息的访问。
在一些实施例中,所述装置还被配置为通过所述网络接口向所述客户端提供所存储的起源信息的数据流。
在一些实施例中,向所述客户端提供的对所存储的起源信息的访问或所存储的起源信息的数据流用作用于以下中的任一项的数据:调试,分析查询,调度,以及优化。
在一些实施例中,取决于数据类型和收集环境,所述起源信息包括以下中的一项或多项:与在何处收集数据有关的信息,与出于何种目的而收集数据有关的信息,与针对何种上下文而收集数据有关的信息,与针对谁而收集数据有关的信息,与谁已经访问所收集的数据有关的信息,所收集的数据的属性,对所收集的数据的更新,所收集的数据的创建,以及所收集的数据的谱系。
在一些实施例中,所述起源系统中的所述一个或多个互连的起源实体表示图结构的一个或多个互连的节点,并且所述互连表示所述图结构的子图的节点之间的边和关系。
在一些实施例中,所述图结构是图数据库。
在一些实施例中,用于所述配置组件的所述装置包括多个子组件,每个子组件充当用于对应的数据处理管道的单独配置组件。
在一些实施例中,所存储的起源信息涉及以下中的任一项:工业机器人,建筑物中的传感器,以及生产机器。
第四方面是一种配置组件,包括根据第三方面所述的装置。
第五方面是一种系统,包括根据第三方面所述的装置和/或根据第四方面所述的配置组件。
在一些实施例中,所述系统还包括:至少一个客户端,本地存储,以及远程存储。
任何上述方面可以另外具有与如上面针对任何其他方面说明的各种特征中的任一个相同或相对应的特征。
一些实施例的优点是提供了用于通过网络接口管理起源系统中的起源信息以用于分布式云环境中的数据处理管道的替代方法。
一些实施例的另一个优点是能够减轻用于系统运营商调谐系统的粗略/精细配置控件和策略/规则框架。
一些实施例的又一个优点是能够减轻对用于正确配置系统控件的大量控件和规则组合的繁琐处理。
一些实施例的又一个优点是所需的起源信息被存储在起源系统中,同时符合分布式云环境中各个位置处的资源容量限制。
附图说明
从以下参考附图对实施例的详细描述,其他目的、特征和优点将显而易见。附图不一定按比例,而是将重点放在说明示例实施例上。
图1是示出根据一些实施例的示例方法步骤的流程图;
图2a是示出根据一些实施例的示例序列步骤的序列图;
图2b是示出根据一些实施例的示例序列步骤的序列图;
图3a是示出根据一些实施例的示例环境的示例传感器的示意图;
图3b是示出根据一些实施例的示例环境的示例传感器的示意图;
图4是示出根据一些实施例的示例装置的示意框图;以及
图5是示出根据一些实施例的示例计算机可读介质的示意图。
具体实施方式
如上面已经提到,应当强调,当在本说明书中使用时,术语“包括/包含”被视为指定声明的特征、整数、步骤或组件的存在,但是并不排除一个或多个其他特征、整数、步骤、组件或其组合的存在或增加。如本文所使用的,单数形式“一”、“一个”和“该”旨在同样包括复数形式,除非上下文明确地另有所指。
将在以下参考附图更全面地描述和例示本公开的实施例。但是,本文公开的解决方案可以以许多不同的形式实现,而不应被解释为限于本文阐述的实施例。
如上所述,起源系统随着时间的推移捕获大量起源信息。
起源系统可以提供配置控件和/或策略框架,以允许系统运营商控制诸如以下的方面:哪些种类的起源信息(例如元数据)应当被捕获,在什么条件下应当执行捕获和/或存储,哪些种类的表示(例如,压缩或未压缩等)和/或存储后端(例如,慢/快,本地/远程等)应当被用于存储这样的起源信息等。这样的配置和策略/规则在面对分布式云拓扑(其中不同的存储位置具有不同的资源能力/限制和异构资源(例如,计算、存储、网络等))进行调谐和搭建架构时变得尤为重要。
在下文中,将呈现实施例,其中描述了用于通过网络接口管理起源系统中的起源信息以用于分布式云环境中的数据处理管道的替代方法。
如本文所述,管理起源信息包括获得(例如,取得)至少一个声明性意图,导出要求和优先级级别,估计存储容量,存储起源信息,以及减少用于存储的数据量(例如,缓解)。
起源系统包括一个或多个(直接地或间接地;例如,在操作上或虚拟地)互连的起源实体的起源信息,该起源信息通过网络接口经由一个或多个路由组件被存储在实际联网硬件的软件系统(例如,起源代理)上。
图1是示出根据一些实施例的示例管理方法100的方法步骤的流程图。管理方法100用于通过网络接口管理与起源系统中的一个或多个互连的起源实体相关联的起源信息以用于分布式云环境中的数据处理管道。因此,管理方法100可以例如由图4的装置400和/或图5的计算机程序产品500中的处理器520执行;这两者都将在后面描述。
在一些实施例中,取决于数据类型和收集环境,起源信息包括以下中的一项或多项:与在何处收集数据有关的信息,与出于何种目的而收集数据有关的信息,与针对何种上下文而收集数据有关的信息,与针对谁而收集数据有关的信息,与谁已经访问所收集的数据有关的信息,所收集的数据的属性,对所收集的数据的更新,所收集的数据的创建,以及所收集的数据的谱系。
在一些实施例中,起源系统中的一个或多个互连的起源实体表示图结构的一个或多个互连的节点,并且互连表示图结构的子图的节点之间的边和关系。
在一些实施例中,图结构是图数据库。
在一些实施例中,该配置组件包括多个子组件,每个子组件充当用于对应的数据处理管道的单独配置组件。
在一些实施例中,所存储的起源信息涉及以下中的任一项:工业机器人,建筑物中的传感器,以及生产机器。
管理方法100包括由配置组件执行的以下步骤。
在步骤101中,获得至少一个声明性意图,该至少一个声明性意图表示指示用于存储用于每个数据处理管道的起源信息的要求和优先级级别的配置。
替代地或附加地,获得至少一个声明性意图可以包括从客户端或起源系统中接收或取得至少一个声明性意图。
替代地或附加地,至少一个声明性意图表示对数据处理管道的高阶起源要求,指示用于存储用于这样的数据处理管道的起源信息的这样的元数据要求和优先级级别的低阶细节。
在一些实施例中,表示配置的至少一个声明性意图指示每个数据处理管道基于以下中的一项或多项而与对应的优先级级别相关联:数据处理管道的年龄,数据处理管道的特定标签,与数据处理管道相关联的特定客户端/客户端组,以及数据处理管道的特定数据源。
在一些实施例中,表示配置的至少一个声明性意图指示用于标识时间间隔的时间间隔要求,在该时间间隔期间,与一个或多个互连的起源实体相关联的起源信息应当被存储在起源系统中。
在一些实施例中,表示配置的至少一个声明性意图指示用于连续存储与起源系统中的一个或多个互连的起源实体相关联的起源信息的连续要求。
在步骤102中,基于所获得的至少一个声明性意图,导出用于存储用于每个数据处理管道的起源信息的要求和优先级级别,其中,优先级级别中的一个优先级级别—第一优先级级别—高于其它优先级级别—第二优先级级别。
例如,优先级级别可以包括至少两个优先级级别或多个优先级级别,其中,优先级级别中的一个优先级级别高于其他优先级级别。
例如,当包括高阶起源要求的至少一个声明性意图指示“存储起源以调试上周部署的数据处理管道”时,系统必须首先确定“什么构成起源信息以调试数据处理管道”。然后,起源信息可以包括与数据处理管道的每个阶段有关的细节、每个阶段所涉及的代码版本/提交、每个阶段的输入和输出、数据处理管道的每个阶段的定义(例如,它是docker镜像吗?是某个框架中的函数吗?等),等等。然后系统还根据此“意图”而确定用于每个部署的数据处理管道的这种起源信息的优先级在一周后降低。类似地,与优先级有关的一些提示可基于与数据处理管道相关的用户/组等。
例如,当包括高阶起源要求的至少一个声明性意图指示“关于通过数据管道对数据集X(例如,数据库表或消息队列主题)的访问的起源”时,系统将存储围绕对该特定数据集的访问的元数据/起源信息,而不一定是所有谱系。
在步骤103中,基于所导出的要求和优先级级别,估计用于在起源系统中存储起源信息的存储容量。
替代地或附加地,所估计的存储容量包括用于所有起源信息(即,包括所有可用优先级级别的起源信息)的存储容量。
例如,当可以发起纠正动作时,即,减少起源系统中的数据量时,所估计的存储容量可以被用于设置用于在起源系统中存储起源信息的实际存储消耗的阈值。
例如,所估计的存储容量也可被用于确定应当释放多少存储,即,是否可以满足减少第二优先级级别或更低优先级级别的存储等。
在步骤104中,根据所导出的用于存储起源信息和用于每个数据处理管道的要求和优先级级别,存储起源信息。
替代地或附加地,与一个或多个互连的实体相关联的起源信息可被本地存储在起源系统中,以通过网络接口用于分布式云环境中的数据处理管道。
在步骤105中,确定用于在起源系统中存储起源信息的实际存储消耗是否满足基于所估计的存储容量而设置的存储容量阈值。
例如,该阈值可以响应于对存储容量的估计而已经被设置(参见步骤103)。
当确定用于在起源系统中存储起源信息的实际存储消耗满足基于所估计的存储容量而设置的存储容量阈值时(步骤105的“是”路径),该方法进行到步骤106。否则(步骤105的“否”路径),该方法返回到步骤104。
在步骤106中,减少起源系统中用于存储第二优先级级别的起源信息的数据量。
例如,可能响应于对存储容量的估计(参见步骤103)而已经确定了要被减少(即,释放)的数据量。
在一些实施例中,减少用于存储起源信息的数据量包括发送用于导致以下中的任一项的信号:压缩在起源系统中的本地存储中所存储的起源信息,移除在起源系统中的本地存储中所存储的起源信息的索引,以及将在起源系统的本地存储中所存储的压缩或非压缩的起源信息移动到分布式云环境中的远程存储。
替代地或附加地,步骤106的结果被馈送到步骤104中以便表示空间被释放,并且可以相应地存储其他起源信息。
在可选步骤107中,在一些实施例中,当起源信息已在步骤104中被成功存储时,配置组件向与声明性意图相关联的客户端通知所存储的起源信息可用于供应。
例如,配置组件可以在数据消息中将这种信息发布为流式超文本传输协议(HTTP)响应等。
在可选步骤108中,在一些实施例中,通过网络接口向客户端提供对所存储的起源信息的访问。
替代地或附加地,供应可以由配置组件或路由组件或相应地适于提供访问和/或数据流的与配置/路由组件相关联的任何其他组件来执行。
例如,所存储的起源信息的供应可以包括复制数据或引用个体数据或数据范围以供以后从起源系统中的本地存储和/或远程存储中查找。
在一些实施例中,向客户端提供的对所存储的起源信息的访问或所存储的起源信息的数据流用作用于以下中的任一项的数据:调试,分析查询,调度,以及优化。
在一些实施例中,重复步骤103、104、105和106,使得用于在起源系统中存储起源信息的实际存储消耗不超过起源系统的存储容量。
因此,鉴于上述方法步骤,实现通过网络接口管理起源系统中的起源信息以用于分布式云环境中的数据处理管道。
图2a是示出根据一些实施例的示例管理序列200a的序列步骤的序列图。管理序列200a用于通过网络接口管理与起源系统中的一个或多个互连的起源实体相关联的起源信息以用于分布式云环境中的数据处理管道。因此,管理序列200a可以例如由图4的装置400和/或图5的计算机程序产品500中的处理器520执行;这两者都将在后面描述。
管理序列200a包括由包括客户端201、配置组件202、本地存储203和远程存储204的起源系统执行的以下步骤。
在步骤1a(对应于图1的步骤101)中,配置组件202从客户端201针对每个数据处理管道获得至少一个声明性意图,该至少一个声明性意图表示指示用于存储起源信息的要求和优先级级别的配置。
在步骤2a(对应于图1的步骤102)中,配置组件202基于所获得的至少一个声明性意图,导出用于存储用于每个数据处理管道的起源信息的要求和优先级级别,其中,优先级级别中的一个优先级级别—第一优先级级别—高于其他优先级级别—第二优先级级别。
在步骤3a(对应于图1的步骤103)中,配置组件202基于所导出的要求和优先级级别,估计用于在起源系统中存储起源信息的存储容量。
在步骤4a(对应于图1的步骤104)中,由配置组件202根据所导出的用于存储起源信息和用于每个数据处理管道的要求和优先级级别,将起源信息存储在起源系统中的本地存储203中。
在步骤5a(对应于图1的步骤105)中,配置组件202确定用于在起源系统中存储起源信息的实际存储消耗满足基于所估计的存储容量而设置的存储容量阈值。
在步骤6a(对应于图1的步骤106)中,配置组件202通过经由网络接口将要被减少的数据量从起源系统中的本地存储203移动到分布式云环境中的远程存储204,在起源系统中减少用于存储第二优先级级别的起源信息的数据量。
在可选步骤7a(对应于图1的步骤107)中,在一些实施例中,配置组件202向与声明性意图相关联的客户端201通知所存储的起源信息可用于供应。
在可选步骤8a(对应于图1的步骤108)中,在一些实施例中,配置组件202通过网络接口向客户端201提供对所存储的起源信息的访问。
因此,鉴于上述方法步骤,实现通过网络接口管理起源系统中的起源信息以用于分布式云环境中的数据处理管道。
图2b是示出根据一些实施例的示例管理序列200b的序列步骤的序列图。管理序列200b用于通过网络接口管理与起源系统中的一个或多个互连的起源实体相关联的起源信息以用于分布式云环境中的数据处理管道。因此,管理序列200b可以例如由图4的装置400和/或图5的计算机程序产品500中的处理器520执行;这两者都将在后面描述。
一般来说,起源系统支持各种配置选项和规则;示例包括:
o可用的起源特征—粗粒度起源,如流主题和访问此类主题的用户以及操作(它们之间的谱系关系),或细粒度起源,如跨流的个体消息之间的谱系关系。通常,细粒度的消息/记录起源对于调试此类消息上的数据管道操作非常有用(例如,Apache NiFi起源)。
o多种可能的元数据表示格式—特性图,RDF,简单文本日志,压缩与否等。
o不同位置处可用的元数据的资源(计算、存储、网络)可用性限制,以及此类资源的特性(例如,存储IOPS/延迟、计算核心/速度、网络带宽等)。
起源系统可以定义数据处理管道(源、汇(sink)、处理、路由等),并且至少在数据处理管道运行的第一个月内,有兴趣拥有足够的起源信息以用于该管道的操作。此意图由解决方案使用用户对话或类似物来捕获。
起源系统将来自用户的要求/意图转换成内部地管理它的动作/配置的策略/规则。此类策略旨在在具有云的网络分区的情况下,在边缘处的资源消耗与边缘处的此类起源信息的不可用性之间取得平衡。
o存储什么内容:系统将意图转换为表示系统将在数据管道存在的第一个月存储该管道的详细起源信息(例如,流数据管道的细粒度记录起源)。
o存储在何处:对于位于边缘位置处的数据管道的处理元素,系统将:
·在边缘处存储详细的起源,
·关于详细起源的存储消耗、对此类详细起源执行的查询(调试、分析查询)及它们的响应时间,随时间构建统计信息,
·在系统接近边缘存储限制的情况下,将相对旧的起源信息(例如,早于过去2天,或作为每日夜间批处理作业)变换成占用较少存储(压缩或替代格式)或较慢存储的格式,或者说采用诸如移除索引之类的做法,同时可能牺牲对这种替代表示的查询响应性。在边缘存储确实面临压力的情况下,将起源信息推出到云,并可选地将高级起源动作/事件或关键事件保留在边缘处。
对于位于云位置处的管道的此类处理元素,系统可以选择类似的做法来优化替代存储解决方案上的整体存储消耗成本(例如,较慢的存储与较快的存储,对象存储与图数据库等)
o旧管道与新管道:当边缘存储受到严重约束时,本解决方案的系统使与边缘处的较新管道有关的元数据优先于相对旧的管道。系统将对旧管道元数据执行与上述类似的缓解动作(变换为替代格式、移除索引、推送到云等)。
起源系统还考虑了多租户系统中更高级别的配额限制。例如,在边缘/云上具有整体存储配额的租户组中,系统将考虑分配给该租户组中的用户的优先级,以决定与此类用户所定义的数据管道有关的元数据的优先级。因此,当资源不足时,本解决方案的系统可以针对低优先级用户的数据管道遵循缓解过程。个体用户也可以定义数据管道的优先级(如果数据处理系统支持此类特征的话),并且本解决方案的系统可以使用此类优先级来区分单个用户所定义的各种数据管道。
起源系统还维护关于起源数据的统计信息,以及使用这些起源来采用如上的缓解策略。下面描述了一些示例。
o管道起源资源消耗:一些数据管道可能比其他数据管道更活跃或更快(流处理更快),因此这些数据管道的细粒度起源信息累积得更快。本解决方案的系统可以选择采用替代表示的策略(例如,压缩等)或仅存储有关此类管道的关键事件(例如,故障、警报等),以及将非关键起源移动到其他存储(慢,廉价)或云。
o起源数据访问历史:系统可以维护与对此类管道起源数据的查询有关的统计信息,以衡量特定数据管道相对于其他数据管道的关键性(criticiality),并将前面提到的缓解策略(临时)应用于其他管道的起源数据。
o故障/有缺陷的管道:本解决方案的系统还使用诸如哪些管道遇到故障、已经或可能有缺陷之类的起源信息(起源标签、管道代码的实验版本和分支)来对此类管道的起源信息进行优先化。
管理序列200b包括由起源系统执行的步骤的以下部分,该起源系统包括与图2a的客户端201相对应的客户端(即,架构师/开发人员/管理员),与图2a的配置组件202相对应的组件(即,控件),与图2a的本地存储203相对应的本地存储(即,边缘起源系统),以及与图2a的远程存储204相对应的远程存储(即,云起源系统)。
在步骤1b的第一部分:“维护用于调试数据管道的起源的声明性意图”(与图1的步骤101和图2a的步骤1a相比),针对每个数据处理管道,由控件从架构师/开发人员/管理员获得至少一个声明性意图,该至少一个声明性意图表示指示用于存储起源信息的要求和优先级级别的配置。
接下来,(与图1的步骤102和图2a的步骤2a相比),基于所获得的至少一个声明性意图,导出用于存储用于每个数据处理管道的起源信息的要求和优先级级别,其中,优先级级别中的一个优先级级别—第一优先级级别—高于其他优先级级别—第二优先级级别。
此外,(与图1的步骤103和图2a的步骤3a相比),基于所导出的要求和优先级级别,估计用于在起源系统中存储起源信息的存储容量。
控件还将配置起源信息的存储的任务委托给起源服务。
在步骤2b的第二部分:“随时间实例化的数据和管道”中,每个数据处理管道被配置为读入数据,变换该数据,以及输出变换后的数据。
处理引擎还负责对每个数据处理管道的数据的处理进行循环。
例如,可以在将数据存储到终端存储系统之前对这种数据进行各种变换。变换的一些示例可以包括:格式转换;字段提取,连接;或复杂转换,例如迭代机器模型生成和在此类管道中使用循环进行调谐。终端存储系统的一些示例是各种数据库(关系型、NoSQL、时间序列)、对象存储(AWS S3)等。此外,多个用户(开发人员、数据架构师、机器学习或数据工程师)在可能跨越本地和/或云托管系统的此类数据流软件系统上定义此类数据管道。
在步骤3b的第三部分:“随时间构建起源数据”(与图1的步骤104和图2a的步骤4a相比),根据所导出的用于存储起源信息和用于每个数据处理管道的要求和优先级级别,由起源服务将起源信息存储在起源系统中的边缘起源系统中(控件已经将此任务委托给该起源服务)。
对应的起源服务在云起源系统中可用,以用于通过网络接口在分布式云环境中进一步存储起源信息。
例如,数据流系统的起源和/或元数据系统有助于对此类系统中的数据和操作的诸如关联、版本关系、谱系等的方面进行建模和记录。此类起源信息和/或元数据通常非常庞大—有时甚至比实际数据本身还要大。此外,此类起源信息和/或元数据系统以及数据流系统可以跨越包括一个或多个边缘和云位置(例如数据中心)的分布式环境,并且分布式环境中的此类不同位置具有它们自己的个体计算、存储、网络资源能力限制。
在步骤4b的第四部分:“边缘存储消耗接近阈值:缓解试探法”(与图1的步骤105和图2a的步骤5a相比)中,由控件确定用于在起源系统中存储起源信息的实际存储消耗何时接近(例如,满足)基于所估计的存储容量而设置的存储容量阈值。
随后,(与图1的步骤106和图2a的步骤6a相比),控件经由起源服务而发起减少用于在边缘起源系统中存储第二优先级级别的起源信息的数据量。
例如,数据量的减少可以包括通过网络接口将要被减少的数据量从起源系统中的边缘起源系统移动到起源系统中的云起源系统(即,分布式云环境)中的对应位置或包括诸如更改边缘存储上的起源信息的格式/索引之类的替代方法。
因此,步骤的以上部分使得起源系统能够将声明性意图(用于数据处理管道的起源信息的起源使用和元素)转变为在分布式云设置中维护基本起源信息的要求,并导出配置和策略控件,以及通过分布式云设置在资源容量限制下采取满足起源要求的策略。
因此,鉴于上述序列步骤,实现通过网络接口管理起源系统中的起源信息以用于分布式云环境中的数据处理管道。
图3a是示出根据一些实施例的示例环境300a的传感器的示意图。传感器和示例环境300a用于获得和提供与一个或多个互连的起源实体相关联的起源信息以存储在起源系统中。因此,环境300a可以例如被包括在包括图4的装置400和/或图5的计算机程序产品500中的处理器520的系统中;这两者都将在后面描述。
替代地或附加地,该系统可以包括适于管理起源信息的配置组件和/或用于图4的配置组件的装置400。
例如,配置组件可以包括图4的装置400。
在一些实施例中,该系统还可以包括至少一个客户端201,本地存储203,以及远程存储204。
图3a示出了包括至少一个传感器的建筑物。该至少一个传感器可以包括用于气流AF的传感器、用于温度T的传感器、以及用于门禁AD的传感器中的任一个。该至少一个传感器被配置为根据传感器的用途而获得数据(即,起源信息),以及将起源信息提供给起源系统。因此,该至少一个传感器及其数据流由起源系统中的一个或多个互连的起源实体来表示,其中起源实体可以包括图结构的子图。
在一些实施例中,图结构是图数据库。
因此,鉴于以上内容,实现获得和提供与一个或多个互连的起源实体相关联的起源信息以存储在起源系统中。
图3b是示出根据一些实施例的示例环境300b的传感器的示意图。传感器和示例环境300b用于获得和提供与一个或多个互连的起源实体相关联的起源信息以存储在起源系统中。因此,环境300b可以例如被包括在包括图4的装置400和/或图5的计算机程序产品500中的处理器520的系统中;这两者都将在后面描述。
替代地或附加地,该系统可以包括适于管理起源信息的配置组件和/或用于图4的配置组件的装置400。
例如,配置组件可以包括图4的装置400。
在一些实施例中,该系统还可以包括至少一个客户端201,本地存储203,以及远程存储204。
图3b示出了包括被布置在机器和/或设备(例如,生产机器A)上的至少一个传感器的工厂(或工业厂房)。该至少一个传感器可以包括用于指示机器的状态的传感器、用于机器的内部温度的传感器、压力传感器、接近度传感器、光学传感器、以及位置传感器中的任一个。该至少一个传感器被配置为根据传感器的用途而获得数据(即,传感器数据),以及将该数据提供给起源系统。
例如,传感器输出所获得的数据,这些数据涉及起源系统中的一个或多个互连的起源实体的主题。因此,示例起源实体可以包括表示传感器的起源图实体(例如,它的配置、信息等),以及表示将数据推送到的流消息队列主题的图实体(例如,关于该主题的元数据-它的模式等)。
因此,该至少一个传感器由起源系统中的一个或多个互连的起源实体来表示,其中起源实体可以包括图结构的子图。
因此,鉴于以上内容,实现获得和提供与一个或多个互连的起源实体相关联的起源信息以存储在起源系统中。
图4是示出根据一些实施例的示例管理装置400的示意框图。管理装置400用于配置组件,其中配置组件适于通过网络接口管理与起源系统中的一个或多个互连的起源实体相关联的起源信息以用于分布式云环境中的数据处理管道。因此,数据供应装置400可以例如被配置为执行图1的方法步骤中的一个或多个,和/或图2a和2b的一个或多个序列步骤,和/或本文另有说明的任何步骤中的一个或多个。
管理装置400包括控制器(例如,设备控制电路),其被配置为使得:获得至少一个声明性意图,该至少一个声明性意图表示指示用于存储用于每个数据处理管道的起源信息的要求和优先级级别的配置;以及基于所获得的至少一个声明性意图,导出用于存储用于每个数据处理管道的起源信息的要求和优先级级别,其中,优先级级别中的一个优先级级别—第一优先级级别—高于其它优先级级别—第二优先级级别。
控制器还被配置为使得:基于所导出的要求和优先级级别,估计用于在起源系统中存储起源信息的存储容量;根据所导出的用于存储起源信息以及用于每个数据处理管道的要求和优先级级别,存储起源信息;以及当用于在起源系统中存储起源信息的实际存储消耗满足基于所估计的存储容量而设置的存储容量阈值时:减少用于在起源系统中存储第二优先级级别的起源信息的数据量。
如上所述,用于配置组件的管理装置400包括控制器(CNTR;例如,控制电路或控制模块)410,控制器410又可以包括(或以其他方式与之相关联;例如,连接或可连接到):获得器401(例如,获得电路或获得模块),获得器401被配置为获得至少一个声明性意图,该至少一个声明性意图表示指示用于存储用于每个数据处理管道的起源信息的要求和优先级级别的配置(与图1的步骤101相比);以及导出器402(例如,导出电路或导出模块),导出器402被配置为基于所获得的至少一个声明性意图,导出用于存储用于每个数据处理管道的起源信息的要求和优先级级别,其中,优先级级别中的一个优先级级别—第一优先级级别—高于其它优先级级别—第二优先级级别(与图1的步骤102相比)。
CNTR 410还可以包括(或与之相关联;例如,连接或可连接到):估计器403(例如,估计电路或估计模块),估计器403被配置为基于所导出的要求和优先级级别,估计用于在起源系统中存储起源信息的存储容量(与图1的步骤103相比);存储器404(例如,存储电路或存储模块),存储器404被配置为根据所导出的用于存储起源信息以及用于每个数据处理管道的要求和优先级级别,存储起源信息(与图1的步骤104相比);监视器405(例如,监视电路或监视模块),监视器405被配置为监视用于在起源系统中存储起源信息的实际存储消耗何时满足基于所估计的存储容量而设置的存储容量阈值(与图1的步骤105相比);以及减少器406(例如,减少电路或减少模块),减少器406被配置为减少用于在起源系统中存储第二优先级级别的起源信息的数据量(与图1的步骤106相比)。
在一些实施例中,CNTR 410还可以包括(或以其他方式与之相关联;例如,连接或可连接到):通知器407(例如,通知电路或通知模块),通知器407被配置为向与声明性意图相关联的客户端通知所存储的起源信息可用于供应(与图1的步骤107相比);以及提供器408(例如,提供电路或提供模块),提供器408被配置为通过网络接口向客户端提供对所存储的起源信息的访问(与图1的步骤108相比)。
在一些实施例中,装置400还可以包括(或以其他方式与之相关联;例如,连接或可连接到)收发机TX/RX 420(例如,收发电路或收发模块),收发机TX/RX 420被配置为发送和接收无线电信号,例如用于从客户端获得至少一个声明性意图,该至少一个声明性意图表示指示用于存储用于每个数据处理管道的起源信息的要求和优先级级别的配置,和/或用于通过网络接口向客户端提供对所存储的起源信息的访问。
因此,鉴于上述装置,实现通过网络接口在起源系统中存储起源信息以用于分布式云环境中的数据处理管道的配置。
一些实施例的优点是提供了用于通过网络接口管理起源系统中的起源信息以用于分布式云环境中的数据处理管道的替代方法。
一些实施例的另一个优点是能够减轻用于系统运营商调谐系统的粗略/精细配置控件和策略/规则框架。
一些实施例的又一个优点是能够减轻对用于正确配置系统控件的大量控件和规则组合的繁琐处理。
一些实施例的又一个优点是所需的起源信息被存储在起源系统中,同时符合分布式云环境中各个位置处的资源容量限制。
通常,当在本文提及布置时,将其理解为物理产品;例如装置。物理产品可以包括一个或多个部件,例如形式为一个或多个控制器、一个或多个处理器等的控制电路。
可以以软件或硬件或其组合来实现所描述的实施例及其等效物。可以由通用电路来执行实施例。通用电路的示例包括数字信号处理器(DSP)、中央处理单元(CPU)、协处理器单元、现场可编程门阵列(FPGA)和其他可编程硬件。替代地或附加地,可以由专用电路(例如专用集成电路(ASIC))来执行实施例。通用电路和/或专用电路可以例如与装置(例如无线通信设备)相关联或被包括在装置(例如无线通信设备)中。
实施例可以出现在包括根据本文描述的任何实施例所述的布置、电路和/或逻辑的电子装置(例如无线通信设备)内。替代地或附加地,电子装置(例如无线通信设备)可以被配置为执行根据本文描述的任何实施例所述的方法。
根据一些实施例,一种计算机程序产品包括计算机可读介质,例如通用串行总线(USB)存储器、插入式卡、嵌入式驱动器或只读存储器(ROM)。
图5示出了形式为光盘(CD)ROM 500的示例计算机可读介质。该计算机可读介质存储包括程序指令的计算机程序。该计算机程序可加载到数据处理器(PROC)520中,数据处理器520可以例如被包括在无线通信设备510中。当被加载到数据处理器中时,该计算机程序可以被存储在存储器(MEM)530中,存储器530与数据处理器相关联或被包括在数据处理器中。
在一些实施例中,当被加载到数据处理单元中并由数据处理单元运行时,该计算机程序可以使得执行根据例如图1的方法步骤和/或根据例如图2a和2b的序列步骤和/或本文另外描述的任何步骤中的一个或多个。
通常,本文中使用的所有术语将根据其在相关技术领域中的普通含义来解释,除非在使用该术语的上下文中清楚地给出了和/或隐含了不同的含义。
本文已参考各种实施例。但是,本领域技术人员将认识到将仍然落入权利要求的范围内的对所描述的实施例的许多变型。
例如,本文描述的方法实施例通过以特定顺序执行的步骤来公开了示例方法。但是,将认识到,这些事件序列可以以另一种顺序发生而不偏离权利要求的范围。此外,一些方法步骤可以被并行执行,即使它们已被描述为按顺序执行。因此,除非显式地将一个步骤描述为在另一个步骤之后或之前和/或隐含地一个步骤必须在另一个步骤之后或之前,否则本文所公开的任何方法的步骤不必以所公开的确切顺序执行。
以相同的方式,应当注意,在实施例的描述中,将功能块划分成特定单元决不旨在限制。相反,这些划分仅是示例。本文描述为一个单元的功能块可以被分成两个或多个单元。此外,本文描述为被实现为两个或多个单元的功能块可以被合并成更少(例如单个)单元。
在适当的情况下,本文公开的任何实施例的任何特征可以应用于任何其他实施例。同样,任何实施例的任何优点可以适用于任何其他实施例,反之亦然。
因此,应当理解,所描述的实施例的细节仅是出于说明性目的而提出的示例,并且落入权利要求的范围内的所有变型旨在被包含在其中。

Claims (19)

1.一种用于通过网络接口管理与起源系统中的一个或多个互连的起源实体相关联的起源信息以用于分布式云环境中的数据处理管道的方法,其中,每个所述数据处理管道被配置为读入数据,变换所述数据,以及输出变换后的数据,所述方法包括由配置组件执行的以下步骤:
获得(101)至少一个声明性意图,所述至少一个声明性意图表示指示用于存储用于每个所述数据处理管道的起源信息的要求和优先级级别的配置,
基于所获得的至少一个声明性意图,导出(102)用于存储用于每个所述数据处理管道的起源信息的所述要求和优先级级别,其中,所述优先级级别中的一个优先级级别—第一优先级级别—高于其它优先级级别—第二优先级级别,
基于所导出的要求和优先级级别,估计(103)用于在所述起源系统中存储起源信息的存储容量,
根据所导出的用于存储起源信息以及用于每个所述数据处理管道的要求和优先级级别,存储(104)所述起源信息,以及
当(105)用于在所述起源系统中存储起源信息的实际存储消耗满足基于所估计的存储容量而设置的存储容量阈值时:
减少(106)用于在所述起源系统中存储所述第二优先级级别的起源信息的数据量。
2.根据权利要求1所述的方法,其中,减少用于存储起源信息的数据量包括发送用于导致以下中的任一项的信号:压缩在所述起源系统中的本地存储中所存储的起源信息,移除在所述起源系统中的本地存储中所存储的起源信息的索引,以及将在所述起源系统的本地存储中所存储的压缩或非压缩的起源信息移动到所述分布式云环境中的远程存储。
3.根据权利要求1-2中任一项所述的方法,其中,表示所述配置的所述至少一个声明性意图指示每个所述数据处理管道基于以下中的一项或多项而与对应的优先级级别相关联:所述数据处理管道的年龄,所述数据处理管道的特定标签,与所述数据处理管道相关联的特定客户端/客户端组,以及所述数据处理管道的特定数据源。
4.根据权利要求1-3中任一项所述的方法,其中,表示所述配置的所述至少一个声明性意图指示用于标识时间间隔的时间间隔要求,在所述时间间隔期间,与所述一个或多个互连的起源实体相关联的所述起源信息应当被存储在所述起源系统中。
5.根据权利要求1-3中任一项所述的方法,其中,表示所述配置的所述至少一个声明性意图指示用于连续存储与所述起源系统中的所述一个或多个互连的起源实体相关联的起源信息的连续要求。
6.根据权利要求1-5中任一项所述的方法,所述方法还包括由所述配置组件执行的以下步骤:
向与所述声明性意图相关联的客户端通知(107)所存储的起源信息可用于供应。
7.根据权利要求1-6中任一项所述的方法,所述方法还包括以下步骤:
通过所述网络接口向所述客户端提供(108)对所存储的起源信息的访问。
8.根据权利要求1-7中任一项所述的方法,所述方法还包括以下步骤:
通过所述网络接口向所述客户端提供(108a)所存储的起源信息的数据流。
9.根据权利要求7-8中任一项所述的方法,其中,向所述客户端提供的对所存储的起源信息的访问或所存储的起源信息的数据流用作用于以下中的任一项的数据:调试,分析查询,调度,以及优化。
10.根据权利要求1-9中任一项所述的方法,其中,取决于数据类型和收集环境,所述起源信息包括以下中的一项或多项:与在何处收集数据有关的信息,与出于何种目的而收集数据有关的信息,与针对何种上下文而收集数据有关的信息,与针对谁而收集数据有关的信息,与谁已经访问所收集的数据有关的信息,所收集的数据的属性,对所收集的数据的更新,所收集的数据的创建,以及所收集的数据的谱系。
11.根据权利要求1-10中任一项所述的方法,其中,所述起源系统中的所述一个或多个互连的起源实体表示图结构的一个或多个互连的节点,并且所述互连表示所述图结构的子图的节点之间的边和关系。
12.根据权利要求11所述的方法,其中,所述图结构是图数据库。
13.根据权利要求1-12中任一项所述的方法,其中,所述配置组件包括多个子组件,每个子组件充当用于对应的数据处理管道的单独配置组件。
14.根据权利要求1-13中任一项所述的方法,其中,所存储的起源信息涉及以下中的任一项:工业机器人,建筑物中的传感器,以及生产机器。
15.一种包括非暂时性计算机可读介质的计算机程序产品,所述非暂时性计算机可读介质存储包括程序指令的计算机程序,所述计算机程序能够加载到数据处理单元中,并且被配置为当所述计算机程序由所述数据处理单元运行时,使得执行根据权利要求1至14中任一项所述的方法。
16.一种用于配置组件的装置,所述配置组件适于通过网络接口管理与起源系统中的一个或多个互连的起源实体相关联的起源信息以用于分布式云环境中的数据处理管道,其中,每个所述数据处理管道被配置为读入数据,变换所述数据,以及输出变换后的数据,所述装置包括控制器,所述控制器被配置为使得:
获得至少一个声明性意图,所述至少一个声明性意图表示指示用于存储用于每个所述数据处理管道的起源信息的要求和优先级级别的配置,
基于所获得的至少一个声明性意图,导出用于存储用于每个所述数据处理管道的起源信息的所述要求和优先级级别,其中,所述优先级级别中的一个优先级级别—第一优先级级别—高于其它优先级级别—第二优先级级别,
基于所导出的要求和优先级级别,估计用于在所述起源系统中存储起源信息的存储容量,
根据所导出的用于存储起源信息以及用于每个所述数据处理管道的要求和优先级级别,存储所述起源信息,以及
当用于在所述起源系统中存储起源信息的实际存储消耗满足基于所估计的存储容量而设置的存储容量阈值时:
减少用于在所述起源系统中存储所述第二优先级级别的起源信息的数据量。
17.一种配置组件(202),包括根据权利要求16所述的装置。
18.一种系统,包括根据权利要求16所述的装置和/或根据权利要求17所述的配置组件。
19.根据权利要求18所述的系统,还包括:至少一个客户端(201),本地存储(203),以及远程存储(204)。
CN201980103517.4A 2019-11-29 2019-11-29 管理起源信息以用于数据处理管道 Pending CN115039079A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2019/083117 WO2021104646A1 (en) 2019-11-29 2019-11-29 Managing provenance information for data processing pipelines

Publications (1)

Publication Number Publication Date
CN115039079A true CN115039079A (zh) 2022-09-09

Family

ID=68762743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980103517.4A Pending CN115039079A (zh) 2019-11-29 2019-11-29 管理起源信息以用于数据处理管道

Country Status (4)

Country Link
US (1) US20230004322A1 (zh)
EP (1) EP4066117B1 (zh)
CN (1) CN115039079A (zh)
WO (1) WO2021104646A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107710168B (zh) * 2015-06-16 2019-03-26 三菱电机株式会社 信息处理装置和信息处理方法
US9996595B2 (en) * 2015-08-03 2018-06-12 Palantir Technologies, Inc. Providing full data provenance visualization for versioned datasets
US11019183B2 (en) * 2018-07-02 2021-05-25 Intel Corporation Network provenance with multi-interface translation

Also Published As

Publication number Publication date
US20230004322A1 (en) 2023-01-05
WO2021104646A1 (en) 2021-06-03
EP4066117A1 (en) 2022-10-05
EP4066117B1 (en) 2023-06-21

Similar Documents

Publication Publication Date Title
JP2019511054A (ja) 分散クラスタ型訓練方法及び装置
US7685266B2 (en) Management of tools that process data to describe a physical layout of a circuit
US7472040B2 (en) Automated collection of information
CN108733464B (zh) 一种确定计算任务的调度方案的方法及装置
CN106325984B (zh) 一种大数据任务调度装置
US11416367B2 (en) Linking computing metrics data and computing inventory data
CN112905323B (zh) 数据处理方法、装置、电子设备及存储介质
CN111124609B (zh) 数据采集方法、装置、数据采集设备及存储介质
US11635994B2 (en) System and method for optimizing and load balancing of applications using distributed computer clusters
US20180278497A1 (en) Systems for monitoring application servers
US11023284B2 (en) System and method for optimization and load balancing of computer clusters
US20210373914A1 (en) Batch to stream processing in a feature management platform
US10372572B1 (en) Prediction model testing framework
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
KR20150118963A (ko) 큐 모니터링 및 시각화
CN115373835A (zh) Flink集群的任务资源调整方法、装置及电子设备
CN114090366A (zh) 一种监控数据的方法、装置和系统
WO2017176944A1 (en) System for fully integrated capture, and analysis of business information resulting in predictive decision making and simulation
WO2021043066A1 (zh) 一种多管理域的通信方法和装置
US11487751B2 (en) Real time fault tolerant stateful featurization
CN110362387B (zh) 分布式任务的处理方法、装置、系统和存储介质
CN115039079A (zh) 管理起源信息以用于数据处理管道
CN113220530B (zh) 数据质量监控方法及平台
US11775864B2 (en) Feature management platform
CN114706893A (zh) 故障检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination