CN109196494A - 用于对数据流执行信息处理的设备和方法 - Google Patents

用于对数据流执行信息处理的设备和方法 Download PDF

Info

Publication number
CN109196494A
CN109196494A CN201680083495.6A CN201680083495A CN109196494A CN 109196494 A CN109196494 A CN 109196494A CN 201680083495 A CN201680083495 A CN 201680083495A CN 109196494 A CN109196494 A CN 109196494A
Authority
CN
China
Prior art keywords
window
level
rank
stream
partial results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680083495.6A
Other languages
English (en)
Other versions
CN109196494B (zh
Inventor
拉杜·图多兰
戈兹·布兰切
朱星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010872238.9A priority Critical patent/CN112148753B/zh
Publication of CN109196494A publication Critical patent/CN109196494A/zh
Application granted granted Critical
Publication of CN109196494B publication Critical patent/CN109196494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及一种设备和方法,所述设备和方法均用于通过对数据流执行信息处理来生成部分结果,其中,所述设备用于通过实施包括多个级别的流窗口层级以及在所述流窗口层级的每个级别生成部分结果来处理所述数据流内包含的信息。

Description

用于对数据流执行信息处理的设备和方法
技术领域
本发明涉及一种设备和方法,该设备和方法均用于对数据流执行信息处理,以及在信息处理过程中生成部分结果。此外,本发明涉及一种相应布置的计算机程序产品和一种相应布置的计算机可读介质。
背景技术
由于系统和应用日渐增多,流处理方法变得日益重要,在这些系统和应用中,一个或多个设备生成的数据被传送给另一个负责分析所述数据的设备。流处理在多个用例中实施。具体地,流处理包括分析来自一个或多个提供数据流的来源的一个或多个数据流。该处理实时执行。因此,处理的速度和结果的准确性是主要问题。
通常,不仅关注流处理过程的最终结果,还关注中间结果或部分结果。在提供的用例中,这样的中间或部分结果概述或评估了给定情形或者系统状态等。
例如,一个或多个传感器可持续上报测量数据给处理和分析该测量数据的设备。这些测量数据可能,例如,对于控制过程很重要,例如对系统或生产过程的控制很重要。如果测量数据涉及的系统必须保持某一特定状态,那么分析测量数据的部分分析结果也很重要,以便不断监测系统状态。
本文提供了若干场景,在这些场景中,持续呈现部分结果是有用的,有时甚至很重要(例如,为了维持系统的正确运行)。
因此,需要能够以快速有效的方式执行流处理并且提供快速可靠的部分结果的设备和方法。
发明内容
本发明的目的在于提供一种能够改进数据流处理的方法和设备,在所述数据流处理中还支持确定部分结果。
本发明提供了一种用于通过对数据流执行信息处理,以高效准确的方式来生成部分结果的方法和设备。具体而言,根据本发明实施流窗口层级,使得所需的部分结果以高效可靠的方式在所述流窗口层级的每个级别生成。
上述流窗口是已知的。它们将数据流细分或离散为不重叠的窗口,即,所述数据流的各部分,使得所述流处理分别在各部分或者各窗口进行,其中,每一次执行处理都涉及所述数据流的相应部分。通常只使用一个窗口。通过所述窗口来处理所述数据流的被设定为特定窗口尺寸的窗口覆盖的部分。在处理所述流的被所述窗口覆盖的所述部分后,所述窗口沿着所述流滑动到所述流的下一部分,所述下一部分在那之前还未进行处理且贴合所述窗口。所述数据流的所述下一部分的相关处理再次开始。这些窗口具有特定的预定尺寸,因此处理的是具有特定的预定长度的数据流。
本发明的目的通过所附独立权利要求中提供的方案实现。本发明的有利实施方式在本说明书的相应从属权利要求和/或附图中进一步限定。
根据第一方面,提供了一种用于通过对数据流执行信息处理来生成部分结果的设备,所述设备用于通过实施包括多个级别i的流窗口层级以及在所述流窗口层级的每个级别生成部分结果来处理所述数据流内包含的信息,其中,i=1、……、n,n≥2。
所述部分结果代表数据处理过程的中间结果。时间敏感应用或系统等可能需要或者要求这类结果。所述部分结果可在计算或确定最终结果时按预定的时间间隔输出或提供。所述流窗口层级被划分为按一定顺序排列的若干级别。换言之,所述流窗口层级包含多个级别。
通过实施所述生成部分结果的流窗口层级,提供了一种用于快速有效地提供部分结果并计算或确定最终结果的工具。部分和最终结果的计算效率是处理数据流的关键问题。大数据的处理耗费资源和时间。另一方面,期望快速提供部分和最终结果,因为所述部分和最终结果用于执行进一步的过程,在这些过程中会基于所述结果作出进一步的决策(例如,关于控制,关于需在系统或应用中执行的其它步骤)。通过所述流窗口层级,解决了效率问题。另外,解决所述效率问题并未增加处理数据流的信息所需的资源量,而是将所需的资源量保持在很小。
根据所述第一方面,在所述设备的第一可能实施形式中,配置所述设备以便:提供在所述流窗口层级的最高级别下方的所述流窗口层级的级别生成的部分结果,以待在所述流窗口层级中的排列在生成所述部分结果的级别上方的叠加级别中进行进一步处理。通过这种方式,提升了计算和生成所述部分结果的效率。并且,执行所述数据处理所需的资源量也保持在很小。
根据如上所述第一方面或根据所述第一方面的所述第一可能实施形式,在所述设备的第二可能实施形式中,配置所述设备以便:在所述流窗口层级的每个级别i=2、……、n,使用在所述流窗口层级的底层级别j=1、……、n-1生成的底层级别部分结果在所述流窗口层级的相应级别i生成相应的部分结果,其中所述底层级别j为排列在所述相应级别i下方的级别。级别i表示所述流窗口层级中的非最低级别的级别,其中i=2、……、n。
通过这种方式,能够高效节能地计算和生成部分结果。
根据如上所述第一方面或根据所述第一方面的任一前述实施形式,在所述设备的第三可能实施形式中,配置所述设备以便:每个部分结果都根据预定的流程生成。因此,能够模块化、灵活地生成部分结果,这是因为对于所述流窗口层级的每个级别,只需告知用于生成相应部分结果的流程。这也使得所述用于生成部分结果的流程能够灵活地交换和修改。通过这种方式,所述设备适用于多个可能的用例、应用和/或系统。
根据如上所述第一方面或根据所述第一方面的任一前述实施形式,在所述设备的第四可能实施形式中,配置所述设备以便:每个部分结果都于相应的时间点输出。因此,可以确保有可能在期望的时间点进一步处理所述部分结果。此外,提升了在期望的时间点获取所述部分结果的可靠性。
根据如上所述第一方面或根据所述第一方面的任一前述实施形式,在所述设备的第五可能实施形式中,所述流窗口层级包括主窗口和所述主窗口的一个或多个子窗口。因此,提供了所述流窗口层级的一种简单架构,所述架构支持按预期高效地确定所述部分结果。
根据所述第一方面的所述第五可能实施形式,在所述设备的第六可能实施形式中,所述一个或多个子窗口中的每个子窗口与相应的时间段关联,用于处理在所述相应的时间段内接收到的信息。通过这种方式,同样确保了有可能在期望的时间点进一步处理所述部分结果。同样,提升了在期望的时间点获取所述部分结果的可靠性。
根据所述第一方面的所述第六可能实施形式,在所述设备的第七可能实施形式中,与最小时间段关联的子窗口排列在所述流窗口层级的最低级别中,位于所述流窗口层级的最低级别和最高级别之间的级别中的每个子窗口都与大于位于所述级别下方的子窗口的时间段的时间段关联。通过这种方式,能够在所述层级的其它级别中高效地重用所述部分结果。
根据所述第一方面的所述第七可能实施形式,在所述设备的第八可能实施形式中,所述主窗口排列于所述流窗口层级的最高级别中。通过这一特征,也能够在所述层级的其它级别中高效地重用所述部分结果。
根据所述第一方面的所述第六至第八实施形式中的一种实施形式,在所述设备的第九可能实施形式中,所述最高级别下方的流窗口层级级别根据与所述子窗口关联的所述时间段的长度来排列。通过这种方式,确保了较低级别的部分结果始终可在较高级别中重用,从而确保了高效地确定所述部分结果以及随后的最终结果。
根据如上所述第一方面或根据所述第一方面的任一前述实施形式,在所述设备的第十可能实施形式中,在所述流窗口层级的最高级别中生成的部分结果为最终结果。
根据如上所述第一方面或根据所述第一方面的任一前述实施形式,在所述设备的第十一可能实施形式中,所述设备包括一个或多个处理实体,用于通过实施所述流窗口层级以及在所述流窗口层级的每个级别生成所述部分结果来对所述数据流执行所述信息处理,从而生成所述部分结果。
根据如上所述第一方面或根据所述第一方面的任一前述实施形式,在所述设备的第十二可能实施形式中,所述设备包括至少一个置信度值计算实体,用于为在所述流窗口层级的至少一个级别中生成的部分结果计算置信度值。通过这种方式,还提供了所述部分结果的可靠性。这改进了其它设备或实体对所述部分结果进行的进一步处理。例如,在控制系统中,对于结果可靠性的了解极为重要。计算所述置信度值优化了使用所述生成的部分结果的其它设备或实体的正常运行。
所述置信度值可以是表示或衡量所述部分结果的置信度等于或约为所述最终结果的值。所述置信度值可预计所述部分结果与预期的最终值有多大差距,或可表示从输入数据流的被所述主窗口覆盖的所有部分中被处理的数据量。优选地,所述置信度值为百分比。
根据第二方面,本发明还提供了一种用于通过对数据流执行信息处理来生成部分结果的方法,其中,所述数据流中包含的信息通过实施包括多个级别的流窗口层级以及在所述流窗口层级的每个级别生成部分结果来进行处理。一般而言,所述方法的步骤对应于所述设备执行的步骤或活动,所述步骤或活动在上文进行了介绍且将在下文详细阐述。通过所述方法,实现了本文描述的效果。
此外,根据第三方面,本发明涉及一种包括计算机可读程序代码的计算机程序产品,所述计算机可读程序代码用于使计算设备执行在上文介绍且将在下文详细阐述的方法步骤。
并且,根据第四方面,本发明涉及一种计算机可读记录介质,用于在其中存储所述计算机程序产品。
附图说明
结合所附附图,下面具体实施例的描述将阐述上述本发明的各方面及其实现形式,其中:
图1所示为根据本发明一实施例的用于通过对数据流执行信息处理来生成部分结果的设备的一示例性配置。
图2所示为根据本发明一实施例的在流窗口层级的所有级别执行的示例性数据处理。
图3所示为根据本发明一实施例的用于通过对数据流执行信息处理来生成部分结果的设备的另一示例性配置。
图4所示为根据本发明一实施例的用于通过对数据流执行信息处理来生成部分结果的设备的又一示例性配置。
图5所示为根据本发明一实施例的通过对数据流执行信息处理来生成部分结果的步骤的流程图。
具体实施方式
通常需要注意的是本申请中描述的所有设置、设备、模块、组件、模型、元件、单元、实体以及方法等都可以由软件或硬件元件或其任意组合实现。由本申请中描述的各种实体执行的所有步骤以及描述的由各种实体执行的功能旨在表示相应实体用于或被配置为执行相应的步骤和功能。虽然在以下具体实施例的描述中,由通用实体执行的特定功能或步骤没有在执行特定步骤或功能的实体的具体元件的描述中反映,但是技术人员应该清楚的是这些方法和功能可以在各自的硬件或软件元件或其任意组合中实现。此外,本发明的方法及其各个步骤在各个描述的装置元件的功能中体现。此外,除非有明确排除的组合,本文所描述的任意实施例以及任意实施例的特征都可以互相组合。
图1所示为根据本发明一实施例的用于通过对数据流执行信息处理来生成部分结果的设备100的一示例性配置。
设备100实施具有n级窗口的流窗口层级103,其中n为大于等于2的整数。根据本实施例,流窗口层级103提供n个窗口103_1、103_2、……、103_n,每个窗口都位于流窗口层级103的特定级别i中,1≤i≤n。设备100使用流窗口层级的结构,具体来说,使用窗口103_1、103_2、……、103_n来生成部分结果。
最高层级级别n的窗口103_n代表主窗口,即,在输入数据流102上滑动以处理输入数据流201的窗口。根据本实施例,设备100包括输入缓冲区101,接收到的输入数据流102存储于输入缓冲区101中以通过流窗口层级103进行处理。因此,主窗口103_n在输入数据流102上滑动,使得数据流的被主窗口103覆盖的部分通过流窗口层级来处理。处理完数据流的这部分后,主窗口103_n再一次在输入数据流102上滑动,然后处理输入数据流102的被主窗口103覆盖的下一部分。主窗口103的长度是预定的。因此,输入数据流102被划分为具有该预定长度的各部分。主窗口103划分出的输入数据流102的各部分互不重叠。
通过滑动主窗口103_n确定接下来处理输入数据流102的哪部分后,输入数据流102的这部分在流窗口层级103内进行处理。
流窗口层级103的窗口103_1、103_2、……、103_n被排列为:最高级别n下方的级别的窗口代表主窗口103_n的子窗口。因此,这些子窗口比主窗口103_n小,即长度更短,并在输入数据流的被主窗口103_n覆盖的部分上滑动。
根据本实施例,每个子窗口103_1、103_2都与相应的时间段关联,并用于生成相应的时间段内发生的数据的部分结果104_1、104_2、……、104_n-1。每个子窗口103_1、103_2都用于在主窗口103_n确定的输入数据流102的那部分上滑动。每当部分结果104_1、104_2、……、104_n-1确定后,子窗口103_1、103_2再一次在主窗口103_n确定的输入数据流102的那部分上滑动,以确定或生成下一个部分结果104_1、104_2、……、104_n-1。
此外,根据本实施例,子窗口103_1、103_2根据与子窗口103_1、103_2关联的时间段的长度来排列。子窗口103_1与最小时间段关联,位于流窗口层级103的最低级别中。子窗口103_2与大于子窗口103_1的时间段但小于下一级别(例如,级别3)的子窗口的时间段的时间段关联。以此类推。
通过滑动主窗口103_n确定将通过流窗口层级103处理的输入数据流102的部分后,处理从流窗口层级103的最低级别1开始。主窗口103_n的滑动由设备100执行。此外,设备100使用子窗口103_1、103_2(含图1未示出的其它可能的子窗口)确定部分结果以及之后的最终结果。处理从流窗口层级103的最低级别1开始。为此,输入流102的被主窗口103_n覆盖的那部分作为在流窗口层级103的较低级别进行的处理的输入。设备100在输入流102的被主窗口103_n覆盖的那部分上滑动子窗口103_1,并确定关于子窗口103_1覆盖的数据的部分结果104_1。
具体而言,设备100确定在与子窗口103_1关联的时间段内提供的数据的第一部分结果104_1。在设备100生成关于流窗口层级103的最低级别1的子窗口103_1覆盖的数据的第一部分结果104_1后,该部分结果104_1被输出(参见背离流窗口层级方向的箭头),并能被其它设备或实体使用(例如,分析)。另外,该部分结果104_1被提供给下一级别2,在设备100执行的下一级别的子窗口103_2的相关处理中被重用。
然后,子窗口103_1再次在主窗口103_n确定的输入数据流102的那部分上滑动,设备100再次执行处理。子窗口103_1的滑动和子窗口103_1覆盖的数据的相应处理一直执行,直至输入数据流102的被主窗口103_n覆盖的所有部分都通过最低级别1的子窗口103_1进行了处理。
类似地,下一级别2中的处理通过在主窗口103_n确定的输入数据流102的那部分上滑动子窗口103_2来进行。一旦从前一级别,即级别1,接收到涉及子窗口103_2覆盖的数据的所有部分结果,就开始下一级别1中的处理。
子窗口103_2与大于较低级别1的子窗口103_1的时间段的时间段关联。因此,当设备100执行子窗口103_2的相关处理时,在子窗口103_2的级别下方的级别中的前一处理中生成的部分结果104_1用于子窗口103_2的级别中的数据处理。这是可能的,因为子窗口103_2覆盖的数据包括较低级别1的子窗口103_1覆盖的数据。
与级别1中的数据处理类似,每当级别2的子窗口103_2在主窗口103_n覆盖的子流的那部分上滑动,并且设备100完成相应的数据处理后,数据处理生成的部分结果104_2被输出(参见背离流窗口层级方向的箭头)到另一设备或实体(例如,以待进一步分析)。另外,该部分结果104_2被提供给下一级别3,在设备100执行的下一级别3的子窗口的相关处理中被重用。
子窗口103_2的滑动和子窗口103_2覆盖的数据的相应处理一直执行,直至输入数据流102的被主窗口103_n覆盖的所有部分都通过级别2的子窗口103_2进行了处理。
流窗口层级103的每个下一级别中的处理都以如下类似方式进行:在输入数据流102的被主窗口103_n覆盖的部分上滑动相应的子窗口,并处理相应子窗口覆盖的数据。在数据处理中,在执行数据处理的级别下方的级别中确定的部分结果被重用。一旦从前一级别接收到涉及相应子窗口覆盖的数据的所有部分结果,就开始每个下一级别中的处理。
在最高级别n,提供了最高级别n下方的级别n-1的所有部分结果104_n-1,用于最高级别n中的数据处理。因此,设备100使用最高级别n下方的级别n-1中的数据处理提供的所有部分结果来执行最高级别n中的主窗口103_n的相关数据处理。
根据一实施例,在每个级别103_1、103_2、……、103_n中的数据处理通过执行相同的处理函数来进行。例如,如果分析传感器数据,则在每个级别103_1、103_2、……、103_n上执行相同的分析函数。
本申请的图2示例性地示出了设备100在流窗口层级的所有级别中执行的数据处理。
为简洁清晰起见,图2仅示出了两个级别。下方(类似图1)示出了流窗口层级的较高级别n,上方示出了流窗口层级的较低级别1。根据图2的实施例,n等于2。
在图2中,数据处理的执行涉及T、T-1、T-2和T-3四个时刻,因为根据图2的实施例,主窗口覆盖在四个时刻接收到的输入数据流102的数据。主窗口相关的处理在三个时刻执行,因为子窗口被设置为覆盖在两个时刻接收到的数据。
根据图2的实施例,处理开始于最新接收到的数据,即,在主窗口覆盖的最新时刻接收到的数据。
在T-1时刻,级别1的子窗口被设置为开始于包含最新数据的主窗口的末端。根据本实施例,最新数据已在T时刻提供。级别1的子窗口覆盖两个时刻,即,级别1的子窗口的时间段涉及或包括两个时刻。因此,设备100根据级别1的子窗口处理在T和T-1时刻接收到的数据。与T至T-1时间段相关的处理完成后获得的部分结果被提供给另一级别,在图2的实施例中,该另一级别就是包括主窗口的最高级别。
在T-2时刻,级别1的子窗口向前滑动一个时刻。因此,在T-2时刻,通过级别1的子窗口考虑T-1至T-2时间段,设备100根据级别1的子窗口处理在T-1和T-2时刻接收到的数据。与T-1至T-2时间段相关的处理完成后获得的部分结果被提供给另一级别,在图2的实施例中,该另一级别就是包括主窗口的最高级别。
在T-3时刻,级别1的子窗口再次向前滑动一个时刻。因此,在T-3时刻,通过级别1的子窗口考虑T-2至T-3时间段。因此,设备100根据级别1的子窗口处理在T-2和T-3时刻接收到的数据。与T-2至T-3时间段相关的处理完成后获得的部分结果被提供给另一级别,在图2的实施例中,该另一级别就是包括主窗口的最高级别。
在T-3时刻,通过级别1的子窗口进行的数据处理终止,因为级别1的子窗口已经上移至输入数据流102的被主窗口覆盖的部分的末端。此外,在提供与T-2至T-3时间段相关的处理完成后获取的部分结果后,主窗口在最高级别进行处理所需的所有部分结果都已得到。因此,设备100执行与主窗口相关的数据处理。在该数据处理中,使用前一级别,此处为级别1,提供的部分结果,并提供关于在最高级别中在T至T-3时间段接收到的数据的最终结果。T至T-3时间段涉及数据流中的被主窗口覆盖的数据。因此,如果主窗口继续在数据流上向前滑动,则主窗口覆盖的下一个数据将为在T+1至T+4时间段内接收到的数据,包括再次在四个时刻接收到的数据。
图3所示为设备100的另一示例性配置。根据图3的实施例,该实施例可与本文描述的任一实施例合并,设备100还包括置信度值计算实体300。该置信度值计算实体用于接收在流窗口层级103的级别i中生成的部分结果104_i,其中1≤i≤n,以及确定部分结果104_i的置信度值。该置信度值为这样一个值:表示或衡量部分结果104_i的置信度等于或约为最终结果,预计部分结果104_i与预期的最终值有多大差距,或表示从输入数据流102的被主窗口103_n覆盖的所有部分中被处理的数据量。根据一实施例,置信度值为百分比。设备100的用户可以选择或设置置信度值表示的是以上列出的三种指示中的哪一种。或者,可以通过相应配置的接口(未示出)来指定置信度值计算实体300确定置信度值的自定义预测值。置信度值计算实体300的输出301_i为计算出的置信度值与部分结果104_i的元组。
根据本发明一实施例,在每个级别i(1≤i≤n),由此在每个子窗口103_1、103_2,提供一个置信度值计算实体300。根据本发明另一实施例,为不止一个级别i提供一个置信度值计算实体300。因此,设备100可提供多个置信度值计算实体300。
根据一实施例,置信度值计算实体300是离线配置的,即,在通过流窗口层级103执行计算之前配置。这样,在通过流窗口层级103执行计算之前,可以将专用置信度值计算实体300布置在设备100中。此外,可配置置信度值计算实体300以便获知部分结果104_i来自哪个级别i,因此也获知为生成部分结果104_i而处理的数据量。这使得置信度值计算实体300能够将部分结果104_i的重要性估计为部分结果104_i的置信度值,该重要性根据用于计算部分结果104_i的数据量以及主窗口103_n覆盖的数据量来确定。
一般而言,置信度值计算实体300可以实施任何合适的统计计算或人工智能方法来计算部分结果104_i的置信度值。置信度值计算实体300可在流窗口层级103中互相连接,并可硬连线来以特定的时间频率提供关于部分结果104_i的置信度值的通知。
置信度计算实体300的输出301_i被提供给另一设备或实体以待进一步分析,而部分结果104_i也被提供给流窗口分层300的下一级别i+1以待进一步处理。
图4所示为设备100的又一示例性配置。图4的实施例可与本文描述的任一实施例合并。根据本实施例,设备100还包括用于生成流窗口层级103的层级生成实体400。根据一实施例,层级生成实体400离线运行,即,在开始使用流窗口层级103生成部分结果之前运行。
根据本实施例,层级生成实体300使用以下输入参数中的至少一个来生成流窗口层级300:
●一个或多个时刻通知,每个时刻通知表示一个应当输出部分结果的时刻;
●表示是针对每个指定的输出部分结果的时刻生成输出流,还是只需针对在不止一个指定时刻输出的部分结果创建一个流;
●处理函数,其在子窗口中执行以计算和生成部分结果;
●实施至少一个置信度值计算实体300的设置,该设置包括,例如,至少一个置信度值计算实体300计算置信度值所依据的函数。
层级生成实体400用于基于输入参数自动创建包括窗口103_1、103_2、……、103_n的流窗口层级103。根据一实施例,层级生成实体400根据已知的流处理引擎,例如Flink、Spark或任意其它合适的流处理引擎,来生成和调整窗口103_1、103_2、……、103_n。
流的层级级别数量n取决于在主窗口103_n的处理过程中等待的部分结果的数量。在主窗口103_n的处理过程中等待的部分结果的数量例如由用例涉及的用户或流窗口层级103的使用和实施涉及的应用来设置。从在主窗口103_n的处理过程中等待的部分结果的数量开始,层级生成实体400还配置了子窗口103_1和103_2等。例如,层级生成实体400执行以下至少一个操作:设置子窗口103_1和103_2等的尺寸,从而设置每个子窗口103_1和103_2等的相应时间段;确定在层级103的级别i接收到的来自级别i下方的级别i-1的部分结果的重用选项;和/或确定层级103的窗口103_1、103_2、……、103_n的连接,其中,确定的连接也包括从窗口103_1、103_2、……、103_n到其它设备或实体的连接等。
根据一实施例,层级生成实体400包括用户界面,流窗口层级103的相关用户设置可通过该用户界面传送。
根据另一实施例,层级生成实体400也包括用于设置和/或确定参数、常规定义、协议和/或工具的应用程序接口(application programming interface,API),其中,这些参数、常规定义、协议和/或工具则用于实施流窗口层级103和流窗口层级103的窗口103_1、103_2、……、103_n的功能。
图5所示为根据本发明一实施例的通过对数据流执行信息处理来生成部分结果的步骤的流程图。图5的步骤具体表示设备100的活动,由设备100执行。在步骤501中,实施流窗口层级103,其中,流窗口层级103在接收到的输入数据流102时开始使用。在步骤502中,在流窗口层级的每个级别i(1≤i≤n)生成部分结果104_1、104_2、……、104_n-1,如上所述。
因此,如上所示,本发明涉及一种设备和方法,该设备和方法均用于通过对数据流执行信息处理来生成部分结果,其中,该设备用于通过实施包括多个级别的流窗口层级以及在流窗口层级的每个级别生成部分结果来处理数据流内包含的信息。通过本发明,实现了一种有效、节能地生成部分结果的方法。生成部分结果具体是为了供其它设备或实体进一步使用。高效、快速且可靠地生成部分结果也确保了其它设备或实体能快速合理地进行进一步操作。
在此结合各种实施例描述了本发明。但本领域技术人员通过实践本发明,研究附图、本发明以及所附的权利要求,能够理解并获得公开实施例的其它变体。在权利要求书中,词语“包括”不排除其它元素或步骤,数量词“一”不排除多个。在仅凭某些措施被记载在相互不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能被有效地使用。

Claims (16)

1.一种用于通过对数据流执行信息处理来生成部分结果的设备,其特征在于,所述设备用于通过实施包括多个级别i的流窗口层级以及在所述流窗口层级的每个级别生成部分结果来处理所述数据流内包含的信息,其中,i=1、……、n,n≥2。
2.根据权利要求1所述的设备,其特征在于,配置所述设备以便:提供在所述流窗口层级的最高级别下方的所述流窗口层级的级别生成的部分结果,以待在所述流窗口层级中的排列在生成所述部分结果的级别上方的叠加级别中进行进一步处理。
3.根据权利要求1或2所述的设备,其特征在于,配置所述设备以便:在所述流窗口层级的每个级别i=2、……、n,使用在所述流窗口层级的底层级别j=1、……、n-1生成的底层级别部分结果在所述流窗口层级的相应级别i生成相应的部分结果,其中所述底层级别j为排列在所述相应级别i下方的级别。
4.根据前述权利要求中的任一项所述的设备,其特征在于,配置所述设备以便:每个部分结果都根据预定的流程生成。
5.根据前述权利要求中的任一项所述的设备,其特征在于,配置所述设备以便:每个部分结果都于相应的时间点输出。
6.根据前述权利要求中的任一项所述的设备,其特征在于,所述流窗口层级包括主窗口和所述主窗口的一个或多个子窗口。
7.根据权利要求6所述的设备,其特征在于,所述一个或多个子窗口中的每个子窗口都与相应的时间段关联,用于处理在所述相应的时间段内接收到的信息。
8.根据权利要求7所述的设备,其特征在于,与最小时间段关联的子窗口排列在所述流窗口层级的最低级别中,位于所述流窗口层级的最低级别和最高级别之间的级别中的每个子窗口都与大于位于所述级别下方的子窗口的时间段的时间段关联。
9.根据权利要求6至8中的任一项所述的设备,其特征在于,所述主窗口排列于所述流窗口层级的最高级别中。
10.根据权利要求7至9中的任一项所述的设备,其特征在于,所述最高级别下方的流窗口层级级别根据与所述子窗口关联的所述时间段的长度来排列。
11.根据前述权利要求中的任一项所述的设备,其特征在于,在所述流窗口层级的最高级别中生成的部分结果为最终结果。
12.根据前述权利要求中的任一项所述的设备,其特征在于,所述设备包括一个或多个处理实体,用于通过实施所述流窗口层级以及在所述流窗口层级的每个级别生成所述部分结果来对所述数据流执行所述信息处理,从而生成所述部分结果。
13.根据前述权利要求中的任一项所述的设备,其特征在于,所述设备包括至少一个置信度值计算实体,用于为在所述流窗口层级的至少一个级别中生成的部分结果计算置信度值。
14.一种用于通过对数据流执行信息处理来生成部分结果的方法,其特征在于,所述数据流中包含的信息通过实施包括多个级别的流窗口层级以及在所述流窗口层级的每个级别生成部分结果来进行处理。
15.一种包括计算机可读程序代码的计算机程序产品,其特征在于,所述计算机可读程序代码用于使计算设备执行权利要求14的方法步骤。
16.一种用于在其中存储计算机程序产品的计算机可读记录介质,其特征在于,所述计算机程序产品包括用于使计算设备执行权利要求14的方法步骤的计算机可读程序代码。
CN201680083495.6A 2016-08-26 2016-08-26 用于对数据流执行信息处理的设备和方法 Active CN109196494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010872238.9A CN112148753B (zh) 2016-08-26 2016-08-26 用于对数据流执行信息处理的设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2016/070249 WO2018036641A1 (en) 2016-08-26 2016-08-26 Device and method arranged for executing information processing on a data stream

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010872238.9A Division CN112148753B (zh) 2016-08-26 2016-08-26 用于对数据流执行信息处理的设备和方法

Publications (2)

Publication Number Publication Date
CN109196494A true CN109196494A (zh) 2019-01-11
CN109196494B CN109196494B (zh) 2020-09-11

Family

ID=56853606

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201680083495.6A Active CN109196494B (zh) 2016-08-26 2016-08-26 用于对数据流执行信息处理的设备和方法
CN202010872238.9A Active CN112148753B (zh) 2016-08-26 2016-08-26 用于对数据流执行信息处理的设备和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202010872238.9A Active CN112148753B (zh) 2016-08-26 2016-08-26 用于对数据流执行信息处理的设备和方法

Country Status (2)

Country Link
CN (2) CN109196494B (zh)
WO (1) WO2018036641A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023077451A1 (zh) * 2021-11-05 2023-05-11 中国科学院计算技术研究所 一种基于列存数据库的流式数据处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120283A1 (en) * 2006-11-17 2008-05-22 Oracle International Corporation Processing XML data stream(s) using continuous queries in a data stream management system
CN102144225A (zh) * 2008-05-29 2011-08-03 阿克西斯半导体有限公司 实时数据处理方法和装置
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置
US20130080413A1 (en) * 2011-09-28 2013-03-28 Qiming Chen Multi-streams analytics
CN103024815A (zh) * 2011-09-21 2013-04-03 宏碁股份有限公司 无线网络系统内传送数据的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070294247A1 (en) * 2006-06-20 2007-12-20 International Business Machines Corporation Identifying optimal multi-scale patterns in time-series streams
CA2565756A1 (en) * 2006-10-26 2008-04-26 Daniel Langlois Interface system
CN103246430A (zh) * 2013-04-24 2013-08-14 深圳市同洲电子股份有限公司 一种终端及多窗口管理方法
CN103488757A (zh) * 2013-09-25 2014-01-01 浪潮电子信息产业股份有限公司 一种基于云计算的聚类特征等值直方图的维护方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120283A1 (en) * 2006-11-17 2008-05-22 Oracle International Corporation Processing XML data stream(s) using continuous queries in a data stream management system
CN102144225A (zh) * 2008-05-29 2011-08-03 阿克西斯半导体有限公司 实时数据处理方法和装置
CN103024815A (zh) * 2011-09-21 2013-04-03 宏碁股份有限公司 无线网络系统内传送数据的方法
US20130080413A1 (en) * 2011-09-28 2013-03-28 Qiming Chen Multi-streams analytics
CN102315974A (zh) * 2011-10-17 2012-01-11 北京邮电大学 基于层次化特征分析的tcp、udp流量在线识别方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023077451A1 (zh) * 2021-11-05 2023-05-11 中国科学院计算技术研究所 一种基于列存数据库的流式数据处理方法及系统

Also Published As

Publication number Publication date
CN112148753B (zh) 2024-01-16
CN112148753A (zh) 2020-12-29
CN109196494B (zh) 2020-09-11
WO2018036641A1 (en) 2018-03-01

Similar Documents

Publication Publication Date Title
Schuler et al. AI-based resource allocation: Reinforcement learning for adaptive auto-scaling in serverless environments
Lorido-Botran et al. A review of auto-scaling techniques for elastic applications in cloud environments
US9754221B1 (en) Processor for implementing reinforcement learning operations
US11188821B1 (en) Control policies for collective robot learning
CN105550746B (zh) 机器学习模型的训练方法和训练装置
Pazzaglia et al. DMAC: Deadline-miss-aware control
US8583467B1 (en) Method and system for optimized scheduling of workflows
CN104360903B (zh) Spark作业调度系统中实现任务数据解耦的方法
CN104216766B (zh) 对流数据进行处理的方法及装置
Pazzaglia et al. Beyond the weakly hard model: Measuring the performance cost of deadline misses
WO2014190149A1 (en) Multiprocessor scheduling policy
US20210049453A1 (en) Chip and chip-based data processing method
CN113037577B (zh) 网络流量预测方法、装置和计算机可读存储介质
CN111198754B (zh) 一种任务调度方法及装置
WO2016105546A1 (en) Dynamic hierarchical performance balancing of computational resources
CN109684078A (zh) 用于spark streaming的资源动态分配方法和系统
US20160266958A1 (en) Preventing cascade failures in computer systems
CN106844483A (zh) 一种日志数据流处理方法
CN109196494A (zh) 用于对数据流执行信息处理的设备和方法
CN107291566A (zh) 延迟任务执行的方法和装置
CN109284956A (zh) 一种任务时长确定方法及装置和电子设备
US20170144047A1 (en) Method and Apparatus for Rowing Analysis Assessment, and Coaching
CN110032437A (zh) 一种基于信息时效性的计算任务处理方法及装置
CN110727670A (zh) 基于流程图的数据结构预测传递及自动化数据处理方法
Schmidt et al. Qstream: Deterministic querying of data streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220215

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Patentee after: Huawei Cloud Computing Technologies Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right