CN101291289B - 将数据质量包括在数据流中的方法和系统 - Google Patents
将数据质量包括在数据流中的方法和系统 Download PDFInfo
- Publication number
- CN101291289B CN101291289B CN200810091226.1A CN200810091226A CN101291289B CN 101291289 B CN101291289 B CN 101291289B CN 200810091226 A CN200810091226 A CN 200810091226A CN 101291289 B CN101291289 B CN 101291289B
- Authority
- CN
- China
- Prior art keywords
- data
- group
- quality
- value
- data item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/50—Network service management, e.g. ensuring proper service fulfilment according to agreements
- H04L41/5003—Managing SLA; Interaction between SLA and QoS
- H04L41/5009—Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/022—Capturing of monitoring data by sampling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/50—Network service management, e.g. ensuring proper service fulfilment according to agreements
- H04L41/5003—Managing SLA; Interaction between SLA and QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
- H04L43/106—Active monitoring, e.g. heartbeat, ping or trace-route using time related information in packets, e.g. by adding timestamps
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明描述一种将数据质量包括在数据流中的方法和系统。示例方法可以包括获得第一组数据项,每个数据项包括一个或多个数据属性值。可以确定第一组数据质量项,每个数据质量项包括与第一组数据项中的一个相关联的一个或多个数据质量属性值。可以基于第一组数据质量项确定第一聚集数据质量值。可以输出包括第一组数据项和第一聚集数据质量值的第一数据流间隔。
Description
技术领域
本说明书涉及将数据质量包括在数据流中的技术。
背景技术
在智能物件环境中,与产品使用(例如,产品的生命周期)相关联的数据和环境数据(例如,湿度)可以通过大量传感器(例如,压力、温度、英里数)来捕获。此数据可以被用来指导以及优化生产自动化过程以及复杂的业务决策。一些应用可能直接消费流数据,其中关于当前数据和数据质量(DQ)的信息(knowledge)可能很重要。传感器数据可能还需要被存储在数据库中,以供进一步处理。与传感器数据相关联的潜在问题是受限的数据质量。有限的分辨率和精确度是传感器固有的、物理的限制的示例。而且,由诸如工业车间或移动设备之类的真实世界应用环境导致的传感器失效和故障可能降低传感器数据质量。解决由系统组件和环境直接造成的数据质量限制可能导致:为了更好的传感器(例如,具有更高的精确度)或传感器屏蔽,费用显著增加。
所测量的传感器数据可以用在基于所测量的用于许多应用的传感器流数据的生成自动化过程中。例如,压力传感器可以用在煞车防锁死系统(ABS)、铸模机、压缩机(compactor)或液压感测系统,其中精细的传感器的精确度对于在宽传感器范围内的控制循环非常重要。作为另一示例,流数据可以由人来监视以检测不规则性,例如,用于即时维护。然而,如果流化(streaming)的传感器数据不正确或是误导的,那么传感器数据可能导致错误的推断结果,因此,传感器数据流中的数据质量限制可能受益于精细的分辨率。因此,可能期望提供可以将数据质量包括在数据流中的技术。
此外,对大量测量数据和数据质量的管理会导致存储器和计算资源中的显著的开销。因此,期望提供用于在数据流和相关的元数据模型中管理数据质量的技术。
发明内容
根据一个总的方面,一种系统包括数据流引擎,数据流引擎包括数据管理器,数据管理器被配置为获得第一组数据项,每个数据项包括一个或多个数据属性值。数据流引擎可以包括数据质量管理器,其被配置为确定第一组数据质量项,每个数据质量项包括与第一组数据项中的一个相关联的一个或多个数据质量属性值。数据流引擎还可以包括:聚集(aggregation)管理器,其被配置为基于第一组数据质量项确定第一聚集数据质量值;以及流间隔管理器,其被配置为输出包括第一组数据项和第一聚集数据质量值的第一数据流间隔。
根据另一方面,一种方法包括获得第一组数据项,每个数据项包括一个或多个数据属性值。可以确定第一组数据质量项,每个数据质量项包括与第一组数据项中的一个相关联的一个或多个数据质量属性值。基于第一组数据质量项确定第一聚集数据质量值。可以输出包括第一组数据项和第一聚集数据质量值的第一数据流间隔。
还是根据一个方面,一种计算机程序产品有形地实现在计算机可读介质上,并且被配置为使得数据处理装置获得第一组数据项,每个数据项包括一个或多个数据属性值。该计算机程序产品还被配置为:确定第一组数据质量项,每个数据质量项包括与第一组数据项中的一个相关联的一个或多个数据质量属性值;基于第一组数据质量项确定第一聚集数据质量值;以及输出包括第一组数据项和第一聚集数据质量值的第一数据流间隔。
一个或多个实施方案的细节在附图和以下的说明书中阐述。其它特征将从说明书、附图以及权利要求书中变得清楚明白。
附图说明
图1是根据示例实施例的用于将数据质量包括在数据流中的示例系统的框图。
图2是根据示例实施例的用于存储和管理包括在数据流中的数据质量的示例系统的框图。
图3是图示图1的示例系统的操作的流程图。
图4是图示图2的示例系统的操作的流程图。
图5是图示图2的示例系统的操作的流程图。
图6是根据示例实施例的处理从用户的输出的框图。
图7图示根据示例实施例的数据质量注释。
图8是图示从卡车的寿命开始卡车引擎的剩余寿命的数据流摘录(extract)。
图9是根据示例实施例的图示数据流的模型的框图。
图10图示根据示例实施例在跳动窗口中的示例数据流值。
图11图示根据示例实施例的关系元模型扩展。
图12图示根据示例实施例的系统质量(SysQuality)表格模式。
图13图示根据示例实施例的DQ表格模式。
图14图示根据示例实施例的系统、数据和数据质量表格。
图15图示根据示例实施例的将数据质量信息从数据流映射到目标数据库的元数据。
图16图示示例元数据映射情景。
图17图示根据示例实施例的示例映射。
具体实施方式
图1是根据示例实施例的用于将数据质量包括在数据流中的系统100的框图。在图1的示例中,数据流引擎102可以包括提供和执行从传感器104、106获得的数据和数据质量项的处理以供数据流化(data streaming)的各种处理引擎和管理器。数据流引擎102可以包括数据管理器108,数据管理器108被配置为获得第一组数据项,每个数据项包括一个或多个数据属性值。例如,数据项可以包括可以例如通过传感器104、106测量的可计量的项。例如,数据项可以包括诸如压力或温度的测量。数据管理器108可以从传感器104、106获得数据项的值。
数据流引擎102可以包括数据质量管理器110,质量管理器110可以被配置为确定第一组数据质量项,每个数据质量项包括与第一组数据项中的一个相关联的一个或多个数据质量属性值。例如,数据质量项可以包括关于测量数据(measured data)的质量的信息。例如,如果传感器104工作在一定水平以下,那么感测数据(sensed data)的质量可能被损害(compromised),并且数据质量项可以包括指示当被获得时感测数据的质量的信息。例如,数据质量项可以包括诸如表达数据项的质量的精确度和完整性之类的属性。
数据流引擎102可以包括聚集(aggregation)管理器112,聚集管理器112可以被配置为基于第一组数据质量项确定第一聚集数据(aggregated data)质量值。例如,为诸如温度之类的数据项获得的若干值可以各自具有与该数据项相关联的数据质量值。然而,例如可以通过对数据质量值求平均或者通过找到最大值或最小值,来聚集所述数据质量值,以生成代表若干值的单值。此单值可以在数据流中与数据项一起发送,以降低流化该数据的成本。
数据流引擎102还可以包括流间隔管理器114,流间隔管理器114可以被配置为输出包括第一组数据项和第一聚集数据质量值的第一数据流间隔。例如,第一数据流间隔可以包括五个数据项和一个相应的描述所述数据项的质量的聚集数据质量项。可以例如通过与从传感器104、106获得所述数据项的时间相关联的时戳值在第一数据流间隔中对所述数据项进行排序(order)。
根据示例实施例,流间隔管理器114可以被配置为输出包括第一数据流间隔的第一跳动窗口(jumping window),第一数据流间隔包括第一组数据项和第一聚集数据质量值。例如,该跳动窗口可以不与任何其它跳动窗口或数据流间隔重叠。
根据示例实施例,数据管理器108可以被配置为获得第二组数据项,每个数据项包括一个或多个数据属性值,数据质量管理器110可以被配置为确定第二组数据质量项,每个数据质量项包括与第二组数据项中的一个相关联的一个或多个数据质量属性值,聚集管理器112可以被配置为基于第二组数据质量项确定第二聚集数据质量值,以及流间隔管理器114可以被配置为输出包括第二组数据项和第二聚集数据质量值的第二数据流间隔。因此,第二数据流间隔可以被准备用于插入数据流。
根据示例实施例,流间隔管理器114可以被配置为输出包括包含第一组数据项和第一聚集数据质量值的第一数据流间隔的第一跳动窗口,以及输出包括包含第二组数据项和第二聚集数据质量值的第二数据流间隔的第二跳动窗口,其中第一跳动窗口和第二跳动窗口不重叠,并且数据管理器108可以被配置为在获得第一组数据项之后立即获得第二组数据项。因此,一边获得数据项,一边发送该数据项,并且跳动窗口不重叠(例如,它们没有共同的数据项)。
根据示例实施例,数据管理器108可以被配置为在获得第一组数据项之后立即获得第二组数据项,并且第一组数据项和第二组数据项不重叠。根据示例实施例,第一组数据项可以包括第一组数据项的排序(ordering)。例如,可以根据从传感器104、106获得数据项的时间对数据项进行排序。
根据示例实施例,第一组数据项的排序可以基于生成第一组数据项中包括的数据属性值的排序。
根据示例实施例,第一组数据项可以包括与数据源相关联的属性值,例如,属性值可以包括温度、压力、湿度、空气压力等。
根据示例实施例,第一组数据项可以包括与传感器测量(measurement)相关联的属性值。例如,属性值可以包括温度、压力、湿度、空气压力等。
根据示例实施例,第一组数据项可以包括包含下列值中的一个或多个的属性值:时戳值、压力值、温度值、光强值、运动检测值、空气质量值、位置检测值或湿度检测值。
图2是根据示例实施例的用于管理数据质量的系统200的框图。在图2的示例中,数据流管理器202可以包括提供和执行从传感器104、106获得的数据和数据质量项的处理的各种处理引擎和管理器。根据示例实施例,数据流管理器202可以包括数据接收器204,数据接收器204被配置为获得包括第一组数据项和与获得第一组数据项的质量相关联的第一聚集数据质量值的第一数据流间隔,每个数据项包括一个或多个数据属性值,每个数据质量项包括与第一组数据项中的一个相关联的一个或多个数据质量属性值。例如,数据接收器204可以在从先前讨论的流间隔管理器114接收的数据流中获得第一数据流间隔。
根据示例实施例,数据流管理器202可以包括数据选择管理器206,其被配置为选择第一聚集数据质量值和将第一聚集数据质量值与第一组数据项相关联的第一指示符,以及选择第一组数据项。例如,数据选择管理器206可以在从先前讨论的流间隔管理器114接收的数据流中选择所述值。
根据示例实施例,数据流管理器202可以包括数据存储管理器208,其被配置为在与关系数据库相关联的用户表中存储第一组数据项和第一指示符。例如,数据存储管理器208可以在关系数据库的用户表中存储压力和温度的值以及相关联的时戳值。
根据示例实施例,数据流管理器202可以包括系统表管理器210,其被配置为基于系统表中的条目确定与用户表相关联的数据质量表。例如,系统表管理器210可以确定用于存储与第一组数据项相关联的聚集数据质量项的数据质量表,从而以后可以以有针对性的方式(meaningful way)检索所述值,以供分析和处理。
根据示例实施例,数据流管理器202可以包括数据质量存储管理器212,其被配置为在所确定的数据质量表中存储第一聚集数据质量值和第一指示符。例如,聚集精确度值(aggregated accuracy value)可以与相应的数据项值相关联地存储在数据质量表中。
根据示例实施例,第一指示符可以包括指示与被收集供用于在第一数据流间隔中传输的第一数据项相关联的时间的时戳值。例如,如果跳动窗口具有五个数据项和五个相应的时戳值,那么时戳中的第一个可以被用作跳动窗口的开始的指示符,由此与下一个跳动窗口相区分地描绘出一个跳动窗口。
根据示例实施例,第一指示符可以包括指示包括在第一数据流间隔中的跳动窗口的开始的时戳值。
根据示例实施例,数据存储管理器208可以被配置为在与关系数据库相关联的用户表中存储第一组数据项和与第一组中的每个数据项相关联的时戳,其中时戳包括第一指示符。
根据示例实施例,所确定的数据质量表可以基于存储在描述所确定的数据质量表的系统表中的栏目标识符(column identifier)以及存储在描述包括用户表和与关系数据库相关联的所确定的数据质量表的表的系统表中的栏目标识符而与用户表相关联。例如,关系数据库的系统表可以包含描述数据库的表的信息。
根据示例实施例,所确定的数据质量表包括被配置为存储与聚集数据质量值相关联的属性值的一个或多个栏目以及与存储在用户表中的关联数据项相关联的栏目标识符。例如,示例关系数据库的表可以包括属性值和用于在数据库的其它表中定位相关信息的信息。
根据示例实施例,数据接收器204可以被配置为获得第二数据流间隔,所述第二数据流间隔包括第二组数据项和与获得第二组数据项的质量相关联的第二聚集数据质量值,每个数据项包括一个或多个数据属性值,每个数据质量项包括与第二组数据项中的一个相关联的一个或多个数据质量属性值。根据示例实施例,数据选择管理器206可以被配置为选择第二聚集数据质量值和将第二聚集数据质量值与第二组数据项相关联的第二指示符,以及选择第二组数据项。
根据示例实施例,数据存储管理器208可以被配置为在用户表中存储第二组数据项和第二指示符。
根据示例实施例,系统表管理器210可以被配置为基于系统表中的条目确定与用户表相关联的数据质量表。根据示例实施例,数据质量存储管理器212可以被配置为在所确定的数据质量表中存储第二聚集数据质量值和第二指示符。
根据示例实施例,系统200可以包括关系数据库存储区220,关系数据库存储区220可以包括可以被配置为存储数据质量信息的数据质量表存储区222、可以被配置为存储系统表信息的系统表存储区224、以及可以被配置为存储数据表信息的数据表存储区226。例如,数据质量存储管理器212可以被配置为在数据质量表存储区222中存储数据质量信息。例如,数据存储管理器208可以被配置为在数据表存储区222中存储数据信息。
这里讨论示例方法和系统用于收集、传送和存储数据和数据质量信息。例如,关于数据质量的信息可以从传感器收集并且连同传感器所测量的数据一起被流化,以避免由于不完整和/或不正确的数据而导致的不适当的决策。此外,关于数据质量的信息可以与所捕获的传感器数据一起存储在目标数据库中,从而可以执行具有受限的质量的数据评估。
作为传感器的系统的示例,卡车的液压制动(hydraulic brake)系统可以装配有压力传感器以检测在管道破裂情况下的突然的压力损失,以便向驾驶者发出告警。在此系统中,不考虑受限的传感器精确度可能会导致事故。例如,传感器在小泄漏的情况下可能没有检测到缓慢增加的压力损失。因此,在紧急制动过程中,系统可能爆裂,结果卡车驾驶者可能不能停止车辆。
可能涉及数十个传感器的更复杂的系统可以被用来预测诸如卡车之类的车辆的引擎的剩余寿命,从而可以优化卡车的维护。然而,如果由于不精确的传感器导致过度估计了卡车的耐久性,那么卡车可能在路上发生故障,而因此需要昂贵的拖车。
传感器可以提供大量数据的自动收集。然而,数据流可能造成显著的资源约束(例如,受限的处理能力、存储器和通信容量)。因此,大规模的数据可能通过数据预处理而被减少。例如,可以在信息不丢失或者丢失的信息的量是可接收的情况下,组合、归纳并且聚集原始传感器数据以减少数据量。
类似于传感器数据,可以通过预处理步骤传播数据质量信息。然而,数据质量信息的传播可能导致用于数据递送和管理的开销,这对于大数量来说是很可观的。此外,质量信息可以提供关于传感器数据的附加元数据。
如以下进一步讨论的,在数据流环境中,跳动窗口可以被用于数据质量的有效收集和传播。此外,可以提供示例元数据扩展用于对数据流中的非常大量的数据质量维度(data quality dimension)进行统一建模。如以下进一步讨论的,关系数据库模式的示例元数据模型扩展可以提供用于在关系数据库管理系统(RDBMS)中存储和管理数据质量信息的手段。此外,如以下进一步讨论的,在两个元数据模型之间的示例映射可能有助于闭合流化系统和目标数据库之间的缝隙。
数据库中的数据质量可以包括诸如精确度和完整性之类的维度。在一般地确定数据质量中,包含真实数据的参考数据源的集合可被用来计算数据质量。然而,目前没有这样的参考用于传感器测量数据。此外,基于参考的数据质量的估计可以在查询处理期间在线生成。因此,在这样的情景中,可能没有解决数据质量信息的永久存储的问题。
服务质量(QoS)可能是数据流管理系统(DSMS)中重要的问题。例如,系统可以包括诸如DSMS查询处理的等待时间(latency)、重点(importance)和近似(approximation)的QoS维度。
作为另一个示例,系统可以包括与工作负荷信息的不确定度相组合的基于可靠性的QoS维度等待时间。然而,这些QoS维度表现出DSMS的服务或处理质量的特征,并且可以被用来驱动用于调度和负荷去除(load shedding)的策略,因此,在此上下文中可能没有解决由于传感器规范导致的数据质量限制的问题。
由于受限的存储容量,在视窗范围内处理数据流的连接。此外,可以在两个流的移动窗口中评估顺序匹配(sequence matching)。
存在许多其中传感器被用于测量或检测实体(例如,温度、压力、运动、湿度)的环境。例如,可以借助传感器监视生产区域。所测量的传感器数据可以被流化至目标应用,在目标应用处,所述数据可以被处理,并且可以针对要采取的动作生成决策。一般来说,数据处理可以包括至少两个模式。在第一模式中,可以从数据流直接消费数据,供在自动处理控制中,例如在生成过程中的基本数据分析。在第二模式中,业务应用可能需要聚集在永久数据库中的跨越更宽的时间间隔的数据,因此,可以执行复杂数据挖掘和知识探索。这两种情形都可以由这里讨论的示例技术支持。
如以下所讨论的,用于数据质量传送和管理的示例技术可以包括数据质量记录、用于数据质量传播的DSMS扩展、用于永久数据质量存储的DBMS扩展、以及用于将数据质量从数据流导入数据库的元数据映射。在数据质量记录中,可以从传感器捕获数据质量(DQ)信息。
图3是图示图1的系统的示例操作的流程图。根据示例实施例,可以获得第一组数据项,每个数据项包括一个或多个数据属性值(302)。例如,数据管理器108可以例如从传感器104、106中的一个获得第一组数据项。例如,数据项可以包括可以由传感器104、106测量的压力和温度的值。
根据示例实施例,可以确定第一组数据质量项,每个数据质量项包括与第一组数据项中的一个相关联的一个或多个数据质量属性值(304)。例如,数据质量管理器110可以获得第一组数据质量项,诸如对应于所获得的数据值的精确度和完整性值。
根据示例实施例,可以基于第一组数据质量项确定第一聚集数据质量值(306)。例如,聚集管理器112可以基于第一组数据质量项生成诸如平均值之类的聚集值。
根据示例实施例,可以输出包括第一组数据项和第一聚集数据质量值的第一数据流间隔(308)。例如,第一数据流间隔可以包括五个数据项值和五个相应的时戳值,以及每个数据质量属性一个的聚集数据质量值(例如,精确度和完整性各自的一个值)。
根据示例实施例,输出第一数据流间隔可以包括输出包含第一数据流间隔的第一跳动窗口,第一数据流间隔包括第一组数据项和第一聚集数据质量值。例如,跳动窗口可以包括数据流中非重叠的窗口。
根据示例实施例,可以获得第二组数据项,每个数据项包括一个或多个数据属性值,以及可以确定第二组数据质量项,每个数据质量项包括与第二组数据项中的一个相关联的一个或多个数据质量属性值。根据示例实施例,可以基于第二组数据质量项确定第二聚集数据质量值。根据示例实施例,可以输出包括第二组数据项和第二聚集数据质量值的第二数据流间隔。
根据示例实施例,输出第一数据流间隔可以包括输出包括第一数据流间隔的第一跳动窗口,第一数据流间隔包括第一组数据项和第一聚集数据质量值,以及输出第二数据流间隔可以包括输出包括第二数据流间隔的第二跳动窗口,第二数据流间隔包括第二组数据项和第二聚集数据质量值。根据示例实施例,第一跳动窗口和第二跳动窗口不重叠,并且在获得第一组数据项之后立即获得第二组数据项。
根据示例实施例,输出第一数据流间隔可以包括输出包括第一数据流间隔的第一跳动窗口,第一数据流间隔包括第一组数据项和第一聚集数据质量值。
根据示例实施例,可以获得第二组数据项,每个数据项包括一个或多个数据属性值。
根据示例实施例,可以确定第二组数据质量项,每个数据质量项包括与第二组数据项中的一个相关联的一个或多个数据质量属性值,可以基于第二组数据质量项确定第二聚集数据质量值,可以输出包括第二组数据项和第二聚集数据质量值的第二数据流间隔。
根据示例实施例,可以在获得第一组数据项之后立即获得第二组数据项,第一组数据项和第二组数据项不重叠。
根据示例实施例,第一组数据项可以包括第一组数据项的排序。例如,可以根据与由传感器104、106进行测量的时间相关联的时戳值对数据项进行排序。
根据示例实施例,对第一组数据项的排序可以基于对包括在第一组数据项中的数据属性值的生成顺序。
根据示例实施例,第一组数据项可以包括与数据源相关联的属性值。例如,属性值可以包括温度和压力。
根据示例实施例,第一组数据项可以包括与传感器测量相关联的属性值。根据示例实施例,第一组数据项可以包括包含下列值中的一个或多个的属性值:时戳值、压力值、温度值、光强值、动作检测值、空气质量值、位置检测值或湿度检测值。
根据示例实施例,确定第一组数据质量项可以包括确定第一组数据质量项,每个数据质量项包括包含完整性值或精确度值中的一个或多个的数据质量属性值。
根据示例实施例,确定第一聚集数据质量值可以包括基于由应用环境给出的任何聚集函数确定第一聚集数据质量值。例如,聚集函数可以确定第一组数据质量项的数据质量属性值的线性平均值,确定第一组数据质量项的数据质量属性值的平方平均值,确定第一组数据质量项的数据质量属性值的加权平方平均值,确定第一组数据质量项的数据质量属性值的最小值,或者确定第一组数据质量项的数据质量属性值的最大值。数据处理领域中的技术人员将理解存在许多其它这样的聚集函数。
图4是图示图2的系统的示例操作的流程图。根据示例实施例,可以获得第一数据流间隔,第一数据流间隔包括第一组数据项和与获得第一组数据项的质量相关联的第一聚集数据质量值,每个数据项包括一个或多个数据属性值,每个数据质量项包括与第一组数据项中的一个相关联的一个或多个数据质量属性值(402)。例如,可以由数据接收器204从先前讨论的流间隔管理器114接收第一数据流间隔。
根据示例实施例,可以选择第一聚集数据质量值和将第一聚集数据质量值与第一组数据项关联的第一指示符(404)。例如,可以选择指示跳动窗口的开始的开始时戳值和第一聚集数据质量值。根据示例实施例,可以选择第一组数据项(406)。例如,数据选择管理器206可以选择第一组数据项、第一聚集数据质量值和第一指示符。
根据示例实施例,第一组数据项和第一指示符可以存储在与关系数据库相关联的用户表中(408)。例如,第一组数据项和指示传输数据项的跳动窗口的开始的开始时戳可以由数据存储管理器208存储在用户表中,所述用户表诸如存储在先前讨论的数据表存储区226中的用户表。
根据示例实施例,可以基于系统表中的条目确定与用户表相关联的数据质量表(410)。例如,可以由系统表管理器210基于存储在系统表中外来关键字(foreign key)确定数据质量表,所述系统表诸如存储在系统表存储区224中的系统表。
根据示例实施例,第一聚集数据质量值和第一指示符可以存储在所确定的数据质量表中(412)。例如,精确度的聚集值和开始时戳值可以由数据质量存储管理器212存储在数据质量表中。
根据示例实施例,第一指示符可以包括指示与被收集以供在第一数据流间隔中传输的第一数据项相关联的时间的时戳值。例如,时戳值可以指示在特定跳动窗口中传输的值的流的开始,并且可以被用来与指示包括在跳动窗口中的数据项的数目的值联合起来在数据库表中定位跳动窗口。
根据示例实施例,第一指示符包括指示包括在第一数据流间隔中的跳动窗口的开始的时戳值。
根据示例实施例,第一组数据项和与第一组中的每个数据项相关联的时戳可以被存储在与关系数据库相关联的用户表中,其中时戳包括第一指示符。例如,第一组可以被存储在用户表中,所述用户表存储在数据表存储区226中。
根据示例实施例,所确定的数据质量表可以基于存储在系统表中的栏目标识符与用户表相关联,描述所确定的数据质量表和存储在系统表中的栏目标识符,所述系统表描述包括用户表和所确定的与关系数据库相关联的数据质量表的表。例如,标识符可以包括指向数据质量表和指向数据质量表中的栏目的外来关键字。
根据示例实施例,所确定的数据质量表可以包括被配置为存储与聚集数据质量值相关联的属性值和与存储在用户表中的关联数据项相关联的栏目标识符的一个或多个栏目。例如,栏目可以存储针对精确度和完整性的聚集数据质量值。
根据示例实施例,可以获得第二数据流间隔,第二数据流间隔包括第二组数据项和与获得第二组数据项的质量相关联的第二聚集数据质量值,每个数据项包括一个或多个数据属性值,每个数据质量项包括与第二组数据项中的一个相关联的一个或多个数据质量属性值。可以选择第二聚集数据质量值和将第二聚集数据质量值与第二组数据项关联的第二指示符。可以选择第二组数据项。第二组数据项和第二指示符可以被存储在用户表中。可以基于系统表中的条目确定与用户表相关联的数据质量表。第二聚集数据质量值和第二指示符可以被存储在所确定的数据质量表中。
根据示例实施例,可以获得包括第一数据流间隔的第一跳动窗口,第一数据流间隔包括第一组数据项和第一聚集数据质量值,可以获得包括第二数据流间隔的第二跳动窗口,第二数据流间隔包括第二组数据项和第二聚集数据质量值,第一跳动窗口和第二跳动窗口可以不重叠,以及可以在获得第一组数据项之后立即获得第二组数据项。
根据示例实施例,可以在获得第一组数据项之后立即获得第二组数据项,并且第一组数据项和第二组数据项可以不重叠。
根据示例实施例,第一组数据项可以包括与数据源相关联的属性值。
根据示例实施例,第一组数据项可以包括与传感器测量相关联的属性值。
根据示例实施例,第一组数据项可以包括包含下列值中的一个或多个的属性值:时戳值、压力值、温度值、光强值、动作检测值、空气质量值、位置检测值或湿度检测值。
图5是图示图2的系统的示例操作的流程图。根据示例实施例,可以从关系数据库请求第一组数据项(502)。例如,可以由系统表管理器210请求第一组数据项。
根据示例实施例,可以请求第一聚集数据质量值和第一指示符(504),第一聚集数据质量值与获得第一组数据项的质量相关联,第一指示符将第一聚集数据质量值与第一组数据项关联。例如,可以由系统表管理器210请求第一聚集数据质量值和第一指示符。
根据示例实施例,可以从与关系数据库相关联的用户表检索第一组数据项(506)。例如,可以由数据存储管理器208从数据表存储区226检索第一组数据项。
根据示例实施例,可以基于系统表中的条目确定与用户表相关联的数据质量表(508)。例如,可以由系统表管理器210确定数据质量表。
可以从所确定的数据质量表检索第一聚集数据质量值和第一指示符(510)。例如,可以由数据质量存储管理器212从存储在数据质量表存储区222中的数据质量表检索第一聚集数据质量值和第一指示符。
图6是根据示例实施例处理从传感器的输出的框图。如图6所示,传感器602可以输出诸如测量数据和数据质量信息的输出数据。传感器602的输出可以被抽样和离散604,以提供表示测量物理值的离散的且数字化的数据信号,该信号在被引入数据流608之前可以通过模数转换器606。传感器602的特征可以定义输出的数据流的数据质量维度。例如,精确度和完整性。例如,精确度可以描述数据值的数值精确度,并且可以被指示为物理值的绝对或相对误差。传感器的精确度可以由制造商的技术规范中的测量精确度类别来提供。例如,数据质量完整性可以解决由于传感器失效或故障而导致缺少值的问题。作为示例,缺少的(missing)值的估计或内插可以被用于缺少的值。数据质量维度完整性可以有助于在测量的数据项和估计的或内插的项之间进行区分。离散的采样速率可以定义流速率r(例如,100/秒,1/10分钟),如下所示,这可以根据时间t来确定流长度m,因此可以用作流完整性c的参考。
c=1-count(missingvalues)/m (1)
c=1-count(missingvalues)/r*t (2)
ij
图7图示根据实施例的数据质量注释。一种数据质量注释的示例方法可以包括利用与测量流相同的流速率流化每个数据质量(DQ)维度的数据质量信息,如图7所示。可以由数据项的数值来定义数据项,并且由数据项的DQ信息对其进行进一步描述。例如,数据流702可以以速率704被流化,并且可以包括n+1个属性706和m个数据项708,数据项708可以包括值710、精确度712和完整性714。
长度为m、速率为r的示例传感器数据流D可以包括n+1个属性Ai(0≤i≤n),其中A0表示与传感器数据流相关联的时戳t。每个时戳tj(0≤j≤m)可以包括具有n个测量值vij的元组(tuple)tj。
DQ注释的一个示例可以用包含d个数据质量纬度(例如,精确度aij和完整性cij)的数据质量矢量增强每个测量值vij,如下所示。
图8是图示从卡车的寿命的开始卡车的引擎的剩余寿命的数据流摘录的框图。如图8所示,可以每十天估计一次剩余寿命802,如时戳值804所示(例如,210、220等)。可以基于具有示例数据质量维度精确度806和完整性808的若干传感器(例如,油压、油温、英里数、冷启动的次数)来计算剩余寿命802。与传感器测量类似,与传感器相关联的数据质量信息可以被组合并聚集以生成剩余寿命802的质量。
此示例方法可以显著提高数据量,其可以乘以所考虑的DQ维度的数目。要传送数据质量的附加数据量S可能致使S=m*n*d。因此,此示例方法可能不适合具有严格资源约束的应用,以及可以在数据传输的通信费用不高时使用。
因此,跳动数据质量窗口可能有助于减少要在数据流中传送数据质量信息的附加数据量。以下进一步讨论的示例技术可以提供灵活性,其可以由几乎无限数目的支持的DQ维度、可变窗口尺寸和概括窗口数据质量的自适应聚集函数来表示。
例如,可以在数据流元模型中提供跳动DQ窗口。因此,可以扩展示例DSMS元数据模型。示例传感器数据流D可以包括n个表示传感器测量的属性Ai(0≤i≤n)。在示例元数据模型中,每个属性Ai可以与几乎任何数目的数据值项vij相关联。
图9是根据示例实施例图示数据流的模型的框图。如图9所示,可以以速率904流化数据流902,并且数据流902可以包括n+1个属性906和大小为s的数据项908,数据项908可以包括值910。示例跳动窗口912可以被插在属性906和数据项908之间的关联(relation)中。以包括传感器数据项和数据质量信息的预定大小914将每个测量属性流分到(parted into)窗口912中。每个窗口912可以由其起始点t开始=tk(916)来识别。每个窗口912可以包括s个示例属性Ai的测量值vij(k≤j≤k+s-1)。此外,每个窗口912可以包括每个数据质量(DQ)维度(918)qik的一个值(例如,具有值922的窗口完整性cik(920)和具有值926的窗口精确度aik(924))。
对于每个示例属性来说,数据质量维度的数目是可变的。此外,对于每个示例流属性来说,可以独立地定义窗口大小s。对于n个属性Ai的每一个来说,覆盖dj个数据质量维度的附加存储空间可以取决于属性窗口的大小si,和流长度m,如以下所示。
对于基于跳动窗口的注释来说,对于每个DQ维度,数据质量信息不能连同每个单个数据项一起发送,而可以在的窗口范围内(window-wise)发送。因此可以通过在从时戳t开始=tk开始的预定大小si的跳动流窗口wik中聚集每个属性Ai的数据质量,来减少附加数据量。因此,对于与底层应用相对应的每个DQ维度,可以灵活地确定聚集函数。根据示例实施例,属性A0可以表示时戳,而不是传感器测量,因此可以不包括数据质量信息。
以下所示的示例定义可以适用于每个属性Ai,窗口Wik可以称作大小为s的窗口wk等。
窗口wk可以包括传感器数据项vij以及描述d个数据质量维度的数据质量矢量矢量可以表示聚集数据质量信息矢量其可以与每个数据项相关联。矢量函数f可以包含所涵盖的所有数据质量维度的聚集函数fl(1≤l≤d)。
在以下所示的等式中,对于d=2示出数据质量矢量,包括窗口精确度ak和窗口完整性ck。
ak=fa(aj|k≤j≤k+s-1} (9)
ck=fc(cj|k≤j≤k+s-1} (10)
如以上所示,精确度聚集函数fa可能不是固定的,而是可以被调整以适应应用的需求。示例元数据模型可以被配置为尽可能的普通以适应于许多不同的用户情况。例如,示例窗口精确度ak可以被计算为相应的数据流窗口中的数据项精确度的(加权)线性或平方平均值,或精确度aj的最大值或最小值。系统或统计误差传播领域中的技术人员会理解存在许多不同的方式来确定聚集函数。
作为示例,线性平均值可以被用来计算示例卡车引擎的剩余寿命的精确度。计算窗口完整性ck的示例函数fc可以被确定为原始测量的传感器数据项(例如,非空(non-null)值)对窗口大小s的比,或者可以被确定为fc=sum(cj)/s。
图10图示根据示例实施例的在跳动窗口中的示例数据流值。图10所示的值指示结果得到的卡车引擎的剩余寿命的数据质量。如图10所示,诸如提供给图8的每个数据项的精确度806和完整性808的DQ信息聚集在大小为s=5的跳动窗口1002、1004、1006、1008中,由此节省在数据流的传输、存储和维护中涉及的资源。
可以在传感器可以连接到其上的嵌入式智能设备上或者在数据流系统中的任何其它点上执行每个窗口的数据质量维度的计算。根据示例实施例,为了效率更高,可以尽可能地靠近传感器来执行DQ聚集。
一旦接收了在数据流中发送的数据和数据质量信息,就可以将其存储在诸如关系数据库之类的存储设备中。如以下所讨论的,为了在永久数据库中有效地存储数据质量信息,可以提供示例关系元数据模型的扩展。因此,数据质量可以被视为示例关系数据库中的维度。
根据示例实施例,可以用d个数据质量特征或DQ维度来增强关系表中的每个栏目。根据示例实施例,为了保持以上讨论的数据流的跳动窗口模型,可以并不是对于每个测量值vij都将数据质量信息存储在数据库中。因此,类似于与数据流相关联的跳动窗口,包含传感器数据的示例数据库表可以被分到(partitioned into)关系窗口中。
图11图示根据示例实施例的关系元模型扩展。在对象管理组(OMG)标准公共warehouse模型的notation中图示图11的示例关系元模型扩展。如图11所示,表1102和视图1104可以被生成为预定数目的栏目(column)1108的栏目集合1106,描述表或视图属性。行(row)1110可以表示栏目集合1106的实例,包括插入的数据值。管理数据质量信息的关系窗口可以被配置为用于存储与示例时间间隔相关联的传感器数据的行集合1112。可以参考对应的栏目集合1106的示例行集合1112存储与示例栏目1108相关联的数据质量1114。图11的元模型的示例数据质量维度包括精确度1116和完整性1118。
为了管理关系数据库中的数据质量,可以在DBMS中包括系统表或分类表系统质量(SysQuality)。图12图示根据示例实施例的系统质量表模式。此外,示例表类型、数据质量(DQ)表可以存储DQ信息。图13图示根据示例实施例的DQ表模式。
如图12所示,示例系统质量表可以包括:栏目质量ID 1202,用于存储数据质量信息的项的标识符;维度1204栏目,用于存储数据质量维度的指示符(例如,精确度、完整性等);以及DQ表1206栏目,用于存储作为其中存储数据质量信息的表的指针的外来关键字值。测量栏目1208栏目可以存储引用存储测量值的栏目的外来关键字,以及窗口大小1210栏目可以存储指示与进入的数据流相关联的数据质量窗口的大小的值。
描述图13中所示的表类型的模式中描述的测量的数据质量的示例DQ表可以被自动生成为用于存储测量数据的关系用户表。如图13所示,DQ表可以包括:栏目1302,用于存储指向传感器数据栏目的外来关键字;T_开始1304栏目,用于存储与数据质量窗口相关联的开始时戳的指示符;精确度1306栏目,用于存储指示与数据质量窗口的值的相关联的精确度的值;以及完整性1308栏目,用于存储指示与数据质量窗口的值相关联的完整性的值。根据用户需求和/或数据质量信息的可用度,如图13所示的示例DQ表可以被容易地扩展为大量的数据质量维度。
图14图示根据示例实施例的系统、数据、和数据质量表。如图14所示,系统表可以包括系统质量1402表、系统栏目1404表和系统表1406表。卡车数据DQ1408表可以存储DQ数据,以及卡车数据1410可以存储诸如传感器数据的数据项。因此,可以根据先前讨论的卡车示例,用测量和质量数据填充示例表。
如图14的示例中所示,栏目系统质量.测量栏目(SysQuality.MeasColumn)1412可以参考存储测量数据的用户表栏目的ID。例如,系统质量.测量栏目1412的值2可以参考卡车数据1410表的寿命1414栏目。示例系统质量.DQ表(SysQuality.DQTable)1416栏目可以参考DQ表卡车数据_DQ 1408。例如,系统质量.DQ表1416的值12可以经由存储在系统表.表ID(SysTable.TableID)1422栏目中的值12,参考在T_开始处开始的每个窗口的数据质量维度完整性1418和精确度1420的相应值。此外,系统表SysTable 1406也可以经由系统表.表名称(SysTables.TableName)1424栏目引用表卡车数据1410和卡车数据_DQ 1408。因此,可以在关系数据库中一致地整合和管理数据质量信息。
根据示例实施例,先前讨论的DSMS元数据模型的跳动窗口可以映射到DBMS元数据模型的关系窗口。如以下所讨论的,一个示例的每个窗口的附加插入操作可以将数据质量信息从数据流递送到目标数据库中。
图15图示根据示例实施例的数据质量信息从数据流到目标数据库的元数据映射。如图15的示例中所示,数据流元数据模型的组件可以参考诸如DQ表1502的DQ表中的相应栏目。对于每个进入的数据流1504,可以根据数据流中包括的测量创建和命名DQ表1502。例如,流化属性1506可以反映在栏目1508中。示例起始点T_开始1510、1512可以标识诸如包括精确度1518、1520和完整性1522、1524的数据质量1516窗口的对应窗口1514。
图16图示示例元数据映射情形。例如,数据流1602可以被分成传感器数据1604和质量数据1606,例如,对应于时戳1608、1614,数据流可以被分成传感器数据项时戳1608、寿命1610、英里数1612、以及分成质量数据项时戳1614、寿命精确度1616、寿命完整性1618、英里数精确度1620和英里数完整性1622。然后,示例传感器数据1604可以被存储在对应的用户表1624中。可以为每个进入的流元组1602生成一个包括所有测量属性的关系元组。然后,示例跳动流窗口可以被映射到数据库的关系窗中。可以生成示例DQ表1626以诸如精确度和完整性的数据质量维度的窗口范围的存储。
这样,对于如先前针对图10所讨论的在值T_开始处开始的每个窗口,示例数据质量信息时戳1614、寿命精确度1616、寿命完整性1618、英里数精确度1620和英里数完整性1622可以被写到相应的数据质量表1626中。每个属性窗口可以生成d个条目,每个条目用于一个数据质量维度。因此,对于n个进入的属性窗口,为了在表中存储条目,可以执行n*d个插入操作。根据示例实施例,如果关于示例数据质量维度的信息没有与数据一起被流化,那么缺少的DQ值可以由零值来表示。
图17图示用于先前讨论的卡车示例的示例映射。可以接收卡车数据的数据流1702,并且描述卡车的寿命的数据质量信息可以被插入到质量表卡车数据_DQ 1704中。如图17的示例中所示,时戳值260(1706)被示为数据流1702中的跳动窗口中的第一时戳值。时戳值260(1706)可以被存储在描述卡车的寿命的T_开始栏目1708中。由于精确度值3.3(1708)表示具有t开始值260的跳动窗口的传感器精确度的聚集值,所以精确度值3.3(1708)可以被存储为与时戳值260(1706)同一行的精确度值。此外,由于完整性值0.8(1710)表示具有t开始值260的跳动窗口的传感器的完整性的聚集值,所以完整性值0.8(1710)可以被存储为与时戳值260(1706)同一行的完整性值。
另外,时戳值310(1712)被示为在数据流1702的下一跳动窗口中的第一时戳值。时戳值310(1712)可以被存储在T_开始栏目1708中。由于精确度值2.78(1714)表示具有t开始值310(1712)的跳动窗口的传感器精确度的聚集值,所以精确度值2.78(1714)可以被存储为与时戳值310(1712)同一行的精确度值。此外,由于完整性值0.9(1716)表示具有t开始值310(1712)的跳动窗口的传感器的完整性的聚集值,所以完整性值0.9(1716)可以被存储为与时戳值310(1712)同一行的完整性值。
这里讨论的示例技术可以包括映射结构,其可以对从数据流管理系统(DSMS)到数据库管理系统(DBMS)的递送进行建模。根据示例实施例,可以经由示例映射结构提供提取、变换、加载(ETL)加载过程的自动生成。
根据示例实施例,可以在数据流以及关系数据库中都对数据质量进行有效地建模。根据示例实施例,跳动DQ窗口可以被用于通过数据流系统从传感器向目标数据库传播数据质量信息,同时显著地降低资源的使用。跳动窗口因此可以被并入示例DSMS元数据模型,以提供对数据流中的数据质量的统一处理。
由于插入在永久数据库中的包括数据质量的传感器数据可能非常有助于进一步的分析和知识探索,所以这里讨论的示例技术可以提供跳动窗口数据流到关系数据库中的窗口的示例映射。根据示例实施例,跳动窗口可以被映射到关系表中的窗口。根据示例实施例,DBMS的扩展元数据模型和所需系统的模式以及数据质量表可以被用来以一致、持久的方式管理和存储DQ信息。
尽管作为传感器数据流的两个示例DQ维度讨论了精确度和完整性,这里讨论的示例元数据模型可以例如通过附加的数据质量维度来扩展。此外,这里讨论的示例元数据模型可以提供示例映射以“闭合”流化环境和目标数据库之间的“缝隙”。
如图1和图2所示的示例引擎、管理器和/或传感器可以被实现为分离的处理器,或者可以被实现为可以由单个处理器加载和执行的可执行代码。例如,引擎和管理器可以被实现为可以在非易失性存储器中编译和存储在软件对象,并且为了执行可以将其加载到易失性存储器中。例如,引擎、管理器和/或传感器也可以位于分布在诸如互联网的网络上的分离的处理器上,并且可以当需要时被以分布式方式执行。
这里描述的各种技术的实施方案可以被实施在数字电子电路中,或被实施在计算机硬件、固件、软件中或者其组合中。这些实施方案可以被实施为计算机程序产品,即有形地具体实施在信息载体例如机器可读储存设备或传播的信号中的计算机程序,供数据处理装置执行,或用于控制数据处理装置的操作,数据处理装置例如可编程处理器、计算机或多个计算机。计算机程序,例如上面描述的计算机程序,可以用任何形式的编程语言书写,包括汇编或解释语言,并且它可以被以任何形式部署,包括作为独立程序或作为模块、组件、子例程或其他适于在计算环境中使用的单元。计算机程序可以被部署成在一个或多个计算机上执行,所述计算机在一个地点或跨过多个地点分布,并被通讯网络互连。
方法步骤可以由一个或更多个可编程处理器执行,所述处理器执行计算机程序,以便通过操作输入数据并产生输出来执行功能。方法步骤也可以由专用逻辑电路执行,并且装置可以被实施为专用逻辑电路,所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
举例来说,适于计算机程序的执行的处理器包括通用和专用微处理器,以及任何种类的数字计算机的任何一个或更多个处理器。通常,处理器将从只读存储器或随机访问存储器或这两者接收指令和数据。计算机的元件可以包括至少一个用于执行指令的处理器和用于储存指令和数据的一个或更多个存储器设备。通常,计算机也将包括一个或更多个海量储存设备用于储存数据,或者计算机将被可操作地耦合成从所述一个或更多个海量储存设备接收数据或将数据转移到所述一个或更多个海量储存设备,或者进行这两者,所述海量储存设备例如磁盘、磁光盘或光盘。适于具体实施计算机程序指令和数据的信息载体包括所有形式的非易失存储器、例如包括半导体存储器器件,如EPROM、EEPROM和快闪存储器设备;例如内置硬盘和可移动盘的磁盘;磁光盘;和CD ROM和DVD ROM盘。处理器和存储器可以被专用逻辑电路补充或包含在专用逻辑电路中。
为了提供和用户的交互作用,这些实施方案可以被实施在具有用于向用户显示信息的显示设备和键盘以及指点(pointing)设备的计算机上,显示设备例如阴极射线管(CRT)或液晶显示器(LCD)监视器,指点设备例如鼠标或跟踪球,利用所述设备用户能够给计算机提供输入。也可以使用其他种类的设备提供和用户的交互作用;例如,提供给用户的反馈可以是任何形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且来自用户的输入可以被以任何形式接收,包括声音、语音或触摸输入。
这些实施方案可以被实施在计算系统中,所述计算系统包括例如数据服务器的后端组件,或者所述计算系统包括中间件组件,例如应用服务器;或者所述计算系统包括前端组件,例如具有图形用户接口或网络浏览器的客户端计算机,用户可以通过所述图形用户接口或网络浏览器和实施方案进行交互作用,或者,所述计算系统可以包括这些后端、中间件或前端组件的任意组合。组件可以通过任何数字数据通讯的形式或介质例如通信网络互连。通信网络的例子包括局域网(LAN)和广域网(WAN),例如国际互联网。
虽然如这里所描述的,已经示出了所描述的实施方案的某些特征,但是本领域的技术人员将想得到很多修改、替换、改变和等同物。因此,要理解所附权利要求旨在覆盖落入这些实施例的真实精神内的所有这些修改和改变。
Claims (20)
1.一种用于将数据质量包括在数据流中的系统,包括:
数据流管理器,其包括:
数据管理器,其被配置为获得第一组数据项,每个数据项包括一个或多个数据属性值;
数据质量管理器,其被配置为确定第一组数据质量项,每个数据质量项包括与第一组数据项中的一个相关联的一个或多个数据质量属性值;以及
聚集管理器,其被配置为基于第一组数据质量项确定第一聚集数据质量值,
其特征在于数据流管理器还包括流间隔管理器,其被配置为
输出包括第一组数据项和第一聚集数据质量值的第一数据流间隔,以及
输出包括第一数据流间隔的第一跳动窗口,该第一数据流间隔包括第一组数据项和第一聚集数据质量值,其中,第一跳动窗口包括描述多个数据质量维度的数据质量矢量,并且其中,该数据质量矢量代表第一聚集数据质量值,
其中,第一指示符与第一聚集数据质量值相关联,第一指示符包括指示与收集用于在第一数据流中传输的第一组数据项的第一数据项相关联的时间的时戳值,该时戳值指示在第一跳动窗口中传输的第一数据流的开始,并且被用来结合指示包括在跳动窗口中的数据项的数目的值在数据库表中定位第一跳动窗口,以及
其中,第一跳动窗口不与任何其它跳动窗口重叠。
2.如权利要求1所述的系统,其中:
所述数据管理器被配置为获得第二组数据项,每个数据项包括一个或多个数据属性值,
所述数据质量管理器被配置为确定第二组数据质量项,每个数据质量项包括与第二组数据项中的一个相关联的一个或多个数据质量属性值,
所述聚集管理器被配置为基于第二组数据质量项确定第二聚集数据质量值,以及
所述流间隔管理器被配置为输出包括第二组数据项和第二聚集数据质量值的第二数据流间隔。
3.如权利要求2所述的系统,其中:
所述流间隔管理器被配置为输出包含第二数据流间隔的第二跳动窗口,该第二数据流间隔包括第二组数据项和第二聚集数据质量值,以及
其中,所述第一跳动窗口和第二跳动窗口不重叠,以及
其中,所述数据管理器被配置为在获得第一组数据项之后立即获得第二组数据项。
4.如权利要求2或3所述的系统,其中:
所述数据管理器被配置为在获得第一组数据项之后立即获得第二组数据项,以及其中,所述第一组数据项和第二组数据项不重叠。
5.如权利要求1所述的系统,其中,所述第一组数据项包括第一组数据项的排序。
6.如权利要求5所述的系统,其中,所述第一组数据项的排序基于生成包括在第一组数据项中的数据属性值的排序。
7.如权利要求1所述的系统,其中,所述第一组数据项包括与数据源相关联的属性值。
8.如权利要求1所述的系统,其中,所述第一组数据项包括与传感器测量相关联的属性值。
9.如权利要求1所述的系统,其中,所述第一组数据项包括表示传感器测量数据的属性值,其中,所述传感器测量包括以下值中的一个或多个:
时戳值,
压力值,
温度值,
光强值,
动作检测值,
空气质量值,
位置检测值,或
湿度检测值。
10.一种用于将数据质量包括在数据流中的方法,包括:
获得第一组数据项,每个数据项包括一个或多个数据属性值;
确定第一组数据质量项,每个数据质量项包括与第一组数据项中的一个相关联的一个或多个数据质量属性值;以及
基于第一组数据质量项确定第一聚集数据质量值;
其特征在于输出包括第一组数据项和第一聚集数据质量值的第一数据流间隔,其中,输出第一数据流间隔包括:
输出包括第一数据流间隔的第一跳动窗口,该第一数据流间隔包括第一组数据项和第一聚集数据质量值,其中,第一跳动窗口包括描述多个数据质量维度的数据质量矢量,并且其中,该数据质量矢量代表第一聚集数据质量值,
其中,第一指示符与第一聚集数据质量值相关联,第一指示符包括指示与收集用于在第一数据流中传输的第一组数据项的第一数据项相关联的时间的时戳值,该时戳值指示在第一跳动窗口中传输的第一数据流的开始,并且被用来结合指示包括在跳动窗口中的数据项的数目的值在数据库表中定位第一跳动窗口,以及
其中,第一跳动窗口不与任何其它跳动窗口重叠。
11.如权利要求10所述的方法,还包括:
获得第二组数据项,每个数据项包括一个或多个数据属性值;
确定第二组数据质量项,每个数据质量项包括与第二组数据项中的一个相关联的一个或多个数据质量属性值;
基于第二组数据质量项确定第二聚集数据质量值;以及
输出包括第二组数据项和第二聚集数据质量值的第二数据流间隔。
12.如权利要求11所述的方法,其中:
输出第二数据流间隔包含输出包括第二数据流间隔的第二跳动窗口,该第二数据流间隔包括第二组数据项和第二聚集数据质量值,以及
其中,所述第一跳动窗口和第二跳动窗口不重叠,以及
其中,在获得第一组数据项之后立即获得第二组数据项。
13.如前述权利要求11到12中任何一项所述的方法,其中,在获得第一组数据项之后立即获得第二组数据项,以及其中,所述第一组数据项和第二组数据项不重叠。
14.如权利要求10所述的方法,其中,所述第一组数据项包括第一组数据项的排序。
15.如权利要求14所述的方法,其中,所述第一组数据项的排序基于生成包括在第一组数据项中的数据属性值的排序。
16.如权利要求10所述的方法,其中,所述第一组数据项包括与数据源相关联的属性值。
17.如权利要求10所述的方法,其中,所述第一组数据项包括与传感器测量相关联的属性值。
18.如权利要求10所述的方法,其中,所述第一组数据项包括表示传感器测量数据的属性值,其中,所述传感器测量包括以下值中的一个或多个:
时戳值,
压力值,
温度值,
光强值,
动作检测值,
空气质量值,
位置检测值,或
湿度检测值。
19.如权利要求10所述的方法,其中,确定第一组数据质量项包括:
确定第一组数据质量项,每个数据质量项包括数据质量属性值,该数据质量属性值包括一个或多个完整性值或精确度值。
20.如权利要求10所述的方法,其中,确定第一聚集数据质量值包括:
基于应用相关聚集函数确定第一聚集数据质量值包括至少一个以下步骤:
确定第一组数据质量项的数据质量属性值的线性平均值,
确定第一组数据质量项的数据质量属性值的平方平均值,
确定第一组数据质量项的数据质量属性值的加权平方平均值,
确定第一组数据质量项的数据质量属性值的最小值,
确定第一组数据质量项的数据质量属性值的最大值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/785,928 | 2007-04-20 | ||
US11/785,928 US7676522B2 (en) | 2007-04-20 | 2007-04-20 | Method and system for including data quality in data streams |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101291289A CN101291289A (zh) | 2008-10-22 |
CN101291289B true CN101291289B (zh) | 2013-07-03 |
Family
ID=39639923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810091226.1A Active CN101291289B (zh) | 2007-04-20 | 2008-04-21 | 将数据质量包括在数据流中的方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7676522B2 (zh) |
EP (1) | EP1983437A1 (zh) |
CN (1) | CN101291289B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428095A (zh) * | 2020-06-11 | 2020-07-17 | 上海冰鉴信息科技有限公司 | 图数据质量验证方法及图数据质量验证装置 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7676523B2 (en) * | 2007-04-20 | 2010-03-09 | Sap Ag | Method and system for managing data quality |
US8041740B1 (en) * | 2008-03-04 | 2011-10-18 | Amdocs Software Systems Limited | Database system, method, and computer program product for recording entity state and type information for use during subsequent processing of data |
US8238231B2 (en) * | 2009-05-28 | 2012-08-07 | Sap Ag | Quality-driven optimization of sensor stream processing |
US8180914B2 (en) | 2009-07-17 | 2012-05-15 | Sap Ag | Deleting data stream overload |
US8321865B2 (en) * | 2009-08-14 | 2012-11-27 | International Business Machines Corporation | Processing of streaming data with a keyed delay |
US8868518B2 (en) * | 2009-08-14 | 2014-10-21 | International Business Machines Corporation | Processing of streaming data with keyed aggregation |
US10244017B2 (en) * | 2009-08-14 | 2019-03-26 | International Business Machines Corporation | Processing of streaming data with a keyed join |
US20110313812A1 (en) * | 2010-06-18 | 2011-12-22 | HCL America Inc. | Accounting for data dependencies in process models, analysis, and management |
US20120150825A1 (en) * | 2010-12-13 | 2012-06-14 | International Business Machines Corporation | Cleansing a Database System to Improve Data Quality |
US9460131B2 (en) | 2012-05-04 | 2016-10-04 | International Business Machines Corporation | Data stream quality management for analytic environments |
US9014918B2 (en) | 2012-10-12 | 2015-04-21 | Cummins Inc. | Health monitoring systems and techniques for vehicle systems |
US9305031B2 (en) * | 2013-04-17 | 2016-04-05 | International Business Machines Corporation | Exiting windowing early for stream computing |
US20140379626A1 (en) * | 2013-06-20 | 2014-12-25 | Rockwell Automation Technologies, Inc. | Information platform for industrial automation stream-based data processing |
CN104949256A (zh) * | 2014-03-26 | 2015-09-30 | 张政 | 一种空气净化方法、空气净化器及系统 |
US9600504B2 (en) | 2014-09-08 | 2017-03-21 | International Business Machines Corporation | Data quality analysis and cleansing of source data with respect to a target system |
US10965756B2 (en) * | 2014-09-16 | 2021-03-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Sensor system of master and slave sensors, and method therein |
US9836488B2 (en) * | 2014-11-25 | 2017-12-05 | International Business Machines Corporation | Data cleansing and governance using prioritization schema |
EP3101574A1 (en) * | 2015-06-05 | 2016-12-07 | Limbus Medical Technologies GmbH | Data quality management system and method |
US10216793B2 (en) | 2015-11-03 | 2019-02-26 | Sap Se | Optimization of continuous queries in hybrid database and stream processing systems |
GB2544083B (en) * | 2015-11-05 | 2020-05-20 | Advanced Risc Mach Ltd | Data stream assembly control |
US10311061B2 (en) | 2015-11-06 | 2019-06-04 | Sap Se | Quality-driven processing of out-of-order data streams |
US11048725B2 (en) * | 2017-07-25 | 2021-06-29 | Sap Se | Methods and systems for unified data sources |
US10943027B2 (en) | 2018-03-28 | 2021-03-09 | Sap Se | Determination and visualization of effective mask expressions |
CN109145172A (zh) * | 2018-07-25 | 2019-01-04 | 深圳市博安达信息技术股份有限公司 | 一种环境监管网格化系统、方法及电子设备 |
CN109143017B (zh) * | 2018-07-31 | 2021-03-30 | 成都天衡智造科技有限公司 | 一种半导体行业生产测试数据处理方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1783796A (zh) * | 2004-11-29 | 2006-06-07 | 中兴通讯股份有限公司 | 一种基于分离式路由交换设备的QoS实现的方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3552258B2 (ja) * | 1993-12-27 | 2004-08-11 | 株式会社日立製作所 | 分散計算機システム及びその情報管理方法 |
US7349838B2 (en) * | 1998-07-31 | 2008-03-25 | Summers Gary J | Management training simulation method and system |
US6449588B1 (en) * | 1999-06-02 | 2002-09-10 | Accenture Llp | Customer-driven QOS in hybrid communication system |
US7162450B2 (en) * | 2000-06-30 | 2007-01-09 | Ponzio Jr Frank J | Business method for determining quality and integrity of data content |
US7184548B2 (en) * | 2001-05-04 | 2007-02-27 | Hewlett-Packard Development Company, L.P. | Encoding and decoding methods for secure scalable streaming and related systems |
US20040199368A1 (en) * | 2001-05-24 | 2004-10-07 | Simmonds Precision Products, Inc. | Poor data quality identification |
US6782351B2 (en) * | 2001-09-11 | 2004-08-24 | Purechoice, Inc. | Air quality monitoring and space management system coupled to a private communications network |
US7089306B2 (en) * | 2002-04-18 | 2006-08-08 | Bdna Corporation | Apparatus and method to automatically collect data regarding assets of a business entity |
US7127475B2 (en) * | 2002-08-15 | 2006-10-24 | Sap Aktiengesellschaft | Managing data integrity |
US7676523B2 (en) * | 2007-04-20 | 2010-03-09 | Sap Ag | Method and system for managing data quality |
-
2007
- 2007-04-20 US US11/785,928 patent/US7676522B2/en active Active
-
2008
- 2008-03-25 EP EP08005529A patent/EP1983437A1/en not_active Ceased
- 2008-04-21 CN CN200810091226.1A patent/CN101291289B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1783796A (zh) * | 2004-11-29 | 2006-06-07 | 中兴通讯股份有限公司 | 一种基于分离式路由交换设备的QoS实现的方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428095A (zh) * | 2020-06-11 | 2020-07-17 | 上海冰鉴信息科技有限公司 | 图数据质量验证方法及图数据质量验证装置 |
CN111428095B (zh) * | 2020-06-11 | 2020-08-28 | 上海冰鉴信息科技有限公司 | 图数据质量验证方法及图数据质量验证装置 |
Also Published As
Publication number | Publication date |
---|---|
US20080263062A1 (en) | 2008-10-23 |
CN101291289A (zh) | 2008-10-22 |
US7676522B2 (en) | 2010-03-09 |
EP1983437A1 (en) | 2008-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101291289B (zh) | 将数据质量包括在数据流中的方法和系统 | |
US7676523B2 (en) | Method and system for managing data quality | |
US8533152B2 (en) | System and method for data provenance management | |
Abel et al. | The systems integration problem | |
JP5122115B2 (ja) | 電子ビジネス通信におけるデータ要素の使用の追跡 | |
CN101088072B (zh) | 用于监视基于交易的系统的方法和系统 | |
CN102004768A (zh) | 自适应分析多维处理系统 | |
CN101163152A (zh) | 智能物件环境中基于成本的组件部署 | |
KR101648272B1 (ko) | 복합 이벤트 처리와 기계학습 기반의 가정별 물 수요량 예측 및 누수 탐지방법 | |
CN101894058B (zh) | 针对自动测试系统的测试覆盖性自动分析方法及其装置 | |
US10157213B1 (en) | Data processing with streaming data | |
CN114625820A (zh) | 一种面向人工智能遥感影像解译的样本库系统及组织方法 | |
CN112633822B (zh) | 基于数字孪生技术的资产管理方法、存储介质和移动终端 | |
CN116415430B (zh) | 面向空间科学任务论证的定制化SysML模型转换方法 | |
CN115964542A (zh) | 一种基于多视角算法的时空大数据挖掘方法 | |
Niemi et al. | Detecting summarizability in OLAP | |
Mišić et al. | Estimation of effort and complexity: An object-oriented case study | |
Zhao et al. | Predicting missing provenance using semantic associations in reservoir engineering | |
CN102216928B (zh) | 用于检索数据并显示数据存储器的内容密度的方法和系统 | |
US20210406263A1 (en) | Knowledge graph-based lineage tracking | |
US7899776B2 (en) | Explaining changes in measures thru data mining | |
US20080027966A1 (en) | Dynamic creation of star-schema database structures and cubes | |
CN100422991C (zh) | 用于表示和计算量度之间的关系的系统和方法 | |
CN105160065A (zh) | 基于拓扑关系的遥感信息相似度评价方法 | |
Mahboubi et al. | Semi-automatic design of spatial data cubes from simulation model results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |