CN106021270B - 在数据仓库和大数据存储之间协同数据智能的方法和系统 - Google Patents

在数据仓库和大数据存储之间协同数据智能的方法和系统 Download PDF

Info

Publication number
CN106021270B
CN106021270B CN201610183341.6A CN201610183341A CN106021270B CN 106021270 B CN106021270 B CN 106021270B CN 201610183341 A CN201610183341 A CN 201610183341A CN 106021270 B CN106021270 B CN 106021270B
Authority
CN
China
Prior art keywords
data
dwh
module
analysis module
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610183341.6A
Other languages
English (en)
Other versions
CN106021270A (zh
Inventor
B·C·霍德
C·S·R·卡卢尔
R·K·R·卡南玛塔雷迪
V·维加严
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN106021270A publication Critical patent/CN106021270A/zh
Application granted granted Critical
Publication of CN106021270B publication Critical patent/CN106021270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Abstract

本申请提供了在数据仓库和大数据存储之间协同数据智能的方法和系统。所述系统包括:数据存储和数据仓库(DWH),其中所述数据存储和所述DWH被配置成与存储管理系统通信;集成总线,其中所述集成总线包括至少一个数据分析模块;以及决策过程应用,其中所述决策过程应用包括:在处理与所述数据存储和所述DWH相关联的数据后的结果。本发明的实施例可以用于使用协同的DWH模型和大数据存储来实时管理社会数据的混乱无序,以便评估将数据集成到报告和决策管理中的可能性。

Description

在数据仓库和大数据存储之间协同数据智能的方法和系统
技术领域
本发明一般涉及数据管理领域,并且更特别地涉及在数据仓库模型和大数据存储之间的协同数据管理和集成智能。
背景技术
数据仓库(DWH)使用业务需求和操作相关性以良好定义的架构(schema)存储数据用于数据分析。大数据可以由混乱的社会来源通过网页内容、邮件、短消息等各种方式提供,其中在这些来源当中,可能没有任何可辨别的所有权,然而,在存储需求得到满足后,对有关所述数据的更多信息的洞察会变得明显。由于位置和来源真实性、匿名化过程、内容的高度随意性、以及缺乏有计划的需求,由大数据基础设施处理的通用数据在本质上是混乱的。在明白业务的伙伴对数据重构技术和支持方法的支持不存在的情况下,建立基于关键绩效指标(KPI)的业务模型以获得对数据的更多洞察可能是相对困难的。
发明内容
根据本发明的一个实施例,提供了一种用于协同数据智能的系统,所述系统包括:数据存储和数据仓库(DWH),其中所述数据存储和所述DWH被配置成与存储管理系统通信;集成总线,其中所述集成总线包括至少一个数据分析模块;以及决策过程应用,其中所述决策过程应用包括:在处理与所述数据存储和所述DWH相关联的数据后的结果。
根据本发明的另一实施例,提供了一种用于分析数据的方法,该方法包括:由集成总线接收多个数据,其中所述集成总线包括至少一个数据分析模块;由所述集成总线从数据仓库(DWH)接收多个结构化数据;以及由所述至少一个数据分析模块执行与所述数据存储和所述DWH相关联的一组集成计算。
根据本发明的又一实施例,提供了一种用于分析数据的计算机程序产品,所述计算机程序产品包括:计算机可读存储介质和存储在计算机可读存储介质上的程序指令,所述程序指令包括:由集成总线接收多个数据的程序指令,其中所述集成总线包括至少一个数据分析模块;由所述集成总线从数据仓库(DWH)接收多个结构化数据的程序指令;以及由所述至少一个数据分析模块执行与所述数据存储和所述DWH相关联的一组集成计算的程序指令。
附图说明
图1绘出根据本发明的实施例的数据仓库(DWH)和大数据环境的功能框图;
图2绘出根据本发明的实施例,说明大数据的清晰度与可接受性的水平的象限图;
图3绘出根据本发明的实施例,说明从源数据或大量大数据文档当中的排定的基数中识别适当的序数的示图;
图4绘出根据本发明的实施例,说明在大数据和DWH之间进行的过程同步以便识别适当的校正动作的框图;
图5绘出根据本发明的实施例,由方向关系模块对数据和模型进行的方向评估的任务描述的示例;
图6绘出根据本发明的实施例的示例表格,其详述图5的对数据和模型进行的方向评估的任务描述的方法;
图7绘出根据本发明的实施例,用于支持混合数据管理任务的连接和逻辑交互的五边形网络图;以及
图8绘出根据本发明的实施例的内部和外部组件的框图。
具体实施方式
由大数据基础设施处理的大量数据往往在本质上是混乱的,从各种社会媒体和网页内容被挖掘。建立基于关键绩效指标(KPI)的业务模型以获得对该数据的更多洞察可能是相对困难的,除非系统得到明白业务的伙伴对数据重构技术和支持方法的支持,因为在没有任何另外的模型或业务洞察的情况下,该数据不会提供对该数据的含义的进一步洞察。本发明的实施例提供了使用协同的数据仓库(DWH)模型和大数据存储来实时管理社会数据的混乱无序,以便评估将数据集成到报告和决策管理中的可能性的方法和系统。
现在将参考附图详细描述本发明。图1绘出说明根据本发明的实施例的数据仓库(DWH)和大数据环境(其被一般地标为环境100)的功能框图。本领域技术人员可以在不脱离由权利要求陈述的本发明的范围的情况下,对环境100作出修改。在示例性实施例中,环境100包括非结构化内容110、结构化数据120、存储管理系统130、大数据140、数据仓库(DWH)150、集成总线160、第三方应用170、以及统一集成应用180。
非结构化内容110是通过网页内容、电子邮件、短消息等方式来自各种社会来源的提供给大数据140的混乱数据。该数据以非结构化内容的形式以不规则的容量和时间间隔被接收。结构化数据120是提供给DWH 150的来自各种来源的数据。结构化数据120是从计划的来源以排定的容量接收的经组织和控制的数据,并且可以组织成一定的架构(例如,固定的架构)以适合特定的业务模型。
存储管理系统130是与大数据140的平台146和DWH 150的数据库管理系统154通信的存储库。存储管理系统130也与集成总线160通信。存储管理系统负责维护由大数据存储(即,大数据140)和数据仓库(即,DWH 150)准备和处理的数据的物理存储。存储管理系统130由物理文件系统管理,所述物理文件系统由大数据存储和DWH提供给逻辑应用。大数据存储、DWH、第三方应用的组件以及贯穿本申请提出的方法使用存储管理系统130上的物理文件系统来保持和管理:源数据;规范化数据(normalized data);操作数据;过渡数据(transitional data);和聚合数据。用于这些目的的术语是从可适用于逻辑应用、且由逻辑应用要求的着陆(landing)、中转(staging)和存储的行业标准命名法派生的。
大数据140包括存储142、查询管理144和平台146。大数据140将接收到的数据传送给集成总线160,并把经配置的数据输出给统一集成应用180。在该示例性实施例中,由于固有的数据收集过程是作为具有基本能力的简单存储来实现的,所以对洞察的查询可能不具有业务需求的广泛性质。随着时间的推移,使缺乏挪用(appropriation)该数据所需的智能的大数据以及查询适合于业务需求。
DWH 150包括数据架构(data schema)152、数据库管理系统154和转换规则156。DWH 150接收结构化数据120,通过使用转换规则156来应用相关的业务规则和模型,通过使用数据架构152来将相关的架构应用于所述数据,并将所述数据传送给集成总线160。来自DWH 150的经配置的数据被输出给统一集成应用180。
在该示例性实施例中,第三方应用170可以包括用于高级数据或模型评估的任何附加应用组件,并且可以与集成总线160相结合地运行。在另一些实施例中,按照系统对高级数据或模型评估的需求的要求,第三方应用170可以被包含在环境100中/从环境100中排除。
统一集成应用180是在集成总线160进行数据处理后,大数据140和DWH 150的报告和/或决策输出。统一集成应用180的输出是大数据140和DWH 150之间的组合报告,其考虑了每个组件的数据处理和建模。
集成总线160包括集成/通信模块161、校正相关性模块162、数据置信度模块163、方向关系模块164、显著性模型模块165和过程配置模块166。这些模块中的每一个被配置成涵盖DWH 150和大数据140之间的集成的各方面,包括:主数据;预聚合或后聚合数据;业务参考细节;以及解释模型。
集成/通信模块161的应用是参考集成选项而被预确定的,所述集成选项可以包括SQL、NonSQL(例如,同步和异步RPC、网页服务(WebServices)、等等)以及离线数据解析。SQL和NonSQL是去往这两个平台内的特定内部块的直接接口,而离线数据解析器取决于外部数据加载管理。多样化集成的方法形成了用于数据管理挪用的通信方法。用于数据共享的连接是模型驱动的,并且由大数据140和DWH 150一起管理,其中大数据140和DWH 150都被配置成充当发送者以及接收者。
集成总线160与抢占策略(preemption policies)一起促进大数据和DWH平台(即,大数据140和DWH 150)之间的双向通信。这些双向通信都保持,并且在以下三个关键需求上是可校正的:排定的工作负荷、对沉重的数据有效载荷的高速缓存、以及同步的完整性。由于大数据140和DWH 150之间的共享的和/或协同的情景可以是以业务为中心的,所以排定的工作负荷可以包括通过及时和适当的数据可用性驱动的操作。对沉重的数据有效载荷的高速缓存可以包括如下依据(rationale):由于在大数据140和DWH 150之间处理的数据的大小可能会相当大,所以通信方法需要对传递的数据进行高速缓存的代理的支持性设立。该支持性设立可以与任一方(即,大数据140或DWH 150)的摄取能力/容量以及与需要重新设计/重新调节的工作负荷安排相一致。同步的完整性识别出:同步是一种策略控制,其对在双方(即,大数据140和DWH 150)定义的安全、集成、协议等等起作用,并且可以控制具有进行内部主数据更新以及数据聚合和洞察所必要的质量的数据的可用性。
图2绘出根据本发明的实施例,说明大数据的清晰度与可接受性的水平(即,数据置信度)的象限图。数据置信度模块163配置大数据的清晰度和可接受性的水平。到来的数据的容量提供了执行数据采样的灵活性,使得数据概况分析(data profiling)就适用性而言是适当的,并且同时,操作中的业务周期和安排(例如,每天、每周等等)所需的数据的容量也得到满足。在该示例性实施例中,用于业务挪用(business appropriation)算法的三种数据配置(data dispositions)是:频率、容量和源相关性。在组成这三种数据配置的过程中的自由度越高,在业务模型驱动的分析中就可以进行越好的数据概况分析。挪用算法是迭代的,以便选择在适应性方面具有最高水平的依据且在采样方面具有最高粒度水平的数据,以应对到来的可能并不遵循精确趋势的混乱数据。例如,如图2所示,四个象限(200、202、204和206)绘出数据的可接受性的不同水平。在该示例中,针对采样的粒度对适应性的依据进行建模。在四个绘出的象限中,象限200具有最低的采样粒度和最低的适应性依据。象限200表示数据的低频、数据的低容量以及数据的未知源,从而提供数据的整体可接受性的低水平。象限202具有比象限200更高的适应性依据水平,以及与象限200相同的采样粒度水平。象限202表示数据的高频、数据的低容量和数据的混合源(即,具有来自结构化和非结构化布置的已知和未知源的高度异质性的数据),导致数据的整体可接受性的中等水平。类似地,象限204具有数据的整体可接受性的中等水平,因为象限204表示数据的低频、数据的高容量和数据的混合源。在四个绘出的象限中,象限206具有最高水平的采样粒度和最高水平的适应性依据,从而表示数据的可接受性的最高水平,因为存在数据的高频、数据的高容量和相关数据源。
图3绘出根据本发明的实施例,说明由显著性模型模块165从源数据或大量大数据文档当中的排定的基数中识别适当的序数的框图。在该示例性实施例中,在将被应用于大数据处理的DWH 302中的KPI和业务模型上执行规则转换算法304。本领域中已知的随机和启发式方法被用于从来自大数据平台306的一组排定的基数307中识别一组适当的序数308,这使DWH业务模型能够识别源数据当中的适当性312的标称值(nominals)。
图4绘出根据本发明的实施例,说明在大数据140和DWH 150之间进行的过程同步以便识别适当的校正动作的示图。校正相关性模块162配置处于使用中的模型和数据之间的校正或适当对准(alignment)。在该示例性实施例中,校正相关性模块162对集成/通信模块161的安排(schedule)和“技术”的变化进行调节。呈现的数据400和原始数据架构402表示数据的初始状态。数据随后在过渡阶段(transition phase)通过对安排/类型应用模型404以及过程模型重构406而被处理。在对显著性模型模块165进行“量化”的周期中,当所述数据被提供用于主处理或聚合处理时,对数据处理模型的更新会实时地发生。所得的评估数据408和新数据架构410表示处于重构状态中的数据。一旦用于数据模型和过程模型(process model)两者的校正在排定的数据处理请求中被施加,模型训练是后续的活动。
图5绘出根据本发明的实施例,由方向关系模块164对数据和模型进行的方向评估的任务描述的示例。方向关系模块164配置大数据140和DWH 150之间的顺序(order)的方向,用于合成排定的数据模型使用、并应用必要的模型。在该示例性实施例中,基于作为第一要求的与数据(即,大数据140)或模型(即,DWH 150)的交互,所述关系被建模为在功能上是双向的。任务构成(task composition)是一种构造,其使用许多交互来实现数据管理需求。在该示例性实施例中,解释模型502从DWH 150被导入到大数据140。针对主数据(masters)的规范化过程(normalization process)504发生在DWH 150中,随后DWH 150分析来自大数据140的洞察506。最新近的参考上传508被发送给大数据140,并且来自社会数据的聚合510被大数据140获得、并被发送给DWH 150。DWH 150将所述数据编译为混合数据512,其创建了临时数据架构。DWH 150将结构化备份数据514发送给大数据140的存储。用于初始部署的设计可以在一段显著的运行时间内执行自动同步,以获得数据与模型的依赖性的精细粒度。在一些实施例中,全部序列或者功能构成(functional compositions)可以遵循任何个别的集成方式。
图6绘出根据本发明的实施例的示例表格600,其详述图5的对数据和模型进行的方向评估的任务描述的方法。图6绘出表格600,其针对每个子方法(即,集成/通信161、数据置信度163、显著性模型165、校正相关性162和方向关系164)对来自图5的一组任务构成(即,解释模型502、洞察506、最新近的参考上传508、社会数据510和备份数据514)的重要性进行建模。如图6的示例表格600所示,子方法“集成/通信161”对于(上面讨论的)任务构成中的每一个是“高度重要的”,因为用于数据共享的连接是模型驱动的,并且对于排定的工作负荷、沉重的数据负荷的高速缓存、和同步控制而言是可校正的(如上所述)。如在示例性的使用案例中进一步所示,子方法“数据置信度163”对于“解释模型502”和“洞察506”这样的任务构成而言是高度重要的,所述“解释模型502”和“洞察506”都在方法过程的早期发生,因为数据正被接收并被净化以用于进一步解释。“数据置信度163”子方法对于其它三个任务构成而言是最不重要的。“显著性模型165”子方法对于“解释模型502”和“洞察506”这样的任务构成而言分别是高度重要和中等重要的。类似于“数据置信度163”子方法,“显著性模型”子方法165允许在为报告和洞察进行的净化和成形过程中识别数据的适当性,因此,当大数据来到系统中时,它是最重要的,并且对于“最新近的参考上传508”、“社会数据510”和“备份数据514”这样的任务构成而言几乎没有用。“校正相关性”子方法162遵循与“显著性模型”子方法165相似的模式。在数据被接收用于聚合处理时,“校正相关性”子方法162实时地处理大数据140和DWH 150的校正对准,因此对于“解释模型502”这样的任务构成而言是最重要的,对于“洞察506”而言是中等重要的,并且对于其余三个任务而言重要性很小。由于图5的任务构成基于作为第一要求的与数据(即,大数据140)或模型(即,DWH 150)的交互而遵循双向关系,所以所述任务构成中的每一个的特定方向重要性被保持,并且“方向关系”子方法164对于每个绘出的任务构成而言至少是中等重要的。
图7绘出根据本发明的实施例,用于支持混合数据管理任务的连接和逻辑交互的五边形网络图700。在该示例性实施例中,混合数据管理任务高度依赖于业务过程和工作负荷情形。任务构成跨越所有五个模块(即,161、162、163、164和165)进行互操作,其中每个任务设计可以参考数据和模型运作的使用来执行排定的数据管理活动。在单模块暗示的任何时候,为了适当的推理(reasoning)而对所有其它模块进行解释。在大数据140和DWH 150之间创建混合行为的所有必要的情形可以通过在五个派生的模块之间启用交互来实现。
在交互702中,对集成/通信模块161和方向关系模块164之间的交互进行建模。该交互表示:集成的方向是协议特定的,其中通信是为了请求和响应。然而,所述任务构成参考数据(即,大数据140)的获取或者参考模型(即,DWH 150)的训练/应用,来确定与大数据140或DWH 150的依赖性。
在交互704中,对集成/通信模块161和校正相关性模块162之间的交互进行建模。校正相关性模块162可以触发各种其他第三方应用170,其中集成协议成为强制要求以便进行通信。待评估数据可以是从其中实现数据概况分析的非常大的有效载荷。数据概况(dataprofile)可以被施加到所述模型上作为反馈以容纳更新和/或变化。
在交互706中,对集成/通信模块161和显著性模型模块165之间的交互进行建模。在该交互中,有效载荷参考对所提供数据的量化来确定,并预示遗留模型(legacy model)上的填充数据。遗留模型的规范化是最终结果,并且使用在所提供的数据当中发现系数的正确置信度的方法。
在交互708中,对集成/通信模块161和数据置信度模块163之间的交互进行建模。在该交互中,带有所需字符的数据对于如何在大数据140和DWH 150之间创建通信桥梁而言具有非常高的阈值。该流程是循环的,直到排定的操作和为获取数据而进行的推或拉被(图5中详述的)“方向关系”的方法确定。
在交互710中,对数据置信度模块163和方向关系模块164之间的交互进行建模。在该交互中,数据成熟(data maturity)基于在排定的操作当中发现标称值来执行,并且具体地工作以便通过生产或归档来创建混合数据和存储的方向。
在交互712中,对方向关系模块164和显著性模型模块165之间的交互进行建模。在该交互中,遗留模型的应用从DWH 150流到大数据140,然而,“校正相关性”的方法调用对数据或模型的必要变更,所述变更基于“方向关系”的另一方法派生物(method derivative)(即,校正相关性模块162)。
在交互714中,对校正相关性162和数据置信度模块163之间的交互进行建模。在该交互中,当DWH 150被调用以吸收大数据140时,DWH 150可以寻找对模型训练的校正,或者可以改变所述模型结构自身。DWH 150也可以在对摄入的模式(pattern)进行存储时,调用该摄入的模式的变更和对数据架构的变更。
在交互716中,对校正相关性162和方向关系164之间的交互进行建模。在该交互中,当施加校正时,影响的方向可以是朝向大数据140或朝向DWH 150,以及具体地,指向对应的应用或指向存储归档。任何变更的递送需要施加跨越这两个平台(即,大数据140和DWH150)的基于情境(context)的交互以及每个平台内的指定的可校正段(correctablesegments)。
在交互718中,对数据置信度模块163和显著性模型165之间的交互进行建模。在该交互中,参考从一组复杂的、分类的社会数据中理解的数据段来完成模型挪用。这也可以应用于DWH 150中的事实的当前和历史数据。
在交互720中,对校正相关性162和显著性模型165之间的交互进行建模。在该交互中,对校正模型以及该模型对当前可用的数据模式的适用性的评估允许对输入和数据处理进行校正调节。由于数据的混乱性质和来自输入端的数据的不断变化的业务目标,校正对数据模型是非常重要的。
图8是根据本发明的实施例的表示图1的计算机系统的计算机系统800的内部和外部组件的框图。应当理解的是,图8仅提供了一种实现的例证,并且并非暗示关于可以在其中实现不同实施例的环境的任何限制。一般来讲,在图8中示出的组件表示能够执行机器可读程序指令的任何电子设备。可以由图8所示的组件表示的计算机系统、环境和/或配置的示例包括但不限于:个人计算机系统、服务器计算机系统、瘦客户端、厚客户端、膝上型计算机系统、平板计算机系统、蜂窝电话(例如,智能电话)、多处理器系统、基于微处理器的系统、网络PC、迷你计算机系统、大型计算机系统以及包括上述系统或设备中的任一种的分布式云计算环境。
计算机系统800包括通信结构802,其提供一个或多个处理器804、存储器806、永久存储装置808、通信单元812和一个或多个输入/输出(I/O)接口814之间的通信。通信结构802可以利用设计成在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其它硬件组件之间传递数据和/或控制信息的任何架构来实现。例如,通信结构802可以用一个或多个总线来实现。
存储器806和永久存储装置808是计算机可读存储介质。在该实施例中,存储器806包括随机存取存储器(RAM)816和高速缓冲存储器818。一般来说,存储器806可以包括任何适合的易失性或非易失性计算机可读存储介质。软件被存储在永久存储装置808中用于经由存储器806中的一个或多个存储器由相应处理器804中的一个或多个执行和/或访问。
永久存储装置808可以包括例如多个磁硬盘驱动器。可替换地,或者除了磁硬盘驱动器之外,永久存储装置808可以包括一个或多个固态硬驱、半导体存储设备、只读存储器(ROM)、可擦可编程只读存储器(EPROM)、闪存存储器、或者能够存储程序指令或数字信息的任何其它计算机可读存储介质。
由永久存储装置808使用的介质也可以是可移动的。例如,可移动硬驱可以用于永久存储装置808。其它示例包括光和磁盘,拇指驱动器,以及插入驱动器中用于向也是永久存储装置808的一部分的另一计算机可读存储介质传送的智能卡。
通信单元812提供经由网络与其它计算机系统或设备的通信。在该示例性实施例中,通信单元812包括网络适配器或接口,诸如TCP/IP适配器卡、无线Wi-Fi接口卡、或者3G或4G无线接口卡、或者其它有线或无线通信链路。网络可以包括例如铜导线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。用于实践本发明的实施例的软件和数据可以通过通信单元812(例如,经由互联网、局域网或其它广域网)下载至计算设备。软件和数据可以从通信单元812被加载到永久存储装置808上。
一个或多个I/O接口814允许与可连接到计算机系统800的其他设备的数据输入和输出。例如,I/O接口814可以提供至一个或多个外部设备820(诸如键盘、计算机鼠标、触摸屏、虚拟键盘、触摸垫、指点设备或其它人类接口设备)的连接。外部设备820也可以包括便携式计算机可读存储介质,诸如拇指驱动器、便携式光或磁盘、和存储卡。I/O接口814也连接至显示器822。
显示器822提供向用户显示数据的机制,并且可以是例如计算机监视器。显示器822也可以是内含的显示器,并且可以充当触摸屏,诸如平板计算机的内置显示器。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明的各个实施例的描述已经出于举例说明的目的而被呈现,而并非旨在是无遗漏的或局限于所公开的实施例。在不脱离本发明的范围和精神的情况下,许多改型和变型对于本领域普通技术人员来说将是明显的。本文所使用的术语被选择为最佳地解释所述实施例的原理、实际应用、或者相对于在市场中发现的技术的技术改进,或者使本领域其他普通技术人员能够理解本文公开的实施例。

Claims (17)

1.一种协同数据智能系统,所述系统包括:
数据存储和数据仓库(DWH),其中所述数据存储和所述DWH被配置成与存储管理系统通信;
集成总线,其中所述集成总线包括至少一个数据分析模块;以及
决策过程应用,其中所述决策过程应用包括:在处理与所述数据存储和所述DWH相关联的数据后的结果;
存储于一个或多个计算机可读介质上的程序指令,所述程序指令由一个或多个处理器执行,用于:
由集成总线接收多个数据,其中所述集成总线包括至少一个数据分析模块;
由所述集成总线从数据仓库(DWH)接收多个结构化数据;以及
促进从DWH接收的多个结构化数据和从数据存储接收的多个数据之间的双向通信,所述双向通信保持并在排定的工作负荷、对沉重的数据有效载荷的高速缓存、以及同步的完整性需求上是可校正的;
由所述至少一个数据分析模块执行与所述数据存储和所述DWH相关联的一组集成计算的程序指令以规范化从DWH接收的多个结构化数据和从数据存储接收的多个数据;
实时更新规范化的从DWH接收的多个结构化数据和从数据存储接收的多个数据;
响应于执行与所述数据存储和所述DWH相关联的所述一组集成计算,输出决策报告,其中所述决策报告包括:与由所述至少一个数据分析模块作出的所述集成计算相关联的信息。
2.如权利要求1所述的系统,还包括:
至少一个应用,其中所述至少一个应用被配置成与所述集成总线通信。
3.如权利要求1所述的系统,其中所述至少一个数据分析模块包括:集成模块,数据可接受性模块,建模模块,校正模块,以及方向模块。
4.如权利要求1所述的系统,其中所述至少一个数据分析模块被配置成包括所述DWH和所述数据存储之间的集成的至少一个方面,以及其中所述集成的至少一个方面包括:主数据,预聚合数据,后聚合数据,业务参考细节,以及解释模型。
5.如权利要求1所述的系统,其中所述至少一个数据分析模块配置有预定的集成选项。
6.如权利要求1所述的系统,其中所述至少一个数据分析模块被配置成确定与所述数据存储相关联的数据的可接受性的水平。
7.如权利要求1所述的系统,其中所述至少一个数据分析模块被配置成从多个源数据中所包含的一组基数中识别一组序数。
8.如权利要求1所述的系统,其中所述至少一个数据分析模块被配置成识别对与所述DWH和所述数据存储相关联的经处理的数据的校正。
9.如权利要求1所述的系统,其中所述数据存储被配置成接收非结构化数据,以及其中所述非结构化数据包括:网页内容,电子邮件,和社会媒体数据。
10.如权利要求1所述的系统,其中在处理与所述数据存储和所述DWH相关联的数据后的结果包括:组合报告。
11.如权利要求1所述的系统,其中所述存储管理系统被配置成维护与所述数据存储和所述DWH相关联的数据的物理存储。
12.一种用于分析数据的方法,所述方法包括:
由集成总线从数据存储接收多个数据,其中所述集成总线包括至少一个数据分析模块;
由所述集成总线从数据仓库(DWH)接收多个结构化数据;
促进从DWH接收的多个结构化数据和从数据存储接收的多个数据之间的双向通信,所述双向通信保持并在排定的工作负荷、对沉重的数据有效载荷的高速缓存、以及同步的完整性需求上是可校正的;
由所述至少一个数据分析模块执行与所述数据存储和所述DWH相关联的一组集成计算以规范化从DWH接收的多个结构化数据和从数据存储接收的多个数据;
用于实时更新规范化的从DWH接收的多个结构化数据和从数据存储接收的多个数据;以及
用于响应于执行与所述数据存储和所述DWH相关联的所述一组集成计算,输出决策报告的程序指令,其中所述决策报告包括:与由所述至少一个数据分析模块作出的所述集成计算相关联的信息。
13.如权利要求12所述的方法,其中所述决策报告包括:来自所述数据存储和所述DWH的组合报告。
14.如权利要求12所述的方法,其中所述至少一个数据分析模块包括:集成模块,数据可接受性模块,建模模块,校正模块,以及方向模块。
15.如权利要求12所述的方法,还包括:
由所述数据存储接收非结构化数据,其中所述非结构化数据包括网页内容、电子邮件和社会媒体数据。
16.如权利要求12所述的方法,其中由所述集成总线的所述至少一个数据分析模块执行与所述数据存储和所述DWH相关联的一组集成计算包括:
由所述至少一个数据分析模块确定与所述数据存储相关联的数据的可接受性的水平;
由所述至少一个数据分析模块从多个源数据中所包含的一组基数中识别一组序数;以及
由所述至少一个数据分析模块识别对与所述DWH和所述数据存储相关联的经处理的数据的校正。
17.如权利要求12所述的方法,其中所述一组集成计算被同时执行。
CN201610183341.6A 2015-03-30 2016-03-28 在数据仓库和大数据存储之间协同数据智能的方法和系统 Active CN106021270B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/672304 2015-03-30
US14/672,304 US10127293B2 (en) 2015-03-30 2015-03-30 Collaborative data intelligence between data warehouse models and big data stores

Publications (2)

Publication Number Publication Date
CN106021270A CN106021270A (zh) 2016-10-12
CN106021270B true CN106021270B (zh) 2019-06-11

Family

ID=57017563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610183341.6A Active CN106021270B (zh) 2015-03-30 2016-03-28 在数据仓库和大数据存储之间协同数据智能的方法和系统

Country Status (2)

Country Link
US (1) US10127293B2 (zh)
CN (1) CN106021270B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10810073B2 (en) * 2017-10-23 2020-10-20 Liebherr-Werk Nenzing Gmbh Method and system for evaluation of a faulty behaviour of at least one event data generating machine and/or monitoring the regular operation of at least one event data generating machine
US11551177B2 (en) * 2020-06-29 2023-01-10 Tata Consultancy Services Limited Method and system for handling source field and key performance indicator calculation changes
CN114116920B (zh) * 2021-11-24 2022-12-30 中国电信股份有限公司 数据处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104299105A (zh) * 2014-11-02 2015-01-21 中国科学院软件研究所 一种支持复杂企业环境的信用数据管理系统及方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020029207A1 (en) 2000-02-28 2002-03-07 Hyperroll, Inc. Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein
US20040249644A1 (en) * 2003-06-06 2004-12-09 International Business Machines Corporation Method and structure for near real-time dynamic ETL (extraction, transformation, loading) processing
US20140156628A1 (en) 2005-10-26 2014-06-05 Cortica Ltd. System and method for determination of causality based on big data analysis
US20080235041A1 (en) * 2007-03-21 2008-09-25 Cashdollar Jeffrey J Enterprise data management
US20110153611A1 (en) * 2009-12-22 2011-06-23 Anil Babu Ankisettipalli Extracting data from a report document
US9396290B2 (en) 2011-06-09 2016-07-19 Cloudian Holdings, Inc. Hybrid data management system and method for managing large, varying datasets
US8949175B2 (en) 2012-04-17 2015-02-03 Turn Inc. Meta-data driven data ingestion using MapReduce framework
US20140095463A1 (en) 2012-06-06 2014-04-03 Derek Edwin Pappas Product Search Engine
US9594816B2 (en) * 2012-11-01 2017-03-14 Tata Consultancy Services Limited System and method to provide analytical processing of data in a distributed data storage systems
US20140172488A1 (en) * 2012-12-14 2014-06-19 The Mitre Corporation Synthesis of a schedule representation from a process model
US10515386B2 (en) 2013-01-15 2019-12-24 Datorama Technologies, Ltd. System and method for performing cross-platform big data analytics
US9679332B2 (en) * 2013-02-28 2017-06-13 Lg Electronics Inc. Apparatus and method for processing a multimedia commerce service
US9646262B2 (en) * 2013-06-17 2017-05-09 Purepredictive, Inc. Data intelligence using machine learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104299105A (zh) * 2014-11-02 2015-01-21 中国科学院软件研究所 一种支持复杂企业环境的信用数据管理系统及方法

Also Published As

Publication number Publication date
US20160292256A1 (en) 2016-10-06
CN106021270A (zh) 2016-10-12
US10127293B2 (en) 2018-11-13

Similar Documents

Publication Publication Date Title
Svorobej et al. Simulating fog and edge computing scenarios: An overview and research challenges
Cheng et al. Industrial cyberphysical systems: Realizing cloud-based big data infrastructures
US10713664B1 (en) Automated evaluation and reporting of microservice regulatory compliance
Hurtado Sánchez et al. Deep reinforcement learning for resource management on network slicing: A survey
CN107850882B (zh) 自动化和控制分布式数据管理系统
CN104035392B (zh) 在过程控制系统中的大数据
CN109815028A (zh) 数据同步的系统、方法、装置和计算机存储介质
CN105989275B (zh) 用于认证的方法和系统
CN106021270B (zh) 在数据仓库和大数据存储之间协同数据智能的方法和系统
JP2019193254A (ja) セマンティックゲートウェイのモデリング方法及びセマンティックゲートウェイ
CN109144969A (zh) 用于区块链网络系统的数据处理方法、装置和存储介质
DE102021209043A1 (de) Methods and apparatus to select a location of execution of a computation
DE102022202682A1 (de) Systeme, einrichtungen und verfahren zur edge-daten-priorisierung
US20220358240A1 (en) Adaptive data privacy platform
Berardi et al. When operation technology meets information technology: challenges and opportunities
Porcu et al. Demonstration of 5G solutions for smart energy grids of the future: a perspective of the Smart5Grid project
Zhang et al. Application and research of IoT architecture for End-Net-Cloud Edge computing
Nasser et al. An efficient Time-sensitive data scheduling approach for Wireless Sensor Networks in smart cities
US11178038B1 (en) Internet of things device orchestration
Ali et al. Enabling Technologies for Next-Generation Smart Cities: A Comprehensive Review and Research Directions
US20200219014A1 (en) Distributed learning using ensemble-based fusion
WO2023147131A1 (en) Auto adapting deep learning models on edge devices for audio and video
CN105871659A (zh) 新增服务器的监控方法及装置
US20180268376A1 (en) Facility management system using perspective definition metadata and method therefor
US11874899B2 (en) Automated multimodal adaptation of multimedia content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant