CN105518673A - 管理数据摄取 - Google Patents

管理数据摄取 Download PDF

Info

Publication number
CN105518673A
CN105518673A CN201480048989.1A CN201480048989A CN105518673A CN 105518673 A CN105518673 A CN 105518673A CN 201480048989 A CN201480048989 A CN 201480048989A CN 105518673 A CN105518673 A CN 105518673A
Authority
CN
China
Prior art keywords
data
raw data
format
formatted
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480048989.1A
Other languages
English (en)
Other versions
CN105518673B (zh
Inventor
Z·刘
C·C·B·麦克
Y·L·胡耶恩
周纯星
赵莉
韩志鹏
G·C·C·孙
王大锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN105518673A publication Critical patent/CN105518673A/zh
Application granted granted Critical
Publication of CN105518673B publication Critical patent/CN105518673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Abstract

一种用于管理数据摄取的方法、系统和计算机程序产品。该系统包括用于摄取原始数据的可插拔架构信道服务(例如,推送/拉取信道服务)。该系统还包括用于将所摄取的原始数据转换成公共格式(诸如例如键值对)的可插拔架构格式化器(102)。该系统还包括具有允许消费者定义所摄取的数据集合上的多个实体的功能的EAV存储(103)。因此,数据可被摄取而没有数据损失,无需定义提取逻辑,并且无需定义存储模式。

Description

管理数据摄取
相关申请的交叉引用
不适用
背景
1.背景和相关技术
计算机系统及相关技术影响社会的许多方面。的确,计算机系统处理信息的能力已转变了人们生活和工作的方式。现在,计算机系统通常执行在计算机系统出现以前人工执行的许多任务(例如,文字处理、日程安排、帐目管理等)。最近,计算机系统彼此耦合并耦合到其他电子设备以形成计算机系统及其他电子设备可在其上传输电子数据的有线和无线计算机网络。因此,许多计算任务的执行被分布在多个不同的计算机系统和/或多个不同的计算环境中。
向计算机系统提供的数据可来自任何数目的不同源,诸如例如用户输入、文件、数据库、应用、传感器等。在一些环境中,计算机系统从各种不同的域和/或垂直信息(vertical)接收(潜在地大量的)数据。数据还可被以各种不同的格式来接收。
向计算机系统提供的数据通常以提取、变换和加载(ETL)技术来访问。ETL指的是从数据源提取数据、将该数据变换成符合操作需求、并将该数据加载到最终目标的过程。ETL系统可用于集成来自多个不同的源的数据,诸如例如来自不同的供应商的数据、被主存在不同的计算机系统上的数据等等。
ETL本质上是提取并随后存储的过程。在实现ETL解决方案之前,用户先定义要将什么数据(例如,数据子集)从数据源中提取出以及将如何存储所提取的数据的模式。在ETL过程期间,定义的数据(例如,数据子集)被提取、被变换成该模式(即,模式被用于进行写)的形式并被加载到数据存储中。为了访问来自数据源的不同数据,用户必须重新定义将提取什么数据。为了改变数据如何被存储,用户必须定义新的模式。
ETL是有利地,因为它允许用户以期望格式访问数据的期望部分。然而,由于数据需要演变,因此ETL可能是麻烦的。所提取的数据和/或数据存储的每一次改变都导致ELT过程必须被重启。
简要概述
本发明涉及用于管理数据摄取的方法、系统和计算机程序产品。本发明的各方面包括摄取采用一个(例如,行)数据格式的数据,并将所摄取的数据格式化成公共格式以供存储。数据被摄取并格式化,而无需预先知道提取逻辑或存储模式。
提供该概述以便以简化形式介绍概念的选集,所述概念在以下详细描述中被进一步描述。本概述并非旨在标识出要求保护的主题的关键特征或必要特征,亦非旨在用作辅助确定要求保护的主题的范围。
本发明的附加特征和优点将在以下描述中叙述,并且其一部分根据本描述将是显而易见的,或者可通过对本发明的实践来获知。本发明的特征和优点可通过在所附权利要求书中特别指出的工具和组合来实现和获得。本发明的这些以及其它特征、优点和特征将根据以下描述和所附权利要求而变得更显而易见,或者可通过如此后阐述的对本发明的实践而获知。
附图简述
为了描述可获得本发明的上述和其它优点和特征的方式,将通过参考附图中示出的本发明的具体实现来对以上简要描述的本发明进行更具体描述。可以理解,这些附图仅描述本发明的一些实现,从而不被认为是对其范围的限制,本发明将通过使用附图用附加特征和细节来描述和说明,在附图中:
图1示出促成管理数据摄取的示例计算机体系结构。
图2示出用于管理数据摄取的示例方法的流程图。
详细描述
本发明涉及用于管理数据摄取的方法、系统和计算机程序产品。本发明的各方面包括摄取采用一个(例如,行)数据格式的数据,并将所摄取的数据格式化成公共格式以供存储。数据被摄取并格式化,而无需预先知道提取逻辑和存储模式。
本发明的各实现可包括或利用专用或通用计算机,该专用或通用计算机包括诸如举例而言一个或多个处理器和系统存储器的计算机硬件,如以下更详细讨论的。本发明范围内的各实现还包括用于承载或存储计算机可执行指令和/或数据结构的物理和其它计算机可读介质。这样的计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(设备)。承载计算机可执行指令的计算机可读介质是传输介质。`由此,作为示例而非限制,本发明的各实现可包括至少两种显著不同种类的计算机可读介质:计算机存储介质(设备)和传输介质。
计算机存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(“SSD”)(如基于RAM)、闪存、相变存储器(“PCM”)、其他类型的存储器、其他光盘存储、磁盘存储或其他磁存储设备、或可用于存储计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的任何其他介质。
“网络”被定义为使得电子数据能够在计算机系统和/或模块和/或其它电子设备之间传输的一个或多个数据链路。当信息通过网络或另一个通信连接(硬连线、无线、或者硬连线或无线的组合)传输或提供给计算机时,该计算机将该连接适当地视为传输介质。传输介质可以包括可以用来携带所需要的以计算机可执行的指令或数据结构的形式存在的程序代码装置并可以被通用或专用计算机访问的网络和/或数据链路。上述的组合应当也被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件之后,计算机可执行指令或数据结构形式的程序代码装置可从传输介质自动传输到计算机存储介质(设备)(或反之亦然)。例如,通过网络或数据链接接收到的计算机可执行指令或数据结构可被缓存在网络接口模块(例如,“NIC”)内的RAM中,然后最终被传输到计算机系统RAM和/或计算机系统处的较不易失性的计算机存储介质(设备)。因而,应当理解,计算机存储介质(设备)可被包括在还利用(甚至主要利用)传输介质的计算机系统组件中。
计算机可执行指令例如包括,当在处理器处执行时使通用计算机、专用计算机、或专用处理设备执行某一功能或某组功能的指令和数据。计算机可执行指令可以是例如二进制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述特征或动作。相反,上述特征和动作是作为实现权利要求的示例形式而公开的。
本领域的技术人员将理解,本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践,这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、平板、寻呼机、路由器、交换机等等。本发明也可在其中通过网络链接(或者通过硬连线数据链路、无线数据链路,或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务的分布式系统环境中实施。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备二者中。
本发明还可以在云计算环境中实现。在该描述和下面的权利要求书中,“云计算”被定义为用于允许对可配置计算资源的共享池的按需网络访问的模型。例如,云计算可被用于市场,以便提供对可配置计算资源的共享池的普遍存在且方便的按需访问。可配置计算资源的共享池可经由虚拟化而被快速地供应,并可利用低管理努力或服务提供商干预来发布,并随后因此被缩放。
云计算模型可由各种特性组成,诸如按需自服务、广泛网络访问、资源池、快速灵活性、测定的服务等。云计算模型还可形成各种服务模型,诸如例如软件即服务(SaaS)、平台即服务(PaaS)以及基础结构即服务(IaaS)。云计算模型还可以使用不同的部署模型来部署,诸如私有云、社区云、公共云和混合云等。在本说明书和权利要求中,“云计算环境”是在其中部署了云计算的环境。
图1示出了促成管理数据摄取的示例计算机体系结构100。参考图1,计算机体系结构100包括信道101、格式化器102、EAV存储103、丰富服务104、数据源106、107和108、数据消费者141和应用142。信道101、格式化器102、EAV存储103、丰富服务104、数据源106、107和108、数据消费者141和应用142中的每一者可通过诸如例如局域网(“LAN”)、广域网(“WAN”)和甚至因特网之类的网络(或作为网络的一部分)彼此连接。因此,信道101、格式化器102、EAV存储103、丰富服务104、数据源106、107和108、数据消费者141和应用142中的每一者以及任何其它连接的计算机系统及其组件都可以创建消息相关数据并通过网络交换与消息相关数据(例如,网际协议(“IP”)数据报和利用IP数据报的其它更高层协议,诸如传输控制协议(“TCP”)、超文本传输协议(“HTTP”)、简单邮件传输协议(“SMTP”)等,或者使用其他非数据报协议)。
各种不同的数据源可提供原始数据以供摄取。如所描绘的,数据源106、107、108等可将原始数据提供给信道101以供摄取。数据源可以是和/或包括各种不同的组件,诸如例如数据库、文件、web服务、应用等。
每一数据源都可提供采用指定的原始数据格式(例如,可扩展标记语言(XML)、逗号(或字符)分隔值(CSV)、丰富站点摘要(RSS)、超文本标记语言(HTML)、传感器数据格式、数据库数据格式等)的原始数据。例如,数据源106、107、108可分别提供采用格式112、114和117的原始数据。原始数据格式在各数据源之间可不同。例如,格式112、114和117中的每一者可彼此不同。甚至当数据源的原始数据格式相似(或相同)时,原始数据仍可使用不同的访问机制(例如,协议和/或安全上下文)来提供。原始数据可使用基于批量、基于消息或甚至基于事件的机制来提供。
信道101可包括定义将如何访问数据源的推送/拉取信道。信道可定义用于数据源访问的访问机制。访问机制可包括用于数据源访问的协议(诸如例如超文本传输协议(HTTP)、文件传输协议(FTP)等)和/或安全上下文。不同的信道可利用与相应的一个(或多个)数据源匹配的不同协议和/或安全上下文。每一适配器可被配置用于协议和安全上下文的(例如,不同)组合。如所描绘的,信道101利用适配器121、122、123等。适配器121、122、123等中的每一者可被配置成摄取使用协议和安全上下文的特定组合(或其他设置)来传输的原始数据。由此,随着进一步的技术被开发,可添加针对新的协议和/或安全上下文的适配器。
格式化器102被配置成将原始数据格式化成公共格式以供存储在EAV(实体属性值)存储103中。格式化器102可利用不同的插件来将不同的原始数据格式格式化成公共格式。每一格式化插件都可被配置成理解如何摄取采用特定原始数据格式的原始数据并将该原始数据格式化成公共格式。
如所描绘的,格式化器102利用格式化插件124、126和127。格式化插件124、126和127中的每一者可被配置成将特定原始数据格式(诸如,XML、CSV等)的数据格式化成公共格式。格式化器102可将已被格式化成公共格式的数据存储在EAV存储103中。在一方面,公共格式包括(或者是)键值对。格式化器102可将键值对存储在EAV存储103中的EAV集合中。
丰富服务104可丰富存储在EAV存储104中的数据。丰富服务可利用不同的丰富插件来连接到不同的外部数据丰富服务。每一丰富插件都可被配置成理解来自特定外部数据丰富服务的丰富数据。在一方面,丰富服务104还被配置成将丰富数据格式化成公共格式以供存储在EAV存储103中。数据丰富可包括用于填充EAV存储103中的丢失数据的数据扩增。数据丰富还可包括具有其他数据(诸如,地理数据、人口统计学数据、行为数据、人口普查数据等)的补充数据(例如,EAV集合)。
如所描绘的,丰富服务利用丰富插件133和134。丰富插件133和134中的每一者都可被配置成访问针对特定外部数据丰富服务的丰富数据。丰富服务104可将所访问的丰富数据格式化成公共格式(例如,键值对)以供与所摄取的原始数据一起存储在EAV存储103中。
数据消费者可通过从存储在EAV存储103中的数据中挑选属性来定义对实体(诸如例如实体143和144)的兴趣。在一方面,数据消费者从存储在EAV存储103中的EAV集合中选择属性。应用可随后使用定义的实体来实现数据检索。例如,应用142可使用实体144来从EAV存储103中检索数据。
对象表131和模式表132可分别被用来存储与定义的实体相关联的存储对象和模式。
图2示出了用于管理数据摄取的示例方法200的流程图。方法200将参考计算机架构100的组件和数据来描述。
方法200包括接收来自数据源的原始数据,该原始数据采用原始数据格式(201)。例如,适配器121可接收来自数据源106的数据111。数据111可以是采用格式112的原始数据。方法200包括摄取采用原始数据格式的原始数据、摄取原始数据包括使用可插拔信道适配器,该可插拔信道适配器被配置用于与数据源相关联的协议和安全上下文(202)。例如,信道101和适配器121可互操作以摄取数据111。适配器121可被配置用于与数据源106相关联的协议和安全上下文。
信道101可将(采用格式112的)数据111发送给格式化插件124。格式化插件124可被配置成理解如何摄取采用格式112的数据。
方法200包括使用被配置成理解原始数据格式的格式化插件将原始数据格式化成经格式化的数据,经格式化数据采用包括键值对在内的公共格式(203)。例如,格式化器102和格式化插件124可互操作以将数据111格式化成格式109。格式109可以是EAV存储103所使用的公共格式,并且可包括键值对。方法200包括将经格式化的数据存储在实体属性值存储中,该实体属性值存储包括从一个或多个其他原始数据格式被格式化成公共格式的其他数据(204)。例如,格式化器102可将(采用格式109的)数据111存储在EAV存储103中。数据111可与从一个或多个其他原始数据格式(例如,格式114、117等)被格式化成格式109的其他数据一起存储。数据111可被存储成EAV集合。
来自其他数据源的数据可被类似地摄取、格式化和存储。例如,适配器122可接收来自数据源107的数据113。数据113可以是采用格式114的原始数据。信道101和适配器122可互操作以摄取数据113。适配器123可被配置用于与数据源107相关联的协议和安全上下文。信道101可将(采用格式114的)数据113发送给格式化插件126。格式化插件126可被配置成理解如何摄取采用格式114的数据。
格式化器102和插件126可互操作以将数据114格式化成格式109。格式化器102可将(采用格式109的)数据113存储在EAV存储103中。数据113可与数据111以及从一个或多个其他原始数据格式(例如,格式117等)被格式化成格式109的其他数据一起存储。数据113可被存储成EAV集合。
类似地,适配器123可接收来自数据源108的数据116。数据116可以是采用格式117的原始数据。信道101和适配器123可互操作以摄取数据117。适配器123可被配置用于与数据源108相关联的协议和安全上下文。信道101可将(采用格式117的)数据116发送给格式化插件127。格式化插件127可被配置成理解如何摄取采用格式117的数据。
格式化器102和格式化插件127可互操作以将数据116格式化成格式109。格式化器102可将(采用格式109的)数据116存储在EAV存储103中。数据116可与数据111、数据113以及从一个或多个其他原始数据格式被格式化成格式109的其他数据一起存储。数据116可被存储成EAV集合。
来自多个不同的数据源的数据可被串行或并行地摄取、格式化和存储。对来自不同源的数据的摄取、格式化和存储可发生在相同时间或不同时间。数据摄取可以是持续过程,因为可在数据源处获得新数据。
如所描述的,数据消费者可通过从EAV集合中选择的属性来定义对各实体的兴趣。例如,数据消费者141可从存储在EAV存储103中的EAV集合中选择属性以定义对实体144的兴趣。属性可从各种不同的EAV集合(包括基于来自不同数据源的数据的EAV集合)中选择出。例如,数据消费者141可从基于数据111、113和116的多个EAV集合中选择属性以定义实体144。
与定义实体相关联地,消费者141可定义一个或多个对象和/或一个或多个模式以在读取时间应用于数据。定义的对象和模式可分别被存储在对象表131和模式表132中。
应用142可随后利用实体144来从EAV存储103中检索数据。例如,应用142可检索(读取)与消费者141所选的属性相关联的数据。数据可根据为实体144定义的对象和模式被从EAV存储103递送到应用142。
数据消费者141(或某个其他数据消费者)还可从EAV集合中选择(例如,不同的)属性以定义实体143。与实体143相关联的对象和模式也可被定义并被存储在合适的表格中。
由此,本发明的各方面包括用于摄取原始数据的可插拔架构信道服务(例如,推送/拉取信道服务)。本发明的各方面还包括用于将所摄取的原始数据转换成公共格式(诸如例如键值对)的可插拔架构格式化器。本发明的各方面还包括具有允许消费者定义所摄取的数据集合上的(以及跨越所摄取的数据集合)的多个实体的功能的EAV存储。
因此,数据可被摄取而没有数据损失,无需定义提取逻辑,并且无需定义存储模式。实体可由数据消费者定义并在读取时间期间应用(而不是在写入时间期间应用的预定义数据实体)。
由此,实体可加载其知晓的任何数据,并且还对加载将来获悉的其他数据保持灵活。实体还可适于演进的数据需求,因为各实体可被定义及被重新定义成访问来自EAV存储的数据而无需从数据源加载更多的数据。
本发明可以按其它具体形式来实现,而不背离其精神或本质特征。所描述的实现在所有方面都应被认为仅是说明性而非限制性的。从而,本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的所有改变应被权利要求书的范围所涵盖。

Claims (15)

1.一种在计算机系统处的用于管理数据摄取的方法,所述方法包括:
接收来自数据源的原始数据,所述原始数据采用原始数据格式;
摄取采用所述原始数据格式的所述原始数据,摄取所述原始数据包括使用可插拔信道适配器,所述可插拔信道适配器被配置用于与所述数据源相关联的访问机制和安全上下文;
使用被配置成理解所述原始数据格式的格式化插件将所述原始数据格式化成经格式化数据,所述经格式化数据采用包括键值对在内的公共格式;
将所述经格式化数据存储在实体属性值存储中,所述实体属性值存储包括从一个或多个其他原始数据格式被格式化成所述公共格式的其他数据。
2.如权利要求1所述的方法,其特征在于,进一步包括:
接收来自第二数据源的第二原始数据,所述第二原始数据采用第二不同的原始数据格式;
摄取采用所述第二原始数据格式的所述第二原始数据,摄取所述第二原始数据包括使用可插拔信道适配器,所述可插拔信道适配器被配置用于与所述第二数据源相关联的访问机制和安全上下文;
使用被配置成理解所述第二原始数据格式的第二格式化插件将所述第二原始数据格式化成第二经格式化数据,所述第二经格式化数据采用包括键值对在内的所述公共格式;以及
将所述第二经格式化数据与所述经格式化数据一起存储在所述实体属性值存储中。
3.如权利要求2所述的方法,其特征在于,所述第一原始数据格式为可扩展标记语言(XML),并且所述第二原始数据格式为字符分隔值(CSV)。
4.如权利要求1所述的方法,其特征在于,将所述格式化数据存储在实体属性值存储中包括将所述格式化数据存储在实体属性值集合中,所述实体属性值存储包括被存储成多个其他实体属性值数据集合的其他数据。
5.如权利要求4所述的方法,其特征在于,进一步包括使用可插拔丰富服务来丰富所述实体属性值集合。
6.如权利要求4所述的方法,其特征在于,进一步包括:
接收对跨越一个或多个实体属性值数据集合的属性的消费者选择;以及
基于所选的属性来定义所述消费者感兴趣的一个或多个实体。
7.如权利要求6所述的方法,其特征在于,定义所述消费者感兴趣的一个或多个实体包括制定定义所述一个或多个实体的数据布局的一个或多个模式。
8.如权利要求7所述的方法,其特征在于,进一步包括:
接收对与从所定义的一个或多个感兴趣的实体中选择的至少一个感兴趣的实体相关联的数据的应用请求;以及
根据所述一个或多个模式将所请求的数据返回给所述应用。
9.一种供在计算机系统处使用的计算机程序产品,所述计算机程序产品用于实现一种用于管理数据摄取的方法,所述计算机程序产品包括其上存储有计算机可执行指令的一个或多个计算机存储介质,所述指令当在处理器处被执行时使得所述计算机系统执行所述方法,所述方法包括以下动作:
接收来自数据源的原始数据,所述原始数据采用原始数据格式;
摄取采用所述原始数据格式的所述原始数据,摄取所述原始数据包括使用可插拔信道适配器,所述可插拔信道适配器被配置用于与所述数据源相关联的访问机制和安全上下文;
使用被配置成理解所述原始数据格式的格式化插件将所述原始数据格式化成经格式化数据,所述经格式化数据采用包括键值对在内的公共格式;以及
将所述经格式化数据存储在实体属性值存储中,所述实体属性值存储包括从一个或多个其他原始数据格式被格式化成所述公共格式的其他数据。
10.如权利要求9所述的计算机程序产品,其特征在于,进一步包括在被执行时使所述计算机系统执行以下动作的计算机可执行指令:
接收来自第二数据源的第二原始数据,所述第二原始数据采用第二不同的原始数据格式;
摄取采用所述第二原始数据格式的所述第二原始数据,摄取所述第二原始数据包括使用可插拔信道适配器,所述可插拔信道适配器被配置用于与所述第二数据源相关联的访问机制和安全上下文;
使用被配置成理解所述第二原始数据格式的第二格式化插件将所述第二原始数据格式化成第二经格式化数据,所述第二经格式化数据采用包括键值对在内的所述公共格式;以及
将所述第二经格式化数据与所述经格式化数据一起存储在所述实体属性值存储中。
11.如权利要求9所述的计算机程序产品,其特征在于,在被执行时使得所述计算机系统将所述格式化数据存储在实体属性值存储中的计算机可执行指令包括在被执行时使得所述计算机系统将所述格式化数据存储在实体属性值集合中的计算机可执行指令,所述实体属性值存储包括被存储成多个其他实体属性值数据集合的其他数据。
12.如权利要求11所述的计算机程序产品,其特征在于,进一步包括在被执行时使得所述计算机系统执行以下动作的计算机可执行指令:
接收对跨越一个或多个实体属性值数据集合的属性的消费者选择;以及
基于所选的属性来定义所述消费者感兴趣的一个或多个实体。
13.一种计算机系统,所述计算机系统包括:
一个或多个处理器;
系统存储器;
用于存储采用公共格式的数据的实体属性值(EAV)存储,所述公共格式包括键值对;以及
一个或多个计算机存储设备,所述一个或多个计算机存储设备具有存储在其上的表示一个或多个信道及格式化器的计算机可执行指令,所述一个或多个信道被配置成:
接收来自数据源的原始数据,所述原始数据采用原始数据格式;以及
摄取采用所述原始数据格式的所述原始数据,摄取所述原始数据包括使用可插拔信道适配器,所述可插拔信道适配器被配置用于与所述数据源相关联的访问机制和安全上下文;以及其中所述格式化器被配置成:
使用被配置成理解所述原始数据格式的格式化插件将所述原始数据格式化成经格式化数据,所述经格式化数据采用所述公共格式;以及
将所述经格式化数据存储在所述实体属性值(EAV)存储中,所述实体属性值(EAV)存储包括从一个或多个其他原始数据格式被格式化成所述公共格式的其他数据。
14.如权利要求13所述的计算机系统,其特征在于,所述一个或多个信道还被配置成:
接收来自第二数据源的第二原始数据,所述第二原始数据采用第二不同的原始数据格式;
摄取采用所述第二原始数据格式的所述第二原始数据,摄取所述第二原始数据包括使用可插拔信道适配器,所述可插拔信道适配器被配置用于与所述第二数据源相关联的访问机制和安全上下文;以及
其中所述格式化器还被配置成:
使用被配置成理解所述第二原始数据格式的第二格式化插件将所述第二原始数据格式化成第二经格式化数据,所述第二经格式化数据采用所述公共格式;以及
将所述第二经格式化数据与所述经格式化数据一起存储在所述实体属性值(EAV)存储中。
15.如权利要求13所述的计算机系统,其特征在于,所述一个或多个信道被配置成将所述格式化数据存储在实体属性值(EAV)存储中包括所述一个或多个信道被配置成将所述格式化数据存储在实体属性值(EAV)集合中,所述实体属性值(EAV)存储包括被存储成多个其他实体属性值(EAV)集合的其他数据。
CN201480048989.1A 2014-07-15 2014-07-15 管理数据摄取 Active CN105518673B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/082215 WO2016008090A1 (en) 2014-07-15 2014-07-15 Managing data ingestion

Publications (2)

Publication Number Publication Date
CN105518673A true CN105518673A (zh) 2016-04-20
CN105518673B CN105518673B (zh) 2020-07-07

Family

ID=55074751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480048989.1A Active CN105518673B (zh) 2014-07-15 2014-07-15 管理数据摄取

Country Status (5)

Country Link
US (1) US9870411B2 (zh)
EP (1) EP3170099A4 (zh)
CN (1) CN105518673B (zh)
BR (1) BR112017000661A2 (zh)
WO (1) WO2016008090A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109997110A (zh) * 2016-11-28 2019-07-09 微软技术许可有限责任公司 用于增强设备流的可插拔组件

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275476B2 (en) * 2014-12-22 2019-04-30 Verizon Patent And Licensing Inc. Machine to machine data aggregator
US11334601B2 (en) * 2015-10-23 2022-05-17 Oracle International Corporation Unified data model
US10078537B1 (en) 2016-06-29 2018-09-18 EMC IP Holding Company LLC Analytics platform and associated controller for automated deployment of analytics workspaces
US11055303B2 (en) 2016-06-29 2021-07-06 EMC IP Holding Company LLC Ingestion manager for analytics platform
US10521442B1 (en) * 2016-09-16 2019-12-31 EMC IP Holding Company LLC Hierarchical value-based governance architecture for enterprise data assets
US11372992B2 (en) * 2018-07-19 2022-06-28 Bank Of Montreal System, methods, and devices for data storage and processing with identity management
CA3050220A1 (en) * 2018-07-19 2020-01-19 Bank Of Montreal Systems and methods for data storage and processing
US20230004984A1 (en) * 2021-06-30 2023-01-05 Optx Solutions, Llc Operations platform for managing services at a property

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5010478A (en) * 1986-04-11 1991-04-23 Deran Roger L Entity-attribute value database system with inverse attribute for selectively relating two different entities
WO2007005730A2 (en) * 2005-07-05 2007-01-11 Clarabridge, Inc. System and method of making unstructured data available to structured data analysis tools
CN101980213A (zh) * 2010-11-23 2011-02-23 中国科学院软件研究所 一种基于j2ee的数据持久化方法及系统
CN102360370A (zh) * 2011-09-29 2012-02-22 迈普通信技术股份有限公司 数据集中管理系统及方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184401A1 (en) * 2000-10-20 2002-12-05 Kadel Richard William Extensible information system
US7243108B1 (en) * 2001-10-14 2007-07-10 Frank Jas Database component packet manager
US20040249644A1 (en) * 2003-06-06 2004-12-09 International Business Machines Corporation Method and structure for near real-time dynamic ETL (extraction, transformation, loading) processing
US7979793B2 (en) * 2007-09-28 2011-07-12 Microsoft Corporation Graphical creation of a document conversion template
US8489578B2 (en) * 2008-10-20 2013-07-16 International Business Machines Corporation System and method for administering data ingesters using taxonomy based filtering rules
US9383970B2 (en) * 2009-08-13 2016-07-05 Microsoft Technology Licensing, Llc Distributed analytics platform
US8290926B2 (en) * 2010-01-21 2012-10-16 Microsoft Corporation Scalable topical aggregation of data feeds
US20130124545A1 (en) * 2011-11-15 2013-05-16 Business Objects Software Limited System and method implementing a text analysis repository
CN104115229B (zh) * 2011-12-23 2017-03-08 英特尔公司 动态存储器性能调节
US9396037B2 (en) * 2012-02-27 2016-07-19 Microsoft Technology Licensing, Llc Model-based data pipeline system optimization
US9251180B2 (en) * 2012-05-29 2016-02-02 International Business Machines Corporation Supplementing structured information about entities with information from unstructured data sources
US9529855B2 (en) * 2013-03-15 2016-12-27 Mapquest, Inc. Systems and methods for point of interest data ingestion
CA3078018C (en) * 2013-03-15 2023-08-22 Amazon Technologies, Inc. Scalable analysis platform for semi-structured data
US9501503B2 (en) * 2013-05-09 2016-11-22 Microsoft Technology Licensing, Llc Inferring entity attribute values
US9507751B2 (en) * 2013-09-19 2016-11-29 Oracle International Corporation Managing seed data
US10061789B2 (en) * 2013-10-28 2018-08-28 Excalibur Ip, Llc Dynamic database indexes for entity attribute value stores
KR20170010747A (ko) * 2014-05-27 2017-02-01 삼성전자주식회사 어그노스틱 데이터 브로커
CN105518722A (zh) * 2014-07-15 2016-04-20 微软技术许可有限责任公司 管理数据驱动服务

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5010478A (en) * 1986-04-11 1991-04-23 Deran Roger L Entity-attribute value database system with inverse attribute for selectively relating two different entities
WO2007005730A2 (en) * 2005-07-05 2007-01-11 Clarabridge, Inc. System and method of making unstructured data available to structured data analysis tools
CN101980213A (zh) * 2010-11-23 2011-02-23 中国科学院软件研究所 一种基于j2ee的数据持久化方法及系统
CN102360370A (zh) * 2011-09-29 2012-02-22 迈普通信技术股份有限公司 数据集中管理系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109997110A (zh) * 2016-11-28 2019-07-09 微软技术许可有限责任公司 用于增强设备流的可插拔组件
CN109997110B (zh) * 2016-11-28 2022-04-26 微软技术许可有限责任公司 用于增强设备流的可插拔组件

Also Published As

Publication number Publication date
EP3170099A1 (en) 2017-05-24
US9870411B2 (en) 2018-01-16
BR112017000661A2 (pt) 2018-01-09
WO2016008090A1 (en) 2016-01-21
CN105518673B (zh) 2020-07-07
US20160019272A1 (en) 2016-01-21
EP3170099A4 (en) 2017-11-22

Similar Documents

Publication Publication Date Title
CN105518673A (zh) 管理数据摄取
CN103688250B (zh) 使用动态方案来优化数据处理
Kraska Finding the needle in the big data systems haystack
CN105955208B (zh) 一种基于云平台的网络机器人数据控制系统
US10303445B2 (en) Network service providing method and network service station using same
CN102043837A (zh) 数据整合系统和方法
CN104838373A (zh) 基于单个微控制器的多个计算节点管理
EP3279816A1 (en) Data analysis processing method, apparatus, computer device, and storage medium
CN104050248A (zh) 一种文件存储系统及存储方法
US10261877B2 (en) Systems and methods for testing mobile devices
CN105518722A (zh) 管理数据驱动服务
Copie et al. Benchmarking cloud databases for the requirements of the internet of things
CN102043836A (zh) 数据适配装置和方法
CN113177088B (zh) 一种材料辐照损伤多尺度模拟大数据管理系统
Chen et al. The research about video surveillance platform based on cloud computing
Kong et al. Design on mobile health service system based on Android platform
RU2598783C2 (ru) Система создания отчетных форм
Mitrović et al. Delivering the multiagent technology to end-users through the web
Sousa Platform for the supervision of remote systems using low cost devices
US20140047459A1 (en) Integrating software solution units
Lim et al. The CPS with the Hadoop ecosystems
Han et al. The construction of a virtual simulation training platform for computer-aided teaching and research courses
Yang et al. Dedicated interactive electronic technical manual for construction machinery based on pda and sql server ce database
US11269662B2 (en) Driving different types of user interfaces with a single backend view controller
CN107209674B (zh) 管理资产的方法以及应用该方法的资产管理系统与机器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant