CN101542478B - 提高数据仓库性能的方法和装置 - Google Patents

提高数据仓库性能的方法和装置 Download PDF

Info

Publication number
CN101542478B
CN101542478B CN2007800237797A CN200780023779A CN101542478B CN 101542478 B CN101542478 B CN 101542478B CN 2007800237797 A CN2007800237797 A CN 2007800237797A CN 200780023779 A CN200780023779 A CN 200780023779A CN 101542478 B CN101542478 B CN 101542478B
Authority
CN
China
Prior art keywords
data
file path
level catalogue
limited
data warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007800237797A
Other languages
English (en)
Other versions
CN101542478A (zh
Inventor
史提夫·拉夫达斯
道格·麦克道尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nielsen Consumer LLC
Original Assignee
Nielsen Co US LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nielsen Co US LLC filed Critical Nielsen Co US LLC
Priority to CN201210154165.5A priority Critical patent/CN102929901B/zh
Publication of CN101542478A publication Critical patent/CN101542478A/zh
Application granted granted Critical
Publication of CN101542478B publication Critical patent/CN101542478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了用于提高数据仓库性能的方法和装置。一种对从数据仓库所接收的数据进行格式化的示例方法,包括:接收分析指令,基于所述分析指令从所述数据仓库检索数据,以及将映射文件与事实表相关联,该映射文件存储在第一层级目录文件路径中。

Description

提高数据仓库性能的方法和装置
相关申请交叉引用
本申请要求2006年6月26日提交、发明名称为“Methods andApparatus for Improving Data Warehouse Performance(提高数据仓库性能的方法和装置)”的美国临时申请No.60/816,423的优先权,此处以引证的方式将其全文并入。
技术领域
本发明概要地涉及数据格式化和分析,并且尤其涉及提高数据仓库性能的方法和装置。
背景技术
各种类型数据的存储、检索和处理允许企业为了优化性能而策划新的业务计划和/或调整现有的业务计划。例如,无线电话公司可以管理存储现有用户信息和/或新用户信息的数据仓库。如果该无线公司处理这种收集到的数据,可能会发现暗示新的市场机会和/或需要恢复和/或附加服务设备的负担过重的市场的成长趋势。分析在数据仓库中存储的业务数据可以使公司将这种数据转化为企业智慧,更好地了解他们的客户,和/或基于依据经验信息而非试探法来制定各种管理决策。
非商业性组织也可以分析仓储的数据以满足各种设计目的。例如,政府和/或市政部门可以研究人口增长和/或人口流动,以为增加的使用更好地配备城市基础设施和/或服务。类似地,这种人口趋势分析能够例示所分配的预算可以从需求较少的城市项目重新拨划到与高人口增长率关系密切的更优先的项目。
数据仓库可以维持用于后序分析的数据的拷贝。数据可以包括人口数据、财务数据、商业数据、和/或行为数据,比如有线电视订阅、家庭购买行为、和/或广播节目消费。可以按各种方式存储数据仓库,包括按关系数据库、多维数据库、平面文件、层级数据库、对象数据库,等等。通常创建根据数据仓库产生的报告以揭露出对于商号、政府实体、和/或其它团体很重要的具体指标。通常,所述报告耗用限定数量的处理和存储资源,这可能导致在存储数据的规模增加时数据仓库性能下降。
而且,如果多个客户在重叠的时间里从特定数据仓库寻找报告,下降的表现能力可能导致令人不满的客户端等待时间,和/或不能以响应于客户端迅速转换需求的方式运行查询。例如,一些数据仓库可能需要多个小时的处理时间以生成给客户的报告。如果客户接下来为报告选择另一组参数,那么客户必须等待大量时间以在下一时机在超负荷的数据仓库上运行查询。在其它时间,依据数据仓库的处理量,处理时间可能降低,从而使得数据仓库管理器很难对多个客户端有效地分配和/或管理数据仓库处理时间。
附图说明
图1是例示了数据仓库系统示例的结构图。
图2是图1的示例数据仓库优化器的框图。
图3是可执行以实现图1和2的示例数据仓库优化器的机器可读指令典型示例的流程图。
图4是可执行以为图3的示例指令获取数据的机器可读指令典型示例的流程图。
图5是可执行以在图3的示例指令中处理数据的机器可读指令典型示例的流程图。
图6是提高数据仓库性能的示例数据格式器的框图。
图7是用在图1的示例系统中的示例数据仓库架构和对应的层级目录路径。
图8是可执行以组织图7的示例层级目录路径的机器可读指令典型示例的流程图。
图9是另一示例数据仓库优化器的框图。
图10是用来执行图3-5和/或图8的示例机器可读指令以实现本文描述的示例系统和/或方法的示例处理器系统的结构图。
具体实施方式
数据仓库收集关于一个或更多兴趣主题的大量信息,对兴趣主题仅举几例,例如为消费者和/或企业的消费习惯,交易数据(例如,金融市场交易,房地产交易等),人口增长信息,和/或多媒体广播收看行为。维护和控制数据仓库设施和/或提供数据存储、处理、分析、和/或报告生成服务的企业面临由这一增长带来的挑战。一般而言,由于耗用数据仓库存储容量,需要额外的处理能力和/或处理周期以分析数量越来越多的收集数据。
如本文中应用的,数据分析(处理)可以包括但不限于搜索所收集的数据参数之间的趋势,对所收集的数据执行统计功能,积累计算结果,和/或生成反映查询结果的报告给最终用户审查。数据仓库的数据处理、分析和/或存储功能竞争处理资源,从而随着收集数据的增长使数据仓库系统负担加重。
向客户提供这种存储和/或处理服务的数据仓库企业有时会试图通过向计算机服务器增加处理器、向数据仓库系统增加存储空间、和/或实施数据仓库子系统来管理客户期望。除了改变和/或更新数据仓库基础结构以改善性能之外,这些数据仓库企业也可以向他们的客户提供关于完成报告的周转时间的预先通知,以确保客户不会失望。如果客户事先知道多长时间才能拿到指定的报告,则客户期望可以与事实完全相符,从而提高客户满意度。然而,无论是否预先通知客户,过长的报告生成处理时间仍可能导致客户的不满。此外,报告生成处理时间可能会取决于一天中不同时间的利用率,这样的利用率会引起预计处理时间意外波动,从而难以准确地向客户提供预先通知。
为了适应不同的客户,数据仓库企业可以使用许多专用数据栈(datamart)。如本文中应用的,“专用数据栈”是一个或更多个集中于一个或更多个特定业务和/或主题的较小的数据库。然而,尽管存在专用数据栈的规模小于聚集的数据仓库的规模的事实,但是专用数据栈可能增长到很大的规模,从而对报告生成和其他数据库性能特点产生负面影响。
本文中描述的示例方法和装置可以用来提高数据仓库性能。总的来说,本文中示出的示例方法和装置可以由数据仓库就地使用,和/或作为应用编程接口(API)提供给一个或更多客户端,以在一个或更多个人计算机、服务器、和/或其他计算平台上运行。API可以包括图形用户界面(GUI),和/或数据仓库可以响应于简单的基于网络的报告请求向他们的客户提供全面解决方案。
图1是根据本公开的教导构造的示例数据仓库系统100的结构图。示例系统100包括馈送到数据仓库优化器104的输入的数据分析指令102。数据分析指令102可以构造为,例如,包含有关客户端目标的详细内容的可扩展标记语言(XML)文件。数据分析指令102可以以任何计算机语言编写和/或可以采取任何替换形式,如文本文件,字符分隔的文件(character delimited file),和/或可以解析为具体的数据参数、统计方法,和/或报告格式参数的二进制文件,而没有任何限制。例如,国家广播公司客户可以要求一份包含广播节目、新闻事件和/或商业收视率的收视率数据的报告。此外,该广播公司客户可能需要以统计的方式分离的子报告以确定,例如,哪个年龄组别的观众观看一个或多个特定的广播节目。并且,该广播客户可能需要这种以统计的方式分离的子报告按诸如国家、地区、州、郡、和/或城市的地理界限分离收视率信息。本领域普通技术人员将能够理解,由数据仓库存储和/或处理的数据不限于收视率信息,也可能包括任何类型的信息。例如,数据仓库信息可以包括但不限于:金融交易信息、人口统计信息、订阅服务消费信息、医疗信息、处方药的使用和/或供应信息、销售信息(例如,销售点信息)、天气信息和/或行为信息。
如下文进一步详细讨论的,所示出的示例的数据仓库优化器104与一个或更多数据仓库106、108、110通信。各数据仓库106、108、110可以包括一个或更多数据库112以存储一种或更多种类型的数据。在所例示的示例中,一个数据仓库106以通讯的方式直接连接到数据仓库优化器104。到数据仓库的直接连接可以通过一个或更多连接和/或通讯协议完成,该通讯协议包括但不限于通用串行总线(USB)通信协议和/或
Figure G2007800237797D00051
通信协议(即IEEE-1394)。此外,所示出的示例的数据仓库优化器104和数据仓库106、108、110通过诸如内联网和/或互联网的网络114以通讯的方式结合。合适的网络114连接包括但不限于:
Figure G2007800237797D00052
(以太网)通信协议、IEEE-802.11(
Figure G2007800237797D00053
)、
Figure G2007800237797D00054
(蓝牙)、900MHz、1.6GHz和/或移动通信协议(例如,CDMA、TDMA、GSM、AMPS、EDGE等)。
所示出的示例的数据仓库优化器104接收数据分析指令102,并响应于分析指令102从一个或更多个数据仓库106、108、110提取相关数据。所示出的示例的数据仓库优化器104从一个或更多数据仓库106、108、110提取(例如,复制)响应于一组给定指令102的具体数据并将所提取的数据存储到临时存储器116,而不是使每一个数据仓库106、108、110充满数据查询(获取)和统计处理。这样,数据仓库优化器104使数据仓库106、108、110免于履行复杂的统计数据处理的职责,从而允许各数据仓106、108、110把重点放在数据存储、归档、和响应于请求提供数据的任务上。存储器116可以由海量存储光、磁、和/或固态存储器来实现,可以用于存储上述的可执行API和/或从数据仓库106、108、110收集的将用于构建分块统计(block statistics)的数据,如下文进一步详细讨论的。
虽然在图1中仅示出了一个优化器104,但是本领域普通技术人员将理解,可以使用多个优化器104。所示出的示例的数据仓库优化器104在诸如个人计算机(PC)的计算机上实施。本领域普通技术人员将理解,计算机和/或计算机硬件的成本已经降低,从而使个人计算机成为专门的处理任务在成本上的明智替换物。附加地或者可替换地,数据仓库优化器104可以在包括一个或更多个硬盘驱动器以存储从数据仓库106、108、110接收的所收集数据的服务器上实施。实施优化器104的个人计算机和/或服务器可以位于或靠近数据仓库业务设施来处理客户端请求。可替换地,实施优化器104的个人计算机和/或服务器可以属于一个或更多个客户。因此,举例来说,数据仓库优化器104可以在客户端机器上作为API执行以创建和/或处理数据分析指令102。这样的API可以出售或授权给客户,和/或数据仓库公司可以向客户收取使用API的每次交易费。
在图2中更详细地示出了示例数据仓库优化器104。在该例示的示例中,数据仓库优化器104包括:通信接口202、数据检索器204、分析器206和报告生成器208。此外,示例数据检索器204包括:结构查询语言(SQL)生成器210和调度器212。如上所述,通信接口202使得能够通过专用连接、直接连接和/或诸如内联网或互联网的网络114来通信。至/从实施例数据仓库优化器104的通信可以通过网页(例如,动态服务器主页)、命令行用户界面、图形用户界面和/或信息亭发生。通信接口202可以包括一个或更多个保护措施(如防火墙)来保护数据仓库优化器104免受未经授权的使用和/或篡改的伤害。
通过通信接口202接收比如XML文件的数据分析指令102,并将其提供给数据检索器204。数据分析指令102可以包含针对所请求的报告的一个或更多参数、属性、统计和/或格式指令。例如,数据分析指令102可以指定感兴趣数据的类型和/或以下数据:应当针对特定时段(例如,日,周,月等)、特定广播节目(例如,体育比赛、电影、连续剧等)和/或特定人口群体(如儿童、青少年、成人、长者、墨西哥裔美国人、波兰裔美国人等等)从数据仓库中提取的数据。数据分析指令102也可以指定要从其检索数据的特定数据仓库106、108、110。
许多数据仓库可能包含私人的、保密的(例如,律师/客户通信,社保号码,银行帐户号码等)和/或商业敏感的数据。因此,数据分析指令102也可包含一个或更多个验证参数来控制对整个数据仓库或数据仓库的特定方面的连接和/或访问。因此,所示出的示例的数据检索器204可以调用通信接口202以建立用于数据传送的连接。数据仓库优化器104和数据仓库106、108、110之间的验证可以包括,但不限于:安全套接层(SSL)、数字证书、密码保护、加密、和/或公钥密码法。
一旦示例数据仓库优化器104连接到特定的数据仓库106、108、110,SQL生成器210可以创建针对在数据分析指令102中标识的请求数据的查询命令。在一些示例中,指令102可以将“情景喜剧”列为数据仓库优化器104分析收视率数量所针对的数据参数。类似地,指令102可以将“退休人员”列为数据仓库优化器104分析收视率数量所针对的另一项数据参数。然而,数据分析指令102与一个或更多数据仓库106、108、110之间可能不存在确切的参数术语。这样,数据检索器204可以使用例如元数据解决一个或更多数据仓库106、108、110与分析指令102之间的任何不一致。因此,例如,当示例数据分析指令102列出“情景喜剧”时,数据仓库可能改为使用名词“连续剧”。元数据在一个或更多名词之间进行术语映射,使得在数据仓库106、108、110与分析指令102之间缺乏确切的一致性不能阻碍数据处理。所示出的示例的数据检索器通过将频繁使用的替换术语与特定分析指令102(例如,XML文件)所采用的术语相关联来完成元数据分解。可替换地,数据分析指令可包括任何数目的术语名词别名以与数据仓库术语相关联,使得如果匹配分析参数与数据仓库参数的第一次尝试失败,那么可以尝试来自分析指令的替代的术语名词。
在其他示例中,数据检索器204将数据分析指令值分解为由一个或更多个数据仓库所采用的编码值。可以使用编码值而不是确切值,例如以节省存储器。例如,数据仓库可以使用从1到4的整数范围来代表四个不同的收入水平。值“1”可以代表$10,000和$20,000之间的收入阈值;值“2”可以代表$20,000和$40,000之间的收入阈值;值“3”可以代表$40,000和$70,000之间的收入阈值;值“4”可以代表超过$70,000的收入阈值。这样,数据检索器204可以在例如检索对应于1到4的特定值的条目之后,将从仓库接收的任何数据分解(即翻译)为关于适当收入阈值的收入栏。因此,举例来说,如果数据分析指令仅请求$20,000与$40,000之间的阈值收入,那么在这个示例中,数据检索器204将产生使用关联值“2”的SQL查询指令,该关联值“2”被目标数据仓库理解为有效查询输入名词。
在示出的示例中,能够构建调度器212以周期性地和/或非周期性地从一个或更多数据仓库向存储器116中复制数据分析指令102和/或构建分块统计所涉及的一些或全部数据。因此,虽然前面的示例示出了数据检索器204响应于接收数据分析指令102而从数据仓库获取数据,相关的数据仓库信息(例如,一个或更多参数、属性、统计和/或格式指令)可能作为在由调度器212调用的在先前周期性的、非周期性的和/或手动的数据获取中发生的检索结果已经存储在存储器116中。因而,可能没有必要响应于给定的指令集102来查询一个或多个数据仓库。
如上文所讨论的,当国家的大部分人可能正在收看重要事件时,比如在超级杯(Super Bowl)或奥运会期间,数据仓库可能会遇到大量使用的时段。调度器212可在当这种大量使用不太可能发生的时段从数据仓库检索相关的数据(例如,为数据库的相关部分制作副本),从而确保由于负担较少的数据仓库处理器导致的更快的查询响应时间。类似地,数据仓库的活动可能在清晨的时间较低。因此,调度器212可以被配置为每天,例如在凌晨2:00获取(例如,制作副本)数据仓库的一个或更多部分。
在完成从一个或更多数据仓库106、108、110中提取数据并存储到存储器116之后,数据仓库优化器104可以调用分析器206来参照数据分析指令102处理数据。可以通过数据仓库优化器104执行数据分析,而不是通过要由数据仓库106、108、110的一个或更多处理器执行的SQL命令/指令来调用数据分析。优化器104可以以任何所需的计算机语言编程。本领域普通技术人员将理解,Java程序是独立平台并且可能比其他以SQL脚本实现的程序执行得更快。因此,Java特别适合用于实施部分或全部的优化器104。
所示出的示例的数据仓库优化器104特别适合于企业智慧(BI)报告应用。所示出的示例的优化器104能够在数据仓库106、108、110的数据库112和/或在存储器116中的数据上直接执行统计计算。当数据分析指令102的报告需求变得更加复杂并且数据库112的数据集很大时,基于SQL的方案变得越来越效率低下和繁琐。不同于通过使用数据仓库优化器104实现的简单的SQL提取命令,基于SQL的计算通常需要执行相对缓慢的多道SQL和临时表格。此外,由于从数据仓库106、108、110提取的数据集中于由数据分析指令102所确定的客户特定目标,所以通过数据仓库优化器104的所述数据的后序数据处理执行得较快,这是因为要分类的非相关数据较少。
所示出的示例的分析器206通过处理构建分块统计(本文中也称为一次统计)开始数据分析。一般来说,初级/构建分块统计可以包括基于来自数据仓库106、108、110的直接可用数据的一个或更多计算。另一方面,综合统计(本文中也称为二次统计)可以部分地基于由一次统计所获得的结果和/或来自数据仓库106、108、110的附加数据来计算。构建分块统计可以通过多阶段处理来生成。举例来说,一个或更多个分组和组织的初步阶段使得后序的综合统计计算成为可能。例如,构建分块统计可以包括,但不限于:观看特定广播节目的观众总数,全国范围的广播节目收视率直方图,广播节目在各州的平均收视率等。如上文所讨论的,虽然本文中示出的示例特别针对广播节目和/或收视率,但是本文中描述的系统,方法和装置可以不限于此而应用于任何类型的数据仓库主题事项。构建分块统计还可以包括信息的离散桶(discrete buckets)和包含于其中的一个或更多个子群的分类。例如,可以根据所收集的数据来计算“人口统计”类型的桶。对于任何特定的数据样本大小,比如某一天,多天,周,和/或月,人口统计桶可以包含不同的人口统计子群。例如,周末期间的数据样本可能包括具有相对更大比例的成年男性在下午时段观看电视节目的人口统计桶。作为另一个示例,工作日期间的数据样本可能包括具有相对更大比例的40-60岁的妇女在下午时段观看电视节目的人口统计桶。
元数据还允许数据仓库优化器104确定从数据仓库106、108、110获得哪些数据。在一些示例中,元数据包含有事实和星型架构的维度之间的关系。这种关系允许示例数据检索器204的SQL生成器210生成适当的基于SQL的提取命令。在另一个示例中,数据仓库优化器104通过分析器206检查按照数据分析指令102生成的综合统计。此外,元数据可以基于所请求的综合统计确定计算综合统计需要哪些构建分块统计。
另一方面,综合统计可以使用一些或全部的构建分块统计。这种综合统计可以在构建分块阶段之后的一个或更多处理阶段期间由所示出的示例的分析器206来计算。例如,综合统计可以包括确定在$70,000或以上的收入阈值中在工作日观看电视的40-60岁妇女的百分比。在这一示例中,综合统计基于下述内容的分块统计:(1)40-60岁的妇女,以及(2)有$70,000或以上收入的妇女。在其它示例中,综合统计可以包括确定在给定的周末期间成年男性观看足球对奥运会的相对百分比收视率。这种综合统计可以基于一个或更多个构建分块统计。
所示出的示例的报告生成器208利用在数据分析指令102中指定的报告格式参数和/或默认参数向客户端提供处理后的数据结果。可以按一种或更多种格式提供报告,包括但不限于:制表符分隔文件、电子表格、图表、直方图、饼形图和/或趋势分析曲线。所示出的示例的报告生成器208可以附加地或可替换地调用通信接口202的网络服务器以成网络浏览器可见格式的这种报告信息。
在图3至图5中示出了可被执行以实现图1和/或图2的示例数据仓库优化器104的示例机器可读指令的典型流程图。在这些示例中,由各个流程图表示的机器可读指令可以包含由以下执行的一个或更多程序:(a)处理器,如图10(b)中的处理器1012,(b)控制器,和/或(c)任何其它适合的设备。所述一个或更多程序能够具体表现为:存储于例如存储器116(见图1)的有形介质上的软件,但是本领域普通技术人员将容易理解,另外一个或多个程序的全部和/或他们的一部分能够由除处理器1012以外的设备执行和/或实施为固件或专用硬件(例如,利用专用集成电路(ASIC)、可编程逻辑器件(PLD),现场可编程逻辑器件(FPLD)、离散逻辑等来实施)。例如,能够用软件、硬件和/或固件的任意组合实施处理器1012、I/O控制器1012、存储器控制器1020和/或网络接口1030。并且,由图3到图5的流程图表示的部分或全部块可以手动地实施。此外,尽管参照图3到图5的流程图描述了示例机器可读指令,但是本领域普通技术人员将容易理解,另外也能够使用实现本文中描述的示例方法和装置的许多其它技术。例如,参照图3到图5的流程图,可以改变块的执行顺序,和/或可以将所描述的一些块改变、去掉、组合和/或再分割为多个块。
参见图3,数据仓库优化器104的通信接口202可以接收例如文本文件、二进制文件、XML文件、或其它指令格式的形式的分析指令102(块302)。如果分析指令102需要来自一个或更多数据仓库的数据(块304),那么数据仓库优化器104的SQL生成器210和数据检索器204从所述仓库获取相关数据(块306),如下文参照图4所讨论的。如果分析指令102仅需要本地存储的数据(例如,由调度器212从仓库预先检索的数据)(块304),那么数据仓库优化器104的分析器206处理存储在本地存储器116中的数据(块308)。
如果通过数据仓库优化器104没有接收到分析指令102(块302),那么数据仓库优化器104的调度器212确定是否已经达到预定的获取时间(块310)。如上文所讨论的,在(完整地或部分地)实施数据仓库的示例中,调度器212可以被配置为每天凌晨2:00查询和获取在仓库的相关部分中发现的任何新数据的拷贝(块306)。如果获取时间还没有发生(块310),那么控制返回块302。如果获取时间已经发生(块310),调用请求对应的相关数据的请求(块312)。
返回块308,在已经按照分析指令102处理数据(块308,如参照图5进一步讨论的)之后,报告生成器208为客户端生成报告(块314)。然后控制返回块302。
图4是例示了实现图3的块306和312的示例方式的流程图。如果所提供的指令指定了一个或多个特定的数据仓库(块402),那么通信接口202通过验证协议与那些数据仓库106、108、110建立连接(块404)。另一方面,如果分析指令102未标识一个或更多特定的数据仓库(块402),那么处理306可以用本地存储器116中的数据继续进行和/或数据检索器204可以从已知包含与所述指令有关的数据的一个或更多数据仓库连接、验证、和/或获取数据(块406)。如上文所讨论的,因为数据仓库106、108、110可以采用与分析指令102所采用的术语不同的参数术语,所以数据检索器204可以通过元数据解决这种差异(块408)。然后将由SQL生成器210产生的查询发送到远程和/或本地数据源(例如,本地存储器116和/或一个或更多仓库106、108、110)(块409)。然后将由数据源返回的数据存储在存储器116中的数据工作文件中(块410),其可以包含一个或更多参数数据、一个或更多属性、一个或更多统计、一个或更多构建分块统计、和/或一个或更多格式指令。
图5是例示了实施图3的块308的示例方式的流程图。如上文所讨论的,数据分析指令102可以包括使用从数据仓库106、108、110提取的数据计算的一个或更多统计公式。可替换地,分析器206可以包括默认公式。分析器206检索在图4的块410存储的工作文件并生成要根据分析指令102处理的任何构建分块统计(块502)。为了以后的使用,可以将这种构建分块统计存储在存储器116中。然后分析器206参照所接收的目标参数处理构建分块统计(块504)。可以将构建分块统计用作一个或更多其它统计计算的基础,该一个或更多其它统计计算涉及在存储器116中存储的所获取的数据的目标参数的更大复杂性、附加组合、和/或交错置换。这样,可以按一个或更多批次/分组计算构建分块统计。一旦完成在分析指令102中标识的任何一个特定的构建分块统计,分析器206确定分析指令102是否包括附加的构建分块统计指令(块506)。如果要计算更多的构建分块统计,则控制返回块502。否则,分析器206从分析指令102和/或从与分析器206相关联的默认指令中(例如,从XML文件中)检索综合统计指令(块508)。
如上文所讨论的,可以通过使用较早计算的构建分块统计来部分地计算综合统计。分析器206参照目标参数和/或先前计算的构建分块统计结果来处理这种综合统计(块510)。与构建分块统计很相像,可以按一个或更多批次和/或分组计算综合统计。一旦完成任何一个特定的综合统计指令,分析器确定分析指令是否包括附加的综合统计指令(块512)。如果要计算更多的综合统计指令,那么处理控制返回块508。
除了以基于SQL的方式进行复杂的统计计算、分类和/或分组的传统BI报告方法之外,采用所示出的示例的数据仓库优化器104允许高度扩展的其它选择。数据仓库106、108、110通常为昂贵的整体式服务器,其需要大量的费用升级。鉴于上述披露的数据检索、分组和统计计算的方案,更便宜的PC可能会被以可扩展方式来使用以比现有技术更快地生成客户端报告。本领域普通技术人员将理解,可以使用其他的编程语言来实施数据仓库优化器104的全体或部分。这种编程语言可能包括,但不限于:ASNI、C、C++和/或C#。
为了更有效地存储和访问从一个或更多个仓库获得的数据,示例系统还可以设置有数据格式器600,如图6中所示。示例数据格式器600可实现为图2的数据检索器204的一部分,和/或作为数据仓库优化器104的单独模块来工作。不限于此,示例数据格式器600可以与数据仓库优化器104完全地分离,和/或在将数据仓库106、108、110信息存储到存储器116之前对数据仓库106、108、110信息执行数据格式化技术。
图6的示例数据格式器600包括:通信接口602(或可以共享图2的通信接口202)、调度器604(其可以是图2的调度器212)、数据仓库提取器606、组织器608,压缩引擎610和存储器612。存储器612可以在示例数据格式器600外部,可以访问图1中所示的示例存储器116,和/或可以由存储器116来实施。
通信接口602以类似于图2的通信接口202的方式工作。例如,通信接口602使数据格式器600与一个或更多数据仓库(例如图1中所示的仓库106、108、110)之间能够通信。通信可以网络连接发生,该网络连接采用
Figure G2007800237797D00131
通信协议、IEEE-802.11(
Figure G2007800237797D00132
)、
Figure G2007800237797D00133
(蓝牙),900MHz、1.6GHz和/或移动通信协议(例如,CDMA、TDMA、GSM、AMPS、EDGE等)。附加地或可替换地,到/来自示例数据格式器600的通信可以通过采用通用串行总线(USB)通信协议、和/或通信协议(例如IEEE-1394)的直接连接发生。通过通信接口602从数据仓库106、108、110接收的数据可发送到以下中任意之一/由以下中任意之一发送:调度器604、数据仓库提取器606、组织器608、压缩引擎610和/或存储器612。
存储在数据仓库中的数据可以采取一种或更多格式,这些格式包括脱机操作数据库、脱机数据仓库、实时数据仓库和/或集成数据仓库。数据仓库的数据源可以指信息的任何电子储存库,并可以包括主机数据库(例如,IBMS DB2、VSAM、ISAM、Adabas等),客户端服务器数据库(例如,
Figure G2007800237797D00141
Figure G2007800237797D00142
Figure G2007800237797D00143
(SQL服务器)等),和/或PC数据库(例如,
Figure G2007800237797D00144
Figure G2007800237797D00145
)。数据仓库通常存储通过可以按反映数据的通常用途的主题区域(例如,消费者、产品、金融等)集合在一起的数据。这种集合可以包括使用维度方案(dimensional approach),在该方案中将信息作为可以是针对交易和/或事件的数字或文本数据的事实来存储。附加地或可替换地,维度(例如,数据库/仓库结构的架构要素)可以包含允许对交易以不同方式进行分类的参考信息。例如,销售交易可以被分解为包括许多所定购产品的数量和所支付价格的事实。另外,维度可以包括其它因素,比如销售日期、消费者信息、产品细节、销售的地理位置、以及由哪个销售员进行销售。
虽然数据仓库优化器104和数据格式器600能够就任何数据库架构工作,出于例示的目的,下面将讨论星型架构。星型架构包括具有复合主关键字(例如,佛罗里达收视率6-20-06,如图7中所示)的单一事实表(fact table)。该事实表包含关于例如公司和/或其它组织感兴趣的主题的定量数据或事实数据。事实表的每个不同的关键字(例如,图7的节目ID和/或住户)包括对应的维度表(dimension table),该维度表可以包括实施例业务的事实和/或不同属性的附加栏。
可以在周期的、非周期的和/或预定的基础上由调度器604调用通信接口602以连接一个或更多数据仓库。许多数据仓库包含敏感数据和/或私人数据。因此,这种仓库可以在访问和/或提取包含于其中的数据之前要求验证。数据格式器600和数据仓库106、108、110之间的验证可以包括,但不限于:安全套接协议层(SSL)、数字证书、密码保护、加密、和/或公钥密码法。
一旦数据格式器600连接到一个或更多特定的数据仓库106、108、110,数据仓库提取器606构建一个或更多个查询命令,比如基于SQL的提取命令,以从数据仓库获得数据。来自数据仓库提取器606的提取命令通常以基本无差别的方式工作并根据兴趣时段(例如,特定日子、根据多个日子、根据特定周,和/或根据任何其它时间范围)获取所有的数据。不限于此,数据仓库提取器606能够以更有识别力的方式构建提取命令,该方式可以要求更大复杂性的基于SQL的提取命令。例如,数据仓库提取器606可以回顾和/或解析全部或部分数据分析指令102,以获取应当从数据仓库106、108、110提取的特定参数。可以将从所述数据仓库提取的数据保存在存储器612中用于后面的组织,和/或组织可以在数据提取处理期间实时地发生。
基于从其获取了数据的数据仓库106、108、110的结构(域特定细节),组织器608创建层级目录文件路径结构。例如,在用于数据仓库106、108、110的星型构架构造中,每个维度建模为目录。如上所述,维度可以是数据库和/或仓库的一个或更多个结构构架元素,并且各维度可以具有一个或更多数据栏。例如,产品的维度可以包括涉及产品标识、产品成本、产品尺寸等的栏。每个维度目录可以包含许多针对维度的每个栏的单独目录。通常来讲,组织器608可以创建与数据仓库106、108、110的最顶级(例如,最宽泛的,最概括的)提取相关联的第一层级目录文件路径。并且,组织器608可以创建与数据仓库106、108、110的比第一层级目录文件路径的提取更狭窄的一个或更多个提取相关联的第二层级目录文件路径。实施例组织器608可以创建任意数量的附加层级目录文件路径以适应一个或更多个数据仓库。
在给定维度的每个栏之下是包含维度关键字到标识符(ID)数据(例如,“id.bin”)的映射的第一二进制文件。每个关键字(例如,如产生维度表的事实的一个或更多个关键字)是维度的主关键字,而ID是代表那一栏的值的数字。每栏还包括包含ID数据到值(例如,“valuemap.bin”)的映射的第二二进制文件。使用这两种文件允许通过以顺序的方式对文件映射层级从头至尾进行依次映射推导一定关键字的栏的实际值(例如,通过基于数据分析指令102的查询)。例如,如果事实表包括名称为“住户”的关键字并且住户维度表包括名称为“收入”的关键字,那么用于查询的关联值可以通过遵循合乎逻辑的层级目录路径“DIM/住户/收入”来确定,以检索对应值(例如,图7中的value 11.bin)。本文中描述的一个或更多个层级目录路径的游历还减少和/或消除在访问数据时对SQL命令的需要。结果,能够通过使用例如网页浏览器、信息亭、和/或目录树的目录游历来简化数据访问。
一旦由组织器608完成层级目录结构,压缩引擎610可以压缩所有的二进制文件以节约存储空间。压缩技术可以包括,但不限于:收缩(shrinking)方法、减小(reducing)方法、爆聚(imploding)方法,和/或令牌化(tokenizing)方法。可以采用ZIP文件格式以利用其开放的格式和丰富的实用性。压缩引擎610也可以将整个层级目录压缩为带有日期关键字文件名(比如下面在图7中例示的“Julian date code(Julian日期码)”)的单一ZIP文件。
图7示出了示例星型架构702和由数据格式器600创建的示例层级目录路径704。示例星型架构702包括具有标注为“节目ID”708以及“住户”710的关键字(例如,每一个与一个维度相关联的主关键字)的事实表“佛罗里达收视率6/20/06”706。该事实表包括作为数据的“观众数”712。另外,示例星型架构702包括针对事实表706的各关键字708、710的对应维度表。特别是,示例星型架构702包括“节目ID”维度表714以及“住户”维度表716。“节目ID”维度表714包括附加的维度关键字:“世界杯”718、“PGA巡回赛”720、“《我们的生活》”722和“《海绵宝宝》”724。类似地,“住户”维度表716包括维度关键字:“成人”726、“年轻人”728、“儿童”730、“TV数”732和“收入”734。
示例数据格式器600以反映数据仓库结构的方式创建层级目录路径704,其在图7的所例示示例中是星型架构。特别是,数据格式器600的组织器608创建事实表路径736、“节目ID”维度表路径738以及“住户”维度表路径740。如上所述,每个对应的目录包括含有映射和/或数据信息的关联二进制文件(栏742)。示例层级目录路径704也包括对于“节目ID”和“住户”维度表714、716的单独目录标签路径744。例如,一旦游历到目录路径704的最顶级维度表路径(例如,738或740)之一,对应二进制文件(栏742)可以包含映射信息以说明可以对其进行游历的附加路径。因而,游历至与二进制文件(例如,维度映射文件)“value 1.bin”相关联的“NMR\DIM\节目ID”,提供映射信息以允许游历到目录标签路径744的一个或更多二进制文件。最终,目录游历可以包括任意数量的嵌套目录路径,顺序地访问每一个以提供附加的映射信息(例如,一个或更多游历选项),和/或数据(例如,收视率信息)。在图7的所例示示例中,第一层级目录文件路径包括事实表路径736、第二层级目录文件路径包括维度表路径“NMR\DIM\节目ID”738或者“NMR\DIM\住户”740,并且第三层级目录文件路径可以包括目录标签路径744中任何一个。当组织器608完成层级目录路径704时,压缩引擎可以将目录保存为ZIP文件746。
图8是示出了从数据仓库800检索和格式化数据的示例处理的流程图。如上所述,调度器604可以被配置为以周期性的和/或非周期性的方式从数据仓库106、108、110获取数据(块802)。附加地或可替换地,可以通过例如客户端、用户、和/或数据获取及报告生成业务的管理器手动地调用数据的获取(块804)。在从一个或更多数据仓库106、108、110获取数据之前,通信接口602连接到目标数据仓库106、108、110并作为安全措施验证该连接(块806)以维持数据完整性(块806)。
所示出的示例的数据仓库提取器606构建针对目标数据仓库106、108、110的查询命令(块808)以检索数据,比如基于SQL的命令。例如,数据仓库提取器606可以构建具有最小规范约束的简单的基于SQL的数据提取命令,比如请求针对特定小时、若干小时的范围、天、若干天的范围、周等的所有数据。然后执行查询命令(块810)并且将从数据仓库返回的数据存储到存储器612(块810)。
组织器608将所接收的数据安排(块812)到一个或更多层级目录路径704中,其反映起源的数据仓库106、108、110的域特定细节(domainspecific details)。如上所述,虽然所示出的示例采用星型架构格式,但是本文中所描述的系统和方法不限于此,而可以适应任何数据库架构。一旦完成层级目录路径组织(块812),压缩引擎可以将目录压缩为,例如,ZIP文件(块814)。然后控制返回块802。
图9示出了另一示例数据仓库优化器904。如上所述,虽然通过将数据仓库从与统计计算相关联的任何任务中部分地解除出来,和/或通过以Java取代基于SQL的命令进行这种报告生成处理,图1和2的示例数据仓库优化器104与SQL数据库引擎相比,报告生成时间提高到十倍,但是还可以通过加入数据格式器600来实现额报告生成时间的附加提高。图9的示例数据仓库优化器904可以使用示例层级目录路径704以按大约一百的系数来提高报告生成时间消耗,而不是调用针对数据仓库数据的基于SQL的查询命令。
除了数据检索器204中附加的数据格式器600,图9的示例数据仓库优化器904本质上与图2的示例数据仓库优化器204相同。在图9中以与图2和6中同样的标号来标识相似的部件,并不再对其做进一步讨论。
图10是可用来执行图3-5和图8的示例机器可读指令以实现本文中描述的示例系统和/或方法的示例处理器系统1010的结构图。如图10中所示,处理器系统1010包括连接到互连总线1014的处理器1012。处理器1012包括寄存器组或寄存器空间1016,其在图10中被描述为完全芯片级(on-chip),但是可选地,其能够完全或部分位于芯片外并且通过专用电连接和/或通过互连总线1014直接结合到处理器1012。处理器1012可以是任何适用的处理器、处理单元或微处理器。尽管在图10中没有示出,但是系统1010可以是多处理器系统,并且因而可以包括与处理器1012相同或相似并以通信的方式结合到互连总线1014的一个或更多附加处理器。
将图10的处理器1012结合到芯片集1018,芯片集1018包括存储器控制器1020和输入/输出(I/O)控制器1022。众所周知,芯片集通常提供I/O和存储器管理功能以及多个通用和/或专用寄存器、计时器等,它们能够由结合到芯片集1018的一个或更多个处理器访问或使用。存储器控制器1020执行使处理器1012(或多个处理器,如果存在多个处理器)能够访问系统存储器1024和海量存储的存储器1025的功能。
系统存储器1024可以包括任何所需类型的易失和/或非易失存储器,例如,静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、闪存、只读存储器(ROM)等。海量存储的存储器1025可以包括任何所需类型的海量存储装置,包括硬盘驱动器、光驱、磁带存储装置等。
I/O控制器1022执行使处理器1012能够通过I/O总线1032与外围输入/输出(I/O)设备1026和1028以及网络接口1030通信的功能。I/O设备1026和1028可以是任何所需类型的I/O设备,例如,键盘、视频显示器或监视器、鼠标等。网络接口1030可以是使处理器系统1010能够与另一处理器系统通信的设备,例如,以太网设备、异步传输模式(ATM)设备、802.11设备、数字用户线路(DSL)调制解调器、缆线调制解调器、蜂窝调制解调器等。
虽然存储器控制器1020和I/O控制器1022在图10中描述为芯片集1018中独立的功能模块,但是由这些模块执行的功能可以集成在单一半导体电路中或者可以用两个或更多独立集成电路来实施。
尽管本文中已经描述了特定的方法、装置、系统和制品,但本专利覆盖的范围不限于此。相反,本专利涵盖完全落入所附权利要求在字面上或依据其等同物原理的范围内的所有方法、装置、系统和制品。

Claims (24)

1.一种对从数据仓库所接收的数据进行格式化的方法,该方法包括以下步骤:
接收分析指令;
基于所述分析指令从所述数据仓库检索数据;
将映射文件与事实表相关联,该映射文件存储在第一层级目录文件路径中,所述事实表包括与维度表相关联的主关键字,该维度表与第二层级目录文件路径中存储的维度映射文件相关联,所述维度表包括与存储在第三层级目录文件路径中的数据文件相关联的维度关键字;以及
通过从所述第一层级目录文件路径到所述第二层级目录文件路径,再到所述第三层级目录文件路径的顺序游历,来发起数据查询。
2.如权利要求1中所限定的方法,该方法还包括压缩所述第一层级目录文件路径,所述第二层级目录文件路径和所述第三层级目录文件路径。
3.如权利要求1中所限定的方法,该方法还包括基于存储在所述第一层级目录文件路径中的所述映射文件来定位所述第二层级目录文件路径。
4.如权利要求3中所限定的方法,该方法还包括基于存储在所述第二层级目录文件路径中的映射文件来定位所述第三层级目录文件路径。
5.如权利要求4中所限定的方法,其中所述第三层级目录文件路径包含与所述第一层级目录文件路径,所述第二层级目录文件路径和所述第三层级目录文件路径相关联的查询数据。
6.如权利要求1中所限定的方法,该方法还包括基于所检索的数据计算一次统计。
7.如权利要求6中所限定的方法,其中所述一次统计包括以下中至少之一:执行一行为的实体的总数,在一位置执行该行为的实体的平均数,或者在一时间段内执行该行为的实体的总数。
8.如权利要求7中所限定的方法,其中所述执行一行为的实体的总数包括观看媒体节目的观众的总数。
9.如权利要求6中所限定的方法,该方法还包括至少基于所述一次统计来计算二次统计。
10.如权利要求6中所限定的方法,该方法还包括至少基于所述一次统计和所检索的数据来计算二次统计。
11.如权利要求1中所限定的方法,其中从所述数据仓库检索数据的步骤包括以下步骤:在预定时间或周期性间隔中的至少之一期间处理所述分析指令。
12.如权利要求1中所限定的方法,其中所述分析指令包括检索以下至少之一的指令:收视成员媒体观看数据,广播节目收视率数据,或人口统计收视率数据。
13.一种对从数据仓库接收的数据进行格式化的装置,该装置包括:
通信接口,其接收分析指令并与至少一个数据仓库以通信的方式连接;
数据检索器,其从所述数据仓库检索数据,该数据检索器包括生成查询请求的数据库查询引擎;
存储器,其存储所检索的数据;
数据格式器,其创建在所述存储器中存储的所述数据的层级目录文件路径结构,该数据格式器创建与映射文件相关联的第一层级目录文件路径,和与第二映射文件或数据文件中至少之一相关联的第二层级目录文件路径;以及
分析器,其响应于查询,顺序地分别游历所述第一层级目录文件路径和第二层级目录文件路径,以在存储于所述存储器中的所检索的数据中识别各自的数据。
14.如权利要求13中所限定的装置,其中所述第一层级目录文件路径包括与所述映射文件相关联的事实表路径。
15.如权利要求14中所限定的装置,其中所述第二层级目录文件路径包括与所述第二映射文件或所述数据文件中至少之一相关联的维度表路径。
16.如权利要求13中所限定的装置,该装置还包括压缩引擎,该压缩引擎压缩所述第一层级目录文件路径和所述第二层级目录文件路径,并且还压缩与所述第一层级目录文件路径和所述第二层级目录文件路径相关联的所述映射文件或所述数据文件中的至少之一。
17.一种对从数据仓库所接收的数据进行格式化的装置,该装置包括:
接收分析指令的装置;
基于所述分析指令从数据仓库检索数据的装置;
将映射文件与事实表相关联的装置,该映射文件存储在第一层级目录文件路径中;
将所述事实表的主关键字与维度表相关联的装置,该维度表与存储在第二层级目录文件路径中的维度映射文件相关联;
将维度关键字与存储在第三层级目录文件路径中的数据文件相关联的装置;以及
通过从所述第一层级目录文件路径到所述第二层级目录文件路径,再到所述第三层级目录文件路径的顺序游历,来发起数据查询的装置。
18.如权利要求17中所限定的装置,其中所述装置还包括压缩所述第一层级目录文件路径、所述第二层级目录文件路径和所述第三层级目录文件路径的装置。
19.如权利要求17中所限定的装置,其中所述装置还包括基于存储在所述第一层级目录文件路径中的所述映射文件来定位所述第二层级目录文件路径的装置。
20.如权利要求19中所限定的装置,其中所述装置还包括基于存储在所述第二层级目录文件路径中的映射文件来定位所述第三层级目录文件路径的装置。
21.如权利要求17中所限定的装置,其中所述装置还包括基于所检索的数据计算一次统计的装置。
22.如权利要求21中所限定的装置,其中所述装置还包括至少基于所述一次统计来计算二次统计的装置。
23.如权利要求21中所限定的装置,其中所述装置还包括至少基于所述一次统计和所检索的数据来计算二次统计的装置。
24.如权利要求17中所限定的装置,其中所述装置还包括在预定时间或周期性间隔的至少之一期间处理所述分析指令的装置。
CN2007800237797A 2006-06-26 2007-06-26 提高数据仓库性能的方法和装置 Active CN101542478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210154165.5A CN102929901B (zh) 2006-06-26 2007-06-26 提高数据仓库性能的方法和装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US81642306P 2006-06-26 2006-06-26
US60/816,423 2006-06-26
PCT/US2007/014834 WO2008002578A2 (en) 2006-06-26 2007-06-26 Methods and apparatus for improving data warehouse performance

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201210154165.5A Division CN102929901B (zh) 2006-06-26 2007-06-26 提高数据仓库性能的方法和装置

Publications (2)

Publication Number Publication Date
CN101542478A CN101542478A (zh) 2009-09-23
CN101542478B true CN101542478B (zh) 2012-07-18

Family

ID=38846271

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2007800237797A Active CN101542478B (zh) 2006-06-26 2007-06-26 提高数据仓库性能的方法和装置
CN201210154165.5A Active CN102929901B (zh) 2006-06-26 2007-06-26 提高数据仓库性能的方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201210154165.5A Active CN102929901B (zh) 2006-06-26 2007-06-26 提高数据仓库性能的方法和装置

Country Status (6)

Country Link
US (3) US7523124B2 (zh)
EP (1) EP2041676A4 (zh)
CN (2) CN101542478B (zh)
CA (1) CA2656188A1 (zh)
HK (1) HK1132815A1 (zh)
WO (1) WO2008002578A2 (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9390132B1 (en) * 2009-10-16 2016-07-12 Iqor Holdings, Inc. Apparatuses, methods and systems for a universal data librarian
CN101542478B (zh) 2006-06-26 2012-07-18 尼尔森(美国)有限公司 提高数据仓库性能的方法和装置
CN101441733A (zh) * 2007-08-27 2009-05-27 北京奥腾讯达科技有限公司 基于库存数据的企业生产控制系统
US7822712B1 (en) 2007-10-18 2010-10-26 Google Inc. Incremental data warehouse updating
US7860822B1 (en) * 2007-10-18 2010-12-28 Google Inc. Distributed aggregation mapping
US8452636B1 (en) * 2007-10-29 2013-05-28 United Services Automobile Association (Usaa) Systems and methods for market performance analysis
JP4564044B2 (ja) * 2007-12-27 2010-10-20 株式会社日立製作所 電子機器サービス・システム
US8055609B2 (en) * 2008-01-22 2011-11-08 International Business Machines Corporation Efficient update methods for large volume data updates in data warehouses
US20090313232A1 (en) * 2008-03-26 2009-12-17 Thomas Austin Tinsley Methods and Apparatus to Calculate Audience Estimations
US8266582B2 (en) * 2008-03-31 2012-09-11 Oracle America, Inc. Method for creating unified binary files
US9110970B2 (en) * 2008-07-25 2015-08-18 International Business Machines Corporation Destructuring and restructuring relational data
US8972463B2 (en) * 2008-07-25 2015-03-03 International Business Machines Corporation Method and apparatus for functional integration of metadata
US8943087B2 (en) * 2008-07-25 2015-01-27 International Business Machines Corporation Processing data from diverse databases
CA2660748C (en) * 2009-03-31 2016-08-09 Trapeze Software Inc. System for aggregating data and a method for providing the same
CN102043800A (zh) * 2009-10-16 2011-05-04 无锡华润上华半导体有限公司 数据存储实现方法及数据仓库
US8812482B1 (en) 2009-10-16 2014-08-19 Vikas Kapoor Apparatuses, methods and systems for a data translator
US9053146B1 (en) * 2009-10-16 2015-06-09 Iqor U.S. Inc. Apparatuses, methods and systems for a web access manager
US9110968B2 (en) 2010-04-14 2015-08-18 At&T Intellectual Property I, L.P. Removal of invisible data packages in data warehouses
US8402044B2 (en) * 2010-07-12 2013-03-19 Sap Ag Systems and methods for secure access of data
US9069846B2 (en) 2011-09-29 2015-06-30 International Business Machines Corporation Business content hierarchy
US8700679B2 (en) * 2012-04-17 2014-04-15 Sap Ag Classic to in-memory cube conversion
US8983993B2 (en) * 2012-12-18 2015-03-17 Sap Se Data warehouse queries using SPARQL
US20150058195A1 (en) * 2013-08-21 2015-02-26 Miami International Securities Exchange, LLC System and method for monitoring an equity rights transaction for strategic investors in a securities exchange
US9396246B2 (en) 2013-11-08 2016-07-19 International Business Machines Corporation Reporting and summarizing metrics in sparse relationships on an OLTP database
CN103927337B (zh) * 2014-03-26 2017-12-19 北京国双科技有限公司 用于联机分析处理中关联关系的数据处理方法和装置
EP3204005A1 (en) 2014-10-10 2017-08-16 Pfizer Inc Synergistic auristatin combinations
US10740292B2 (en) 2015-05-18 2020-08-11 Interactive Data Pricing And Reference Data Llc Data conversion and distribution systems
US10474692B2 (en) * 2015-05-18 2019-11-12 Interactive Data Pricing And Reference Data Llc Data conversion and distribution systems
CN107533570B (zh) 2015-10-23 2020-11-03 甲骨文国际公司 用于从表格数据自动推断立方体模式的系统和方法
US10733155B2 (en) * 2015-10-23 2020-08-04 Oracle International Corporation System and method for extracting a star schema from tabular data for use in a multidimensional database environment
CN105426434A (zh) * 2015-11-04 2016-03-23 北京航天金盾科技有限公司 基于多维度的人口信息统计分析系统
AU2017224831B2 (en) * 2016-02-26 2023-01-05 Crysp Intelligence Pty Ltd A data source system agnostic fact category partitioned information repository and methods for the insertion and retrieval of data using the information repository
US10366098B2 (en) * 2016-11-17 2019-07-30 Bank Of America Corporation Data upload—process integration tool
US10528541B2 (en) * 2016-12-13 2020-01-07 Sap Se Offline access of data in mobile devices
CN107908672B (zh) * 2017-10-24 2022-01-14 深圳前海微众银行股份有限公司 基于Hadoop平台的应用报表实现方法、设备及存储介质
CN108062973A (zh) * 2017-11-30 2018-05-22 江西洪都航空工业集团有限责任公司 一种医疗卫生数据分析方法
WO2019135953A2 (en) * 2018-01-02 2019-07-11 Alibaba Group Holding Limited Configuring data collection
CN110007952B (zh) 2018-01-02 2022-07-12 斑马智行网络(香港)有限公司 数据处理方法、装置、设备和机器可读介质
CN109214906A (zh) * 2018-11-01 2019-01-15 山东浪潮商用系统有限公司 基于大数据仓库分层的税务数据资产分类管理方法及系统
CN109448859B (zh) * 2018-11-09 2020-09-29 贵州医渡云技术有限公司 数据处理方法及装置、电子设备、存储介质
CN110597851B (zh) * 2019-09-20 2022-06-07 深圳易嘉恩科技有限公司 一种基于大数据的数据处理及报表展示方法
CN110851543A (zh) * 2019-11-08 2020-02-28 深圳市彬讯科技有限公司 一种数据建模的方法、装置、设备以及存储介质
CN115997203A (zh) * 2021-08-20 2023-04-21 京东方科技集团股份有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN113742370B (zh) * 2021-11-02 2022-04-19 阿里云计算有限公司 全加密数据库的数据查询方法、统计信息密文生成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310824A (zh) * 1999-05-24 2001-08-29 白金技术Ip公司 用于数据仓库的选择聚集层和交叉产品层的方法和装置

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6141663A (en) * 1994-03-18 2000-10-31 Unimax Systems Corporation Automatic external data synchronization method
US5675785A (en) 1994-10-04 1997-10-07 Hewlett-Packard Company Data warehouse which is accessed by a user using a schema of virtual tables
US5819066A (en) * 1996-02-28 1998-10-06 Electronic Data Systems Corporation Application and method for benchmarking a database server
US6202070B1 (en) * 1997-12-31 2001-03-13 Compaq Computer Corporation Computer manufacturing system architecture with enhanced software distribution functions
US6604108B1 (en) * 1998-06-05 2003-08-05 Metasolutions, Inc. Information mart system and information mart browser
US6263332B1 (en) 1998-08-14 2001-07-17 Vignette Corporation System and method for query processing of structured documents
US7739167B2 (en) * 1999-03-05 2010-06-15 Era Systems Corporation Automated management of airport revenues
US6604113B1 (en) * 2000-04-14 2003-08-05 Qwest Communications International, Inc. Method and apparatus for providing account information
US7117215B1 (en) 2001-06-07 2006-10-03 Informatica Corporation Method and apparatus for transporting data for data warehousing applications that incorporates analytic data interface
US6671689B2 (en) 2001-01-19 2003-12-30 Ncr Corporation Data warehouse portal
US20020156877A1 (en) * 2001-04-23 2002-10-24 Lu James C. System and method for the duplication of a software system onto an appropriate target computer
EP1258812B1 (de) 2001-05-17 2004-02-25 Peter Pressmar Virtuelle Datenbank heterogener Datenstrukturen
US7092931B1 (en) 2002-05-10 2006-08-15 Oracle Corporation Methods and systems for database statement execution plan optimization
US6947929B2 (en) 2002-05-10 2005-09-20 International Business Machines Corporation Systems, methods and computer program products to determine useful relationships and dimensions of a database
JP2004030221A (ja) * 2002-06-26 2004-01-29 Hitachi Ltd 変更対象テーブル自動検出方法
JP2004094425A (ja) * 2002-08-30 2004-03-25 Hitachi Ltd データベース構築処理変更方法
US20040064501A1 (en) * 2002-09-30 2004-04-01 Jan Salman Jaffer Methods and apparatus for centralized provisioning of multi-domain web content
US20040090460A1 (en) 2002-11-12 2004-05-13 Hideya Kawahara Method and apparatus for updating a User Interface for a computer system based on a physics model
US7181450B2 (en) 2002-12-18 2007-02-20 International Business Machines Corporation Method, system, and program for use of metadata to create multidimensional cubes in a relational database
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
US20040148278A1 (en) 2003-01-22 2004-07-29 Amir Milo System and method for providing content warehouse
US7152073B2 (en) 2003-01-30 2006-12-19 Decode Genetics Ehf. Method and system for defining sets by querying relational data using a set definition language
US20050050030A1 (en) 2003-01-30 2005-03-03 Decode Genetics Ehf. Set definition language for relational data
US7895191B2 (en) 2003-04-09 2011-02-22 International Business Machines Corporation Improving performance of database queries
US20040215560A1 (en) * 2003-04-25 2004-10-28 Peter Amalraj Integrated payment system and method
US7487173B2 (en) * 2003-05-22 2009-02-03 International Business Machines Corporation Self-generation of a data warehouse from an enterprise data model of an EAI/BPI infrastructure
US7089266B2 (en) 2003-06-02 2006-08-08 The Board Of Trustees Of The Leland Stanford Jr. University Computer systems and methods for the query and visualization of multidimensional databases
JP2006127229A (ja) * 2004-10-29 2006-05-18 Toshiba Corp 構造化文書検索システム、構造化文書検索方法及びプログラム
US7630956B2 (en) 2005-03-07 2009-12-08 Skytide, Inc. System and method for analyzing and reporting extensible data from multiple sources in multiple formats
US20070061287A1 (en) 2005-09-09 2007-03-15 Jian Le Method, apparatus and program storage device for optimizing a data warehouse model and operation
US7451155B2 (en) 2005-10-05 2008-11-11 At&T Intellectual Property I, L.P. Statistical methods and apparatus for records management
CN101542478B (zh) 2006-06-26 2012-07-18 尼尔森(美国)有限公司 提高数据仓库性能的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1310824A (zh) * 1999-05-24 2001-08-29 白金技术Ip公司 用于数据仓库的选择聚集层和交叉产品层的方法和装置

Also Published As

Publication number Publication date
US7523124B2 (en) 2009-04-21
CN101542478A (zh) 2009-09-23
WO2008002578A2 (en) 2008-01-03
CA2656188A1 (en) 2008-01-03
HK1132815A1 (en) 2010-03-05
CN102929901B (zh) 2016-12-14
WO2008002578A3 (en) 2008-09-04
US20130159244A1 (en) 2013-06-20
EP2041676A2 (en) 2009-04-01
US20090043730A1 (en) 2009-02-12
US20090172000A1 (en) 2009-07-02
EP2041676A4 (en) 2012-05-16
US8219521B2 (en) 2012-07-10
CN102929901A (zh) 2013-02-13
US8738576B2 (en) 2014-05-27

Similar Documents

Publication Publication Date Title
CN101542478B (zh) 提高数据仓库性能的方法和装置
CN101828182B (zh) 报告oltp数据的无etl零冗余系统和方法
US6789071B1 (en) Method for efficient query execution using dynamic queries in database environments
USRE42870E1 (en) Text mining system for web-based business intelligence applied to web site server logs
AU2003231837B2 (en) High-performance change capture for data warehousing
US9858326B2 (en) Distributed data warehouse
Tjioe et al. Mining association rules in data warehouses
CN104731791A (zh) 一种市场销售分析数据集市系统
CN101506804A (zh) 用于在大数据集分析期间维持一致性的方法和装置
US8849693B1 (en) Techniques for advertising in electronic commerce
CN102667761A (zh) 可扩展的集群数据库
CN104781812A (zh) 策略驱动的数据放置和信息生命周期管理
US7657576B1 (en) Asynchronous change capture for data warehousing
JP7091500B2 (ja) 世界的に取得したデータに基づいて、世界企業ランキングをリアルタイムに作成するため方法、及び世界的ネットワークシステム
CN108959580A (zh) 一种标签数据的优化方法及系统
CN108228787A (zh) 按照多级类目处理信息的方法和装置
US6542893B1 (en) Database sizer for preemptive multitasking operating system
Verma et al. Life cycle of a data warehousing project in healthcare
US20040267765A1 (en) System and method for expressing and calculating a relationship between measures
CN114265887A (zh) 一种维度数据处理方法、装置、存储介质及电子设备
Renfro Economic database systems: further reflections on the state of the art
Zdenka et al. Data analysis: tools and methods
Jin et al. Indexing temporal information for web pages
Time Business Intelligence siness ntelligence Business Intelligence Business Intelligence
Yost et al. Using a dimensional data warehouse to standardize survey and census metadata

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1132815

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1132815

Country of ref document: HK

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210305

Address after: New York State, USA

Patentee after: Nielsen consumer Co.,Ltd.

Address before: Illinois, USA

Patentee before: Nielsen (USA) Ltd.