CN1323366C - 查询处理操作中利用辅助属性进行查询重写的方法和设备 - Google Patents

查询处理操作中利用辅助属性进行查询重写的方法和设备 Download PDF

Info

Publication number
CN1323366C
CN1323366C CNB2004100798874A CN200410079887A CN1323366C CN 1323366 C CN1323366 C CN 1323366C CN B2004100798874 A CNB2004100798874 A CN B2004100798874A CN 200410079887 A CN200410079887 A CN 200410079887A CN 1323366 C CN1323366 C CN 1323366C
Authority
CN
China
Prior art keywords
attribute
data
query
data set
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004100798874A
Other languages
English (en)
Other versions
CN1601530A (zh
Inventor
张元极
马修·L·希尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1601530A publication Critical patent/CN1601530A/zh
Application granted granted Critical
Publication of CN1323366C publication Critical patent/CN1323366C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了用于在数据库查询处理操作期间重写查询,以包含原始查询中所没有的辅助属性,从而提高处理效率的方法和设备。例如,在本发明的一个方面中,查询处理操作中重写查询的技术包括如下步骤。首先,根据数据组的至少一部分对查询进行处理,从而产生查询结果。其次,对来自查询结果的数据属性进行分析。最后,在查询中添加来自至少一个辅助数据属性的至少一个新谓词。

Description

查询处理操作中利用辅助属性 进行查询重写的方法和设备
技术领域
本发明涉及数据库和其他信息系统中的查询处理操作,尤其涉及在数据库查询处理操作期间重写查询以包含一个来自数据属性的新谓词(predicate)。
背景技术
鉴于在线商务事务处理量的增长,数据库、数据仓和其他信息系统中所存储的大量数据的查询处理效率变得越来越重要。从1970年代末以来,在整个学术界和工业界,一直在坚持进行有关研究独立式数据库、分层式数据库、分级式数据库、空间数据库和万维网上的数据库中的有效查询处理操作的研发活动。所报告的查询处理技术的综合评论可以从多个来源得到,例如可以参见:G.Graefe,“Query EvaluationTechniques for Large Databases,”ACM Computing Surveys,Volume25 Issue 2,1993年6月;和D.Kossmann,“The State of the Art inDistributed Query Processing,”ACM Computing Surveys,Volume 32Issue 4,2000年12月。
数据库查询处理操作通常包括6个阶段:语法分析、语义检验、查询重写、规划(plan)优化、规划细化和查询评估。在查询处理操作中重写查询的原因可以从多个参考文献中看到,例如可以参见:L.M.Haas等的“Extensible Query Processing in Starburst,”ACMSIGMOD Record,Volume 18 Issue 2,1989年6月。查询重写的一些原因包括:
1.查询的备选表达法(phrasing):由于相关查询语言是非过程语言,因此备选可等效使用;和
2.查询中涉及视图抽象:由于视图定义对于查询作者是隐藏的,因此涉及视图的查询只能由数据库进行展开(expand)。
传统的查询重写策略的焦点在于查询谓词中所出现的属性的重写和优化,例如可以参见:G.Graefe等的“Dynamic Query EvaluationPlans,”ACM SIGMOD Record,Volume 18 Issue 2 1989年6月;和D.Kossmann等的“Iterative Dynamic Programming:A New Class ofQuery Optimization Algorithms”ACM Transactions on DatabaseSystems,Volume 25 Issue 1,2000年3月。
发明内容
本发明的原理提供了查询处理操作期间重写查询的技术。
例如,在本发明的一个方面中,数据库查询处理操作期间重写查询的技术包括如下步骤。首先,根据数据组的至少一部分对查询进行处理,从而产生查询结果。其次,对来自查询结果中的数据属性进行分析。最后,在查询中添加来自数据属性的新谓词。因此,可以很好地在查询中添加一个与不包括在原始查询中的数据属性有关的新谓词,从而提高处理效率。
本发明的原理与传统方法之间存在一些主要差别。例如,本发明的原理:(i)可以提倡查询重写策略,以添加一些基于原始查询中所没有的属性的新谓词;(ii)可以采用与普遍的单趟(single-pass)处理相对的两趟查询处理操作方法;(iii)可以采用统计分析及其他数据挖掘技术,以帮助识别有区别的属性;和(iv)由于查询重写,可能有错误的解除(dismissal),而传统方法则强调准确的答案。
因此,本发明的原理提出了对于与传统查询标准化方法不同的查询重写的至少一个额外理由。这一不同的理由在于充分利用有关数据记录中的辅助属性的知识,以添加附加的查询谓词,从而获得更有效的处理。本发明的技术可以很好地用于在大量数据库中提供有效的查询处理操作,同时保持结果的精确性。这种效率可以将通常高处理成本查询转换成低成本查询。
从以下其举例实施方式的详细描述中可以看到这些以及其他目的、特性和优点,其描述可以结合附图加以理解。
附图说明
图1是一个表示数据库中所存储的用电量数据的表,用于说明本发明的原理与传统方法之间的差别;
图2是表示根据本发明的实施方式的第一趟查询执行方法的流程图;
图3是表示根据本发明的实施方式的数据采样方法的流程图;
图4是表示根据本发明的实施方式的选择性属性选择方法的流程图;
图5是表示根据本发明的实施方式的查询重写方法的流程图;和
图6是表示根据本发明的实施方式的可以实现本发明的一种或多种组件/方法的计算系统的硬件实现方式的图解。
具体实施方式
以下描述将利用一例数据处理系统结构来说明本发明的原理。本发明的原理并不局限于用于任何特定的系统结构。相反,它更一般地适用于想实现有效和高效的查询处理操作的任何数据处理系统。
这里所用的术语“数据库”旨在包括任何数据存储软件和系统,比如,象IBM DB2和Oracle 9那样的关系数据库。这里所用的术语“数据记录”旨在包括数据库中的数据的任何逻辑结构化关联,比如,关系数据库的表中的行。这里所述的术语“属性”和“数据属性”旨在包括数据记录的任何单元,比如行的列值。这里所用的术语“目标属性”旨在表示用户查询中明确出现的任何属性。这里所用的术语“辅助属性”旨在表示用户查询中所缺少的任何属性。
本发明的原理可适用于在存储有具有一个或多个属性的结构化数据记录的数据库或其他信息系统中的查询处理操作。为了便于举例说明和描述,在本发明的优选实施方式中使用了一个基于数据库表中的查询处理操作的例子。本发明不应被认为是局限或约束于数据库表中的处理。
首先参照图1,表中举例说明了数据库中所存储的用电量数据,用于说明本发明的原理与传统方法之间的差别。表中的标题行中有四个属性标记:报告日期100,Westchester用电量102,纽约市用电量104,和温度106。例举的查询108询问这两个地区的总日用电量大于3000兆瓦的日期。本例中,通过将纽约市(NYC)的日用电量加上NY的Westchester县的日用电量来计算总日用电量。因此,查询语句具有针对报告日期100作出的关于Westchester用电量102和NYC用户量104的值的总和大于3000MW的单一谓词。
传统查询重写的焦点在于属性列,比如,报告日期100,Westchester用电量102,和NYC用电量104。然而,通过分析属性值分布情况,可以发现,只有当室外温度高于90时总用电量才大于3000MW。原始查询中没有指定的温度属性是辅助的,但通过在查询中添加一个附加谓词却可以大大减少查询处理时间。因此,在查询重写阶段包含这一温度谓词是很有益的。然而,传统查询重写策略却没有象依据本发明的原理所提出的有关辅助属性的谓词。
本发明所提出的查询重写方法包括两趟。第一越是从来自采样数据的查询结果的分析找到具有高选择性的属性。第二趟是选择最高等级的辅助属性,并将与所选属性有关的新谓词添加到原始查询中,以提高查询效率。
下面参照图2,该流程图说明了根据本发明的实施方式的第一趟查询执行方法。该方法从输入用户查询200开始。首先,在步骤202中,用传统的未修改的查询处理操作来执行对数据库中的采样数据204的用户查询200。用户查询200的结果作为所选数据记录206被返回。在步骤208中,提取出所选数据记录206的每一属性值的统计。在步骤210中,单独地从采样数据204中收集和提取出相同属性的统计。在步骤212中,评估步骤208和210中得到的统计组。在图4中将进一步的描述这一评估。
根据本发明的原理,对于数字属性,步骤208和210中所提取的典型统计可以包括最大值、最小值、中值、平均值和标准偏差。对于分类属性(categorical attribute),步骤208和210中所提取的统计可以包括不同值的数和每一值的聚集计数(aggregated count)。此外,还可以提取涉及两个或两个以上属性的联合统计的更高等级的统计。在本实施方式中,本发明应用数字属性的最大和最小值,不过,其范围并不局限于上述统计。
下面参照图3,该流程图说明了根据本发明的实施方式的数据采样方法。这可以被认为是获得图2中的采样数据204的详述。这种方法减少了图2的第一趟查询处理操作的数据记录的个数。在步骤302中,对全数据组300的每第N个记录进行采样,从而得到采样数据组304。N一般在10-100的范围内。所得到的采样数据组304的记录被保存在一个较小的临时数据库中。
下面参照图4,该流程图说明了根据本发明的实施方式的选择性属性选择方法。该方法可以被认为是图2中的步骤212的详述。这种方法说明了识别选择性属性的优选评估方法。然而,本发明的原理并不局限于这一特定评估,而还可适用于其他评估准则。图4中,通过对采样数据中的属性统计与查询结果中的属性统计的动态范围进行比较,来检查步骤400中所输入的每个数字属性。无论目标还是辅助属性都要被检查。属性的动态范围可以定义为最大和最小值之间的差。步骤402计算两个动态范围的比值R。在步骤404中,判断R是否小于10%。如果R小于10%,那么,该属性是选择性属性408。否则,该属性是非选择性属性406。R的阈值最好在10%或小于10%。
下面参照图5,该流程图说明了根据本发明的实施方式的查询重写方法和第二趟查询。该方法从步骤500开始,在该步骤中,评估每一选择性属性的相对选择性。这些选择性属性408从图4的步骤404中找到。第二趟查询从步骤502中选择高选择性属性开始。可以有多个选择性属性,这些属性按R值的上升次序排列。优先选择小的R值,因为它表示更高的选择性和更高的效率。根据具体的查询情况,选择一个或多个最高等级的属性。然后,在步骤504中形成范围谓词。通过界定最小和最大值,查询结果中的所选属性的动态范围形成新的范围谓词。例如,图1中的温度属性在总用电量大于3000MW的日期其最大值为95而最小值为91。温度的范围谓词变成[91,95]。然后,在步骤506中为用户查询508添加新的范围(温度)谓词。该方法以所得到的修改的查询510结束,比如,“从表中选择westchester+纽约市>3000且温度≤95和温度≥91的日期。”然后,将这一新添加的查询510传送到传统查询处理操作和优化中,这样就可以使用新添加的高选择性谓词以减少处理时间。
根据本发明,所添加的查询可能不产生与原始查询相同的一组结果。这是因为,图3中的采样步骤可能缺少不包括在属性选择和谓词构造中的数据记录中的外来部分(outliers)。然而,在许多实际应用中(比如在该用电量查询例子中),所添加的查询及其原始查询产生了完全相同的结果。这些应用中的采样通常噪声较小且变化较平滑。
下面参照图6,该框图说明了根据本发明的实施方式的可以实现本发明的一个或多个组件/方法(例如图1-5的情况下所述的组件/方法)的计算系统的硬件实现方式。例如,图6中的这种计算系统可以实现数据库和处理图2的用户查询204。
应当理解,这些单独的组件/方法可以在一个这样的计算机系统中实现和处理,也可以在一个以上这样的计算机系统中实现和处理。例如,用户查询204可以在一个计算机系统(例如客户设备)中处理,而数据库可以在另一个计算机系统中实现。在分布式计算系统中实现的情况下,这些单独的计算机系统和/或设备可以通过合适的网络(例如因特网或万维网)进行连接。然而,该系统可以通过专用或本地网来实现。本发明并不局限于任何特定网络。
如图所示,该计算机系统可以根据经计算机总线618或其他连接配置耦接的处理器610、存储器612、I/O设备614和网络接口616来实现。
应当理解,这里所用的术语“处理器”旨在包括任何处理设备,比如,含有CPU(中央处理单元)和/或其他处理电路系统的处理设备。还应当理解,术语“处理器”可以是指一个以上的处理设备,而与处理设备有关的各种单元可以由其他处理设备所共享。
这里所用的术语“存储器”旨在包括与处理器或CPU有关的存储器,比如,RAM、ROM、固定存储设备(例如硬盘驱动器)、可移动存储设备(例如软磁盘)、快闪存储器等。
此外,这里所用的术语“输入/输出设备”或“I/O设备”旨在包括,例如,用于向处理单元输入数据的一个或多个输入设备(如键盘、鼠标等),和/或用于给出与处理单元有关的结果的一个或多个输出设备(如扬声器、显示器等)。
再者,这里所用的术语“网络接口”旨在包括,例如,使得该计算机系统可以通过适当的通信协议(如HTTP/S)与另一计算机系统进行通信的一个或多个收发信机。
相应地,含有用于执行这里所述的方法的指令或代码的软件组件可保存在一个或多个相关存储设备(例如ROM、固定或可移动存储器)中,当准备要使用时,可以部分或全部装载(到例如RAM中)并由CPU来执行。
尽管这里参照附图描述了本发明的举例说明的实施方式,然而,本发明并不局限于这些具体实施方式,在不背离本发明的范围或精神的前提下,熟练技术人员可以作出各种其他变化和修改。

Claims (20)

1.一种在数据库查询处理操作期间重写查询的方法,包括如下步骤:
根据一个数据组的至少一部分对查询进行处理,从而产生查询结果;
对来自查询结果的数据属性进行分析;和
在查询中添加来自至少一个数据属性的至少一个新谓词。
2.权利要求1的方法,其中数据组的至少一部分包括来自数据组的采样记录。
3.权利要求2的方法,还包括对来自数据组的数据记录进行采样的步骤。
4.权利要求3的方法,其中对数据记录进行采样的步骤包括对来自数据组的每第N个记录进行采样的步骤,其中N为正整数。
5.权利要求1的方法,其中在分析数据属性的步骤中,数据属性包括目标数据属性和辅助数据属性。
6.权利要求5的方法,其中在添加查询的步骤中,所述至少一个数据属性包括至少一个辅助数据属性。
7.权利要求1的方法,其中分析数据属性的步骤包括如下步骤:
从查询结果中提取每一属性的统计;
从数据组的至少一部分中提取每一属性的统计;和
评估每一属性的相对选择性。
8.权利要求7的方法,其中评估相对选择性的步骤包括如下步骤:
针对每一属性,对来自查询结果的统计的范围与来自数据组的至少一部分的统计的范围进行比较;和
通过将这些范围的比值与预定值进行比较来确定每一属性是否是选择性属性。
9.权利要求1的方法,其中添加至少一个新谓词的步骤包括如下步骤:
评估每一数据属性的相对选择性;
选择具有高选择性的至少一个辅助数据属性;
形成至少一个新谓词;和
向用户查询添加该至少一个新谓词。
10.权利要求1的方法,还包括利用重写查询对数据组进行查询处理操作的步骤。
11.在数据库查询处理操作期间重写查询的设备,包括:
存储器;和
与存储器耦接的至少一个处理器,其操作用于:(i)根据数据组的至少一部分对查询进行处理,从而产生查询结果;(ii)对来自查询结果的数据属性进行分析;和(iii)在查询中添加来自至少一个数据属性的至少一个新谓词。
12.权利要求11的设备,其中数据组的至少一部分包括来自数据组的采样记录。
13.权利要求12的设备,其中至少一个处理器还可操作用来对来自数据组的数据记录进行采样。
14.权利要求13的设备,其中对数据记录进行采样的操作包括对来自数据组的每第N个记录进行采样,其中N为正整数。
15.权利要求11的设备,其中在分析数据属性的操作中,数据属性包括目标数据属性和辅助数据属性。
16.权利要求15的设备,其中在添加查询的操作中,所述至少一个数据属性包括至少一个辅助数据属性。
17.权利要求11的设备,其中分析数据属性的操作包括:
从查询结果中提取每一属性的统计;
从数据组的至少一部分中提取每一属性的统计;和
评估每一属性的相对选择性。
18.权利要求17的设备,其中评估相对选择性的操作包括:
对来自查询结果的每一属性的统计的范围与来自数据组的至少一部分的一个对应属性的统计的范围进行比较;和
通过将这些范围的比值与预定值进行比较来确定每一属性是否是选择性属性。
19.权利要求11的设备,其中添加至少一个新谓词的操作包括:
评估每一数据属性的相对选择性;
选择具有高选择性的至少一个辅助数据属性;
形成至少一个新谓词;和
向用户查询添加该至少一个新谓词。
20.权利要求11的设备,其中至少一个处理器还可操作用来利用重写查询对数据组进行查询处理操作。
CNB2004100798874A 2003-09-23 2004-09-23 查询处理操作中利用辅助属性进行查询重写的方法和设备 Expired - Fee Related CN1323366C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/668,549 2003-09-23
US10/668,549 US7587394B2 (en) 2003-09-23 2003-09-23 Methods and apparatus for query rewrite with auxiliary attributes in query processing operations

Publications (2)

Publication Number Publication Date
CN1601530A CN1601530A (zh) 2005-03-30
CN1323366C true CN1323366C (zh) 2007-06-27

Family

ID=34313512

Family Applications (2)

Application Number Title Priority Date Filing Date
CNA2004100797087A Pending CN1601529A (zh) 2003-09-23 2004-09-17 查询处理操作中利用辅助属性进行查询重写的方法和设备
CNB2004100798874A Expired - Fee Related CN1323366C (zh) 2003-09-23 2004-09-23 查询处理操作中利用辅助属性进行查询重写的方法和设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNA2004100797087A Pending CN1601529A (zh) 2003-09-23 2004-09-17 查询处理操作中利用辅助属性进行查询重写的方法和设备

Country Status (4)

Country Link
US (3) US7587394B2 (zh)
JP (1) JP4114653B2 (zh)
CN (2) CN1601529A (zh)
TW (1) TWI351618B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982065B (zh) * 2003-09-15 2016-09-21 起元科技有限公司 数据处理方法、数据处理装置及计算机可读存储介质
US20060235819A1 (en) * 2005-04-14 2006-10-19 International Business Machines Corporation Apparatus and method for reducing data returned for a database query using select list processing
CN100397396C (zh) * 2005-10-31 2008-06-25 北京神舟航天软件技术有限公司 基于谓词关键度分析的查询计划缓存方法及其系统
US8694527B2 (en) * 2010-06-30 2014-04-08 International Business Machines Corporation Simplified query generation from prior query results
JP6066927B2 (ja) 2011-01-28 2017-01-25 アビニシオ テクノロジー エルエルシー データパターン情報の生成
US20140372408A1 (en) * 2012-01-25 2014-12-18 Hitachi, Ltd. Sparql query optimization method
AU2013335231B2 (en) 2012-10-22 2018-08-09 Ab Initio Technology Llc Profiling data with location information
US9892026B2 (en) 2013-02-01 2018-02-13 Ab Initio Technology Llc Data records selection
US10255318B2 (en) 2013-02-25 2019-04-09 Facebook, Inc. Sampling a set of data
US8996559B2 (en) 2013-03-17 2015-03-31 Alation, Inc. Assisted query formation, validation, and result previewing in a database having a complex schema
US8751486B1 (en) * 2013-07-31 2014-06-10 Splunk Inc. Executing structured queries on unstructured data
US11487732B2 (en) 2014-01-16 2022-11-01 Ab Initio Technology Llc Database key identification
EP3594821B1 (en) 2014-03-07 2023-08-16 AB Initio Technology LLC Managing data profiling operations related to data type
US9323809B2 (en) * 2014-03-10 2016-04-26 Interana, Inc. System and methods for rapid data analysis
JP6364086B2 (ja) 2014-08-22 2018-07-25 株式会社日立製作所 自己産出的情報処理システムおよび方法
US10296507B2 (en) 2015-02-12 2019-05-21 Interana, Inc. Methods for enhancing rapid data analysis
US10423387B2 (en) 2016-08-23 2019-09-24 Interana, Inc. Methods for highly efficient data sharding
US10146835B2 (en) 2016-08-23 2018-12-04 Interana, Inc. Methods for stratified sampling-based query execution
US9996293B1 (en) 2016-12-12 2018-06-12 International Business Machines Corporation Dynamic management of memory allocation in a database
US11068540B2 (en) 2018-01-25 2021-07-20 Ab Initio Technology Llc Techniques for integrating validation results in data profiling and related systems and methods

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001093105A2 (en) * 2000-05-26 2001-12-06 Computer Associates Think, Inc. System and method for automatically generating database queries
CN1361890A (zh) * 1999-07-20 2002-07-31 计算机联合思想公司 观察改变索引对查询优化方案的影响的数据库系统
WO2002063514A2 (en) * 2001-02-07 2002-08-15 International Business Machines Corporation Context-based information retrieval

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL126934C (zh) * 1960-10-21
US6581056B1 (en) * 1996-06-27 2003-06-17 Xerox Corporation Information retrieval system providing secondary content analysis on collections of information objects
US5842202A (en) * 1996-11-27 1998-11-24 Massachusetts Institute Of Technology Systems and methods for data quality management
US5890150A (en) * 1997-01-24 1999-03-30 Hitachi, Ltd. Random sampling method for use in a database processing system and a database processing system based thereon
JPH10269248A (ja) 1997-01-24 1998-10-09 Hitachi Ltd データベース処理システムにおけるデータの無作為抽出処理方法及びこれに基づくデータベース処理システム
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
US6338055B1 (en) * 1998-12-07 2002-01-08 Vitria Technology, Inc. Real-time query optimization in a decision support system
US6931392B1 (en) * 1998-12-07 2005-08-16 Vitria Technology, Inc. Real-time decision support system
US20030167259A1 (en) * 2000-05-01 2003-09-04 Mike Casson Interactive sales and marketing network system
US7003513B2 (en) * 2000-07-04 2006-02-21 International Business Machines Corporation Method and system of weighted context feedback for result improvement in information retrieval
US6519604B1 (en) * 2000-07-19 2003-02-11 Lucent Technologies Inc. Approximate querying method for databases with multiple grouping attributes
JP2002140364A (ja) * 2000-10-31 2002-05-17 Seiko Epson Corp 情報検索システム、コンテンツ検索システム、コンテンツ配信システム及び記憶媒体
US6884946B2 (en) * 2002-03-05 2005-04-26 Premark Feg L.L.C. Scale for weighing and determining a price of an item
US6941297B2 (en) * 2002-07-31 2005-09-06 International Business Machines Corporation Automatic query refinement

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1361890A (zh) * 1999-07-20 2002-07-31 计算机联合思想公司 观察改变索引对查询优化方案的影响的数据库系统
WO2001093105A2 (en) * 2000-05-26 2001-12-06 Computer Associates Think, Inc. System and method for automatically generating database queries
WO2002063514A2 (en) * 2001-02-07 2002-08-15 International Business Machines Corporation Context-based information retrieval

Also Published As

Publication number Publication date
US7587394B2 (en) 2009-09-08
CN1601530A (zh) 2005-03-30
US20070299832A1 (en) 2007-12-27
US8122046B2 (en) 2012-02-21
US20120109992A1 (en) 2012-05-03
JP4114653B2 (ja) 2008-07-09
TW200517887A (en) 2005-06-01
US20050065914A1 (en) 2005-03-24
CN1601529A (zh) 2005-03-30
JP2005100392A (ja) 2005-04-14
TWI351618B (en) 2011-11-01

Similar Documents

Publication Publication Date Title
CN1323366C (zh) 查询处理操作中利用辅助属性进行查询重写的方法和设备
US11755575B2 (en) Processing database queries using format conversion
US8316012B2 (en) Apparatus and method for facilitating continuous querying of multi-dimensional data streams
US7610264B2 (en) Method and system for providing a learning optimizer for federated database systems
US5893090A (en) Method and apparatus for performing an aggregate query in a database system
US7925672B2 (en) Metadata management for a data abstraction model
US6965891B1 (en) Method and mechanism for partition pruning
US20080195578A1 (en) Automatically determining optimization frequencies of queries with parameter markers
US8682875B2 (en) Database statistics for optimization of database queries containing user-defined functions
JP4397978B2 (ja) 濃度を利用した結合順序付け方法
US20080235181A1 (en) Query Expression Evaluation Using Sample Based Projected Selectivity
EP1402417A2 (en) Method of facilitating database access
CA2506135A1 (en) Combining multidimensional expressions and data mining extensions to mine olap cubes
CN1987861A (zh) 处理数据库查询的系统和方法
US20160196319A1 (en) Multi-dimensional data analysis
US20090112792A1 (en) Generating Statistics for Optimizing Database Queries Containing User-Defined Functions
US20150149508A1 (en) Summarizing statistical data for database systems and/or environments
US7574421B2 (en) Explicit key paging
US20080301085A1 (en) Dynamic Database File Column Statistics for Arbitrary Union Combination
US20080249985A1 (en) Facilitating Identification of Star Schemas in Database Environments
MXPA98003441A (en) Union ordering based on cardinali
MXPA00009484A (en) Processing precomputed views

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070627

Termination date: 20210923

CF01 Termination of patent right due to non-payment of annual fee