CN101067823B - 优化联合数据库管理系统的方法和系统 - Google Patents
优化联合数据库管理系统的方法和系统 Download PDFInfo
- Publication number
- CN101067823B CN101067823B CN2007101077462A CN200710107746A CN101067823B CN 101067823 B CN101067823 B CN 101067823B CN 2007101077462 A CN2007101077462 A CN 2007101077462A CN 200710107746 A CN200710107746 A CN 200710107746A CN 101067823 B CN101067823 B CN 101067823B
- Authority
- CN
- China
- Prior art keywords
- data
- federated
- inquiry
- magagement
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000007726 management method Methods 0.000 claims description 17
- 238000013499 data model Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 25
- 239000000203 mixture Substances 0.000 description 12
- 238000005457 optimization Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 238000011160 research Methods 0.000 description 8
- 150000001875 compounds Chemical class 0.000 description 7
- 238000013500 data storage Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 208000019802 Sexually transmitted disease Diseases 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- XQFCONVZHYBBOH-UHFFFAOYSA-N hippeastidine Chemical compound C1C2=CC(OC)=C(OC)C(O)=C2C23CCC(OC)CC3N1CC2 XQFCONVZHYBBOH-UHFFFAOYSA-N 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010002198 Anaphylactic reaction Diseases 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 101001077478 Homo sapiens RNA guanine-N7 methyltransferase activating subunit Proteins 0.000 description 1
- 102100025054 RNA guanine-N7 methyltransferase activating subunit Human genes 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000036783 anaphylactic response Effects 0.000 description 1
- 208000003455 anaphylaxis Diseases 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000003255 drug test Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 238000013537 high throughput screening Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
用于配置和使用联合数据库管理系统的方法、系统和程序产品。元数据和查询的设计包括首先确定数据源服务器的模式和元数据配置的步骤。下一个步骤是列举可用资源,并列举安全性和机密性需求。这些用于根据该模式和元数据、列举的可用资源以及列举的安全性和机密性需求计算最优的联合数据库管理系统设计;并设计最优的联合数据库管理系统。
Description
技术领域
文中所述的本发明涉及从联合(federated)数据库系统即从透明地将多个自主(autonomous)数据库系统集成为单个虚拟数据库即联合数据库的元数据库管理系统提取数据。构成数据库仍是自主的、分离的和不同的。文中所述的方法、系统和程序产品涉及搜索联合分布式计算机系统内存储的数据以及分布式数据库的管理,包括数据库数据和文件的访问和检索,以及从联合数据库检索数据库数据和文件。本发明的另一个方面包括组织数据或文件并使其相互关联,包括关系模型、网络模型、层次模型和实体-关系模型。
背景技术
联合数据库系统是一种元数据库管理系统(DBMS),其透明地将分离的、不同的多个自主数据库系统集成为单个联合数据库。构成数据库经由计算机网络、互联网、局域网和虚拟网络互连,并且可在地理上分散。由于构成数据库系统仍保持自主,所以联合数据库系统是对将多个异类数据库合并在一起的不简单的任务的一种替代选择。
通过数据抽象、包装器(wrapper)函数和容器函数,联合数据库系统可提供统一的前端用户界面,使得用户可通过单个查询在多个数据库内存储和检索数据,即使构成数据库是异类的。为此,联合数据库系统必须能够将查询解构成子查询以便提交给相关的构成DBMS,此后系统必须合并或聚合子查询的结果集。
由于各数据库管理系统使用不同的查询语言,所以联合数据库系统必须频繁地将包装器应用于子查询以将它们转换成合适的查询语言。
迄今为止,联合数据库已被以多种方式预测能够在概念层次解决无数问题。但是,对于真实世界的实际问题,联合系统还没有实现上述预测。一个尤其苦恼的挑战是获得针对多维物理和“人员”挑战的最优解决方案。
因此,很清楚,需要考虑超出数据库元数据层次和机器层次的问题,并探索解决方案空间(solution space)和相关联的软约束。软约束是指法律和制度上的约束例如机密性和道德规范、人员可用性、性能需求等。
发明内容
这些以及其他问题可用文中所述的方法和系统消除。具体地,文中所述的本发明提出了一种用于使技能和资产尤其是人员技能和人力资产(people asset)与需求和需要匹配的方法和系统。
根据本发明的一个方面,提供一种用于优化具有联合数据库服务器和多个数据源服务器的联合数据库管理系统的方法,该方法包括以下步骤:a)确定数据源服务器的模式和元数据配置;b)列举可用资源;c)列举安全性和机密性需求;d)根据该模式和元数据、列举的可用资源以及列举的安全性和机密性需求计算联合数据库管理系统;e)通过优化器获得最优的联合数据库管理系统,其中所述优化器执行的步骤包括:(i)在使用所述联合数据库管理系统执行查询时,选择执行所述查询成本最小的策略;(ii)确定与所述查询相关联的操作是否应该由所述联合数据库服务器或所述数据源服务器之一来执行;(iii)确定与所述查询相关联的所述操作的顺序;以及提供用于包括用户试探和数据输入的用户输入的功能。
根据本发明的又一个方面,提供一种用于优化具有联合数据库服务器和多个数据源服务器的联合数据库管理系统的系统,该系统包括以下装置:a)确定数据源服务器的模式和元数据配置的装置;b)列举可用资源的装置;c)列举安全性和机密性需求的装置;d)根据该模式和元数据、列举的可用资源以及列举的安全性和机密性需求计算联合数据库管理系统的装置;e)通过优化器获得最优的联合数据库管理系统的装置,其中所述优化器包括:(i)在使用所述联合数据库管理系统执行查询时,选择执行所述查询成本最小的策略的装置;(ii)确定与所述查询相关联的操作是否应该由所述联合数据库服务器或所述数据源服务器之一来执行的装置;(iii)确定与所述查询相关联的所述操作的顺序的装置;以及f)提供用于包括用户试探和数据输入的用户输入的功能的装置。
具体地,本发明的方法和系统解决了这样叙述的分配问题“我有一组人员,每个人都具有一组技能,而由于外部约束(法律的、集体谈判等),仅能向某些人分配某些任务,某些数据不能离开某些地点或者不能给某些人,并且某些数据不能具体化”。根据文中所述的本发明,数据,包括传统数据库数据和来自异类数据库的数据,被联合以生成解决方案空间,其中例如通过整数规划优化解决方案集。
该方法和系统利用数据库联合和“提取、转换和加载”(“ETL”)数据库管理来查询、搜索和选择性地提取数据,呈现数据,使用复杂优化例如整数规划、混合整数规划、试探法和人工智能等技术、人为干预和请求另外的数据来分析和呈现数据。
当该方法和系统用于研究或临床环境,并且例如随后公布(或提交给管理当局)时,需要释放足够的数据以满足学术上的、制度上的或管理上的需求。这使得产物为大量个别数据的总和。
查询、搜索和选择性提取数据的步骤是遵守具体化(materialization)和呈现上的约束执行的。作为示例而不是限制,这些约束包括私密的个人数据例如性传播疾病的存在或不存在、遗传异常的存在或不存在乃至信誉度。
类似地,所述约束可包括制度上机密的数据例如何人将执行工作、资源分配和交付、预算、技能集、策略、费用分配、代替现金支付的实物捐献、输入和输出的时间约束。另外,在临床、测试或流行病学上下文中,信息传递可被法律例如HIPP限制和私人约束所约束。
通过联合数据,整个数据的全体仅需在计算期间具体化,而完成的产物仅是聚合数据如总和以及统计量。
在实际计算中,使用在联合系统内的不同数据库管理系统的不同表上的临时表、关联表构建中间数据库。一当在联合数据库上运行查询并报告,所述临时表就被锁定或消失。
文中所述的方法和系统探索了整个问题空间,展示了所有约束,并使用例如整数规划技术针对加权的、多维准则函数(multidimensional criteriafunction)优化这些约束。整个数据集用于对可能的解决方案建模,包含数据结构、元数据、数据模式和可能的关联表(associative table),从而比较如被成本、策略、人员和资产的可用性以及必需的时间线约束的ETL解决方案与联合解决方案。
附图说明
在附图中示出了本发明的各个方面。
图1示出最初的发现当前环境的步骤。
图2示出接下来的分析当前环境的步骤。
图3示出定义可用资源的步骤。
图4示出定义项目(project)约束的步骤。
图5示出设计实现需求的最优解决方案。
图6示出给定所有约束、要求(claim)和资源,计算最优解决方案的步骤。
图7示出联合数据系统的概观。
图8示出用于设计联合数据库系统的流程图的概观。
图9示出执行查询并随后处理结果集的流程图的概观。
图10示出从输入约束变量和约束通过对约束和变量的分析到优化优化工具和技术并执行优化的判定树。
图11示出数据库联合和“提取、转换和加载”(ETL)数据库管理的高层概观,该数据库管理用于查询、搜索和选择性地提取数据,呈现数据,使用复杂优化例如整数规划、混合整数规划、试探法和人工智能等技术、人为干预和请求另外的数据来分析和呈现数据。
具体实施方式
本发明的方法、系统和程序产品解决了这样叙述的分配问题“我有一组人员,每个人都具有一组技能,而由于外部约束(法律约束、集体谈判等),仅能向某些人分配某些任务,某些数据不能离开某些地点或者不能给某些人,并且某些数据不能具体化”。
当本发明的方法、系统和程序产品用于研究环境并随后公布(或者提交给管理当局)时,需要释放足够的数据以满足学术上的、制度上的或管理上的需求。数据库联合使得输出为大量个别数据的结果。
通过联合数据,数据的全体仅在计算期间具体化,而完成的产物仅是聚合数据如仅是总和以及统计量。
在实际计算中,使用从在联合系统内的不同数据库管理系统的不同表得到的临时表、关联表来构建中间数据库。一当在联合数据库上运行查询并报告,该临时表就被锁定或消失。
文中所述的方法、系统和程序产品研究了整个问题空间,展示了所有约束,并针对加权的多维准则函数优化这些约束。整个数据集用于对可能的解决方案建模,包括数据结构、元数据、数据模式和可能的关联表,从而比较如被成本、策略、人员和资产的可用性以及必需的时间线约束的ETL解决方案与联合解决方案。
图1示出最初的发现包含单元1001、1003、1005、1007的当前环境的步骤。这包括评估不同的源系统数据约束以及回顾性和预期性数据集成挑战,客户和行业数据标准的影响。约束和机会包括当前的集成能力,所需的集成解决方案的性质以及客户团队技能。
图2示出下一个分析包含单元1001、1003、1005、1007的当前环境的步骤。分析当前环境包括理解按照源的可用元数据1011、1013、1015、1017。还包括分析当前环境以分析数据集成方法和按照源的数据模型1021、1023、1025、1027,指示ETL或联合或混合方法,并定义必须遵守的集成规则1031、1033、1035、1037。随后,访问当前的技能1041、1043、1045、1047,推荐最优的技能集,并确定弥补该差距的机制。该分析还包括确定现有基础结构的最优使用以使可用性最大。
图3示出定义可用资源的步骤。在此上下文中,资源包括具有技能1103和训练1105的可用人员1101,另外的训练的可用性,网络和网络容量1107、计算设备1109和软件可用性1111,物理资源1113,存储器1115,时间约束1117和美元可用性(资金)1119。
图4示出定义项目约束的步骤。这些约束可以是法律1201(HIPA,知识产权),安全性1203(信息传递1205、IT 1207和安全约束1209),社会(组织结构和约束1211、个人策略1212和限制1214、组织灵活性1213),环境(有害物质1215),资金约束1217,团队位置1219和旅行约束,数据(数据库互操作性1225、数据兼容性1223、数据质量1221),风险1227和IT资产1229(软件、网络、数据库和硬件要求以及性能特性),发展需求1226和必需的交付步骤1231。
图5示出设计最优解决方案以实现需求。最优解决方案包括一个或多个实体统一化方案(entity unification scheme)1301,共形维度(conformaldimension)1303,和聚合方案1305,以及获得统一的元数据模型1311和统一的数据模型1313。
图6示出给定所有约束、要求和资源,计算最优解决方案的步骤。在此步骤中,各种资源集合是要求者(claimant)集合1401,该集合通过ETL1411、联合1413或混合(hybrid)被处理。这些数据项目在例如临时结构和持久结构中被处理,从而都生成“视图”1421。
图10所示的该方法在多维约束的上下文内优化了联合数据库和ETL数据库以及数据库查询,使用ETL 1511、ETL和联合的混合1513以及联合1515的技术集合数据以确定优化技术1521以获得优化解决方案,包括候选最优解决方案的集合。
在大的现代企业例如医学研究机构、大学、医疗中心和多部门企业中,几乎不可避免地,组织的不同部分将使用不同的数据库管理系统来存储和搜索它们的关键数据。但是,只是通过组合来自这些系统的信息,现代临床、学术或研究机构机构才能够实现它们包含的数据的全部价值。
例如,在卫生保健行业中,兼并、合并和收购几乎是常事。新创建或合并的实体继承了原机构的数据存储库(store)。许多这些存储库将是关系数据库管理系统,但是经常来自不同的制造商;例如一个公司可主要使用Sybase,而另一个公司使用Informix IDS。它们可均具有一个或多个文档管理系统-例如Documentum或IBM Content Manager-来存储文本文档例如患者记录、医嘱(order)、实验室测试等的副本。每个可具有计算重要信息(例如过敏性、药物反应和相互作用等)或挖掘关于患者或试验对象的健康问题的信息的应用。
在结构合并之后,它们需要能够访问来自所有的存储库集合的所有患者信息,使用现有的和新的应用分析它们的新的客户档案(portfolio),并通常通过共同接口使用组合的原始机构的资源。它们需要能够识别共同的患者和对象,并合并它们的患者记录的相关部分,尽管不同的临床和研究服务和部门可能使用完全不同的识别键不统一地引用它们的患者。联合技术可通过为不同数据提供统一的接口来大大减轻这些情况中的困难。
如果联合系统是透明的,则它对用户屏蔽底层数据源的差别、特质和实现。理想地,它使得联合源的集合在用户看来像是单个系统。用户应该不需要知道数据存储在哪里(位置透明性),数据源支持哪种语言或编程接口(调用透明性),如果使用SQL的话源支持SQL的哪种方言(方言透明性),数据是如何物理存储的,或者数据是否被分区和/或被复制(物理数据独立性、分段(fragmentation)和复制透明性),或使用哪种网络协议(网络透明性)。用户应看到单个统一的接口,包括单组错误代码(错误代码透明性)。IBM提供了所有这些特征,从而允许好像所有数据都位于单个数据库内似地编写应用,尽管实际上数据可存储在数据源的异类集合中。
联合的另一个方面是异质性。异质性是各数据源之间的区别程度。源可在许多方面不同。它们可在不同硬件上运行,使用不同的网络协议,并具有不同的软件来管理它们的数据存储。它们可具有不同的查询语言,不同的查询能力乃至不同的数据模型。它们可不同地处理错误,或提供不同的事务语义。它们可象具有相同或不同的模式的两个Oracle实例那样相似,其中一个运行Oracle 8i,另一个运行Oracle 9i。或者,它们可如同功能强大的关系数据库、简单的结构化的平面文件、获得形式为URL的查询并根据某种DTD返回半结构化的XML的网站、Web服务以及响应于特定的一组函数调用的应用那样各不相同。IBM的联合数据库可容纳所有这些差别,从而将例如这些系统的系统包含在无缝的、透明的联合中。
在联合系统中,可能需要新的源来满足用户的企业的变化需求。联合使得可容易地添加新的源。联合数据库引擎经由已知为包装器的软件组件访问资源。访问新型数据源是通过获得或创建对于该源的包装器来完成的。包装器体系结构使得能够建立新的包装器。一旦包装器存在,简单的数据定义语言(DDL)语句允许将源动态地添加到联合中而不会停止正在进行的查询或事务。
任何数据源都可被包装。IBM支持ANSI SQL/MED标准(MED代表外部数据管理)。此标准记载了联合服务器用于与外部数据源通信的协议。写到SQL/MED接口的任何包装器都可与IBM的联合数据库一起使用。因此,包装器可由用户、厂商和第三方编写。
联合的另一个方面是数据源的自主。通常,数据源具有已有的应用和用户。因此,重要的是,源在被带入联合中时该源的操作不会被影响。现有的应用将无改变地运行,数据不会被移动和修改,接口仍保持相同。数据源处理对数据的请求的方式不会受针对联合系统执行全局查询的影响,尽管这些全局查询可能触及许多不同的数据源。同样,当数据源进入或离开联合时对本地系统的一致性没有影响。
通过优化器获得优化的性能。优化器是确定执行每个查询的最佳方式的、关系数据库管理系统的组件。关系查询是非过程性的,在执行查询时每个关系算子通常存在多种不同的实现,并且通常存在可以进行选择的、算子的许多可能的排序。尽管一些优化器使用试探式规则来选择执行策略,但是优选的联合数据库考虑各种可能的策略,对每种策略的可能的成本建模并选择成本最小的策略(通常,成本用消耗的系统资源衡量)。
在联合系统中,优化器必须确定查询中涉及的不同操作是应该由联合服务器完成还是由存储数据的源完成。它还必须确定操作的顺序,以及使用什么实现来完成查询的本地部分。为了做出这些决定,优化器必须通过某种方式知道每个数据源可完成什么以及其成本大小。例如,如果数据源是文件,则假设其是智能的、并且要求其执行分类(sort)或应用某个函数是没有意义的。另一方面,如果源是能够应用谓词并进行联结的关系数据库系统,则利用其能力是个好主意,如果这将减小需要被带回联合引擎的数据的量的话。这通常将依赖个别查询的细节。在一个实施例中,优化器与用于查询中涉及的不同源的包装器一起工作以评估可能性。在执行策略时,好的决定和坏的决定之间的差别往往是性能上的几个量级。
为了进一步提高性能,每个包装器实现通过使用每个数据源的本机API来利用源提供的调节器(knob)。例如,将多个结果行分块到一个消息(也叫做块读取)是常见的性能调节器。查询编译器将与包装器通信以指示哪些查询片段可利用块读取,从而在运行时获得最大性能而不会损失查询语义。
图7内示出一个联合系统体系结构。应用可使用任何被支持的接口(包括ODBC、JDBC或Web服务客户机)与联合服务器交互。联合服务器利用被称为包装器的软件模块与数据源通信。该系统包括客户机107,SQLAPI 109和联合数据库服务器112。联合数据库服务器112包括包装器应用114,数据库目录116和元数据数据库118。服务器112从多个具有相关联的数据储存库(repository)123、127的后端数据源121、125接收数据。
联合系统是通过安装联合引擎112并然后配置该引擎以与数据源对话建立的。存在一些向联合系统添加新的数据源121或125的步骤。首先,必须安装用于源121或125的包装器114,然后必须告知联合数据库服务器在哪里可找到此包装器。这是通过CREATE WRAPPER语句完成的。如果需要多个相同类型的源,则仅需要一个包装器。例如,即使联合系统将包括可能位于不同机器上的五个Oracle数据库实例,仍仅需要一个Oracle包装器,并因此仅需要一个CREATE WRAPPER语句。但是,还必须向系统标识每个单独的源。这可通过CREATE SERVER语句完成。如果存在五个Oracle数据库实例,则必须发出五个CREATE SERVER语句。
例如,假设存在用于访问网站的包装器,以及用户希望从中访问数据的特定网站。
此语句主要告知联合数据库在哪里可找到用于web_wrapper的代码。接下来,通过将实际网站标识为与web_wrapper相关联的服务器,可向联合数据库告知将使用的该实际网站。
OPTIONS子句允许以包装器为访问此数据源类型的实例将需要的信息来定制基本的CREATE SERVER语句。
在包装器114和服务器112已被定义之后,必须根据联合中间件的数据模型描述在远程源121处的数据123。由于文中所述的联合数据库支持对象-关系数据模型,所以来自远程源的数据的每个汇集必须作为具有合适类型的列的表向联合引擎描述。被建模为表的外部数据的汇集被称为绰号,并且其表名和列名用于由应用提交给联合的SQL。绰号经由CREATENICKNAME语句被标识。下面的语句为关于天气的信息的汇集建立了绰号,并且标识了可用于查询的“列”。
“OPTIONS”子句仍是传递包装器需要的信息的方式,这次是为了针对绰号处理查询。
除了存储数据之外,许多数据源还能够执行专门的搜索或其他计算。这些能力可在SQL中被描述为用户定义的函数。
用户定义的函数被外部数据源实现为映射函数。再次地,映射函数经由DDL语句向联合系统标识。CREATE FUNCTION语句告知联合数据库这是可在SELECT语句内出现的函数。
AS TEMPLATE子句告知联合函数该函数没有本地实现。接下来,CREATE FUNCTION MAPPING语句告知联合系统什么服务器可对该函数求值。可为相同函数建立一些函数映射。对于我们的示例,下面的语句完成映射。
DDL语句产生描述关于绰号以及映射函数的签名的信息的元数据。此元数据被联合查询处理引擎使用,并存储在联合数据库的全局目录内。
图8内示出元数据和查询的实际设计,该设计包括首先确定数据源服务器的模式和元数据配置的步骤201。下一步是列举可用资源203,并列举安全性和机密性需求205。它们用于根据该模式和元数据、列举的可用资源以及列举的安全性和机密性需求计算最优的联合数据库管理系统设计207;并设计最优的联合数据库管理系统。
可用资源的确定包括确定人员、技能集、网络能力、计算设备、预算、时间约束、软件系统、数据库管理系统应用程序接口和存储器。
确定安全性和机密性需求包括确定例如由健康保险便携性和隐私法案以及其他法令和契约限制强加的病历机密性。
设计最优的联合数据库管理系统的最终步骤使用实体统一化方案、共形维度、聚合方案,统一的元数据以及统一的数据模型中的一个或多个。
在联合系统被配置之后,应用可向联合服务器提交用SQL写的查询。联合服务器优化该查询,开发其中查询被分解成可在各个数据源上执行的片段的执行计划。如上所述,查询的很多分解都是可能的,并且优化器根据最小的预计总资源消耗在其中进行选择。一旦已选择计划,联合服务器就会驱动执行,调用包装器来执行分配给它们的片段。为了执行片段,包装器执行完成工作所需要的任何数据源操作,这可能是被提交给数据源的用本机查询语言写成的一系列函数调用或查询。得到的数据流被返回联合服务器,该服务器组合这些数据流,执行任何另外的不能被数据源完成的处理,并将最终结果返回应用。
如图9所示,该方法包括向与联合服务器相关联的应用提交查询的步骤301。随后是在联合服务器内优化该查询的步骤303。接下来,将该查询分解成用于在各个数据源执行的片段305,并调用包装器来执行片段307。下一步,将数据流返回联合服务器309。组合返回的数据流并执行数据源没有完成的任何另外的处理311。将最终结果返回与联合服务器相关联的应用313。
解决方案的实际优化包括首先优化优化技术和工具的选择,然后使用优化工具和技术的优化选择获得最优或相对最优的解决方案。图10示出从约束变量和约束的输入通过对约束和变量的分析到优化所述优化工具和技术并执行优化的判定树。
这样,可将数据与优化工具和技术相匹配,即将变量和约束与ETL或联合或它们的混合相匹配。图10的判定树包括查看每种数据类型,查看模型,查看元数据,并优化以得到初始的一组可行的方法和工具,然后得到初始的一组最优或近似最优的解决方案。通常,随后逐步调整加权函数和目标函数。
在此上下文中,优化可包括从数据库将有限的数据提取到中间和虚拟表,并从中间和虚拟表提取选择的数据以便进一步处理。这避免了在机密或受限数据上进行处理。
在图11的流程图示出的本发明的优选示例中,利用数据库联合和“提取、转换和加载”(“ETL”)数据库管理系统的协作401来查询、搜索和选择性地提取数据403,呈现数据405,然后使用复杂优化例如整数规划、混合整数规划、试探法和人工智能等技术进行数据分析和呈现407。这些步骤可包括试探法。另外,数据分析和呈现的步骤可得出这样的结果,该结果指示不可得到数值结果,或者需要另外的数据,或者候选解决方案集合需要人为干预409,并且如果这样指示的话请求另外的数据411。
查询、搜索和选择性提取数据的步骤遵守具体化和呈现上的约束执行。作为示例而不是限制,这些约束包括私密个人数据例如性传播疾病的存在或不存在、遗传异常的存在或不存在乃至信誉度。
类似地,所述约束可包括制度上机密的数据例如何人将执行工作、资源分配和提交、预算、技能集、策略、费用分摊、代替现金支付的实物捐献、输入和输出的时间约束。另外,在临床、测试或流行病学上下文中,信息传递可被法律例如HIPP限制和私人限制约束。
所述约束可促使数据仅短暂地和暂时地可用,并且仅能实时使用。这可避免具体化。类似地,可通过仅将数据库主密钥和私人识别标记(personal identification indicia)登记在永不会具体化的虚拟表中来保持它们机密。
数据输入可以是一部分一部分的,这可能是由于数据库联合或数据接口。对数据输入的约束可被资源或预算驱动。
通常,联合系统可用于存在多个数据源并且需要组合来自这些源的信息的任何场合。
医学研究、药物测试、临床护理和学术研究等等是多位置活动,这种活动意味着需要协调在全世界的多个位置的活动。例如,医药公司可能在欧洲和美国具有实验室。每个实验室都具有寻找新药物以对抗特定疾病的科学家。这些科学家都必须访问存储在专用系统内的化合物数据库,所述系统允许用化合物的特定特性或化学结构(结构相似性)进行搜索。在两个实验室中,科学家进行化合物的高吞吐量筛选以测试它们针对不同生物学目标的有效性。这些测试的结果存储在每个实验室的关联数据库中。科学家访问的其他数据源包括基因组和蛋白质组(proteomic)信息的大的平面文件,临床试验或疾病过程的多维结果,患者数据库,数据和分析的电子表格,图像和文本文档。
例如,不同实验室中的科学家具有不同但关联的任务,追求不同但关联的治疗或处理。这导致他们进行不同的试验,并专注于特定的多组化合物。但是,同一种化合物往往可对不同目标是有用的,并且有时一个测试可对于其他测试的结果是好的指示。因此,重要的是,一个实验室中的科学家能够访问在另一个实验室产生的数据以便不进行重复工作。尽管这可通过建立包含所有化合物数据和测试结果的大仓库实现,但是此方法存在一些缺点。首先,测试结果数据快速变化,每天都会从大西洋两侧添加成千上万的记录,这使得难以维护。其次,或者仓库必须在两个地点被复制,或者某一地点必须承受较慢的访问数据的性能。复制会增加解决方案的成本以及维护的复杂性。第三,需要将今天存储在专门储存库内的化合物数据迁移到关系数据库,包括重新实现搜索算法以及任何现有的应用。
联合解决方案消除了这些问题。数据保留在现有数据源中,同时它们的本机访问路径未改变,当前应用未改变地运行。但是,可容易地构建不管洲、元数据或模式如何均可从任何源访问数据的应用。本地数据依然是本地的,以便进行快速访问。根据需要,仍可访问较不经常使用的远程数据,并且可由联合服务器优化查询以确保尽可能高效地检索它们。如果需要的话,对于被两个实验室频繁访问的数据的那些部分仍可使用复制。
如果用户可在多个不同数据库上工作,包括选择、插入、更新和删除,就好像所有表都位于单个数据库内似的,则可大大提高生产率。数据库联合正好可这样做:它使得表看上去象都位于相同数据库内。
联合系统在远程系统即“数据源”内的表上操作。该远程表在联合数据库服务器112数据库内表现为虚拟表。客户机应用程序可在联合数据库服务器112数据库内的虚拟表上执行操作,但是,真正的持久存储位于远程数据库121、125内。
每个后端数据源121、125将联合数据库服务器112仅看作另一个数据库客户机连接。后端数据源121、125仅服务于对数据库操作的客户机请求。联合数据库服务器112需要客户机软件来访问每个远程数据库。IBMSybase、Oracle等的客户机软件需要被安装以访问每种后端数据源121、125。
到数据库联合的应用接口是SQL。这与必须学习一种新的接口相比,可大大提高生产率。可使用与本地表相同的用于选择、插入、更新和删除的语法访问远程表。并不是所有表操作都可进行,但是DB2 v8内的Information Integrator通过提供插入和更新功能而前进了一大步。
“包装器”定义了理解如何与后端数据源数据库121、125通信的库文件(其中库在图7中表示为元件114)。它使用客户机连接软件来访问远程数据库。
存在两种定义包装器的方法,使用SQL或在DB2v8内使用图形用户界面(GUI)。
使用SQL形成包装器的示例如下所示:
|CREATE WRAPPER“INFORMIX”LIBRARY‘db2informix.dll’;|
GUI向导是从控制中心发起的。
下面给出SQL的示例:
CREATE SERVER“rcfliif”
TYPE INFORMIX VERSION‘9.3’
WRAPPER“INFORMIX”OPTIONS(NODE‘fliif’,
DBNAME‘stores_demo’
,ADD CPU_RATIO‘1’
,ADD IO_RATIO‘1’
,ADD COMM_RATE‘1’
,ADD DB2_MAXIMAL_PUSHDOWN‘Y’
);
NODE指定了远程数据库服务器并且不是TCP/IP主机名。DBNAME定义了远程数据库。
PUSHDOWN是默认的,其指示联结应该在远程服务器上发生。在后面将对此进行测试并查看一些数据库优化器解释计划(explain plan)。
本发明例如可通过具有这样的系统实现,该系统用于通过在一个或一组专用处理器中或者在具有专用代码的一个或一组专用处理器中执行作为软件应用的方法从联合数据库管理系统搜索、提取、转换、加载和呈现数据。该代码执行一系列机器可读指令,所述指令也被称为代码。这些指令可位于不同类型的信号承载介质内。在此方面,本发明的一个方面涉及一种包括有形地包含机器可读指令的程序的信号承载介质或信号承载媒体的程序产品,所述机器可读指令的程序可被数字处理装置执行以执行作为软件应用的用于从联合数据库管理系统搜索、提取、转换、加载和呈现数据的方法。
该信号携带介质可包括例如服务器中的存储器。服务器中的存储器可以是非易失性的存储器、数据盘乃至用于下载到处理器以便安装的厂商服务器上的存储器。或者可选择地,所述指令可被包含在信号承载介质例如光数据存储盘内。或者可选择地,所述指令可存储在多种机器可读数据存储介质或媒体中的任何一个上,所述机器可读数据存储介质或媒体可包括例如“硬盘驱动器”、RAID阵列、RAMAC、磁数据存储软盘(例如软盘)、磁带、数字光带、RAM、ROM、EPROM、EEPROM、闪速存储器、磁光存储器、纸制穿孔卡片,或任何其他合适的信号承载介质,包括传输介质,例如可以是电的、光的和/或无线的数字和/或模拟通信链路。作为示例,机器可读指令可包含从语言例如“C++”、Java、Pascal、ADA、汇编程序等编译的软件目标代码。
另外,程序代码例如可被压缩、加密或进行这两个操作,并且可如在Zip代码和cab代码内包括可执行代码、脚本代码以及安装向导。如文中使用的,术语位于信号承载介质内或上的机器可读指令或代码包括所有上述运送手段。
尽管前面的公开示出本发明的许多例示性实施例,但是对于本领域的那些技术人员很明显,可实现许多修改和变型而不会背离被所附权利要求限定的本发明的范围。此外,尽管可用单数说明或要求保护本发明的元件,也设想了复数,除非明确地规定局限于单数。
Claims (8)
1.一种用于优化具有联合数据库服务器和多个数据源服务器的联合数据库管理系统的方法,该方法包括以下步骤:
a)确定数据源服务器的模式和元数据配置;
b)列举可用资源;
c)列举安全性和机密性需求;
d)根据该模式和元数据、列举的可用资源以及列举的安全性和机密性需求计算联合数据库管理系统;
e)设计最优的联合数据库管理系统,以及
f)提供用于包括用户试探和数据输入的用户输入的功能,
g)使用所述联合数据库管理系统执行查询时,通过优化器确定执行每个查询的最佳方式,其中优化器执行以下步骤:
(i)选择执行所述查询成本最小的策略;
(ii)确定与所述查询相关联的不同操作是应该由所述联合数据库服务器还是由所述数据源服务器来执行;以及
(iii)确定与所述查询相关联的所述不同操作的顺序。
2.根据权利要求1的方法,其中,可用资源包括人员、技能集、网络能力、计算设备、预算、时间约束、软件系统、数据库管理系统应用程序接口和存储器。
3.根据权利要求1的方法,其中,所述安全性和机密性需求包括病历机密性。
4.根据权利要求1的方法,还包括使用实体统一化方案、共形维度、聚合方案,统一的元数据以及统一的数据模型中的一个或多个设计最优的联合数据库管理系统。
5.一种用于优化具有联合数据库服务器和多个数据源服务器的联合数据库管理系统的系统,该系统包括:
a)确定数据源服务器的模式和元数据配置的装置;
b)列举可用资源的装置;
c)列举安全性和机密性需求的装置;
d)根据该模式和元数据、列举的可用资源以及列举的安全性和机密性需求计算联合数据库管理系统的装置;
e)设计最优的联合数据库管理系统的装置;
f)提供用于包括用户试探和数据输入的用户输入的功能的装置,以及
g)使用所述联合数据库管理系统执行查询时,确定执行每个查询的最佳方式的优化器,其中所述优化器包括:
(i)选择执行所述查询成本最小的策略的装置;
(ii)确定与所述查询相关联的不同操作是应该由所述联合数据库服务器还是由所述数据源服务器来执行的装置;以及
(iii)确定与所述查询相关联的所述不同操作的顺序的装置。
6.根据权利要求5的系统,其中,可用资源包括人员、技能集、网络能力、计算设备、预算、时间约束、软件系统、数据库管理系统应用程序接口和存储器。
7.根据权利要求5的系统,其中,所述安全性和机密性需求包括病历机密性。
8.根据权利要求5的系统,还包括使用实体统一化方案、共形维度、聚合方案,统一的元数据以及统一的数据模型中的一个或多个设计最优的联合数据库管理系统。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/416,973 US7523118B2 (en) | 2006-05-02 | 2006-05-02 | System and method for optimizing federated and ETL'd databases having multidimensionally constrained data |
US11/416,973 | 2006-05-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101067823A CN101067823A (zh) | 2007-11-07 |
CN101067823B true CN101067823B (zh) | 2010-06-02 |
Family
ID=38750745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007101077462A Active CN101067823B (zh) | 2006-05-02 | 2007-04-29 | 优化联合数据库管理系统的方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7523118B2 (zh) |
CN (1) | CN101067823B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089350B2 (en) | 2014-10-30 | 2018-10-02 | Red Hat, Inc. | Proactive query migration to prevent failures |
Families Citing this family (117)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7865487B2 (en) * | 2006-07-14 | 2011-01-04 | Raytheon Company | System and method for providing remote access to events from a database access system |
US9202184B2 (en) | 2006-09-07 | 2015-12-01 | International Business Machines Corporation | Optimizing the selection, verification, and deployment of expert resources in a time of chaos |
US7647286B2 (en) * | 2006-09-07 | 2010-01-12 | International Business Machines Corporation | System and method for managing a chaotic event by providing optimal and adaptive sequencing of decision sets with supporting data |
US7647288B2 (en) * | 2006-09-07 | 2010-01-12 | International Business Machines Corporation | System and method for optimally customizable and adaptive personalized information display for information associated with managing a chaotic event |
US7630948B2 (en) * | 2006-09-07 | 2009-12-08 | International Business Machines Corporation | System and method for managing a chaotic event |
US7698246B2 (en) * | 2006-09-07 | 2010-04-13 | International Business Machines Corporation | System and method for optimal and adaptive process unification of decision support functions associated with managing a chaotic event |
US7653609B2 (en) | 2006-09-07 | 2010-01-26 | International Business Machines Corporation | System and method for managing a chaotic event by optimizing decision subdivisions subject to multidimensional constraints |
US20090287503A1 (en) * | 2008-05-16 | 2009-11-19 | International Business Machines Corporation | Analysis of individual and group healthcare data in order to provide real time healthcare recommendations |
US8055603B2 (en) | 2006-10-03 | 2011-11-08 | International Business Machines Corporation | Automatic generation of new rules for processing synthetic events using computer-based learning processes |
US7809660B2 (en) * | 2006-10-03 | 2010-10-05 | International Business Machines Corporation | System and method to optimize control cohorts using clustering algorithms |
US8145582B2 (en) | 2006-10-03 | 2012-03-27 | International Business Machines Corporation | Synthetic events for real time patient analysis |
US8190661B2 (en) * | 2007-01-24 | 2012-05-29 | Microsoft Corporation | Using virtual repository items for customized display |
US8145673B2 (en) | 2007-02-16 | 2012-03-27 | Microsoft Corporation | Easily queriable software repositories |
US20080201330A1 (en) * | 2007-02-16 | 2008-08-21 | Microsoft Corporation | Software repositories |
US7917478B2 (en) * | 2007-02-26 | 2011-03-29 | International Business Machines Corporation | System and method for quality control in healthcare settings to continuously monitor outcomes and undesirable outcomes such as infections, re-operations, excess mortality, and readmissions |
US7702605B2 (en) * | 2007-02-26 | 2010-04-20 | International Business Machines Corporation | System and method for deriving a hierarchical event based database optimized for privacy and security filtering |
US7788203B2 (en) * | 2007-02-26 | 2010-08-31 | International Business Machines Corporation | System and method of accident investigation for complex situations involving numerous known and unknown factors along with their probabilistic weightings |
US7970759B2 (en) | 2007-02-26 | 2011-06-28 | International Business Machines Corporation | System and method for deriving a hierarchical event based database optimized for pharmaceutical analysis |
US7853611B2 (en) | 2007-02-26 | 2010-12-14 | International Business Machines Corporation | System and method for deriving a hierarchical event based database having action triggers based on inferred probabilities |
US7831625B2 (en) | 2007-05-16 | 2010-11-09 | Microsoft Corporation | Data model for a common language |
US7930262B2 (en) | 2007-10-18 | 2011-04-19 | International Business Machines Corporation | System and method for the longitudinal analysis of education outcomes using cohort life cycles, cluster analytics-based cohort analysis, and probabilistic data schemas |
US7779051B2 (en) * | 2008-01-02 | 2010-08-17 | International Business Machines Corporation | System and method for optimizing federated and ETL'd databases with considerations of specialized data structures within an environment having multidimensional constraints |
US9652346B2 (en) * | 2008-01-24 | 2017-05-16 | Symcor Inc. | Data consistency control method and software for a distributed replicated database system |
US20090210422A1 (en) * | 2008-02-15 | 2009-08-20 | Microsoft Corporation | Secure Database Access |
US8121858B2 (en) * | 2008-03-24 | 2012-02-21 | International Business Machines Corporation | Optimizing pharmaceutical treatment plans across multiple dimensions |
CN101990659B (zh) | 2008-04-04 | 2014-08-20 | 兰德马克绘图国际公司,哈里伯顿公司 | 关联元数据模型表示和资产逻辑模型表示的系统及方法 |
US10552391B2 (en) | 2008-04-04 | 2020-02-04 | Landmark Graphics Corporation | Systems and methods for real time data management in a collaborative environment |
US8095963B2 (en) | 2008-04-30 | 2012-01-10 | Microsoft Corporation | Securing resource stores with claims-based security |
US20090299766A1 (en) * | 2008-05-30 | 2009-12-03 | International Business Machines Corporation | System and method for optimizing medical treatment planning and support in difficult situations subject to multiple constraints and uncertainties |
US8504505B2 (en) * | 2008-10-31 | 2013-08-06 | Caterpillar Inc. | System and method for controlling an autonomous worksite |
US8095571B2 (en) | 2009-06-22 | 2012-01-10 | Microsoft Corporation | Partitioning modeling platform data |
US20110047176A1 (en) * | 2009-08-21 | 2011-02-24 | Cerner Innovation, Inc. | Centralized data mapping for site-specific data extraction |
US8200698B2 (en) * | 2009-10-30 | 2012-06-12 | International Business Machines Corporation | Optimizing distributed and hybrid queries incorporating trust measures |
CN102053975A (zh) * | 2009-10-30 | 2011-05-11 | 国际商业机器公司 | 数据库系统和跨数据库查询优化方法 |
US8560365B2 (en) | 2010-06-08 | 2013-10-15 | International Business Machines Corporation | Probabilistic optimization of resource discovery, reservation and assignment |
US9646271B2 (en) | 2010-08-06 | 2017-05-09 | International Business Machines Corporation | Generating candidate inclusion/exclusion cohorts for a multiply constrained group |
US8968197B2 (en) | 2010-09-03 | 2015-03-03 | International Business Machines Corporation | Directing a user to a medical resource |
US8577915B2 (en) | 2010-09-10 | 2013-11-05 | Veveo, Inc. | Method of and system for conducting personalized federated search and presentation of results therefrom |
US9292577B2 (en) | 2010-09-17 | 2016-03-22 | International Business Machines Corporation | User accessibility to data analytics |
US8418184B2 (en) | 2010-09-24 | 2013-04-09 | International Business Machines Corporation | Use of constraint-based linear programming to optimize hardware system usage |
US9443211B2 (en) | 2010-10-13 | 2016-09-13 | International Business Machines Corporation | Describing a paradigmatic member of a task directed community in a complex heterogeneous environment based on non-linear attributes |
US8429182B2 (en) | 2010-10-13 | 2013-04-23 | International Business Machines Corporation | Populating a task directed community in a complex heterogeneous environment based on non-linear attributes of a paradigmatic cohort member |
US10318877B2 (en) | 2010-10-19 | 2019-06-11 | International Business Machines Corporation | Cohort-based prediction of a future event |
CN102135980B (zh) * | 2010-12-21 | 2013-03-13 | 北京高森明晨信息科技有限公司 | 一种处理实时事务的方法及装置 |
CN102655514B (zh) * | 2011-03-03 | 2014-05-28 | 江苏三棱科技发展有限公司 | 一种网络服务环境下求解线性服务组合前k优解的方法 |
EP2686764A4 (en) * | 2011-03-17 | 2015-06-03 | Hewlett Packard Development Co | DATA SOURCE ANALYTICS |
US8775218B2 (en) | 2011-05-18 | 2014-07-08 | Rga Reinsurance Company | Transforming data for rendering an insurability decision |
US8799269B2 (en) | 2012-01-03 | 2014-08-05 | International Business Machines Corporation | Optimizing map/reduce searches by using synthetic events |
US9043255B2 (en) | 2012-05-09 | 2015-05-26 | International Business Machines Corporation | Optimally configuring an information landscape |
US9460200B2 (en) | 2012-07-02 | 2016-10-04 | International Business Machines Corporation | Activity recommendation based on a context-based electronic files search |
US8903813B2 (en) | 2012-07-02 | 2014-12-02 | International Business Machines Corporation | Context-based electronic document search using a synthetic event |
US8898165B2 (en) | 2012-07-02 | 2014-11-25 | International Business Machines Corporation | Identification of null sets in a context-based electronic document search |
US20140032608A1 (en) * | 2012-07-30 | 2014-01-30 | Gregory P. Comeau | Database adapter |
US9262499B2 (en) | 2012-08-08 | 2016-02-16 | International Business Machines Corporation | Context-based graphical database |
US8676857B1 (en) | 2012-08-23 | 2014-03-18 | International Business Machines Corporation | Context-based search for a data store related to a graph node |
US8959119B2 (en) | 2012-08-27 | 2015-02-17 | International Business Machines Corporation | Context-based graph-relational intersect derived database |
US9619580B2 (en) | 2012-09-11 | 2017-04-11 | International Business Machines Corporation | Generation of synthetic context objects |
US8620958B1 (en) | 2012-09-11 | 2013-12-31 | International Business Machines Corporation | Dimensionally constrained synthetic context objects database |
US9251237B2 (en) | 2012-09-11 | 2016-02-02 | International Business Machines Corporation | User-specific synthetic context object matching |
US9223846B2 (en) | 2012-09-18 | 2015-12-29 | International Business Machines Corporation | Context-based navigation through a database |
US8782777B2 (en) | 2012-09-27 | 2014-07-15 | International Business Machines Corporation | Use of synthetic context-based objects to secure data stores |
US9741138B2 (en) | 2012-10-10 | 2017-08-22 | International Business Machines Corporation | Node cluster relationships in a graph database |
IN2015DN02750A (zh) * | 2012-10-19 | 2015-08-28 | Ericsson Telefon Ab L M | |
CN103780646B (zh) * | 2012-10-22 | 2017-04-12 | 中国长城计算机深圳股份有限公司 | 一种云资源的调度方法及系统 |
US8931109B2 (en) | 2012-11-19 | 2015-01-06 | International Business Machines Corporation | Context-based security screening for accessing data |
CN103902574A (zh) * | 2012-12-27 | 2014-07-02 | 中国移动通信集团内蒙古有限公司 | 一种基于数据流技术的实时数据加载方法和装置 |
US9229932B2 (en) | 2013-01-02 | 2016-01-05 | International Business Machines Corporation | Conformed dimensional data gravity wells |
US8983981B2 (en) | 2013-01-02 | 2015-03-17 | International Business Machines Corporation | Conformed dimensional and context-based data gravity wells |
US8914413B2 (en) | 2013-01-02 | 2014-12-16 | International Business Machines Corporation | Context-based data gravity wells |
US9081826B2 (en) | 2013-01-07 | 2015-07-14 | Facebook, Inc. | System and method for distributed database query engines |
US8856946B2 (en) | 2013-01-31 | 2014-10-07 | International Business Machines Corporation | Security filter for context-based data gravity wells |
US9069752B2 (en) | 2013-01-31 | 2015-06-30 | International Business Machines Corporation | Measuring and displaying facets in context-based conformed dimensional data gravity wells |
US9053102B2 (en) | 2013-01-31 | 2015-06-09 | International Business Machines Corporation | Generation of synthetic context frameworks for dimensionally constrained hierarchical synthetic context-based objects |
US10489416B2 (en) * | 2013-02-28 | 2019-11-26 | Micro Focus Llc | Optimizing and managing execution of hybrid flows |
US9110722B2 (en) | 2013-02-28 | 2015-08-18 | International Business Machines Corporation | Data processing work allocation |
US9292506B2 (en) | 2013-02-28 | 2016-03-22 | International Business Machines Corporation | Dynamic generation of demonstrative aids for a meeting |
US10152526B2 (en) | 2013-04-11 | 2018-12-11 | International Business Machines Corporation | Generation of synthetic context objects using bounded context objects |
CN103309939B (zh) * | 2013-04-23 | 2016-07-20 | 税友软件集团股份有限公司 | 一种基于元数据的动态检索方法及装置 |
US9195608B2 (en) | 2013-05-17 | 2015-11-24 | International Business Machines Corporation | Stored data analysis |
US9348794B2 (en) | 2013-05-17 | 2016-05-24 | International Business Machines Corporation | Population of context-based data gravity wells |
WO2015030767A1 (en) * | 2013-08-29 | 2015-03-05 | Hewlett-Packard Development Company, L.P. | Queries involving multiple databases and execution engines |
US9262476B2 (en) | 2014-01-10 | 2016-02-16 | Red Hat, Inc. | System and method for batch query processing |
US9824185B2 (en) * | 2014-08-08 | 2017-11-21 | Practice Fusion, Inc. | Electronic health records data management systems and methods |
US10108744B2 (en) | 2014-10-07 | 2018-10-23 | Oracle International Corporation | Administrative tool and physical execution plan interface for plug-in architecture of business intelligence platform using data source cartridges |
US10067978B2 (en) | 2014-10-07 | 2018-09-04 | Oracle International Corporation | Plug-in architecture of business intelligence platform using data source cartridges |
US10452634B2 (en) * | 2016-02-01 | 2019-10-22 | Microsoft Technology Licensing, Llc | Provide consumer oriented data service |
US10432716B2 (en) | 2016-02-29 | 2019-10-01 | Bank Of America Corporation | Metadata synchronization system |
US10452656B2 (en) * | 2016-03-31 | 2019-10-22 | Sap Se | Deep filter propagation using explicit dependency and equivalency declarations in a data model |
CN106547849B (zh) * | 2016-10-18 | 2019-11-26 | 华南师范大学 | 一种满足租户差异化需求的多租户数据库的构建方法 |
US10469324B2 (en) * | 2016-11-22 | 2019-11-05 | Amazon Technologies, Inc. | Virtual network verification service |
US10754868B2 (en) | 2017-01-20 | 2020-08-25 | Bank Of America Corporation | System for analyzing the runtime impact of data files on data extraction, transformation, and loading jobs |
US10430395B2 (en) | 2017-03-01 | 2019-10-01 | International Business Machines Corporation | Iterative widening search for designing chemical compounds |
JP2020514935A (ja) * | 2017-03-15 | 2020-05-21 | ファウナ, インク.Fauna, Inc. | データベース用の方法及びシステム |
US10558640B2 (en) * | 2017-04-10 | 2020-02-11 | International Business Machines Corporation | Dynamically adding custom data definition language syntax to a database management system |
US10719308B1 (en) | 2017-11-06 | 2020-07-21 | Allscripts Software, Llc | System and method for dynamically monitoring a configuration of a server computing device |
US10416661B2 (en) | 2017-11-30 | 2019-09-17 | Abb Schweiz Ag | Apparatuses, systems and methods of secure cloud-based monitoring of industrial plants |
KR101982085B1 (ko) * | 2018-04-25 | 2019-05-27 | 주식회사쿠콘 | 스크립트 엔진을 이용한 데이터 스크래핑 시스템, 방법 및 컴퓨터 프로그램 |
US11050793B2 (en) | 2018-12-19 | 2021-06-29 | Abnormal Security Corporation | Retrospective learning of communication patterns by machine learning models for discovering abnormal behavior |
US11431738B2 (en) | 2018-12-19 | 2022-08-30 | Abnormal Security Corporation | Multistage analysis of emails to identify security threats |
US11824870B2 (en) | 2018-12-19 | 2023-11-21 | Abnormal Security Corporation | Threat detection platforms for detecting, characterizing, and remediating email-based threats in real time |
US11457074B2 (en) * | 2019-03-29 | 2022-09-27 | Microsoft Technology Licensing, Llc | Using outcome-targeted gap predictions to identify a digital resource |
US11650982B2 (en) * | 2019-04-01 | 2023-05-16 | Sap Se | Automatic selection of precompiled or code-generated operator variants |
US11470042B2 (en) | 2020-02-21 | 2022-10-11 | Abnormal Security Corporation | Discovering email account compromise through assessments of digital activities |
US11477234B2 (en) | 2020-02-28 | 2022-10-18 | Abnormal Security Corporation | Federated database for establishing and tracking risk of interactions with third parties |
WO2021178423A1 (en) | 2020-03-02 | 2021-09-10 | Abnormal Security Corporation | Multichannel threat detection for protecting against account compromise |
US11252189B2 (en) | 2020-03-02 | 2022-02-15 | Abnormal Security Corporation | Abuse mailbox for facilitating discovery, investigation, and analysis of email-based threats |
WO2021183939A1 (en) | 2020-03-12 | 2021-09-16 | Abnormal Security Corporation | Improved investigation of threats using queryable records of behavior |
WO2021217049A1 (en) | 2020-04-23 | 2021-10-28 | Abnormal Security Corporation | Detection and prevention of external fraud |
CN112182028B (zh) * | 2020-09-29 | 2024-07-05 | 北京人大金仓信息技术股份有限公司 | 基于分布式数据库的表的数据行数查询方法和装置 |
US11528242B2 (en) | 2020-10-23 | 2022-12-13 | Abnormal Security Corporation | Discovering graymail through real-time analysis of incoming email |
US11687648B2 (en) | 2020-12-10 | 2023-06-27 | Abnormal Security Corporation | Deriving and surfacing insights regarding security threats |
CN112597225B (zh) * | 2020-12-22 | 2024-05-24 | 南京三眼精灵信息技术有限公司 | 基于集散模型的数据采集方法及装置 |
CN113055393B (zh) * | 2021-03-26 | 2022-08-26 | 支付宝(杭州)信息技术有限公司 | 一种安全服务化方法、装置以及设备 |
US11831661B2 (en) | 2021-06-03 | 2023-11-28 | Abnormal Security Corporation | Multi-tiered approach to payload detection for incoming communications |
US20230066110A1 (en) * | 2021-08-31 | 2023-03-02 | International Business Machines Corporation | Creating virtualized data assets using existing definitions of etl/elt jobs |
CN113742370B (zh) * | 2021-11-02 | 2022-04-19 | 阿里云计算有限公司 | 全加密数据库的数据查询方法、统计信息密文生成方法 |
CA3238279A1 (en) * | 2021-11-16 | 2023-05-25 | Chi Lang Ngo | Privacy preserving federated query engine |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167405A (en) * | 1998-04-27 | 2000-12-26 | Bull Hn Information Systems Inc. | Method and apparatus for automatically populating a data warehouse system |
CN1612138A (zh) * | 2003-10-31 | 2005-05-04 | 国际商业机器公司 | 研究数据仓储库系统与方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4533974B2 (ja) * | 1996-08-01 | 2010-09-01 | 康 清木 | 異種データベース統合システム |
US6353818B1 (en) * | 1998-08-19 | 2002-03-05 | Ncr Corporation | Plan-per-tuple optimizing of database queries with user-defined functions |
US7152070B1 (en) * | 1999-01-08 | 2006-12-19 | The Regents Of The University Of California | System and method for integrating and accessing multiple data sources within a data warehouse architecture |
US20010051881A1 (en) * | 1999-12-22 | 2001-12-13 | Aaron G. Filler | System, method and article of manufacture for managing a medical services network |
CA2404716A1 (en) * | 2000-03-31 | 2001-10-11 | British Telecommunications Public Limited Company | Resource creation method and tool |
US7191183B1 (en) * | 2001-04-10 | 2007-03-13 | Rgi Informatics, Llc | Analytics and data warehousing infrastructure and services |
US7047253B1 (en) * | 2001-09-28 | 2006-05-16 | Oracle Interntional Corporation | Mechanisms for storing content and properties of hierarchically organized resources |
US7457810B2 (en) * | 2002-05-10 | 2008-11-25 | International Business Machines Corporation | Querying markup language data sources using a relational query processor |
US7500150B2 (en) * | 2005-12-30 | 2009-03-03 | Microsoft Corporation | Determining the level of availability of a computing resource |
-
2006
- 2006-05-02 US US11/416,973 patent/US7523118B2/en not_active Expired - Fee Related
-
2007
- 2007-04-29 CN CN2007101077462A patent/CN101067823B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167405A (en) * | 1998-04-27 | 2000-12-26 | Bull Hn Information Systems Inc. | Method and apparatus for automatically populating a data warehouse system |
CN1612138A (zh) * | 2003-10-31 | 2005-05-04 | 国际商业机器公司 | 研究数据仓储库系统与方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089350B2 (en) | 2014-10-30 | 2018-10-02 | Red Hat, Inc. | Proactive query migration to prevent failures |
Also Published As
Publication number | Publication date |
---|---|
CN101067823A (zh) | 2007-11-07 |
US7523118B2 (en) | 2009-04-21 |
US20070276851A1 (en) | 2007-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101067823B (zh) | 优化联合数据库管理系统的方法和系统 | |
US7853624B2 (en) | System and method for optimizing distributed and hybrid queries in imperfect environments | |
Haas | Beauty and the beast: The theory and practice of information integration | |
US9449034B2 (en) | Generic ontology based semantic business policy engine | |
US8041760B2 (en) | Service oriented architecture for a loading function in a data integration platform | |
US8060553B2 (en) | Service oriented architecture for a transformation function in a data integration platform | |
US7814470B2 (en) | Multiple service bindings for a real time data integration service | |
US9569725B2 (en) | Techniques for extracting semantic data stores | |
US20050262193A1 (en) | Logging service for a services oriented architecture in a data integration platform | |
US20050223109A1 (en) | Data integration through a services oriented architecture | |
US20060069717A1 (en) | Security service for a services oriented architecture in a data integration platform | |
US20050235274A1 (en) | Real time data integration for inventory management | |
US20050240354A1 (en) | Service oriented architecture for an extract function in a data integration platform | |
US20050232046A1 (en) | Location-based real time data integration services | |
US20050262190A1 (en) | Client side interface for real time data integration jobs | |
Zhang et al. | Holistic evaluation in multi-model databases benchmarking | |
WO2006026702A2 (en) | Methods and systems for semantic identification in data systems | |
Silberschatz et al. | Database systems—breaking out of the box | |
Nadal et al. | Operationalizing and automating data governance | |
CN101438269B (zh) | 用于提供托管定制垂直应用的方法和装置 | |
Fan et al. | DIRECT: a system for mining data value conversion rules from disparate data sources | |
Mohania et al. | New trends in information integration | |
Kappel et al. | Database requirements for CIM applications | |
Hammer et al. | Data warehousing at the crossroads | |
Sathappan et al. | Database Management Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211110 Address after: USA New York Patentee after: Qindarui company Address before: USA New York Patentee before: International Business Machines |