CN101826108A

CN101826108A - 数据集成平台

Info

Publication number: CN101826108A
Application number: CN201010142918A
Authority: CN
Inventors: 张宝宇
Original assignee: BEIJING YUCHEN LONGMA INFORMATION TECHNOLOGY SERVICE Co Ltd
Current assignee: BEIJING YUCHEN LONGMA INFORMATION TECHNOLOGY SERVICE Co Ltd
Priority date: 2010-04-09
Filing date: 2010-04-09
Publication date: 2010-09-08
Also published as: WO2011123993A1

Abstract

本发明公开了一种数据集成平台，其包括查询处理模块和响应收集模块。该查询处理模块被构造为接收查询，并将该查询翻译成一些适当的用于对各种源进行查询的形式。响应收集模块被构造为根据所述经翻译的查询，从各种源收集结果，并提供结果。本公开还提供了一种基于该数据集成平台的数据集成方法。

Description

数据集成平台

技术领域

本公开内容总体涉及数据集成平台领域。

背景技术

当越来越多的数据库可通过门户网站、可编程接口等从因特网等网络获取时，基于互联网的数据库和数据的集成变得越来越重要。然而，由于数据形式、结构和语义上存在的异构问题，难以获取和集成多样化的数据。存储在因特网上的数据可能借助于不同的方法进行了处理，这使它们彼此间难以相互比较，以及可能因不一致的技术术语和命名习惯而彼此不一致，甚至彼此冲突。一些数据甚至存在严重的质量问题，例如，它们可能是有很多噪声的，并且并不可靠。这些数据还可能缺少一些内部相关性注释来支持生物信息学上常做的跨学科分析。

发明内容

本公开内容的一个实施方案描述了一种数据处理平台，其包括查询处理模块和响应收集模块。该查询处理模块被构造为接收查询，并将该查询翻译成一些适当的用于对各种源进行查询的形式。响应收集模块被构造为根据所述经翻译的查询，从各种源收集结果，并提供结果。

本公开内容的另一个实施方案描述了一种数据集成方法，其包括以下步骤：接收查询并将该查询翻译成一些适当的用于对各种源进行查询的形式；以及根据所述经翻译的查询，从各种源收集结果，并提供结果。

以上是综述，因此必然涵盖了对细节的简化、概括以及省略；所以，本领域普通技术人员将明白该综述只是示例性的，并不意在构成任何限制。所述器件和/或过程的其他方面、特征、优点和/或本文描述的其他主题将通过本文所给的教导而变得清楚。综述的提供意在以一种简化的方式引入对概念的选取，而该概念的具体内容将稍后做进一步说明。该综述并不意在明确表明所要求保护主题的关键特征或必要特征，也并不用于辅助限定所要求保护的主题的范围。

附图说明

本公开内容的上述特征和其他特征将通过以下描述、所附权利要求以及附图而变得更为清楚。应理解，这些附图只是描述了本公开内容的几个实施方案，因此，它们并不被考虑用于限制本公开内容的范围，借助于这些附图，将对本公开内容的更多说明和细节进行描述。

图1示出了根据一示例性实施方案的数据集成平台(DIP)100的示意性概图；

图2示出了根据一示例性实施方案的数据集成平台(DIP)100的示意图；

图3示出了根据一示例性实施方案的功能注释过程的示意图；

图4示出了根据一示例性实施方案的DIP的功能的三层结构的示意图；

图5示出了根据一示例性实施方案的基于多个DIP的数据集成方法的示意图；

图6示出了根据一示例性实施方案的结果呈现图。

具体实施方式

在以下详细描述中，参考了附图，所述附图构成本公开内容的一部分。在附图中，相同的符号一般表示相同的部分，除非上下文另有说明。具体说明、附图以及权利要求中所描述的说明性的实施方案并不意在构成限制。可以利用其他实施方案，以及进行其他改变，这些并不脱离此处所给主题的精神和范围。易于理解的是，可以以各种不同的构造布置、替换、组合和设计本公开内容中如此处从整体上加以描述和图示的那些方面，所有这些都被确切预期并构成本公开内容的一部分。

本公开内容主要涉及一些与数据集成平台有关的方法、装置、计算机程序、存储计算机程序的计算机可读介质以及系统。

图1示出了数据集成平台(DIP)100的示意性概图。DIP包括查询处理模块101，其被构造为接收原始查询104，并将该原始查询104翻译成一些适当的用于对各种源103进行查询的形式。DIP 100还包括响应收集模块102，其被构造为根据所述经翻译的查询，从各种源103收集一些结果105，并提供结果106。原始查询可以接收自客户计算机设备108。

在一示例性实施方案中，查询处理模块101，例如如图2所示，包括查询翻译器(QT)201。响应收集模块102包括查询桥(QB)202，以及结果集结器(RA)203。查询翻译器201接收诸如关键词查询之类的原始查询104，并将其翻译成内部表达或统一的形式——例如基于请求分析器(request parsar)等。接着，将所述经翻译的查询传送至查询桥202。

查询桥202包括适配器(adapter)2021、查询调用器2022以及结果收集器2023。该适配器2021基于每个数据源的信息(如，基本的查询模式、检索数据的方法等)，生成应用接口所要求的正确的或针对性的陈述或表达。将生成的陈述传送至调用每个数据库系统提供的查询服务的查询调用器2022。查询调用器2022分发，即，传送每个生成的陈述至其所针对的或对应的数据源。数据源206、207和208接收各自对应的陈述并在数据源处运行查询。结果收集器2023通过各种方式从诸如数据库206、API207和互联网服务208等各种源收集结果。例如，结果收集器2023可以被构造具有一个抓取模块(crawlingmodule)，该抓取模块在因特网、局域网或数据库上抓取结果。结果收集器2023还可以被构造为通过可编程接入点，如API207和网络服务208，来收集结果。适配器2021还将异构的查询结果的结构和形式转换为统一的内部表达。适配器2021可以针对每个已知源来具体地构造。从多个数据源获取的结果可能具有各种形式，即文本形式、表示图表的URI、超链接等、后续可以转化为HTML表目标的数据表；一个错误消息等。结果集结器203处理查询结果，例如分析交叉查询结果的一致性、识别冲突和矛盾的结果、过滤重复的记录以及产生一整理过的结果集或结果106。

DIP还可以包含一个作为DIP的助理的查询域知识数据库205。该知识数据库可以包括查询关键词数据。这类数据帮助适配器2021针对不同的源生成正确的查询语句。以复杂的ID系统为例，知识数据库含有基因的映射关系，从而只需输入一个ID(基因标识)，适配器2021将以正确但不同的关键词自动生成数据库查询语句。在多个查询以后，将不同形式的数据返回到请求者，而查询域数据库205协助“理解”结果的意思，并将它们组合到标准化的结果中。可以理解的是，该特征可以利用后端应用处的映射系统来实现。例如，可以利用本体(ontology)来提供该领域里的统一的概念模型。在训练过程中，关键词被附加上其到概念本体(concept ontology)的映射，以及该关键词通过从使用历史进行学习来保持更新。一个关键词可以被映射到多个本体概念。

因此首先基于后端映射系统分析在线提交的关键词，以识别其统一的本体概念，以及不同数据库中映射到该相同的本体概念的相应关键词。

在这种知识的辅助下，DIP非常智能，能够使用仅仅一个类型的输入，自动地对不同的互联网站点/数据库进行操作。该多源数据被提供用以供科学家进行分析。

在上述描述中，DIP可以接受不同方式的查询请求，包括对某一个数据类型或多个数据类型、某一平台或交叉平台等的查询请求。在知识系统或查询域知识数据库205的支持下，也可以以生物模型的形式提出查询，所述生物模型用以表示所有相关的信息，包括基本的基因信息、实验结果、功能注释以及所推得的结论。可以使用统一的表达首先将所提交的查询具体化。例如，它可以被编码进XML。然后根据不同的互联网数据库的接口限定，将统一的查询翻译成不同的形式。

DIP含有转换规则方面的知识。例如，它是标准的SQL，或参数化的API。此处的一个假设是互联网数据库遵循某些标准接口。

在数据集成过程中，可以提供控制器来控制一个或两个模块的运行。因此，还可以选择性地包括一个过程管理模块。该过程管理模块用于接收来自外部设备的指令，并执行该指令，以引导每个模块的运行，所述模块如查询翻译器201、适配器2021以及结果集结器203。

在一些实施方案中，适配器还可以包括服务糅合模块(service mashup module)，其用于提供有过程情景意识的数据集成。一个过程由数据处理和分析操作组成。例如，当一个如上所述的数据集成平台用于生物领域时，一服务糅合模块被构造为将数据连同它们的注释集成到一个过程中。如图3所示，服务糅合模块可以包括三个部分：1)功能服务池301，在该处存储了服务描述；2)过程限定302，用以将服务组织成为一个过程以及提供过程说明；以及3)过程引擎303，用以绑定并调用过程中指定的服务。当调用一个过程时，过程引擎303装载过程限定302，并找出功能服务池301中的服务。在过程执行中提供动态绑定和调用过程。过程限定302限定不同功能服务之间的数据流和控制流。例如，限定两个服务SA和SB依序被调用，服务SA的输出是紧随的服务SB的输入。对于这种工作流和数据说明有一些标准。例如，用于工作流说明的BPEL4WS和OWL-S，以及用于数据流说明的SCA/SDO。

功能服务池301包含对功能注释服务和工具的描述。池301中的工具被打包成(bewrapped as)互联网服务，用以支持动态绑定方法。每个服务，如第三方注释服务以及被打包的服务例如以OWL-S来描述。在OWL-S中，“ServiceProfile”提供了对服务及服务提供者的高级别描述，以便推广、调用和牵线该服务，所述描述包括服务概要描述、服务功能以及功能归属。“ServiceGrounding”限定了从抽象描述到具体说明的映射，其指定了访问服务的具体细节，如协议、消息格式、序列化、传送以及寻址等。“ServiceModel”描述了使实现服务调用、组合和监控等的服务能力。OWL-S中所描述的“原子过程”用于……。结果是，功能服务池301保持了如“原子过程”的所有服务和工具，以供过程引擎303来绑定和调用。作为服务池管理，池301可以保持一张可获取的服务的URL列表。它可以维持链接、分类服务以及根据需要绑定到服务等。服务引擎303解释该过程说明。对于过程限定中的每个功能，它在池301中找到具体服务、绑定并调用服务，用于执行。

过程限定302被限定成XML。过程限定302扩展OWL-S至支持动态绑定。类似于OWL-S，过程限定302还描述该过程是如何组合的。该OWL-S在如何描述一组合过程方面提供了良好的参考。组合过程可以被拆解成其他(非组合的或组合的)过程，可以使用诸如Sequence和If-Then-Else的控制构造来规定它们的拆解。不同于OWL-S，不可拆解的过程不是一个“原子过程”。换言之，OWL-S过程限定可以被看成一组“原子过程”以及“组合过程”，和一些控制构造信息。但是过程限定302包括控制构造、“组合过程”以及“AtomicServiceStub”(而不是OWL S中的“原子过程”)。“AtomicServiceStub”限定了不可拆解过程作为一个服务类型，其包括一套可完成相同运行的可互相取代的服务。例如，Google和Yahoo两者都可以在互联网上搜索文本。因此，这两个了应用可以被分类到相同的“AtomicServiceStub”中。

扩展的OWL S过程执行引擎被设计为过程引擎303，以构造和执行服务过程。过程限定302引导引擎来决定需要绑定和调用哪种服务。在每个步骤中，哪种指定的服务将被绑定和调用取决于两个因数：1)外部决定，其可以从过程管理模块接收；以及2)引擎决定。外部决定被看成是外部的偏好。外部具有选择服务的特权，该选择具有比引擎决定更高的优先权。引擎决定是有情景意识的计算。服务情景包括服务装载、服务质量以及其他与服务有关的信息。功能注释是外交互式的迭代过程。外部可以基于之前的结果以及他/她的偏好来决定所要进行的运行。

DIP可以运行在客户计算设备上。它也可以基于互联网，如Web 2.0/Web 3.0来运行。

图4示出了根据一示例性实施方案的DIP的功能的三层结构的示意图。该三层包括数据层401，其用于元数据和词汇管理；知识层，402，其用于信息建模、分析和知识发现；以及服务层403，其用于提供外部服务。在数据层401，执行元数据管理和处理，诸如元数据管理4012以及元数据映射4013。例如，针对标准词汇4011定义限定基于元数据的模型。数据提供者可以登录以及提供与元数据兼容的数据内容或告知DIP从其本地词汇到中心标准的映射规则。在知识层402，它提供了对信息的不同的看待角度，包括用于数据检索的直接的看待角度4024，基于特定“规则”，如“中心法则”等来链接和集成数据的模型库角度4023，以及带有统计和个人信息的概要角度4025。在信息的整个循环过程中，对所有信息应用出处4021以及分级4022等质量控制机制。基于所提取的信息，挖掘4026、发现4027以及管理4028知识4029.在服务层403，向数据提供者提供登录4031相关的信息，并提供数据分类4032、建模4033以及注释4034等服务，以便更好地理解数据。通过个人化代理4036提供与查询4035有关的服务，该个人化代理4036能够识别个人兴趣，并积累知识用于个人服务。该服务将触发解释器4037来解释该查询并触发对所返回的结果的集成4038。

图5示出了基于多个DIP的数据集成方法的示意图。如该图所示，提供者或登录者5014将源5012登录到DIP 501，用于公开和检索。它也可以通过一个包5013将其数据转换到DIP 501所限定的标准形式。包在软件开发上是广为应用的设计模式。当集成不同的软件部分或子系统时，由于不一致的接口限定，彼此间可能不协调，例如，由于功能命名、参数命名或语义不同。一种简单的解决该问题的方法是将包加入到彼此相通的功能中。该包将接口转换至彼此一致。

同时，该提供者或登录者可以将转换规则连同其数据模式信息提交至DIP 501，从而将转换工作留给DIP 501。该DIP 501也可以通过在因特网上进行抓取来获取源5015，例如通过使用抓取模块。在这种方式中，它要求数据提供者为DIP 501显示标准服务，以供DIP 501理解其数据形式和语义。

DIP 501可以以各种方式返回响应。可以使用异步方法。例如，基于事件的通知以及主题订阅都是可用于DIP结构的异步技术。

在图5中，一组DIP(501，502，503)结合在一起，它们是动态的并且是可扩展的。DIP(501，502，503)可以基于标准协议来分工和协作。为了避免通信和处理瓶径，一个DIP可以集中于提供小规模数据服务这样的指定任务。例如，DIP(501，502，503)可以被分类到不同的领域中。一个DIP可以集中于高吞吐量的基因数据服务，而另一DIP可以集中于化合物数据服务。DIP(501，502，503)不停参考其他DIP，并通过协议在运行时建立合作。它们可以灵活地参与合作或放弃合作。

本公开内容还提供了数据集成方法。参考图2，查询翻译器201接收查询104，如关键词查询，并将其转换成内部表达或正确的形式。通过适配器2021，将该内部表达进一步转换成应用接口所要求的针对性的陈述或表达。通过调用器2022将针对性的陈述分发至每个数据库系统。数据收集器2023在因特网和局域网上收集结果，或通过可编程接入点收集结果，通过适配器2021，该结果被转换为统一的形式。结果集结器203将进一步处理结果。例如它可以分析结果的一致性、识别冲突和矛盾的结果、过滤重复的记录以及产生一整理过的结果集。同时，可以提供个人化的服务，例如通过个人化代理。例如，根据个人兴趣和交易历史处理或呈现该查询或结果。

为了在数据集成过程中引导每个模块的运行，可以接受用户指令来引导每个模块的运行。同时，该方法还包括提供有过程情景意识的数据集成，例如通过服务糅合模块，如参考图3所描述的。

实例

以下描述涉及在生物领域里的实施，将参考图6对其进行描述。图6示出了结果呈现图。

外部设备处的用户希望找出一种药物的治疗效果以及所影响的基因。从查询开始，使用外部设备的用户可以在任何时刻选择所要查看的基因，以及选择要调用的注释服务。数据集成平台现在支持查询结果的线形图表视图和表格视图。它提供到两个服务的连接：1)KEGG路径服务，其帮助外部设备处的用户理解生命活动过程中的行为和生物学努力；以及2)DAVID/GO服务，其提供基因信息，包括染色体、位置、疾病、别名、路径名等。外部设备处的用户可以以默认关键词“PTGS2”以及默认的平台过滤器“U95”来查询数据库，“U95”是来自

公司的被广为使用的芯片系列之一。它们也可以输入正式的基因名称以及通过折叠的选项面板选择平台。查询结果可以以三种视图来显示：1)在左面板上的结果视图602内显示的简要统计，其中有基因名称列表及它们的访问次数；2)数据表格视图610中的组织和细胞系信息结果。在该视图中，实验结果被收集和呈现在一表格中，以供科学家获取标准化的数据值；以及3)图表视图612中的值的线形图表。

后两种视图以分开的标签显示在图6中。科学家可以比较不同的结果视图，以识别重要的或不正常的点。

作为随后的一个步骤，在工具视图604中提供两个工具。点击任何一个按钮将产生在线服务调用。该服务的结果将显示在主面板的一个新标签里。KEGG服务606调用具有两个步骤。第一步骤是路径查询。每个路径具有其自己的超链接(如，花生四烯酸代谢(Arachidonic Acid Metabolism))。第二步骤实际上呈现类似于图6所示的路径图表。不同ID系统之间的ID翻译过程支持该调用，该ID翻译过程对终端用户是透明的。在翻译过程中，后端有ID映射系统。该系统可以例如在关系数据库、XML或多维数据库中实施。ID作为一个关键词被映射到统一的内部表达。该系统限定了每个系统中的每个ID的映射。因此，查询ID首先被翻译成统一的内部表达，然后被翻译成其他系统中的其他ID。

路径图表中的每一个元是可以被点击以生成新的查询和打开来自KEGG网站的网页的热点，KEGG网站包括了酶、基因或有机组织在内的具体信息。

David基因本体服务(David Gene Ontology Service)608还可以被选择为分析操作。作为示范，David服务通过限制服务参数而被简化。在原始的David服务中，用户可以通过设置注释类型、基因ID系统、关键词以及服务工具的偏好来施加他的个人化请求。FunGene系统基于以前的查询自动生成正确的ID系统和关键词参数。此外，功能服务调用器将“工具”设置为“基因报告”以及“注释类型”设置为“GOTERM BP ALL”(包括所有生物学过程注释)。该结果以数据表格呈现，并且也显示在标签中。

系统的众多方面的硬件实施和软件实施差别很小，使用硬件或软件通常(但并非总是，因为在某些情景，硬件和软件之间的选择可能变得非常不同)是一种代表了成本和效应间的折中的设计选择。存在各种可以实现此处所描述的过程和/或系统和/或其他技术的效果的方式，而最为优选的方式则随该过程和/或系统和/或其他技术所实施的情景而变。例如，如果一个实施者确定速度和精确度是非常重要的，实施者可以选择以硬件和/或固件实施方式为主；如果灵活性是非常主要的，那么实施者可以选择组合硬件、软件和/或固件。

以上的详细描述通过使用方块图、流程图和/或实施例阐述了器件和/或过程的各种实施方案。就这种方块图、流程图和/或实施例包含一个或多个功能和/或运行而言，本领域普通技术人员将理解，这种方块、流程图或实施例中的每个功能和/或运行可以由各种硬件、软件、固件或其任意组合，单独实施或组合实施。在一个实施方案中，此处所描述的主题的几个部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)，数字信号处理器DSP或其他集成形式来实施。然而，本领域的普通技术人员将认识到此处公开的实施方案的某些方面，整体上，或部分上，可以作为一个或多个运行在一个或多个计算机上的计算机程序(如，作为一个或多个运行在一个或多个计算机系统上的程序)，作为一个或多个运行在一个或多个处理器上的程序(如作为一个或多个运行在一个或多个微处理器上的程序)，作为固件，或作为其任意组合，与集成电路等价地实施，而且，本领域普通技术人员根据此处的公开完全有能力设计电路和/或对软件和/或固件写代码。此外，本领域普通技术人员将理解，此处所描述的主题的机理能够转化成各种形式的程序产品，以及无论实际用于执行该转化的信息承载介质的类型为何，此处所描述的主题的示例性实施方案都适用。信息承载介质包括，但不限于，以下这些：可记录型介质，如软盘、硬盘驱动、压缩盘(CD)、数码影碟/数字多用光盘(DVD)、数字磁带、计算机存储器等；以及传输型介质，如数字和/或模拟通信介质(如光纤光缆、波导、有线通信链接、无线通信链接等)。

本领域普通技术人员将认识到，在本领域内用此处所给的方式来描述设备和/或过程，以及随后用工程实践将这种描述的设备和/或过程集成到数据处理系统，是常见的。也就是说，至少一部分此处所描述的设备和/或过程可以通过适当量的实验被集成到数据处理系统中。本领域普通技术人员将认识到典型的数据处理系统一般包括一个或多个系统单元外壳、一个视频显示设备、一个易失和非易失存储器之类的存储器、诸如微处理器和数字信号处理器之类的处理器、以及诸如操作系统之类的计算实体、驱动器、图形用户接口，以及应用程序、一个或多个交互设备，如触摸垫或屏，和/或控制系统，包括反馈循环和控制发动机(如用于感测位置和速度的反馈；用于移动和/或调整部件和/或数量的控制发动机)。典型的数据处理系统可以利用任何合适的商用部件，如那些通常可以在数据计算/通信和/或网络计算/通信系统中找到的商用部件。

此处描述的主题有时候示出了含在其他不同部件内的或与其他不同部件连接的不同部件。要理解的是，如此绘制的结构只是示例性的，实际上，可以实施其他很多也可以完成同样的功能的结构。就概念上而言，用以实现同一功能的部件的布置实际上都是“关联”的，以使实现所需功能。因此，此处所组合的用以实现一特殊功能的任意两个部件可以看成是彼此“关联的”，从而使实现所需功能，而不管结构或中间部件如何。类似地，任何两个如此关联的部件也可以被看作彼此“操作性地连接”或“操作性地结合”，以获取所需功能。可操作性结合的具体实施例包括但不限于物理上可成对的和/或物理上相互作用的部件和/或可无线交互的和/或无线交互的部件和/或逻辑上交互和/或可逻辑上交互的部件

本公开内容不限于该应用中所描述的具体实施方案，这些实施方案意在作为各方面的示例性说明。而如本领域普通技术人员很显然就能明白的是，可以进行任何修改和变动，这些修改和变动不脱离其精神和范围。通过前面的描述，本领域普通技术人员很显然就看到很多此处所例举的方法和装置之外的、落在本公开范围内的功能上等价的方法和器件。这种修改和变动都被考虑落在所附权利要求内。本公开内容仅由所附的权利要求以及与这些权利要求相等价的所有范围限定。应该理解，此处所用的术语是仅仅用以描述特定实施方案的，并不是用以限制的。

对于此处所用的基本所有的复数和/或单数术语，本领域普通技术人员可以根据情景和/应用，将复数切换到单数和/或将单数切换到复数。此处表达性地阐述的各种单数/复数改变只是为清楚起见而加以应用的。

本领域普通技术人员将明白，总体上，此处所用的术语，特别是所附权利要求中的术语一般都考虑成是“开放式”的术语(如术语“包括”应该解释成“包括但不限于”，术语“具有”应该解释成“至少具有”)。本领域人员将进一步理解，如果要考虑所引入的权利要求限定的具体数字，这种意图会具体包括在权利要求中，在没有这种限定的时候，就不存在这种意图。例如，为促进理解，以下所附的权利要求可能包括使用引入性短语“至少一个”以及“一个或多个”来引入权利要求限定。然而，使用这种短语不应该被理解为暗示了，由不定冠词“一”或“一个”引入的权利要求限定将任何含有这种被引入的权利要求限定的特定权利要求限制在仅仅含有一个这种限定的公开上，即便是相同的权利要求包括了引入性短语“一个或多个”或“至少一个”，以及不定冠词，如“一”或“一个”(如，“一”和/或“一个”通常应该被解释为“至少一个”或“一个或多个”)；对于使用定冠词来引入权利要求限定来说，这同样成立。此外，即使具体包括了所引入的权利要求限定的具体数字，本领域普通技术人员将认识到，这种限定通常应该被解释成至少所限定的数字(如，没有其他改变的，纯粹的限定“两个限定”，通常意味着至少两个限定，或两个或更多个限定)。而且，当使用了类似于“A，B和C中的至少一个”时，以本领域普通技术人员能明白的习惯用法来考虑(如，“一个具有A，B，和C中的至少一个的系统”将包括但不限于那些仅仅具有A，仅仅具有B，仅仅具有C，以及具有A连同B，A连同C，以及B连同C，和/或A，B，C一起的系统等)。在使用了类似于“A，B，或C等中的至少一个”时，以本领域普通技术人员能明白的习惯用法来考虑(如，“一个具有A，B，或C中的至少一个的系统”将包括但不限于那些仅仅具有A，仅仅具有B，仅仅具有C，以及具有A连同B，A连同C，以及B连同C，和/或A，B，C一起的系统等)。本领域普通技术人员还将明白，无论在说明书，权利要求书还是在附图中，实际上任何给出两个或多个替换性术语的分离性词汇和/或短语应被理解成包含了这样的可能性：包括术语中的其中一个，任何一个，或两个。例如，短语“A或B”将被理解为包括“A”或“B”或“A和B”这样的可能性。

此外，当所公开的特征或方面是对马库什组进行描述时，本领域普通技术人员将认识到该公开的描述还涉及了该马库什组的各个组成，或这些组成的子组。

如本领域普通技术人员将明白的，无论出于什么目的，就提供书面描述而言，此处所公开的所有范围也涵盖了其所有可能的子范围或子范围的组合。任何列出的范围易于被方便地认为是充分地描述了该范围被破解到并能够被破解成至少对半、三等分、四等分、五等分、十等分等等。作为非限制性实施例，此处描述的每个范围易于被破解到较低的三分之一，中间的三分之一，和上部的三分之一等等。如本领域普通技术人员将会理解的，诸如“上至”、“至少”、“大于”、“小于”等语言包括了所限定的数字以及指示那些可以随后被破解到如上所述的子范围的范围。最后，如本领域普通技术人员将明白的，一个范围包括了每个单独的成员。因此，具有1-3个细胞的组指示那些具有1，2，或3个细胞的组。类似地，具有1-5个细胞的组指示那些具有1，2，3，4，或5个细胞的组，以此类推。

当此处公开各方面和各实施方案时，其他方面和实施方案对本领域普通技术人员来说将是显而易见的。此处所公开的各个方面和实施方案只是出于说明的目的，并不意在限制，实际的范围和精神由随后的权利要求来限定。

Claims

1.数据集成平台，包括：

查询处理模块，其被构造为接收查询，并将该查询翻译成一些适当的用于对各种源进行查询的形式；以及

响应收集模块，其被构造为根据所述经翻译的查询，从各种源收集结果，并提供结果。

2.根据权利要求1的数据集成平台，其中响应收集模块被进一步构造为具有一个抓取模块，其用于在数据库、因特网或局域网上抓取结果。

3.根据权利要求1的数据集成平台，其中响应收集模块被进一步构造为通过可编程接入点收集结果。

4.根据权利要求1的数据集成平台，还包括查询域知识数据库。

5.根据权利要求1的数据集成平台，还包括代理模块，其被构造为提供个人化的服务。

6.数据集成方法，包括：

接收查询；

将该查询翻译成一些适当的用于对各种源进行查询的形式；以及根据所述经翻译的查询，从各种源收集结果，并提供结果。

7.根据权利要求6的数据集成方法，其中该结果通过在数据库、因特网或局域网上抓取来收集。

8.根据权利要求6的数据集成方法，其中通过可编程接入点收集结果。

9.根据权利要求6的数据集成方法，还包括提供个人化服务。

10.根据权利要求7的数据集成方法，其中个人化服务由代理模块提供，该代理模块识别兴趣并积累知识用于数据集成。