CN111936985A

CN111936985A - 一种用于封装和存储来自多个不同数据源的信息的方法和系统

Info

Publication number: CN111936985A
Application number: CN201980023907.0A
Authority: CN
Inventors: C·B·A·科克尔
Original assignee: Nkapsa Technology Co ltd
Current assignee: Nkapsa Technology Co ltd
Priority date: 2018-01-30
Filing date: 2019-01-30
Publication date: 2020-11-13
Also published as: KR20200111687A; US11507556B2; CA3090560A1; US20200394171A1; WO2019150287A1; AU2019213775A1; EP3735641A1

Abstract

本文描述了一个示例性计算机实现的方法和计算机系统，每种方法和计算机系统适合于以多种、不同结构和非结构化格式封装数字数据记录，即从多个数据存储位置获取的数据记录。在该方法中，每个获取的数据记录被分成多个元组结构，对于每个元组，元组被分成数据部分和字段名部分。通过组合字段名部分、数据记录的记录标识符和存储数据记录的存储位置的数据库标识符创建指针。将指针附加到数据部分以形成数字干细胞(DSC)，该数字干细胞存储在单个数据存储中，每个形成的DSC具有相同的结构。

Description

一种用于封装和存储来自多个不同数据源的信息的方法和系统

技术领域

示例性实施例通常涉及一种适用于封装和存储从多个不同数据源获取的信息的计算机系统和计算机实现方法。

背景技术

在申请人共同转让的美国专利号7,752,231、8,015,214和8,504,590中对现有技术的讨论中，通过引用将每种数据库的全部内容合并在一起。其中注意到，设置用于存储用户相关信息的常规数据库通常采用专有的“记录”格式。一个记录包含许多字段，这些字段在特定数据库中是一致的。记录通常包括(l)用于验证或标识用户的字段，以及(2)用于存储与用户相关联的数据的字段。

在一个例子中，识别字段可以包括“名字”字段、“姓氏字段”、“社会安全号码”字段等，和/或任何其他众所周知的识别/认证签名(例如，用户指纹的生物特征签名、视网膜扫描等)。在另一示例中，数据字段可以包括“信用历史”、“医疗历史”等，和/或任何其他类型的用户相关数据。

使用相同记录字段的数据库可以使用公共或共享通信接口协议(CIP)与每个数据库合并。例如，第一和第二数据库可以全部包括相同的，或者至少兼容的记录字段结构。第一和第二数据库可以使用特定CIP共享和/或合并存储在其各自记录字段中的信息，因为要组合的第一和第二数据库的记录字段结构是相同的。在这种情况下，数据库“A”中的名字通常映射到数据库“B”中的名字，或者数据库“B”中的信用历史通常映射到数据库“A”中的信用历史。

然而，不同的数据库方向通常包括专有的记录字段结构和潜在的不兼容字段结构。例如，数据库A可能与数据库B具有表示名字信息的不同名称(即数据库A中的“姓氏”与数据库B中的“姓氏”)。在这种情况下，不能同时访问一组数据库以使用特定的CIP获取其中包含的数据记录，除非不同的数据库使用“转换器或数据映射”应用程序，该应用程序为获取的数字的已知和不相似的字段结构建立标准的关联字段结构数据记录。这字面意思是数据库“A”的字段结构与数据库“B”的字段结构一起被检查。然后将数据库A中的字段与数据库B中的相应字段进行物理匹配，以向CIP标识两个字段结构具有相同类型的信息。这个过程被称为数据映射或数据转换，在为大数据应用程序使用数据管理例程时尤其不受欢迎。

这是因为数据映射或转换器应用程序的制造和维护成本很高，并且增加了数据库间通信的复杂性和时间。将每个不同的字段物理映射到中间文件的需要可能会很麻烦。即使是自动化的，建立标准并使每个不同的基本与之匹配所需的时间和费用也是非常重要的。

此外，记录字段通常一起存储在连续或相邻的存储器地址位置中，以便在传统的结构化数据库中，标识字段和数据字段彼此在物理上接近。因此，如果常规数据库被黑客破坏，黑客可以相对容易地将识别字段与其相关联的数据字段组合以获得数据字段的相关性。

降低黑客从受损数据中提取相关性的成功率的传统技术(例如，通过将受损数据与用户信息正确关联)通常包括在数据库存储协议中添加“主动”加密层。例如，对于一个配置为存储大量记录的整个数据库，数据库被加密，这样黑客就无法在没有获得解密数据库的密钥的情况下从数据库中读取任何信息。

但是，授权用户还必须对数据库进行解密，才能访问其中存储的信息，这会进一步增加费力的处理要求和数据库访问的延迟。此外，如果黑客能够成功地解密数据库，则其中存在的信息以传统的“准备读取”格式(例如，连续/相邻存储器地址记录字段存储)变得对黑客可用。此外，如果授权用户丢失了解密加密数据库所需的密钥，则授权用户在获得替换密钥之前无法访问数据库，这也可能是一个艰苦的过程(例如，需要重新验证和分发替换密钥)。因此，在开发其先驱技术的过程中，申请人这样做的目的是着眼于获取来自不同结构数据存储源的数据记录所固有的众多问题。

申请人上述共同指定的美国专利描述了方法和系统，这些方法和系统通常引入了“封装”数据库中信息的“封装”概念，从而将消息划分为数据库中的多个对象类条目。申请人将对象类定义为存储在封装数据库中的多个已定义的层次字段之一。如本文所述，对象类在对象类层次结构中按从高到低的顺序包括对象类文件夹、窗体、主题和数据。“数据字段”被描述为对象类条目的一部分，或者在某些情况下是对象类条目的全部。另外，数据字段类与对象类同义，并且表示存储在封装数据库中的多个定义的、分层的数据字段中的一个。

每个对象类条目构成数据库中具有给定层次结构的多个对象类的对象类的一部分。生成了指针，每个指针指向一个对象类条目，这些条目存储在数据库中不相邻的存储位置。多个对象类条目中的至少一个与生成的指针相关联地存储，使得它指向由层次结构确定的更高级别的对象类条目。

发明内容

本发明的一个示例性实施例涉及一种封装具有多种不同结构和非结构化格式的数字数据记录的方法，这些数据记录是从多个不同和不同的数据存储位置获取的。在该方法中，每个获取的数据记录被分离成多个元组结构，对于每个元组，元组被分成数据部分和字段名部分。指针是通过组合字段名部分、数据记录的记录标识符和存储数据记录的存储位置的数据库标识符来创建的。指针被附加到数据部分以形成存储在单个数据存储器中的数字干细胞(DSC)，每个形成的DSC具有相同的结构。

另一个示例实施例涉及一种封装具有非结构化或结构化格式的多个不同数据记录的方法，所述数据记录包含在存储在多个数据库中的文件中，其中至少有两个数据库具有不同的结构。该方法包括从数据库获取包含数据记录的文件，并且对于每个文件，将文件中包含的一个或多个数据记录解构为具有相同结构的元素部分。元素部分存储在单个数据存储中。存储的元素部分可以自由索引和搜索，而不考虑元素部分底层数据记录的原始非结构化或结构化格式，也不考虑包含从中提取底层数据记录的文件的数据库。

附图说明

从下面给出的详细描述和附图中，将更加全面地理解示例性实施例，其中相同的基本由相同的标号表示，这些标号仅作为说明给出，因此不限制本文中的示例性实施例。

图1描述一个简单的图表，突出了封装的本质。

图2是描述根据示例实施例的封装数字数据记录的方法的流程图。

图3是根据示例实施例进一步描述对象的功能的框图。

图4是根据示例性实施例强调表示层中的可获取数字数据和在数据层中创建DSC的对象之间的交互的框图。

图5是用于实现该方法的特定计算机系统的简化框图。

图6是示例性数据浏览器的网页截图，即示出与示例性方法一致的导入功能的启动。

图7是图6的同一网页的屏幕截图，其示出了一种通过拖放方式获取数字数据以供上传以封装的方式。

图8是用于将数据文件拖放到系统中以便封装为DSC并存储在公共数据池中的功能的屏幕截图。

图9是与图8类似的屏幕截图，但进一步说明了在表示层中选择数字数据文件。

图10是示出从图9中选择的文件封装并存储在数据存储器中的屏幕截图。

图11是显示基于导入执行导入数据文件的网页截图。

图12是显示数据层中来自DSC的重新格式化的数据记录的屏幕截图，在选择的结果中突出显示了搜索项。

图13是屏幕截图的部分视图，该截图显示了用户可以调用以分析搜索结果的分析功能。

图14与图13的屏幕截图相同，但说明了原始搜索查询的细化。

图15是说明基于附加查询的示例分析显示(饼图)的屏幕截图，供用户查看。

图16是说明发送者准备经由PMB系统发送给接收者的新消息的屏幕截图。

图17是显示发送方发件箱的屏幕截图。

图18是说明接收者经由PMB系统接收消息的屏幕截图。

图19是说明发送者经由PMB系统以聊天或IM的形式添加消息的屏幕截图。

图20是说明接收者对发送者的回复的屏幕截图。

具体实施方式

一般而言，本文所述的示例方法可以在计算机系统中实现和/或具体化为用于索引和从任何应用程序、服务器或网络设备获取可搜索数据的计算机服务器软件。也就是说，计算机软件由计算机系统实现，以便获取多个不同的数据记录(数据记录为任何结构化或非结构化格式，因此不管在结构方面的差异)，包含在位于多个数据存储位置或数据库中的文件中的数据记录。然后，获取的数据记录被解构为具有相同结构的元素部分，然后存储在单个公共数据存储中。存储的元素部分可以自由索引和搜索，而不考虑元素部分的底层数据记录的原始未存储或结构化格式，也不考虑包含从中提取底层数据记录的文件的数据库。

因此，存储的元素部分(例如，DSC)可以在单个数据存储中自由搜索(例如，用户通过GUI进行查询)。搜索或查询的结果在表示层中显示为原始获取的数据记录，这些记录与构成搜索结果的单个数据存储中的元素部分相对应。结果可根据需要进行分析。

获取的功能可以理解为从文件所在的数据库中提取包含一个(或多个)数据记录的文件，然后查看该文件以及文件中的内容，例如文件结构和扩展名(.pdf、.jpeg、mov、.csv等)。解构功能类似于解析获取的数据记录，以便只提取最终将用于封装(表示为数字干细胞(DSC))的某些部分(数据部分和字段名部分)，这些部分存储在单个数据存储中。因此，给定文件中每个数据记录只有小部分将实际用于封装。

因此，示例性方法可由至少一个计算机系统或计算设备实现，和/或可具体化为非暂时性计算机可读信息存储介质或存储在存储设备中的一组机器可读指令。无论底层设备或系统如何，当迭代下文描述的示例方法时，系统或设备适用于将信息封装在数据层中，在表示层中作为两个或多个不同的数据存储源获取的信息(即，结构化或非结构化格式的任何数据源)被索引到所述方法。下面将描述系统在方法中调用的其他功能细节。

在另一个替代实例中，与本发明的计算机系统通信以实现该示例方法的网站可以由订阅者以自助方式访问。在另一个替代示例中，描述示例性方法和系统的服务和/或功能的网站可以面向公众，并且基本上用作智能计算设备的可下载应用程序的销售手册。除了推广移动应用程序，该网站还可以推广与给定计算机程序产品、应用程序、下载等相关的各种主题的观点，通过一个指向相关博客的链接，该链接可以通过社交媒体访问，例如，博客定期发布到

LINKED

等类似的社交媒体。

为消费者和/或企业设想的商业平台可以体现为一个、部分或全部可下载软件产品、购买用于安装的现成零售软件产品、具有或不具有可下载应用程序和/或可下载软件的自助网站，或两者兼而有之，每个实现基于下文更详细描述的示例计算机系统和/或计算机实现方法。如本发明方法和/或计算机系统所体现的商业平台，可定向、植入、指向或以其他方式安装到任何种类的对等(P2P)文件共享系统和/或服务、服务器节点、现有软件套件中或之上，和/或被任何一种现有的或将来为因特网、内联网、P2P文件共享服务、内部网络等设计的协议所包围。

在上述一个例子中，本发明方法可以是可下载或可转让(通过任何通信介质)智能设备应用程序的一部分，包括但不限于：(a)通过移动应用程序直接进行B2C，该移动应用程序从诸如GOOGLE PLAY^TM、

Appstore和/或

的Appstore下载；(b)一种B2B关系，在此关系中，用户可以被授权和/或以指定品牌(例如，消费者、小型企业、亲和力团体、其代理人等)向其提供服务；和/或(c)一种B2B关系，通过这种关系，许可实体将服务重新命名，以便集成到其产品套件中(例如，大型企业套房和/或公司、国家政府等)。

如本领域技术人员将理解的，本发明的示例性实施例可以以比传输中的信号、非暂时性计算机可读介质更持久的方式实现为计算系统、计算设备、计算机实现方法、机器可读指令集和相关数据，和/或作为移动设备的计算机程序产品或可下载的移动应用程序产品。因此，示例性实施例的方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或结合软件和硬件方面的实施例的形式，这些方面在本文中通常被称为“电路”、“模块”或“系统”。此外，示例性实施例的方面可以采取计算机程序产品的形式，该计算机程序产品体现在一个或多个计算机可读介质中，其上包含计算机可读程序代码/指令。

如本文所用，术语“数据”被定义为与其他信息段(“数字数据”)连接以形成有意义和可识别的知识流的唯一信息段。在下文描述的示例实施例的上下文中，要从不同的存储位置获取的数据通常统称为“数据记录”或“多个数据记录”，和/或偶尔称为数字数据。

然而，应当理解，从不同的数据存储(例如数据库、服务器存储等)获取的各种类型的数字数据或信息包括但不限于，例如上述数据记录(和/或各种格式的表或其他表格数据)、输入表单，例如web表单，图像，例如带有相关元数据的pdf或jpeg文件等、各种文件格式的视频/电影/流文件、各种格式的音频文件、其他可编辑文件和/或各种格式的文档(例如，与任何字处理文件、任何数据或数据库文件、电子表格文件、压缩文件、光盘等相关联的格式以及媒体文件、可执行文件、字体文件、互联网相关文件、演示文件、编程文件、系统相关文件等)、文本消息、电子邮件消息、与社交媒体相关的帖子相关的文件或记录，还包括包含迄今为止未包含的数据的任何文档或文件结构或已开发，但可能在未来创建、开发、设想或预期的类型。

如本文所用，“存储位置”(单个或多个)举例包括但不限于数据库(例如，关系型、面向对象、键值)、数据存储(例如分布式或开放源代码数据存储)、简单文件(如电子表格)、电子邮件存储系统(客户端和服务器)等。在一类存储系统(包括文件系统、网络目录服务和存储虚拟机(如VMware数据存储)的文件)中，也可以从更广泛的意义上设想存储位置。此外，本文中的存储位置包括和池、容器或其他存储系统，这些存储系统迄今尚未开发，但可以在将来创建、开发、设想或预期。仅为下文的简单和方便起见，从中获取数据记录以进行封装的存储位置应主要称为数据库

如本文所用，术语“元组”可定义为一个有限函数，该函数将数据记录(以下简称“字段名”)中的每个字段名字段映射到数据记录(以下简称“数据”)中的某个数据字段或某个值，例如，元组＝字段名+数据。在下文中，元组可以是“数据字段名对”的同义词，以后偶尔也被称为“数据字段名对”。如本文所使用的，术语“指针”是指标识元组或字段名数据对的信息，并且偶尔可将其称为“标识符”或“标识信息”。该识别信息包括但不限于：数据记录的记录标识符、识别从中获取数据记录(以及字段名数据对或元组)的数据库标识符，以及与数据记录相关联的附加元素或字段(例如，时间戳、所有者、地理位置等)。

如下文所采用，短语“数字干细胞”，在下文中也称为或称为“DSC”或“指针对”，表示数据部分+指针，并且代表从表示层获取的底层数字数据或信息(例如如上定义的一个或多个数据记录)。DSC或指针对是封装的最终结果，即从数据库等存储位置获取的数据记录中的每个字段名数据对(元组)被拆分或分离为数据部分和字段名部分，创建了一个指针，然后将指针附加到数据部分以形成DSC(指针配对)。正如下面将更详细地解释的那样，指针通常是通过将前面提到的标识符信息(记录标识符、数据库标识符、其他标识基本)与从字段名数据对中分割出来的字段名部分相结合来创建的。然后将形成的指针附加到数据部分以形成DSC。每个DSC都存储在数据层中的公共存储位置、池或容器中，称为“数据存储”。

短语“数据存储”(偶尔也被称为“封装数据存储”、“数据仓库”或“数据池”)表示没有结构限制的单个容器、池或存储位置，其中存储了多个这些自由关联的DSC。因此，数据存储只是一个自由关联的、单独的DSC的集合。与传统的数据库结构不同，数据存储中没有结构方面的障碍。

下文所用术语“封装”的含义是在数据存储器中创建和存储这些DSC的过程。因此，封装表示申请人的使能过程，将从表示层获取、接收或访问的数据记录(例如，如上所述的数字数据基本、记录等)合并到数据层内的数据存储中通过将获取的数据记录转换为数据层中具有代表性的DSC。

另外，如下文所用，短语“封装对象(enCapsa objects)”(或偶尔也被简单地称为“对象(objects)”)可被理解为适用于在中间层或业务层或数据层中封装或(解除封装)数字数据的编程功能，具体取决于配置。封装对象经过调整或配置，既可以在数据层中创建DSC，也可以从表示层的DSC“重构”原始获取的数字数据(例如数据记录)。

此外，在本详细描述的上下文中，短语“对象库”是指以公开函数(封装对象)的形式表示为一系列编程结构的库，这些结构允许封装以形成DSC(或解封DSC以重建原始数据记录)。在这方面，封装对象被配置成在表示层和数据层之间传递数据。例如，对象可以从输入或获取表单(作为DSC)获取数据记录并将其传递到数据存储，相反地，将DSC从数据存储转移到表示层中的某个地方，例如，基于搜索查询从DSC重新构造数据记录的仪表板。

图1是一个简单的图表，突出申请人的封装过程的本质。在深入研究关于示例性计算机实现的方法和计算系统的更详细信息之前，申请人提供了一个概述，用于上下文的目的，以及可归因于其封装技术的某些主题或属性的后续讨论。

申请人封装方法的本质是，任何数据库中的任何数据记录都可以分解为字段名数据对(或元组)，以创建数字干细胞(DSC)。总体思想是，可以从表示层内的任何存储位置获取数字数据(例如数据记录)，使得在数据层内，数据记录被分离为从底层数据记录获取的多个字段名数据。因此，由于只有这两个字段被解析或从底层数据记录中拉出，所以对于数据记录的结构就不存在问题。换句话说，底层数据源的结构和数据本身没有被考虑在内。

回想一下，每个获取的数据记录都被分解成具有相同结构的元素部分。元素部分可以自由索引并存储在单个数据存储中。无论数据记录的原始格式(结构化或非结构化)或从中获取数据记录的数据源，存储的元素部分都可以在单个数据存储中自由搜索(例如，用户通过GUI进行查询)。搜索结果显示为与存储在单个数据存储中的元素部分相对应的原始获取数据记录。结果可根据需要进行分析。

因此，实时地，每个字段名数据对被分为数据部分和字段名部分，并且几乎同时创建了一个指针，并且由指针和字段名数据对组成DSC，因此上述元素部分可在数据存储中自由搜索。也就是说，指针是通过组合从对中分离出来的字段名部分、与数据记录相关联的标识符信息(数据记录的记录标识符)和标识被索引到的数据库中的数据库标识符来创建指针，以便获取其中存储的数据记录。现在形成的指针(字段名+记录标识符+数据库标识符)被附加到从字段名数据对中分割出来的数据部分，以形成DSC。如上所述，指针包含将数据记录的数据字段与其源存储位置(其数据库)相关联的所有标识符和位置信息。

如图1所示，其中表示层的“数据库A”的输入、检索或获取的“数据记录A”由多个字段组成，但仅解析出数据记录A的字段名字段和数据字段进行封装。也就是说，通过首先将数据记录A中的数据分解为元组(即，字段名数据对(字段名l…n-数据l…n))，将每个对拆分为字段名部分和数据部分，然后使用拆分字段名部分创建指针并标识数据部分(由虚线箭头显示的标识符)。这样形成的指针随后被附加到数据部分以实现“指针对”，其表示为新创建的DSC。获取、分解为元组，然后将元组拆分成与数据部分组合的指针，这代表了封装，也就是DSC的产生。由此通过封装形成的DSC与数据层内的其他自由关联DSC一起存储在公共的、单一的数据存储器中。这种在单个公共数据存储中的自由联想性质类似于一群鱼在海洋中自由游动的鱼。因此，不存在结构性障碍。

创建这些DSC赋予元组某些属性，即：独立性、可塑性、一致性、层次性、安全性和可移植性。这些属性允许来自不同系统的数据在单个存储中安全地共存，并允许它们相互连接。封装过程创建的数据单元是自引用的，并且能够独立于特定的数据池中。每个DSC包含在原始数据库或数据存储中重新创建其位置所需的所有知识。它还能够与来自其他数据库或数据存储的其他DSC一起存在于一个公共数据池中，从而使来自不同数据库或数据存储的数据存在于同一空间中。

DSC和单一或通用单一数据存储概念中固有的东西可以创建所谓的“链接数据”，这是语义万维网背后的支持概念。语义万维网的想法是使其能够以有意义的方式将数据链接到其他数据，这样机器就可以跟踪它，而不一定是人类。也就是说，机器应该能够在两个或多个信息项之间建立一个逻辑路径。例如，约翰是珍妮特的“父亲”。如下文将更详细地展示和描述，申请人的封装方法与链接数据的概念有直接关系。

语义万维网和链接数据背后的共同想法是，如果用户搜索“约翰·史密斯”，那么用户应该能够找到约翰·史密斯的孩子或他最后三个地址。使用封装，如果用户在数据池中搜索属于“约翰·史密斯”的所有数据元素，那么他们应该能够进一步缩小范围，将范围缩小到与“约翰·史密斯”相关的任何内容，只需增加返回结果所需的公共元素的数量。因此，如果用户假定所有结果都必须满足“约翰”、“史密斯”、“街道地址”、“城市”、“国家”和“邮政编码”等条件，那么将返回所有满足此条件的DSC。据推测，任何住在或住在那个地址的人(即约翰·史密斯的妻子和孩子)都会出现。

这些搜索在DSC级别进行评估。正在搜索指针对的数据部分，即DSC，以返回满足上述条件的所有数据对。这样做是有原因的。也就是说，搜索DSC就不需要考虑表示层中的搜索或查询中的结构。也就是说，字段名不必在搜索中被提及；相反，只需要搜索正在搜索的术语列表，例如名称、城市、职业、社会保险号等等。DSC的指针告诉用户DSC属于哪个字段、记录、数据库、数据存储或文档。

同样，需要注意的是，在搜索开始时，底层数据源的结构和数据本身没有被考虑在内。采用申请人的封装方法的好处是可以搜索地球上的任何文档、数据库或数据存储。这是很强大的，因为它还意味着任何搜索不仅会提取正在查找的文档或数据库记录，而且还会(如果增加词条数)文档或数据库记录所涉及、接近或引用的所有内容，即与之相关的内容。

除此之外，还有一个概念，即在公共数据存储中，DSC之间的邻近搜索实际上是在完全不同的数据库或数据存储库中搜索数据。因此，我们可以设想一个基于Web或HTML的系统，它允许您在“http://”请求行输入一个搜索词，单击任何显示的记录并被带到与之相关的所有记录。

封装过程还为接收到的数字数据添加某些非常特定的属性，包括层次结构和一致性，无需创建和管理模式，允许获取的数字数据驻留在任何地方，并允许DSC存储任何内容。换句话说，DSC可以包含任何内容；也就是说，DSC的数据部分可以是任何内容。对于均匀性，DSC只需定义一次。一旦定义好，它的副本就可以反复使用，以容纳不同的数据值。只需定义一次DSC，不同的实体就可以共享相同的字段名，例如“地址”或“手机号码”，而不必再次定义它们。

对于层次属性(hierarchy property)这个概念，申请人的早期美国专利中通常都会用到，每个DSC都可以是集合的一部分，而集合又可以是其他集合的一部分。单个数据存储或池中的数据因此变得分层，因为每个DSC通过数据记录携带信息，而数据库标识符携带其所属的实体区域或集合的信息。这类似于引用包含它的文件夹的文档。

DSC的这些属性和其他属性使任何数据库都具有无限的可扩展性和相对安全性。这些属性还允许来自不同数据存储位置、数据库和/或系统的信息存在于单个空间(公共数据池)中，而不管它们的结构有多不同。所有数据驻留在一个空间中的可能性意味着所有数据都是可搜索的，而不管其底层结构如何。搜索可以高效、快速地进行，因为所有接收到的数字数据都驻留在同一个空间中。

图2是一个流程图，用于描述根据示例性实施例，将数字数据记录封装成多个不同结构和未结构化格式的方法，数字数据已经通过因特网150从多个存储位置获取到表示层中。例如，在因特网110上显示的用户通过该浏览器输入150的示例性方法。

在方法1000中，中间层(或作为替代方案的数据层)中的每个获取数据记录被分解或分离(步骤S1010)成一个或多个元组(或字段名数据对)，。为了图2的目的，对数据记录的单个元组示出了封装1000的方法，可以理解的是，根据数据的输入速率、服务器的处理能力和存储空间，可以每秒或每分钟对元组进行数千到数百万(或更多)的封装。对于获取步骤，包含数据记录的文件被获取，这些文件驻留在多个数据存储位置。因此，给定的获取文件包含一个或多个获取的数据记录。获取的数据记录可以被理解为表示层中非结构化格式和/或结构化格式的数字数据的任意组合，例如来自不同存储位置的多个数据记录，其中至少两个具有彼此不同的字段结构。

接下来，将元组拆分成数据部分和字段名部分(步骤S1020)。如前所述，与数据部分相关联的识别信息与分离字段名部分组合以创建指针(步骤S1030)。识别信息至少包括数据记录的记录标识符，以及标识从中获取数据记录(以及因此字段名数据对或元组)的数据库标识符。

识别信息还可以包括与数据记录相关联的附加基本或字段(例如，时间戳、所有者、地理位置等)。指针包括关于其数据部分的信息，并且在被附加到数据部分(步骤S1040)时形成数字干细胞(DSC)。如将要示出的，每个DSC包括适于在表示层中进行改造的信息，以便显示与DSC相对应的原始、底层数据记录，以供进一步分析。

上述分离、分割、创建和附加步骤表示对获取的数字数据记录的封装，以创建或形成DSC。如下文更详细地示出，分离、分割、创建和附加函数由适用于封装和解除封装获取的数据记录的基于对象的编程函数(“封装对象(enCapsa objects)”或简单的“对象(objects)”)执行。

然后将每个DSC存储在(S1050)数据层中的公共、单个数据存储器中。每个DSC进一步适应于与其中的其他DSC自由地关联。例如，每个存储的DSC都可以自由搜索，而不管其底层数据记录的原始结构化或非结构化格式，也不管从哪个数据存储位置接收数据记录，存储的DSC在数据存储中共存而不存在任何结构障碍。

尽管本文设想了可配置用于导出或提取的任何其他文件格式，存储的DSC可进一步配置为可提取或可导出文件(例如.csv文件)的封装数据。此外，存储在公共数据池中的DSC可被视为一个合并集，其中搜索或查询仅限于池中选定的表。根据这一点，不需要采用任何类型的数据映射过程、算法或子例程，就像当前在组合来自具有不兼容字段结构的多个存储源或数据库的数字数据时所需要的那样(通常情况下)。因此，合并的数据集由存储的DSC体现或表示，并且可以合并或配置成如上所述的可提取或可导出文件。

任选地，并且基于接收到来自表示层中的通信实体的信息存储请求(例如用户110的查询)，从数据存储中提取一个或多个DSC(步骤S1060，虚线框)，以便在表示层显示和分析，以便访问原始数据，与DSC相关的底层获取数字数据记录。此功能从本质上改革(或去封装)最初获取的数字数据记录。因此，从数据层中的公共数据存储中检索的DSC使用用于显示和审查与之相关联的原始、底层获取的数字数据的对象来解封装。

DSC的合并数据集可适于基于公共单词、短语和术语中的至少一个进行过滤。在一个示例中，可以在所有非结构化和结构化数据格式的公共字段中搜索数字数据，其中数字数据按所有公共字段在连续的行中对齐。搜索和对齐功能的结果可以保存为封装信息的新外部文件。

因此，与来自不同数据库的记录或表的传统合并不同，后者具有不兼容的字段结构，需要数据映射应用程序为要组合的记录/表中的已知字段结构和不同字段结构建立标准关联字段结构，而DSC不需要数据映射或转换器应用程序来执行表示层中的搜索、查询或记录检索。这是因为封装过程不需要任何字段结构来启动、构成或传播对存储在公共数据存储中的DSC的搜索。事实上，在封装过程的任何步骤都不需要数据映射或转换器应用，也不需要在检索或下载与DSC相关联的原始、获取的底层数字数据以在表示层中显示时进行任何数据映射。

因此，所描述的用于封装和存储来自多个不同数据源的信息的方法说明了如何将数据记录解构为元素部分，这些元素部分可以出现在单词级别(如输入表单、数据表和元数据中)或文件级(PDF、图像等)，在每个实例中单词、文档或者将图像封装为DSC并存储在底层数据存储中(例如LUCENE@大数据存储)。注意，这里的系统/方法本身不是数据库；相反，封装依赖于底层数据存储(在这个例子中是LUCENE)来执行持久性。持久性是“消除原因后效果的延续”。在计算机系统中存储数据的上下文中，这意味着数据在创建它的过程结束后仍然存在。换句话说，要使数据存储被认为是持久的，它必须写入非易失性存储器。

从这个角度来看，申请人的方法和系统可以被看作是一个三层模型，以在数据层和表示层之间建立一种关系。也就是说，它作为中间层，通过提供智能将表示层中的输入表单转换为数据层(例如LUCENE数据层)中的专用文档，将数据请求和命令从表示层转换为数据层中的持久性。

在该方法的一个变体或实现中，申请人设想在智能计算设备中执行上述封装信息的方法。智能计算设备可包括但不限于个人数字助理、笔记本电脑、手机、平板电脑、射频识别设备、基于激光的通信设备、基于LED的通信设备、移动导航系统、移动娱乐系统、移动信息系统中的一个或多个，和手机短信系统。上述公共数据存储可配置为设备的一部分，或连接到设备，存储在设备上但不与设备连接集成，或者由设备生成或托管。此外，数据存储器适合于由设备发送、传输、转换或翻译中的至少一个。

在该方法的另一个变体或实现中，申请人设想了一种存储在其上的信息的非暂时的、计算机可读的信息存储介质。当存储的信息由处理器执行时，上述封装方法将被迭代。在另一个潜在的商业应用中，申请人设想实现为中间件产品的控制方法，其被配置为执行图2的步骤。也就是说，它可以作为一种“即插即用”中间件产品或基于现有基础设施、系统、网络等的中间件进行商业销售。中间件将数字数据封装为从多个数据存储位置获取的多种不同结构和非结构化格式。

在该方法的另一个商业实现中，申请人设想开发一个搜索引擎(面向私有或面向公共)，用于基于用户的查询在表示层中呈现信息。搜索引擎可以包括一个或多个计算机和一个或多个存储设备，该存储设备存储在由一个或多个计算机执行时可操作的指令，以使一个或多个计算机执行方法1000中的步骤，以便向用户呈现响应查询而收集的信息。

另一个特别设想的商业应用是对等(P2P)文件共享服务的形式，其适于迭代方法1000。在该实现中，P2P服务具有其自身的具有一个或多个节点的P2P网络，并且图2中所示的方法的实现将调用数据浏览器，使得用户或机器能够访问媒体文件内容(例如书籍、音乐、包括电影和情节性系列内容的视频文件、视频或电子游戏等)，其通过搜索P2P网络上其他连接的计算机来定位所需的内容。在一个例子中，P2P网络的一个或多个节点是终端用户计算机和分发服务器。

图3和4是根据示例实施例的用于进一步描述对象的功能的框图。参考图3和4，封装对象(enCapas Objects)(或简称“对象(Objects)”)是一个简单但功能强大的编程库的一部分，可以安装在任何开发环境中，将大量不同的数据绑定在一起。开发人员和集成商可以在他们自己的项目中使用申请人的封装过程的能力，将来自多个来源的数字数据集中起来进行搜索，就好像它是一个单一的数据库一样。

开发人员安装对象库，在代码中引用它们，并使用API所拥有的菜单函数将数据从输入表单、获取工具和到旧数据库的链接传递到数据存储。任何开发人员都可以在windows窗体或任何网页上安装一个简单的搜索栏，从企业的任何地方搜索数据存储，或者使用任何现成的工具来分析响应搜索查询返回的全局数据。

这些对象具有完整的数据库仿真功能，能够自行存储、管理和操作大量数据(可以按照泽字节的顺序(取决于底层服务器/节点或处理器的处理能力)，其中1024兆字节＝1千兆字节；1024千兆字节＝1太字节；1024太字节＝1千万亿字节；1024千万亿字节＝1艾字节；一个十六进制字节(10²¹字节或1024艾字节)＝1泽字节)。这些对象允许具有不同结构的数据库和数字数据基本存在于同一空间中。它们可以动态创建、更新和/或删除(即动态)。

对象位于表示层和数据层之间的中间层(在典型的应用程序架构中也称为业务层)，尽管对象可能是数据层的完全参与者。如图3和4所示，对象可配置为从表示层获取数据(例如搜索查询或信息请求)，然后将其应用到数据层。从某种意义上说，对象的行为类似于机器人或代理(按命令行事的“士兵”)，将数字数据分解并存储在从表示层获取的数据层中。来自许多不同表示层源的数据可以存储在一个空间中，这使得搜索和分析这些完全不同的数据变得非常容易。

因此，上述对象提供了一种独特的方法来管理和统一企业内部和不同企业之间的数据。通过简单地将封装对象API的基本部分放入代码中，开发人员和设计人员就可以合并大量不同的数据，从而将通常需要数月时间的大数据项目转换为几分钟。

图5示出了适于实现该方法的示例性通用计算机系统框图。计算机系统100适于将数字数据记录封装成从多个数据存储位置获取到表示层中的多个不同结构和非结构化格式。系统100通常包括处理硬件集和计算机可读存储设备介质。处理硬件集被构造、连接和/或编程为存储在计算机可读存储介质上的程序指令，以便迭代图2的方法1000。

现在参考图5，计算机系统100包括一个或多个应用服务器或客户端，这里示为获取客户端120、响应客户端130和封装客户端140(以下也称为“服务器节点”)，其适于与在表示层中通过网络连接的用户110所使用的一个或多个计算设备接口，这里示出为因特网150。因特网150可以是任何网络拓扑，包括个人局域网(PAN)、局域网(LAN)、校园网(CAN)、城域网(MAN)、广域网(WAN)、宽带网(BBN)等中的一个或多个。

获取客户端120使示例性方法1000内的对象与“外部”数字数据之间进行连接。即，获取客户端120从表示层获取数据记录，该数据记录可以是来自多个数据存储位置、数据库、系统等的多种、不同结构和非结构化格式。

在中间层中，服务器节点140执行将获取的数据记录封装为DSC的功能，即，服务器节点140内的基于对象的编程功能执行图2的分离、分割、创建和附加功能，以封装和解除封装获取的数据记录。形成的DSC存储在服务器节点140的数据存储器的数据层中。数据存储可以在服务器节点140内部或外部，或者分布在多个节点之间。

这些DSC所表示的信息随后可由响应客户端130从数据内的服务器节点140的数据存储器中提取，以便在表示层中显示和分析。此函数实质上是对原始获取的数字数据记录进行改革(或使用对象进行反封装)。在一个示例中，这样可以以从通信实体(例如用户110)接收的信息存储请求的形式来实现，以从公共数据存储中检索一个或多个DSC，以显示和审查与DSC相关联的原始、底层获取数据记录。所述另一种方式，当用户110对系统100进行查询时，响应客户端130访问服务器节点140中的数据存储以基于该数据存储检索结果信息。结果被直接中继回用户110，作为对查询的即时答复。

在方法1000的示例实现中，新创建的DSC可以存储在诸如

的大型数据库中。LUCENE由Apache软件基金会开发，是一个完全用JAVA编写的高性能、功能齐全的文本搜索引擎库。这项技术几乎适用于任何需要全文搜索的应用程序，尤其是跨平台的应用程序。

图6是描述用户如何使用与示例性方法一致的数据浏览器服务的网页截图。最初，用户可以单击一个超文本链接(未显示)，然后通过输入凭证数据(ID/PW)，然后读取和接受最终用户许可协议(EULA)，注册为数据浏览器服务的订户。图6中的网页的屏幕截图200示出与示例性方法一致的导入功能的启动。在图6中，在单击导入操作按钮210时，用户将能够获取(通过拖放或单击手动地，如果通过机器，则自动地)他们想要封装以便搜索的所有文件进入灰色导入空间213。

图7是一个网页的屏幕截图，其示出了通过拖放方法获取数字数据以供上传以封装的一种方式。即，图7示出了在用户单击表链接240时将显示(在245处)的表格数据的种类。

图8、9、10和11是屏幕截图，显示了将选定的数据文件拖放到系统中以便封装为DSC并存储在公共数据池中的功能。在图8中，用户已经从图6的下拉菜单215选择了桌面文件链接215A。这将在用户的桌面上打开一个弹出式文件夹，在该文件夹中，他选择(图9)一个特定的文件250进行封装，然后将其拖放到导入空间213中。一旦所有需要的文件都被封装为数据池中的DSC(图10)，用户单击结束按钮219，它将发出一个肯定的视觉信号，表明所有文件都已被封装。这也可以通过单击表链接240来验证。在图11中，屏幕截图200指示文件250已经作为DSC被获取、封装和存储在数据池中。此时，用户可以在216处打开文件，在217处删除它，或者输入搜索查询来搜索数据池中的DSC。

图12-15突出显示对存储在数据存储中的封装信息的搜索查询过程。图12示出了在数据层中来自DSC(结果270)的重新格式化的数据记录(基于“波士顿学院”查询)，并且在所选结果中突出显示了搜索项。图13的部分视图示出了用户可以调用以分析搜索结果的分析功能260。用户可以选择各种分析结果显示265。用户通过在搜索框268中输入“城市”查询269来细化其在图14中的搜索结果。如果需要的话，用户可以通过访问下拉菜单262来进一步深入他们的原始搜索。一旦满意，用户可以查看用于分析的特定结果；图15中的饼图显示了一个示例分析显示。基于文件的城市搜索，可以基于第一个、后续或所有搜索查询提供图形表示，以供用户审查。

基于申请人的封装方案，开发了一种独特的受保护通信平台，本文将其描述为“私人邮箱”或“PMB”。PMB是一个完全私有、绝对安全、无垃圾邮件的互联网通信平台。PMB是一个闭环系统，每个授权用户都有一个相当于好友列表的用户。用户只能发送和接收来自其列表中的消息。

PMB基于封装，封装是驱动PMB的幕后引擎。类似于如前所述，服务器节点140和相关联的数据存储可用于在两个或多个当事方之间中介(或代理)消息。与

或

类似，PMB也有自己的门户网站。

在描述基本操作时应参考图16至20。要发送消息，用户将登录到他们的帐户，例如www.privatemailbox.com。如图16所示，用户随后将拉出标准“表单”310，类似于上述电子邮件服务的消息表单。消息315被输入并发送给一个或多个收件人。图17示出了示出发送者的发件箱的屏幕截图，图18是示出了接收者经由PMB系统接收消息的屏幕截图。在发送时，来自由服务器节点140迭代的进程的对象将消息315分解为元组+指针结构，从而创建存储在公共数据存储中的DSC。如果消息315包含附件320，则这些附件也被封装为DSC以存储在数据层中，然后在表示层中解除封装以将消息转换给共享数据存储的授权接收者。

如果收件人在发送消息315时在线，则PMB基本上充当即时消息。数据存储让接收者实时地知道消息315已经被传递。如果他们不是在线的，PMB的行为与电子邮件完全相同，并且解除封装的消息315被存储在接收者的收件箱中。当接收者做出回应时，情况正好相反。他们的消息以DSC的形式发送到封装的数据存储中，并实时通知原始发送方答复。

图19是说明发送者通过PMB系统以聊天或IM的形式添加消息的屏幕截图，图20是说明接收者对发送者的回复的屏幕截图。PMB及其封装引擎被设计成结合了电子邮件、聊天和IM的最佳特性。然而，一个显著的区别是，PMB系统处理的消息315在会话完成后存储在封装的数据存储中。传统的聊天并不能做到这一点。本质上，可以在很长一段时间内运行“聊天”会话，消息315存储在封装的数据存储中。

申请人之前已经讨论过封装提供的固有安全性。这同样适用于PMB。回想一下传统数据库是如何以“行和列”的方式存储数据的；这些数据是以这种方式通过互联网发送的。这是可以预见的。例如，“名字”总是紧挨着“姓”。如果黑客获得了对数据的未经授权的访问，并且能够找出列之间的关系，那么这些数据可能被用于邪恶的目的。通过互联网发送的数据也是以同样的方式组织的。如果在其中一个跃点处被截获，并且如果关系得到解决，则该数据也可能被用于意料之外的目的。

但由于申请人的封装过程本质上是将数据分解，然后在整个公共数据池中“传播”(作为自由关联的DSC)。如果有人破坏了数据池，或者截获了通过互联网发送的封装消息，他们将无法拼凑出任何有意义的关系。例如，他们可能会看到一个社会保险号码，但无法知道它属于谁。申请人知道这种情况确实存在，因为麻省理工学院的一个软件数据研究生班没有成功地侵入并重新构建数据中有意义的关系。

PMB消息传递不使用硬加密。加密是一个“附加组件”，像毯子一样覆盖在消息上。它使用“密钥”，只有授权的用户，即那些拥有密钥的用户，才可以透过表面查看数据/消息。因此，加密需要一个单独的步骤，因为每个消息都必须在传输之前进行加密。这需要时间并且会消耗计算机内存。此外，加密消息的用户在使用该软件时也不会感到满意。

封装是数据本身的有机组成部分。数据被分解，只有拥有授权访问权限的用户才能重新组合数据。由于封装是“内置”到PMB系统中的，因此对用户来说是无缝的和透明的。用户不做任何事情来获得进程提供的保护。此外，申请人的封装过程达到或超过了联邦政府制定的敏感信息传输和存储标准，所有这些都没有加密。例如，政府制定的大多数数据标准，如HIPAA、SarOx、GLBA等都是技术中立的。到目前为止，保护这些数据的唯一方法是通过加密；因此，默认情况下，它仍然是行业标准。相反，申请人的封装过程完全符合这些法规，而不存在加密的麻烦。显然，与传统的电子邮件服务相比，通过应用程序的技术保护敏感数据(如患者医疗数据和私人财务数据记录)的能力要大得多。这是PMB的另一个独特之处。

当采用时，PMB进一步提供了一个无垃圾邮件的环境。传统的电子邮件服务，如YAHOO、GMAIL和

使用SMTP和POP3(或IMAP)来发送和接收电子邮件。SMTP用于发送邮件；对于OUTLOOK，TLS加密连接用于加密通过端口25发送的邮件内容(如果25被阻止，则使用端口587)。电子邮件程序使用带SSL加密的POP3通过端口995接收消息，并使用带有SSL加密的IMAP协议，通过端口993将存储在电子邮件服务器上的电子邮件复制或镜像到用户的桌面或设备上。

把这些端口当作一个网关，一个像门一样被打开的端口。在消息环期间监视其中一个端口的任何人都可以使用相同的协议轻松地发送/接收消息。垃圾邮件发送者利用这一点，将不需要的内容直接发送到发送者或接收者的“打开的门”。

相反，申请人的PMB不使用上述任何协议进行消息传递/通信。它相当于一个专用网络。只有被邀请加入网络的人才能在彼此之间发送/接收消息。因此，用最简单的术语来说，垃圾邮件将“反弹”在PMB服务器节点上，因此垃圾邮件过滤器是多余的。

申请人技术的预计用途。下面的表1总结了将上述封装技术集成到各种市场流和行业以及政府和执法部门的可行性。尽管这些市场只代表了几个典型的细分市场，但其他市场是可行的。

表1-潜在用例

参考表1，在特定的医疗保健用例场景中，在医疗保健企业的现有IT基础设施中实现封装模式，可以在传统数据供应商所需时间的一小部分时间内为患者医疗记录创建数据仓库，由于示例过程消除了数据映射的时间、复杂性和开销。为了实施，几个模块可以是设备，其中两(2)个简要描述为可能性的示例。

第一个可能是针对医疗保健问题的案例管理模块(CMM)。在这里，医院基础设施中的所有数据将被聚合起来，以创建单个患者或患者组的整体视图。系统100的数据存储可以以CMM的形式实现，该CMM指向现有的IT基础结构，或者作为中间件放置在一个或多个服务器节点之上。CMM将支持在每个患者上创建和存储一个电子文件夹，该文件夹在医院环境中创建新数据(关于患者)时自动更新。因此，病例管理人员只需打开文件夹即可查看患者的最新更新。警报可以被编程，以便在情况发生变化时通知案件管理人员。

第二示例性产品可以是再入院预测建模模块(Readmissions PredictiveModeling Module)(RPMM)。利用州卫生部和医疗保健机构提供的数据，可以创建一个具有强大算法的RPMM，根据新患者初次入院时产生的数据预测医院再次入院的可能性。通过识别这些潜在的再入院率，从而集中护理，可以有意义地减少惩罚性的再入院率。

申请人的封装方法大大增强了获取和检索多种不同形式数据的过程。申请人的封装方法和系统创建了一个可立即访问的数据池，其中包含了所有数字数据和元数据。如果数据源直接连接到封装(enCapsa)，则数据将得到维护并实时准确地报告，无格式或结构化时间延迟。这可以包括照片、电子邮件、视频、数据库信息(无论格式如何)、表格、文档、PDF等，几乎所有数字化的数据。示例方法不需要对数据进行任何格式或结构设置就可以做到这一点。一旦获取到数据池中，示例方法和系统可以使用LUCENE搜索引擎(作为示例)搜索和提取获取的数据以进行分析、报告、警报等。因此，封装方法不是数据库本身，而是将不同数据存储在另一个存储或数据库中以进行搜索和检索的方法。

由于信息具有保存期限，申请人的封装方法和系统提供了实时访问。计算机需要数据，人类需要信息。申请人提出的系统和方法能够快速、实时、特别地向业务终端用户提供其所有信息。换言之，一家公司100％的数据可用于分析/分析，而目前的平均数据约为12％。因此，申请人的技术使大企业能够毫无障碍地看到他们的所有信息。因此，封装技术为21世纪的数据库提供了一条新的途径。

在一个简单的工作示例中，封装过程已显示为以每秒超过100000个患者健康记录的速率处理复杂的完全不同的数据(例如患者医疗记录)，从而提供一个完全可搜索和智能化的数据库。这相当于每小时速率大于1太字节(TB)。与传统的数据映射过程相比，使用手动和软件加速数据映射技术可能需要几百个工时。

示例方法和系统可以提供更进一步的优势和好处。其能够以一种有组织的、可搜索的格式对所有公司数据进行无限制的访问，从而能够根据可用的信息做出更好的业务决策，从而增强提取更多可操作和相关信息的能力。此外，申请人的方法和系统可以提供大量的成本节约作为进一步的好处。

在其各种实施例、配置和方面中，本发明包括基本上如本文所描述和描述的组件、方法、过程、系统和/或装置，包括各种实施例、子组合及其子集。本领域技术人员在理解本发明后将理解如何制造和使用本发明。

在其各种实施例、配置和方面中，本发明包括在缺少未在本文中描述和/或描述的项目的情况下提供设备和过程，或者在本发明的各个实施例、配置或方面中提供设备和过程，包括在没有在先前的设备或过程中使用的项目的情况下，例如提高性能，以实现易用性和/或降低实施成本。

Claims

1.一种封装具有多种不同结构和非结构化格式的数字数据记录的方法，所述数据记录从多个不同和不关联的数据存储位置获取，所述方法包括：

将每个获取的数据记录分离为多个元组，

从每个元组中分割出数据部分和字段名部分，

通过组合字段名部分、数据记录的记录标识符和存储数据记录的存储位置的数据库标识符来创建指针，

将创建的指针附加到数据部分以形成数字干细胞(DSC)，每个形成的数字干细胞具有相同的结构，并且

将每个DSC存储在单个数据存储器中。

2.根据权利要求1所述的方法，其中每个DSC包括适用于在表示层中进行改造的信息，以便显示与DSC相对应的用于分析的原始、底层数据记录。

3.根据权利要求1所述的方法，其中获取还包括获取包含数据记录的文件、驻留在多个数据存储位置中的文件。

4.根据权利要求1所述的方法，其中分离、分割、创建和附加的步骤由适用于封装和反封装获取的数据记录的基于对象的编程函数来执行，并且

所述基于对象的编程函数既创建DSC，也改造来自DSC的原始获取数据记录。

5.根据权利要求l所述的方法，其中

每个存储的DSC都是可自由搜索的，而不考虑其底层数据记录的原始结构化或非结构化格式，也不考虑从中获取数据记录的数据存储位置，存储的DSC在数据存储中共存而不存在任何结构障碍。

6.根据权利要求l所述的方法，还包括将所存储的DSC配置为可提取或可导出文件的封装信息。

7.一种计算机系统，其适用于以从多个数据存储位置获取的多种不同结构和非结构化格式封装数字数据记录，该系统包括处理硬件集和计算机可读存储设备介质，其中所述处理硬件集构造、连接和/或编程以运行存储在计算机可读存储介质上的程序指令，由处理硬件集运行的程序指令包括权利要求1的步骤。

8.一种搜索引擎，用于基于用户的查询在表示层中呈现信息，该搜索引擎包括一台或多台计算机和一个或多个存储设备，该存储设备存储当由一台或多台计算机执行时可操作的指令，使一台或多台计算机执行权利要求1所述的步骤，以便向用户呈现响应查询而收集的信息。

9.一种封装具有非结构化或结构化格式的多个不同数据记录的方法，所述数据记录包含在跨多个数据库存储的文件中，所述多个数据库的至少两个数据库具有不同的构造，所述方法包括：

从数据库中获取包含数据记录的文件，对于每个文件：

将文件中包含的一个或多个数据记录分解为具有相同结构的元素部分，并

将元素部分存储在数据存储中，存储的元素部分适应于自由索引和搜索，而不考虑基本部件的底层数据记录的原始非结构或结构化格式，也不考虑包含从中获取底层数据记录的文件的数据库。