CN105164590A

CN105164590A - 用于减少数据量的装置

Info

Publication number: CN105164590A
Application number: CN201480017014.2A
Authority: CN
Inventors: G·J·弗兰果
Original assignee: MASSIVE ANALYTIC Ltd
Current assignee: MASSIVE ANALYTIC Ltd
Priority date: 2013-03-19
Filing date: 2014-03-11
Publication date: 2015-12-16
Also published as: JP2016521024A; EP2976681A1; US9496892B2; KR20150131388A; GB201305070D0; US20160043734A1; IL241379A0; WO2014147362A1

Abstract

一种用于减少数据量的装置，该装置包括：(1)源系统数据断面仪以及提取器子系统，包括：a.模糊逻辑控制器，包括模糊仪、推理和输出处理，b.输出元键(1b)的类型减少器，c.数据数字化仪(1c)，以及d.数据标准化仪(1c)；(2)一级数据减少子系统(2)，包括：a.具有协方差矩阵计算器和本征值计算器的两步主成分分析仪(PCA)，以及b.一级保真度分析仪(2b)，包括：(i)第一维度减少器，(ii)残差分析分类器，(iii)比较器，以及(iv)分类故障类型1模块；(3)二级数据减少持续同源机(3)(PHM)，包括：a.执行单纯逼近的裂缝复杂计算器，b.同源和群组计算器，c.持续同源转换器，d.二级保真度分析仪，包括：(i)第二维度减少器，(ii)数据形态，(iii)指令序列，(iv)分类故障类型2模块，以及(v)第二比较器；以及(4)三级数据减少全息产生装置(4)，包括：a.最优拓扑数据表示，包含数据形态和指令序列，b.被称为拓扑边界表面(TBS)记录仪的读写(RW)记录系统，该记录系统在其波动表面写有该最优拓扑数据表示的内部投影，以及c.具有全息图的元键的数字多路复用。

Description

用于减少数据量的装置

本发明涉及用于减少数据量的装置。

存在减少由数据占用的量的需求。

本发明的一个目的是减少上述需求。

因此，在本发明的一个非限制性实施例中，提供了一种用于减少数据量的装置，其中该装置包括：

(1)源系统数据断面仪以及提取器子系统，包括：

a.模糊逻辑控制器，包括模糊仪、推理和输出处理，

b.输出元键(meta-key)的类型减少器，

c.数据数字化仪，以及

d.数据标准化仪；

(2)一级数据减少子系统，包括：

a.具有协方差矩阵计算器和本征值计算器的两步主成分分析仪(PCA)，以及

b.一级保真度分析仪，包括：

(i)第一维度减少器，

(ii)残差分析分类器，

(iii)比较器，以及

(iv)分类故障类型1模块；

(3)二级数据减少持续同源机(PHM)，包括：

a.执行单纯逼近的裂缝复杂计算器(ripscomplexcalculator)，

b.同源和群组计算器，

c.持续同源转换器，

d.二级保真度分析仪，包括：

(i)第二维度减少器，

(ii)数据形态，

(iii)指令序列，

(iv)分类故障类型2模块，以及

(v)第二比较器；以及

(4)三级数据减少全息产生装置，包括：

a.最优拓扑数据表示，包括数据形态和指令序列，

b.被称为拓扑边界表面(TBS)记录仪的读写(RW)记录系统，该记录系统在其波动表面写有该最优拓扑数据表示的内部投影，以及

c.具有全息图的元键的数字多路复用。

该装置可以是包括目的地系统的装置，这些系统与该全息图和元键进行交互而永不需要重构源数据。

这些目的地系统可包括：

a.源编解码器，

b.数字多路复用器/解复用器，

c.元键缓存，

d.指令序列缓存，

e.数据形态缓存，

f.反馈元件，

g.比较器，

h.控制器，

i.聚合器，以及

j.致动器。

本发明的装置使用信息密度全息术(IDH)。该IDH是减少数据量的数据移动、访问和存储技术且理论极限可超过1000000阶，同时保持高水平的保真度和完整度。该IDH使得本发明的该装置可用在很多应用(包括航天器、自动汽车和制造工厂机器人中的控制论的控制)中，目前这些应用在不与PB级数据进行交互的情况下是不可以实现的。本发明的该装置能将PB级(1×10¹⁵字节)的数据减少到GB级(1×10⁹)。作为需要上传PB级的数据(例如上传至云)的极端情况，即使在提供约50阶的数据量的减少的最快可用压缩和批量传输协议下，这都是不可实施的。本发明的装置中使用的IDH允许在大约9小时中以3.125×10⁴字节/秒的当前可用宽带上传速度的最可能的一次性批上传。需要TB级的交互在约30秒内可实现，而那些需要从一至几百GB的交互实际是瞬时的(被称为异步或实时)。

高并行处理IDH硬件组合数据压缩、高维代数拓扑表示和维度减少算法，以全息地再现和传输数据。这些算法在二维拓扑表面(该区域的边界)上编码任意大的数据集，就像全息图那样。所述算法也可以找到并显示大量的数据集的隐藏属性以及嵌入的控制序列，使得减少后的数据量能够以比当前方法大许多数量级的惊人的速度被移动。

本发明的该装置中使用的IDH是基于将宇宙学中的全息理论和信息熵等价应用于数据。空间量的描述可被认为是在该区域的边界上编码，从而我们的3D宇宙可被替代地像全息图一样被“写”在二维表面上。类似地任意大的数据集可在作为全息-拓扑表面的“区域的边界”上被编码(写)。将全息理论应用于大数据被认为是完全独特的视角，作为维度减少技术的应用以实现全息数据再现，从而产生由本发明的装置实现的大的数据量的减少。

该IDH后面的拓扑的代数理论是可以创建数据的形状的压缩描述(空前的100-1000000阶比特的减少)，同时还使得能够获得比使用现有技术可能获得的视角和模式更深的视角和模式。其被称为IDH是因为该数据减少处理的第一级在减少数据维度的总数量的同时，允许保留所有的源数据点。由于量减少，其与密度增长直接类似。

现在将单独通过示例的方式且参考附图来描述本发明的实施例，其中：

图1示出了用于实现需要巨大数据量通信的应用的IDH的示例；

图2示出了IDH源装置子系统和集成组件；

图3示出了IDH目的地装置系统组件；

图4示出了用于IDH源的的处理器高性能计算；以及

图5示出了用于IDH目的地的的处理器高性能计算。

参考附图，图1描述了何处以及如何应用IDH的示例。这些示例包括车辆自动驾驶22c，自动航天器交会22d，信息、通信和媒介应用22b以及自动制造工厂22a。通过首先将来自目的地系统21的地理上分散的、多结构的数据源表示为复杂数学拓扑，然后将其再现为全息图且再对它压缩，其的量被减少。该系统1在图2中被详细示出。再现该数据的操作全息地揭示了数据中的隐藏结构，从而该全息图不仅是该数据的再现，而且也是一种分析。对于图1中所示的特定应用，该全息图还可包括用于致动器的控制序列。该数据全息图可被具有高并行处理芯片技术的终端用户设备直接访问，该技术使得能够以全息格式或通过再现该原始数据集来与数据交互。该数据全息图还可作为全息图被移动，且被存储在传统磁盘驱动上或者被进一步全息地减少存储量。

通过图2中所示的高性能数据接口1、图1中所示的该IDH装置的输入源从主计算机系统访问未压缩的数据。该未压缩的未减少的数据进入图2中所示的该数据断面仪(profiler)以及提取器子系统2。该数据被读取、采样，且随后在包括模糊仪、推理和输出处理2a的模糊逻辑控制器中被“模糊化”。该模糊逻辑电路的目的是识别元键(索引)2b，该元键(索引)2b使得数据能够以非常高的保真度被再现。该推理引擎使用规则库识别这些元键作为关系，且将这些元键作为“模糊集”输出至该类型减少器。该类型减少器输出该元键2b，且由于该数据将包括目录作为文本，所以其还将该数据输出至组合的数据数字化仪和数据标准化仪2c。现在该提取和简要的(profiled)数据已准备好进行该减少过程的第一级。

该一级数据减少子系统装置3本质上是两步主成分分析仪(PCA)3a。该装置还包括一级保真度分析仪3b。一旦使用该协方差矩阵计算器和本征向量计算器组合3a计算该协方差矩阵和本征向量，该数据经历第一维度的减少。这可以在整个数据量上达到35阶的减少，而在数据点的数量上没有减少(对应于信息密度的增加)。该第一维度减少器是包括残留分析分类器、比较器和分类故障类型1模块的该一级保真度分析仪3b的部分。该残留分析仪模块不覆盖该数据中的隐藏结构以及还有嵌入的控制序列。这些组件提供包括逻辑电路的测试回路。该比较器比较源处的输入数据与PCA输出，并且测量该差异。这是该元键2b被用于校正误差的第一点。如果该误差比设置的阈值大，则该比较器将该数据馈送到该分类故障类型1模块，且在数据断面仪和提取器组件2中对照该元键2b检查该数据。该过程是重复的，并且其目的是将该误差减少至阈值以下。当该误差变得小于所设置的阈值时，现在减少后的但仍未压缩的数据被输出至以持续同源机4a(PHM)形式的二级数据减少装置4。

该PHM包括执行单纯逼近的裂缝复杂计算器、同源和群组计算器以及持续同源转换器，参见图2中的4a。该PHM也包括二级保真度分析仪4b。现在以持续同源形式的减少的数据输出在维度减少器中经历进一步的量减少。该第二维度减少器被包括在该二级保真度分析仪4b内，该二级保真度分析仪4b还包括数据形态和与该一级保真度分析仪3b类似的模块一起的指令序列模块。此次该保真度测量和改进处理与在该二级保真度分析仪4b中查找元键2b的分类故障类型2模块和第二比较器类似。该第二比较器将该源数据与该持续同源输出进行比较。这一级还将该数据减少至该源的1/50至1/1000。当该误差小于阈值时，以持续同源形式的数据被输出至数据减少三级全息表示5以用于转换为全息图。

该数据减少三级全息表示5包括最优拓扑数据表示，包含数据形态和指令序列，该指令序列被输出至被称为拓扑边界表面(TBS)记录仪的读写(RW)小型化记录系统。该TBS记录仪已经在其波动表面上写有该最优拓扑数据表示的内部投影。这类似于将被包含在原始数据量中的所有信息内容包括至表面上，该过程类似于光学全息图的创建。然而，该维度可以比光学系统大很多倍。与该源相比，现在该数据被进一步减少为1/1000至1/100000。该数据全息图被数字地与该元键2b进行组合以再现具有最高可能保真度的数据。

通过该数据减少三级全息表示5中的数字多路复用器(mux)，减少的但仍未压缩的该组合信号被输出至源编码压缩器6。该源编码压缩器6的设计是基于双精度浮点数据源编码(压缩)系统的高吞吐量压缩，该系统由美国纽约14853号Ithaca的Cornell大学的电子和计算机工程学院的MartinBurtscher和ParujRatanaworabhan开发。除了说明使用此技术可实现实际上1∶10的压缩之外，本文未进一步描述该源编码压缩器6的设计。使用带源编码的IDH的可能的总减少可以是该源初始的100-1000000倍。减少后的压缩数据通过高性能数据接口7输出。

上述数据减少利用基于如图4所详细示出的的处理器的架构而几乎瞬间发生。其特征是高并行存储器子系统以进一步增强性能。可编程的“飞速(onthefly)”、FPGA是实现基于硬件的、依应用而定的性能的途径。例如，特定的IDH算法被优化且被翻译为在运行时加载至该FPGA的代码。

图1示出了目的地系统22。该目的地系统电子模块在图3中被示出为模块9。目的地系统与由图2中的源技术和元键2b产生的全息图进行交互而不需要重构源数据。为了重构源数据，需要与图2所示的类似的电子设备。通过图3中的高性能数据接口8来访问包括由图2的源技术和图2中的数据断面仪和提取器1中的元键2b产生的全息图的压缩数据输入。该高性能数据接口8连接至目的地子系统组件9。源编解码器9a的解码器模块不压缩该信号(本质上是将其解码)并且该数字多路复用/解复用9b的解复用器模块将该信号分解成元键9c、指令序列9d和数据形态9e。其他的组件是反馈元件9f、比较器9g、控制器9i、聚合器9h和致动器9j。该致动器9j经由线9m输出控制命令。通过参考图1在图3中统一化该致动器输出。对该输出的增加、移动和改变与/或扰动被聚合器9h聚合且经由比较器9g而与该输入信号进行比较。差分被馈送至反馈元件9f。该差分包括指令序列9d和数据形态9e、元键9c的与/或改变。随后该差分通过该多路复用器/解复用器9b、源编解码器9a和高性能数据接口8反馈以更新该源数据系统，参见图1。

就该源IDH系统而言，用于该目的地系统的架构基于如图5中所示的的处理器，但需要更少的处理器和存储器。

应当理解，以上参考附图描述的本发明的实施例仅以示例的方式被提供，且修改也是有效的。附图中示出的各个组件并未被限制于它们附图中的用途，且它们可用在其他附图中以及在本发明的全部方面中。

Claims

1.一种用于减少数据量的装置，其中该装置包括：

(1)源系统数据断面仪和提取器子系统，包括：