CN114610227A

CN114610227A - 将存储系统集群化以共享用于去重的数据模式

Info

Publication number: CN114610227A
Application number: CN202011461983.0A
Authority: CN
Inventors: 蒲薇榄; 康剑; 陈驰; 陈雯
Original assignee: Dell Products LP
Current assignee: Dell Products LP
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-06-10
Anticipated expiration: 2040-12-09
Also published as: CN114610227B; US11775483B2; US20220179830A1

Abstract

一种设备包括至少一个处理装置，所述至少一个处理装置被配置为：从多个存储系统收集存储在所述多个存储系统中的数据的数据模式；以及至少部分地基于所收集的数据模式将所述多个存储系统集群化为一个或多个数据模式共享集群，所述一个或多个数据模式共享集群中的一个给定的数据模式共享集群包括所述多个存储系统中的两个或更多个存储系统。所述至少一个处理装置还被配置为：针对所述给定的数据模式共享集群，识别所述所收集的数据模式的子集；以及向所述给定的数据模式共享集群的所述两个或更多个存储系统提供所述数据模式的所识别的子集，其中所述所收集的数据模式的所述所识别的子集被所述两个或更多个存储系统用于执行数据去重。

Description

将存储系统集群化以共享用于去重的数据模式

技术领域

本领域通常涉及信息处理，并且更具体地涉及信息处理系统中的存储装置。

背景技术

存储阵列和其他类型的存储系统通常由多个主机装置通过网络共享。在主机装置上运行的应用程序各自包括执行应用程序功能性的一个或多个进程。此类进程发出输入-输出(IO)操作请求，以提供给存储系统。存储系统的存储控制器为此类IO操作请求提供服务。在一些信息处理系统中，存储控制器为各种数据服务实现功能性，包括数据去重功能性。

发明内容

本发明的说明性实施方案提供了用于将存储系统集群化以共享用于在存储系统上执行去重的数据模式的技术。

在一个实施方案中，一种设备包括至少一个处理装置，所述处理装置包括耦合到存储器的处理器。所述至少一个处理装置被配置为执行以下步骤：从多个存储系统收集存储在所述多个存储系统中的数据的数据模式；以及至少部分地基于所收集的数据模式将所述多个存储系统集群化为一个或多个数据模式共享集群，所述一个或多个数据模式共享集群中的一个给定的数据模式共享集群包括所述多个存储系统中的两个或更多个存储系统。所述至少一个处理装置还被配置为执行以下步骤：针对所述给定的数据模式共享集群，识别所述所收集的数据模式的子集；以及向所述给定的数据模式共享集群的所述两个或更多个存储系统提供所述数据模式的所识别的子集，其中所述所收集的数据模式的所述所识别的子集被所述两个或更多个存储系统用于执行数据去重。

这些和其他说明性实施方案包括但不限于方法、设备、网络、系统和处理器可读存储介质。

附图说明

图1是本发明的说明性实施方案中的用于将存储系统集群化以共享用于在存储系统上执行去重的数据模式的信息处理系统的框图。

图2是说明性实施方案中的用于将存储系统集群化以共享用于在存储系统上执行去重的数据模式的示例性过程的流程图。

图3示出了说明性实施方案中的监测存储系统的不同模式共享集群的数据模式的基于云的监测和分析平台。

图4示出了说明性实施方案中的用于确定存储系统集群的数据模式共享的过程流。

图5A至图5D示出了说明性实施方案中的存储系统使用均值漂移集群法的集群结果。

图6A至图6H示出了说明性实施方案中的集群中的存储系统的数据模式频率的表。

图7和图8示出了说明性实施方案中的可以用于实现信息处理系统的至少一部分的处理平台的示例。

具体实施方式

本文将参考示例性信息处理系统以及相关联的计算机、服务器、存储装置和其他处理装置来描述说明性实施方案。然而，应当理解，实施方案不限于与所示的特定说明性系统和装置配置一起使用。因此，如本文所使用的术语“信息处理系统”意图被广泛地解释为涵盖例如包括云计算和存储系统的处理系统以及包括物理和虚拟处理资源的各种组合的其他类型的处理系统。因此，信息处理系统可以包括例如至少一个数据中心或其他类型的基于云的系统，其包括访问云资源的一个或多个云托管租户。

图1示出了信息处理系统100，所述信息处理系统根据说明性实施方案被配置为提供用于将存储系统集群化以共享用于在存储系统上执行去重的数据模式的功能性。信息处理系统100包括一个或多个主机装置102-1、102-2、......、102-N(统称为主机装置102)，其通过网络104与一个或多个存储阵列106-1、106-2、......、106-M(统称为存储阵列106)进行通信。网络104可以包括存储区域网络(SAN)。

如图1所示，存储阵列106-1包括多个存储装置108，每个存储装置存储由在主机装置102上运行的一个或多个应用程序利用的数据。存储装置108说明性地布置在一个或多个存储池中。存储阵列106-1还包括一个或多个存储控制器110，其促进对存储装置108的IO处理。存储阵列106-1及其相关联的存储装置108是在本文中通常被称为“存储系统”的内容的示例。本实施方案中的这种存储系统由主机装置102共享，并且因此在本文中也被称为“共享存储系统”。在其中仅存在单个主机装置102的实施方案中，主机装置102可以被配置为独自使用存储系统。

主机装置102说明性地包括能够经由网络104与存储阵列106进行通信的相应的计算机、服务器或其他类型的处理装置。例如，主机装置102的至少一个子集可以被实现为计算服务平台或其他类型的处理平台的相应虚拟机。处于这种布置的主机装置102说明性地提供计算服务，诸如代表与主机装置102中的相应主机装置相关联的一个或多个用户中的每个用户执行一个或多个应用程序。

本文中的术语“用户”意图被广泛地解释为涵盖人、硬件、软件或固件实体以及此类实体的组合的多种布置。

尽管可以根据平台即服务(PaaS)模型、基础设施即服务(IaaS)模型和/或功能即服务(FaaS)模型为用户提供计算和/或存储服务，但是应理解，可以使用许多其他云基础设施布置。而且，如在给定企业内实现的独立计算和存储系统的情况下，说明性实施方案可以在云基础设施背景之外实现。

存储阵列106-1的存储装置108可以实现被配置为存储与主机装置102相关联的用户的对象的逻辑单元(LUN)。这些对象可以包括文件、块或其他类型的对象。主机装置102利用读写命令以及通过网络104传输的其他类型的命令与存储阵列106-1进行交互。在一些实施方案中，尽管此类命令更具体地包括小型计算机系统接口(SCSI)命令，但是在其他实施方案中，可以使用其他类型的命令。如在本文中广泛使用的术语给定IO操作说明性地包括一个或多个这样的命令。本文中对诸如“输入-输出”和“IO”之类的术语的引用应当被理解为指代输入和/或输出。因此，IO操作涉及输入和输出中的至少一者。

而且，如本文所使用的术语“存储装置”意图被广泛地解释为例如涵盖诸如LUN或其他逻辑存储卷之类的逻辑存储装置。逻辑存储装置可以在存储阵列106-1中被定义为包括一个或多个物理存储装置的不同部分。因此，存储装置108可以被视为包括相应的LUN或其他逻辑存储卷。

在图1的信息处理系统100中，主机装置102被假设为提交要由存储阵列106处理的IO操作。存储阵列106的存储控制器(例如，存储阵列106-1的存储控制器110)被假设为对要存储在存储装置(例如，存储阵列106-1的存储装置108)上的数据实现去重功能性。来自主机装置102提交的IO请求的数据可以被临时存储在存储器或高速缓存(例如，作为存储控制器110的一部分或可被存储控制器110访问的存储器或写入高速缓存)中。一旦进行了去重，数据就会存储在存储装置108中。可以使用或基于识别要存储的数据中的数据模式来实现去重功能性。信息处理系统100进一步包括监测和分析平台112，其被配置为提供用于识别专用数据模式(例如，用于存储阵列中的单独存储阵列、用于存储阵列中的单独存储阵列的单独存储装置)的功能性，并且基于数据模式来将存储阵列106(或其存储装置)集群化。监测和分析平台112还被配置为跨存储阵列106(或其存储装置)共享那些专用数据模式中的选定专用数据模式，以便改善数据去重性能。

监测和分析平台112包括数据模式收集模块114、基于数据模式的存储阵列集群模块116和数据模式共享模块118。数据模式收集模块114被配置为从存储阵列106收集用于存储在存储阵列106中的数据的数据模式。基于数据模式的存储阵列集群模块116被配置为至少部分地基于所收集的数据模式将存储阵列106集群化为一个或多个数据模式共享集群，所述一个或多个数据模式共享集群中的一个给定的数据模式共享集群包括存储阵列106中的两个或更多个存储阵列。数据模式共享模块118被配置为针对给定的数据模式共享集群识别所收集的数据模式的子集。数据模式共享模块118还被配置为将所收集的数据模式的所识别的子集提供给作为给定的数据模式共享集群的一部分的存储阵列106。所收集的数据模式的所识别的子集被数据模式共享集群中的存储阵列106用于执行数据去重。

数据模式收集模块114、基于数据模式的存储阵列集群模块116和数据模式共享模块118的功能性的至少部分可以至少部分地以存储在存储器中并由处理器执行的软件的形式来实现。

尽管在图1的实施方案中被示为在主机装置102和存储阵列106的外部，但是应当理解，在其他实施方案中，监测和分析平台112可以至少部分地在主机装置102中的一个或多个主机装置和/或存储阵列106中的一个或多个存储阵列的内部(例如，诸如在存储阵列106-1的存储控制器110上)实现。

图1的实施方案中的主机装置102、存储阵列106以及监测和分析平台112被假设为使用至少一个处理平台来实现，其中每个处理平台包括一个或多个处理装置，每个处理装置具有耦合到存储器的处理器。此类处理装置可以说明性地包括计算、存储和网络资源的特定布置。例如，在一些实施方案中，处理装置至少部分地利用诸如虚拟机(VM)或Linux容器(LXC)之类的虚拟资源或者如在其中Docker容器或其他类型的LXC被配置为在VM上运行的布置中两者的组合来实现。

尽管主机装置102、存储阵列106以及监测和分析平台112可以在相应的不同处理平台上实现，但是许多其他布置是可能的。例如，在一些实施方案中，主机装置102中的一个或多个主机装置、存储阵列106以及监测和分析平台112的至少部分在同一处理平台上实现。监测和分析平台112、存储阵列106中的一个或多个存储阵列或者它们的组合因此可以至少部分地在实现主机装置102的至少一个子集的至少一个处理平台内实现。

网络104可以使用不同类型的多种网络来实现以互连存储系统部件。例如，网络104可以包括SAN，其是诸如互联网之类的全球计算机网络的一部分，但是其他类型的网络也可以是SAN的一部分，包括广域网(WAN)、局域网(LAN)、卫星网络、电话或有线网络、蜂窝网络、无线网络(诸如WiFi或WiMAX网络)或这些网络和其他类型网络的各个部分或组合。因此，在一些实施方案中，网络104包括多种不同类型的网络的组合，每一种网络包括被配置为使用互联网协议(IP)或其他相关通信协议进行通信的处理装置。

作为一个更具体示例，一些实施方案可以利用一种或多种高速局域网，其中相关联的处理装置利用那些装置的高速外围部件互连(PCIe)卡以及诸如无限带宽、千兆以太网或光纤通道之类的联网协议而彼此通信。如本领域技术人员将理解的，在给定实施方案中，许多替代联网布置是可能的。

尽管在一些实施方案中，主机装置102用来与存储阵列106通信的某些命令说明性地包括SCSI命令，但是在其他实施方案中可以使用其他类型的命令和命令格式。例如，一些实施方案可以利用与如在2017年5月的NVMe规范修订版1.3中所描述的NVM Express(NVMe)相关联的命令特征和功能性来实现IO操作，所述规范修订版通过引用方式并入本文。可以在本文公开的说明性实施方案中利用的这种类型的其他存储协议包括：基于Fabric的NVMe，也被称为NVMeoF；以及基于传输控制协议(TCP)的NVMe，也被称为NVMe/TCP。

本实施方案中的存储阵列106-1被假设为包括使用存储阵列106-1的快闪存储器或其他类型的非易失性存储器实现的持久性存储器。更具体示例包括基于NAND的快闪存储器或其他类型的非易失性存储器，诸如电阻式RAM、相变存储器、自旋扭矩传递磁阻式RAM(STT-MRAM)和基于3D XPoint^TM存储器的Intel Optane^TM装置。尽管持久性存储器被进一步假设为与存储阵列106-1的存储装置108是分开的，但是在其他实施方案中，持久性存储器可以被实现为存储装置108中的一个或多个存储装置的一个或多个指定部分。例如，在一些实施方案中，存储装置108可以包括基于快闪的存储装置，如在涉及全快闪存储阵列的实施方案中，或者可以使用其他类型的非易失性存储器全部或部分地实现。

如上所述，主机装置102与存储阵列106之间的通信可以利用在一种或多种网络上实现的PCIe连接或其他类型的连接。例如，说明性实施方案可以使用诸如互联网SCSI(iSCSI)、串行附接SCSI(SAS)和串行ATA(SATA)之类的接口。在其他实施方案中，可以使用许多其他接口和相关联的通信协议。

在一些实施方案中，存储阵列106可以被实现为基于云的系统的一部分。

可以使用固态驱动器(SSD)来实现存储阵列106-1的存储装置108。使用诸如快闪存储器之类的非易失性存储器(NVM)装置来实现此类SSD。可以用于实现存储装置108的至少一部分的其他类型的NVM装置包括非易失性随机存取存储器(NVRAM)、相变RAM(PC-RAM)和磁性RAM(MRAM)。也可以使用多种不同类型的NVM装置或其他存储装置的这些以及各种组合。例如，硬盘驱动器(HDD)可以与SSD或其他类型的NVM装置结合使用或代替它们使用。因此，在实现存储装置108的至少一个子集时，可以使用许多其他类型的电子或磁性介质。

存储阵列106可以另外或替代地被配置为实现多层存储系统的多个不同的存储层。例如，给定的多层存储系统可以包括使用快闪存储装置或其他类型的SSD实现的快速层或性能层以及使用HDD实现的容量层，其中一个或多个这样的层可能是基于服务器的。对本领域技术人员显而易见的是，在其他实施方案中可以使用多种其他类型的存储装置和多层存储系统。给定的存储层中使用的特定存储装置可以根据给定实施方案的特定需求而变化，并且可以在单个存储层中使用多个不同的存储装置类型。如前文所指示，如本文所使用的术语“存储装置”意图被广泛地解释，因此可以涵盖例如SSD、HDD、快闪驱动器、混合驱动器或其他类型的存储产品和装置或其部分，并且说明性地包括逻辑存储装置，诸如LUN。

作为另一个示例，存储阵列106可以用于在集群存储系统中实现一个或多个存储节点，所述集群存储系统包括通过一种或多种网络互连的多个存储节点。

因此，应当显而易见的是，如本文所使用的术语“存储阵列”意图被广泛地解释，并且可以包括市售存储阵列的多个不同的实例。

在说明性实施方案中可以用于实现给定的存储系统的其他类型的存储产品包括软件定义的存储、云存储、基于对象的存储和横向扩展存储(scale-out storage)。在说明性实施方案中，这些和其他存储类型中的多个存储类型的组合也可以用于实现给定的存储系统。

在一些实施方案中，存储系统包括以主动-主动配置(active-activeconfiguration)布置的第一和第二存储阵列。例如，这种布置可以用于确保利用同步复制过程将存储在存储阵列中的一个存储阵列中的数据复制到另一个存储阵列中。跨多个存储阵列的这种数据复制可以用于促进系统100中的故障恢复。因此，存储阵列中的一个存储阵列可以相对于充当备份或恢复存储阵列的另一存储阵列充当生产存储阵列。

然而，应当理解，本文公开的实施方案不限于主动-主动配置或任何其他特定的存储系统布置。因此，本文的说明性实施方案可以使用多种其他布置来配置，所述其他布置包括例如主动-被动布置、主动-主动非对称逻辑单元访问(ALUA)布置和其他类型的ALUA布置。

这些和其他存储系统可以是本文更一般地称为处理平台的内容的一部分，所述处理平台包括一个或多个处理装置，每个处理装置包括耦合到存储器的处理器。给定的这种处理装置可以对应于一个或多个虚拟机或其他类型的虚拟化基础设施，诸如Docker容器或其他类型的LXC。如上所指示，系统100的此类元件之间的通信可以在一种或多种网络上进行。

本文所使用的术语“处理平台”意图被广泛地解释为涵盖(例如但不限于)被配置为通过一种或多种网络进行通信的多组处理装置和一个或多个相关联的存储系统。例如，主机装置102的分布式实现方式是可能的，其中主机装置102中的某些主机装置驻留在处于第一地理位置的一个数据中心，而主机装置102中的其他主机装置驻留在处于可能远离第一地理位置的一个或多个其他地理位置的一个或多个其他数据中心。存储阵列106以及监测和分析平台112可以至少部分地在第一地理位置、第二地理位置和一个或多个其他地理位置中实现。因此，在系统100的一些实现方式中，主机装置102中的不同主机装置、存储阵列106以及监测和分析平台112可以驻留在不同的数据中心。

主机装置102、存储阵列106以及监测和分析平台112的许多其他分布式实现方式是可能的。因此，主机装置102、存储阵列106以及监测和分析平台112也可以通过分布式方式跨多个数据中心实现。

下面将结合图7和图8更详细地描述在说明性实施方案中用于实现系统100的各部分的处理平台的附加示例。

应当理解，图1中所示的用于将存储系统集群化以共享用于在存储系统上执行去重的数据模式的特定元件集合仅通过说明性示例呈现，并且在其他实施方案中，可以使用附加的或替代的元件。因此，另一个实施方案可以包括附加的或替代的系统、装置和其他网络实体，以及模块和其他部件的不同布置。

应当理解，说明性实施方案的这些和其他特征仅通过示例呈现，并且不应以任何方式解释为限制性的。

现在将参考图2的流程图更详细地描述用于将存储系统集群化以共享用于在存储系统上执行去重的数据模式的示例性过程。应当理解，该特定过程仅是示例，并且在其他实施方案中可以使用用于将存储系统集群化以共享用于在存储系统上执行去重的数据模式的附加或替代过程。

在该实施方案中，所述过程包括步骤200至206。这些步骤被假设为通过监测和分析平台102利用数据模式收集模块114、基于数据模式的存储阵列集群模块116和数据模式共享模块118来执行。所述过程开始于步骤200：从多个存储系统(例如，存储阵列106)收集存储在多个存储系统中的数据的数据模式。步骤200可以包括从多个存储系统中的每个存储系统收集存储在所述存储系统中的数据的指定数量的最频繁出现的数据模式。

在步骤202中，至少部分地基于所收集的数据模式将多个存储系统集群化为一个或多个数据模式共享集群。一个或多个数据模式共享集群中的一个给定的数据模式共享集群包括多个存储系统中的两个或更多个存储系统。步骤202可以利用均值漂移集群算法。均值漂移集群算法可以利用多维缩放来实现所收集的数据模式的降维。多维缩放可以将第一数据结构作为输入，所述第一数据结构的条目表征在多个存储系统中的每个存储系统上所收集的数据模式中的每个数据模式的观察频率，并且多维缩放可以提供第二数据结构作为输出，所述第二数据结构将所收集的数据模式中的每个数据模式的观察频率从第一维度投射到低于第一维度的第二维度。均值漂移集群算法可以产生数据结构，所述数据结构用与多个存储系统所属的一个或多个数据模式共享集群中的数据模式共享集群相对应的标签来标记多个存储系统中的存储系统。

图2的过程继续进行到步骤204：针对给定的数据模式共享集群，识别所收集的数据模式的子集。步骤204可以至少部分地基于给定的数据模式共享集群的两个或更多个存储系统中的每个存储系统中的所收集的数据模式的出现频率而进行。在步骤206中，向给定的数据模式共享集群的两个或更多个存储系统提供所识别的模式子集。所收集的数据模式的所识别的子集被两个或更多个存储系统用于执行数据去重。两个或更多个存储系统可以实现用于执行数据去重的内联模式检测(ILPD)，所述ILPD利用所收集的数据模式的所识别的子集。两个或更多个存储系统中的一个给定的存储系统的ILPD可以利用预定义数据模式集合，所收集的数据模式的所识别的子集包括不在预定义数据模式集合中的至少一个数据模式。

在一些实施方案中，步骤200包括生成第一数据结构，所述第一数据结构的条目表示在给定时间段内在多个存储系统中的每个存储系统上观察到所收集的数据模式中的每个数据模式的频率。步骤202可以包括将第一数据结构作为输入并且产生第二数据结构，所述第二数据结构用与多个存储系统所属的一个或多个数据模式共享集群中的数据模式共享集群相对应的标签来标记多个存储系统中的每个存储系统的第一数据结构的条目。步骤204可以包括：至少部分地基于跨给定的数据模式共享集群中的两个或更多个存储系统的均值出现频率来对所收集的数据模式进行排序；以及选择跨给定的数据模式共享集群中的两个或更多个存储系统具有最高均值出现频率的指定数量的所收集的数据模式作为针对给定的数据模式共享集群的所收集的数据模式的子集。

说明性实施方案提供了用于使用监测和分析平台(例如，图1所示的平台102)在存储系统之间收集和共享专用数据模式的智能机制。如上所述，监测和分析平台可以是基于云的，诸如Dell EMC CloudIQ平台。一些实施方案使用共享的专用数据模式来增强用于存储系统中的ILPD的预定义模式，这有效地提高了数据缩减性能并提供了对应的空间节省益处。

数据去重是用于消除重复数据的重复副本的过程。数据去重过程可以用于提高存储利用率。ILPD是一种特别有效且经济的数据去重过程。ILPD大幅减少了存储系统所需的原始存储容量，因为未将完整且尚未去重的数据从短期或中间存储装置(例如，存储器、高速缓存)写入长期存储装置(例如，磁盘)。ILPD还有利地减少了灾难性恢复准备时间，因为存储系统无需等待吸收整个数据集，然后在存储系统可以开始复制到远程站点之前对所述数据集进行去重。作为一种类型的去重，ILPD实现内联模式检测和零检测能力，其可以在将静态的预定义数据模式的集合写入已预配对象时识别它们。实现ILPD的存储系统检测存储器中的预定义数据模式，并且不应当在磁盘上分配任何空间给匹配预定义数据模式的数据。相反，仅在检测到与预定义数据模式匹配时才需要更新元数据。

如上所述，监测和分析平台可以是基于云的。例如，CloudIQ为存储系统提供了主动监测和分析功能性。CloudIQ有利地提供了软件即服务(SaaS)解决方案，从而使得能够为最终用户递送频繁的、动态的且无中断的内容更新。此外，CloudIQ内置在安全的多租户平台中，以确保每个客户或其他最终用户租户与其他最终用户适当地隔离并不受其他最终用户影响。一旦存储系统建立了与CloudIQ的连接，就可以收集常规数据(例如，警报、性能信息等)的更新。这种所收集的数据在诸如利用由机器学习提供支持的高级分析来实现更高的正常运行时间、提高性能、执行有效的容量规划等时可以体现其价值。

在一些存储系统中，ILPD的数据模式定义被硬编码在存储系统的源代码中。因此，为世界各地的不同最终用户提供服务的存储系统可以使用固定且不可扩展的相同预定义模式。然而，从最终用户的角度来看，如果可以检测到定制的数据模式并将其应用于ILPD，则可以有效提高去重性能。然而，最终用户可能会部署许多不同的存储系统，包括可能的不同类型的存储系统。跨此类不同存储系统可能存在一些通用数据模式，但是没有用于将不同存储系统相关联以进行通用数据模式收集和共享的机制。另外，数据模式在最终用户侧可能是繁杂的，因此难以确定数据模式是否足够通用使得共享数据模式将为ILPD性能提供有价值的改善。有利地，监测和分析平台(诸如被适当地修改以结合本文描述的功能性的CloudIQ平台)可以用作集中式服务以用于跨不同存储系统的数据模式收集、分析和共享。监测和分析平台管理的存储系统将基于数据模式相似性智能地聚集成组，以确保数据模式有价值并保证共享。

图3示出了基于云的监测和分析平台302，其可以包括CloudIQ平台，所述CloudIQ平台被适当地修改以提供本文描述的功能性(例如，上述监测和分析平台102的功能性)。在图3的示例中，基于云的监测和分析平台302连接到不同的模式共享集群304-1、304-2、……、304-K(统称为模式共享集群304)。在此，K表示使用下面进一步详细描述的集群算法(例如，均值漂移集群算法)生成的集群的数量。如图3所示，模式共享集群304-1包括被表示为存储系统A、存储系统B和存储系统C的存储系统的集合。集群中的存储系统的数量被表示为i，并且可以针对不同的集群而变化。在图3的示例中，针对模式共享集群304-1，i＝3。然而，应当理解，不同的集群可以具有不同的i值(例如，多于或少于三个)。模式共享集群304中的不同模式共享集群可以包括不同数量的存储系统。

基于云的监测和分析平台302有利地实现如本文所述的智能数据模式共享机制，以用于收集和在存储系统(例如，诸如模式共享集群304-1的存储系统A至C)之间共享专用数据模式以用于应用ILPD。通过用于共享的“热”数据模式的相似性来聚集存储系统，如图3的模式共享集群304所示。以这种方式，扩展了特定存储系统(例如，模式共享集群304-1中的存储系统A)中的预定义数据模式，以便有效地提高ILPD中的检测到的数据模式的比率以提供数据缩减性能的改进以实现所述存储系统上的空间节省。

图4示出了用于在基于云的监测和分析平台302中实现智能数据模式共享机制的过程流400。过程流400在步骤401开始，并且在步骤403执行数据收集。数据收集步骤403包括收集每个存储系统上的前n个数据模式，其中m表示存储系统的数量。前n个数据模式是用于每个存储系统的“热”数据模式。n可以是预定义的或者可以是最终用户可配置参数。响应于对数据收集的显式请求、响应于检测到存储系统的使用中的一些阈值变化等，可以定期地(诸如每天、每周等)执行数据收集步骤403。在步骤405中，识别用于每个存储系统的统计数据模式。此类数据模式被存储为X[m，q]，其表示用于存储系统的数据模式频率的m×q矩阵。

在步骤407中，使用均值漂移集群法将存储系统集群化，从而将数据模式频率作为集群特征。尽管关于均值漂移集群法的使用描述了各种实施方案，但是应当理解，可以使用各种其他集群算法。在一些实施方案中，均值漂移集群法被用作集群算法，因为在各种最终用户生产环境中不存在预知数量的集群，并且均值漂移集群法使得在此类情况下能够自动生成集群。如上文所讨论的，在步骤405中，识别用于存储系统中的每个存储系统的统计数据模式，并且将所述统计数据模式存储为m×q矩阵：X[m，q]表示“最热”或最常用的数据模式。

步骤407中的均值漂移集群法可以被分解为子步骤407-1至407-3。在步骤407-1中，通过对X[m，q]进行MDS而执行降维：

X-经变换[m，2]＝MDS(X[m，q]，2)

MDS将数据投射到较低维度，使得较高维度中彼此接近的数据点(例如，就欧几里得距离而言)在较低维度中也接近。因此，在接下来的步骤407-2中，简化的矩阵X_经变换[m，2]将不会丢失特征，而是有效地改善了集群性能。在步骤407-2中，对X_经变换[m，2]进行均值漂移。均值漂移集群法产生K个集群。在步骤407-3中，用集群K的标签X_经集群[K，[i，q]]来标记存储系统。X-经集群[K，[i，q]]表示经集群的存储系统的数据模式频率的阵列。

过程400继续进行到步骤409，其中对于集群K中的k，执行步骤411至419的处理。在步骤411中，确定是否k＜K。如果步骤411的确定结果为“是”，则处理进行到步骤413，其中将数据模式按集群k中的均值来排序。在步骤415中，选择前n个数据模式作为共享数据模式。在步骤417中将在步骤415中选择的共享数据模式推送到集群中的存储系统以进行ILPD。然后，过程400在步骤419中结束。如果步骤411的确定结果为“否”，则过程400也在步骤419中结束。可以针对所有集群K重复步骤411至419。

现在将描述对过程400的仿真，其中m的值(例如，存储系统的数量)是100，其标识符(ID)为SS-1000至SS-1099。数据模式的数量n是1000。为了简化仿真，假设这1000种模式跨所有100个存储系统都相同。数据模式的ID是P#0至P#999。独特数据模式的数量q也是1000。在仿真中，为集群化准备了两组模式频率数据：组1和组2。对于组1，在几个指定的中心点附近生成数据。对于组2，随机地生成数据。

图5A至5D示出了在两种情况下(例如，组1和组2)通过均值漂移进行集群的100个存储系统。更具体地，图5A和图5B示出了具有组1的集群结果的相应曲线501和503，并且图5C和图5D示出了具有组2的集群结果的相应曲线505和507。在图5B的曲线503中，例如，这100个存储系统被聚集为四个集群(被表示为0、1、2和3)。考虑集群0以供进一步分析。按集群0中的均值对这1000个数据模式进行排序，并且对四个时段(例如，前0至9、前330至339、前660至669和前990至999)进行采样。图6A至图6H示出了针对此类不同时段的集群0中的存储系统的模式频率。更具体地，图6A和图6B示出了用于前0至9的相应部分601-1和601-2(统称为表601)。图6C和图6D示出了用于前330至339的相应部分603-1和603-2(统称为表603)。图6E和6F示出了用于前660至669的相应部分605-1和605-2(统称为表605)，并且图6G和图6H示出了用于前990至999的相应部分607-1和607-2(统称为表607)。如表601和表607所示，对于前0至9数据模式，存储系统具有较高的数据模式频率，而对于前990至999数据模式，存储系统具有较低的数据模式频率。因此，在这100个存储系统的集群中，热数据模式将足够通用并且有共享价值。

应当理解，上文和本文其他地方描述的特定优点与特定说明性实施方案相关联，并且不需要在其他实施方案中存在。而且，如在附图中示出并且如上所述的信息处理系统特征和功能的特定类型仅是示例性的，并且在其他实施方案中可以使用许多其他布置。

现在将参考图7至图8更详细地描述用于实现用于将存储系统集群化以共享用于在存储系统上执行去重的数据模式的功能性的处理平台的说明性实施方案。尽管在系统100的上下文中进行了描述，但是在其他实施方案中，这些平台也可以用于实现其他信息处理系统的至少部分。

图7示出了包括云基础设施700的示例性处理平台。云基础设施700包括物理和虚拟处理资源的组合，其可以用于实现图1中的信息处理系统100的至少一部分。云基础设施700包括使用虚拟化基础设施704实现的多个虚拟机(VM)和/或容器集合702-1、702-2、......、702-L。虚拟化基础设施704在物理基础设施705上运行，并且说明性地包括一个或多个管理程序和/或操作系统级虚拟化基础设施。操作系统级虚拟化基础设施说明性地包括Linux操作系统或其他类型的操作系统的内核控制组。

云基础设施700进一步包括在虚拟化基础设施704的控制下在VM/容器集合702-1、702-2、......、702-L中的相应VM/容器集合上运行的应用程序集合710-1、710-2、......、710-L。VM/容器集合702可以包括相应的VM、一个或多个容器的相应集合，或在VM中运行的一个或多个容器的相应集合。

在图7的一些实现方式中，VM/容器集合702包括使用包括至少一个管理程序的虚拟化基础设施704实现的相应VM。管理程序平台可以用于在虚拟化基础设施704内实现管理程序，其中所述管理程序平台具有相关联的虚拟基础设施管理系统。底层物理机器可以包括一个或多个分布式处理平台，其包括一个或多个存储系统。

在图7的其他实现方式中，VM/容器集合702包括使用提供操作系统级虚拟化功能性(诸如对在裸机主机上运行的Docker容器或在VM上运行的Docker容器的支持)的虚拟化基础设施1404实现的相应容器。使用操作系统的相应内核控制组来说明性地实现容器。

从上面显而易见的是，系统100的处理模块或其他部件中的一者或多者可以各自在计算机、服务器、存储装置或其他处理平台元件上运行。给定的此类元件可以被视为在本文中更一般地被称为“处理装置”的内容的示例。图7所示的云基础设施700可以表示一个处理平台的至少一部分。此处理平台的另一个示例是图8所示的处理平台800。

在该实施方案中，处理平台800包括系统100的一部分，并且包括被表示为802-1、802-2、802-3、......、802-J的多个处理装置，所述多个处理装置通过网络804彼此通信。

网络804可以包括任何类型的网络，包括例如全球计算机网络(诸如互联网)、WAN、LAN、卫星网络、电话或有线网络、蜂窝网络、无线网络(诸如WiFi或WiMAX网络)，或这些和其他类型网络的各个部分或组合。

处理平台800的处理装置802-1包括耦合到存储器812的处理器810。

处理器810可以包括微处理器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、中央处理单元(CPU)、图形处理单元(GPU)、张量处理单元(TPU)、视频处理单元(VPU)或其他类型的处理电路，以及此类电路元件的部分或组合。

存储器812可以以任何组合形式包括随机存取存储器(RAM)、只读存储器(ROM)、快闪存储器或其他类型的存储器。本文公开的存储器812和其他存储器应当被视为更一般地被称为存储一个或多个软件程序的可执行程序代码的“处理器可读存储介质”的内容的说明性示例。

包括此处理器可读存储介质的制品被认为是说明性实施方案。给定的这种制品可以包括例如存储阵列、存储磁盘或包含RAM、ROM、快闪存储器或其他电子存储器的集成电路，或多种其他类型的计算机程序产品中的任一者。如本文所使用的术语“制品”应当被理解为排除瞬时的传播信号。可以使用包括处理器可读存储介质的许多其他类型的计算机程序产品。

处理装置802-1中还包括网络接口电路814，其用于将处理装置与网络804和其他系统部件对接，并且可以包括常规收发器。

假设处理平台800的其他处理装置802以与针对图中的处理装置802-1所示的方式类似的方式进行配置。

而且，仅通过示例呈现图中所示的特定处理平台800，并且系统100可以包括附加的或替代的处理平台，以及呈任何组合的许多不同的处理平台，其中每个这样的平台包括一个或多个计算机、服务器、存储装置或其他处理装置。

例如，用于实现说明性实施方案的其他处理平台可以包括融合基础设施。

因此应当理解，在其他实施方案中，可以使用附加的或替代的元件的不同布置。这些元件的至少一个子集可以集体地在共同处理平台上实现，或者每个这样的元件可以在单独的处理平台上实现。

如前文所指示，如本文公开的信息处理系统的部件可以至少部分地以存储在存储器中并由处理装置的处理器执行的一个或多个软件程序的形式来实现。例如，以在一个或多个处理装置上运行的软件的形式说明性地实现了如本文所公开的用于将存储系统集群化以共享用于在存储系统上执行去重的数据模式的功能性的至少部分。

应当再次强调，上述实施方案仅出于说明目的而呈现。可以使用许多变型和其他替代的实施方案。例如，所公开的技术可适用于多种其他类型的信息处理系统、存储系统、集群算法等。而且，在其他实施方案中可以改变在附图中说明性地示出的系统和装置元件的特定配置以及相关联的处理操作。此外，以上在描述说明性实施方案的过程中做出的各种假设也应当被视为示例性的，而不是对本公开的要求或限制。所附权利要求的范围内的许多其他替代实施方案对于本领域技术人员将是显而易见的。

Claims

1.一种设备，其包括：

至少一个处理装置，其包括耦合到存储器的处理器；

所述至少一个处理装置被配置为执行以下步骤：

从多个存储系统收集存储在所述多个存储系统中的数据的数据模式；

至少部分地基于所收集的数据模式将所述多个存储系统集群化为一个或多个数据模式共享集群，所述一个或多个数据模式共享集群中的一个给定的数据模式共享集群包括所述多个存储系统中的两个或更多个存储系统；

针对所述给定的数据模式共享集群，识别所述所收集的数据模式的子集；以及

向所述给定的数据模式共享集群的所述两个或更多个存储系统提供所述数据模式的所识别的子集，其中所述所收集的数据模式的所述所识别的子集被所述两个或更多个存储系统用于执行数据去重。

2.根据权利要求1所述的设备，其中所述两个或更多个存储系统实现用于执行数据去重的内联模式检测，所述内联模式检测利用所述所收集的数据模式的所述所识别的子集。

3.根据权利要求2所述的设备，其中所述两个或更多个存储系统中的一个给定的存储系统的所述内联模式检测利用预定义数据模式集合，所述所收集的数据模式的所述所识别的子集包括不在所述预定义数据模式集合中的至少一个数据模式。

4.根据权利要求1所述的设备，其中收集所述数据模式包括从所述多个存储系统中的每个存储系统收集存储在所述存储系统中的数据的指定数量的最频繁出现的数据模式。

5.根据权利要求1所述的设备，其中将所述多个存储系统集群化为所述一个或多个数据模式共享集群包括利用均值漂移集群算法。

6.根据权利要求5所述的设备，其中所述均值漂移集群算法利用多维缩放来实现所述所收集的数据模式的降维。

7.根据权利要求6所述的设备，其中所述多维缩放将第一数据结构作为输入，所述第一数据结构的条目表征在所述多个存储系统中的每个存储系统上所述所收集的数据模式中的每个数据模式的观察频率，并且所述多维缩放提供第二数据结构作为输出，所述第二数据结构将所述所收集的数据模式中的每个数据模式的所述观察频率从第一维度投射到低于所述第一维度的第二维度。

8.根据权利要求6所述的设备，其中所述均值漂移集群算法产生数据结构，所述数据结构用与所述多个存储系统所属的所述一个或多个数据模式共享集群中的数据模式共享集群相对应的标签来标记所述多个存储系统中的存储系统。

9.根据权利要求1所述的设备，其中收集所述数据模式包括生成第一数据结构，所述第一数据结构的条目表示在给定时间段内在所述多个存储系统中的每个存储系统上观察到所述所收集的数据模式中的每个数据模式的频率。

10.根据权利要求9所述的设备，其中将所述多个存储系统集群化是将所述第一数据结构作为输入并且产生第二数据结构，所述第二数据结构用与所述多个存储系统所属的所述一个或多个数据模式共享集群中的数据模式共享集群相对应的标签来标记所述多个存储系统中的每个存储系统的所述第一数据结构的所述条目。

11.根据权利要求10所述的设备，其中针对所述给定的数据模式共享集群识别所述所收集的数据模式的所述子集包括：至少部分地基于跨所述给定的数据模式共享集群中的所述两个或更多个存储系统的均值出现频率来对所述所收集的数据模式进行排序；以及选择跨所述给定的数据模式共享集群中的所述两个或更多个存储系统具有最高均值出现频率的指定数量的所述所收集的数据模式作为针对所述给定的数据模式共享集群的所述所收集的数据模式的所述子集。

12.根据权利要求1所述的设备，其中针对所述给定的数据模式共享集群识别所述所收集的数据模式的所述子集是至少部分地基于所述给定的数据模式共享集群的所述两个或更多个存储系统中的每个存储系统中的所述所收集的数据模式的出现频率进行的。

13.根据权利要求1所述的设备，其中所述至少一个处理装置是在所述多个存储系统外部的监测和分析平台的一部分。

14.根据权利要求13所述的设备，其中所述监测和分析平台包括基于云的监测和分析平台。

15.一种计算机程序产品，其包括其中存储有一个或多个软件程序的程序代码的非暂时性处理器可读存储介质，其中所述程序代码在由至少一个处理装置执行时使所述至少一个处理装置执行以下步骤：

16.根据权利要求15所述的计算机程序产品，其中所述两个或更多个存储系统实现用于执行数据去重的内联模式检测，所述内联模式检测利用所述所收集的数据模式的所述所识别的子集。

17.根据权利要求16所述的计算机程序产品，其中所述两个或更多个存储系统中的一个给定的存储系统的所述内联模式检测利用预定义数据模式集合，所述所收集的数据模式的所述所识别的子集包括不在所述预定义数据模式集合中的至少一个数据模式。

18.一种方法，其包括：

向所述给定的数据模式共享集群的所述两个或更多个存储系统提供所述数据模式的所识别的子集，其中所述所收集的数据模式的所述所识别的子集被所述两个或更多个存储系统用于执行数据去重；

其中所述方法由至少一个处理装置来执行，所述至少一个处理装置包括耦合到存储器的处理器。

19.根据权利要求18所述的方法，其中所述两个或更多个存储系统实现用于执行数据去重的内联模式检测，所述内联模式检测利用所述所收集的数据模式的所述所识别的子集。

20.根据权利要求19所述的方法，其中所述两个或更多个存储系统中的一个给定的存储系统的所述内联模式检测利用预定义数据模式集合，所述所收集的数据模式的所述所识别的子集包括不在所述预定义数据模式集合中的至少一个数据模式。