CN117055821B

CN117055821B - 一种基于维度的分布式存储方法、装置、设备和介质

Info

Publication number: CN117055821B
Application number: CN202311309016.6A
Authority: CN
Inventors: 张颖; 孙月俊
Original assignee: Chuangyun Rongda Information Technology Tianjin Co ltd
Current assignee: Chuangyun Rongda Information Technology Tianjin Co ltd
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2024-02-02
Anticipated expiration: 2043-10-11
Also published as: CN117055821A

Abstract

本发明公开了一种基于维度的分布式存储方法、装置、设备和介质，涉及计算机技术领域。先获取待存储的原始数据，然后根据存储需求配置包括数据聚类规则、数据存储规则以及数据维度化规则的WEB服务组合规则。接着根据数据聚类规则和数据维度化规则对原始数据进行聚类以及后处理，得到高维数据和/或低维数据。最后将每类维度数据通过对应的存储器进行存储。本发明基于维度存储需求，先对原始数据进行聚类分析处理并根据数据维度化规则对各类原始数据进行处理后再存储，降低了存储后数据的处理成本，且根据处理后维度数据的类型通过对应类型的存储器进行存储，提高了存储器资源的利用率。

Description

一种基于维度的分布式存储方法、装置、设备和介质

技术领域

本申请涉及计算机技术领域，特别涉及一种基于维度的分布式存储方法、装置、设备和介质。

背景技术

目前，随着分布式存储技术的迅速发展，分布式存储的应用也越来越广泛。分布式存储系统，是将数据分散存储在多台独立的设备上。分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。

同时，随着计算机技术的进步，使得数据收集变得越来越容易，导致数据库规模越来越大、复杂性越来越高，如各种类型的贸易交易数据、Web文档、基因表达数据等，它们的维度（属性）通常可以达到成百上千维甚至更高。高维数据聚类分析在市场分析、信息安全、金融、娱乐等方面都有很广泛的应用。

现有技术一般对业务中产生的原始数据直接进行存储。但是，在对原始数据进行应用时，必然要对直接存储的原始数据增加筛查去重过滤、搜索、排查等动作，极大的增加了计算时间、拖累运行结果效率和增加程序处理原始数据的成本。且当其他应用业务在不同时刻需要相同或相似的数据时，往往需要重复读取原始数据并重复进行处理，这进一步增加了处理原始数据的成本。

另一方面，现有技术通常对原始数据零散或者粗略的分类存储，在分配存储空间时，较为简单粗暴，由此可能会导致一些种类的原始数据的存储空间比较富余，而另一些种类的原始数据的存储空间紧张，没有得到有效的资源分配。

综上，当前原始数据通常具有较高的维度，而在对原始数据进行存储时，却并没有考虑原始数据的维度进行存储，导致在为原始数据分配存储空间时，通常不够合理，存储空间的利用率较低。且在对存储后的原始数据进行应用时，通常需要根据业务应用需求对原始数据进一步进行处理，存储后的数据的处理成本较高，应用效率较差。

发明内容

基于此，有必要针对上述技术问题，提供一种基于维度的分布式存储方法、装置、设备和介质。

本说明书采用下述技术方案：

本说明书提供了一种基于维度的分布式存储方法，包括：

获取待存储的原始数据；

根据对原始数据的维度存储需求，配置WEB服务组合规则；其中，WEB服务组合规则包括数据聚类规则、数据存储规则以及数据维度化规则；

根据WEB服务组合规则中的数据聚类规则，选取聚类算法对原始数据进行聚类，并根据数据维度化规则处理聚类得到的每类原始数据，得到高维数据或低维数据或包含高维数据和低维数据的混维数据；

针对每类维度数据，根据当前分布式存储系统中各存储器的性能指标和WEB服务组合规则中的数据存储规则，将该类维度数据存储于对应目标存储器中；其中，目标存储器包括高维存储器，低维存储器以及混维存储器。。

可选地，所述数据聚类规则包括：聚类属性、数据维度化规则与聚类算法的对应关系；

根据WEB服务组合规则中的数据聚类规则，选取聚类算法对原始数据进行聚类，具体包括：

根据WEB服务组合规则中的数据维度化规则，以及数据维度化规则与聚类算法的对应关系，选取聚类算法；

基于数据聚类规则中的聚类属性，通过选取的聚类算法对原始数据进行聚类。

可选地，所述数据存储规则包括目标存储节点和目标存储地域；

所述根据当前分布式存储系统中各存储器的性能指标和WEB服务组合规则中的数据存储规则，将该类维度数据存储于对应目标存储器中，具体包括：

根据WEB服务组合规则中的数据存储规则中的目标存储地域和目标存储节点，确定分布式存储系统中在目标存储地域目标存储节点的可用存储器；

根据各可用存储器当前的性能指标，确定用于存储该类维度数据的目标存储器，并将该类维度数据存储于对应目标存储器中。

可选地，所述WEB服务组合规则还包括传输规则；所述传输规则为推迟不满足预设数据流速率的数据传输；

所述将该类维度数据存储于对应目标存储器中，具体包括：

根据当前存储网络的QOS指标和WEB服务组合规则中的传输规则，确定存储时间；

根据用于存储该类维度数据的目标存储器和存储时间，生成对应的存储指令，以将该类维度数据在存储时间存储于对应目标存储器中。

可选地，所述将该类维度数据存储于对应目标存储器中，具体包括：

检查用于存储该类维度数据的目标存储器是否正常工作；

若是，则将该类维度数据存储于对应目标存储器中；

若否，则不将该类维度数据存储于对应目标存储器中，针对该类维度数据，根据检查结果、当前分布式存储系统中各存储器的性能指标和WEB服务组合规则中的数据存储规则，重新确定用于存储该类维度数据的目标存储器并进行存储。

可选地，通过缓存存储器对待存储的原始数据，以及得到高维数据或低维数据或混维数据进行缓存；从缓存存储器中读取原始数据进行聚类，以及从缓存存储器中读取各类维度数据进行存储；

所述方法还包括：

若接收到各目标存储器存储成功的存储结果，向缓存存储器发送缓存数据删除指令，使缓存存储器删除缓存数据；

若接收到各目标存储器存储失败的存储结果，根据存储结果、预设的数据存储规则和对原始数据的维度存储需求，重新配置WEB服务组合规则。

可选地，所述数据存储规则还包括存储中止规则和存储终止规则；

所述存储中止规则为根据QOS指标变化程度确定中止存储并在后续完成存储；所述存储终止规则为根据QOS指标变化程度确定终止存储并返回存储失败结果；

所述方法还包括：

将该类维度数据存储至对应目标存储器的过程中，根据QOS指标变化程度确定中止存储或终止存储。

本说明书提供了一种基于维度的分布式存储装置，包括：

获取模块，用于获取待存储的原始数据；

配置模块，用于根据对原始数据的维度存储需求，配置WEB服务组合规则；其中，WEB服务组合规则包括数据聚类规则、数据存储规则以及数据维度化规则；

处理模块，用于根据WEB服务组合规则中的数据聚类规则，选取聚类算法对原始数据进行聚类，并根据数据维度化规则处理聚类得到的每类原始数据，得到高维数据或低维数据或包含高维数据和低维数据的混维数据；

存储模块，用于针对每类维度数据，根据当前分布式存储系统中各存储器的性能指标和WEB服务组合规则中的数据存储规则，将该类维度数据存储于对应目标存储器中；其中，目标存储器包括高维存储器，低维存储器以及混维存储器。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于维度的分布式存储方法。

本说明书提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于维度的分布式存储方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

先获取待存储的原始数据，然后根据对原始数据的维度存储需求，配置WEB服务组合规则，该WEB服务组合规则至少包括数据聚类规则、数据存储规则以及数据维度化规则，该数据维度化规则表征对聚类得到的各类原始数据进行特定维度操作。接着根据数据聚类规则和数据维度化规则对原始数据进行聚类以及后处理，得到高维数据和/或低维数据。最后针对每类维度数据，根据当前分布式存储系统中各存储器的性能指标和数据存储规则，将该类维度数据存储于对应目标存储器中。

本发明基于维度存储需求，先对原始数据进行聚类分析处理并根据数据维度化规则对各类原始数据进行处理后再存储，便于后续其他业务需要维度数据时，直接读取维度数据进行应用，避免或减少了在业务程序中重复性的进行大量数据的提炼和计算，降低了存储后数据的处理成本，提升了其应用效率；同时根据处理后维度数据的类型通过对应类型的存储器进行存储，通过较大空间的高维储存器存储数据量较大的高维数据，以及通过较小空间的低维存储器存储数据量较少的低维数据，提高了存储器资源的利用率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书提供的一种基于维度的分布式存储方法流程示意图；

图2为本说明书提供的一种基于QOS指标和WEB服务组合模块管理分布式聚类存储系统示意图；

图3为本说明书提供的一种基于维度的分布式存储装置示意图；

图4为本说明书提供的一种实现基于维度的分布式存储方法的计算机设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在分布式存储系统中，当传输数据到多台存储服务器时，网络发生拥塞的时候，数据流有可能被丢弃。为满足用户对数据的传输和存储要求，就需要网络能根据用户的要求分配和调度资源，对不同的数据流提供不同的服务质量。例如，对实时性强且重要的数据传输优先处理，对于实时性不强的普通数据传输，提供较低的处理优先级。对于网络资源好的地域存储服务器优先使用，对于网络资源逊色的地域存储器降低使用等级或者存储实时性需求不大的数据。因此，QOS指标的配置和设计能够帮助分布式网络存储系统的数据网络传输资源起到合理分配，灵活配置，降低能耗，提升数据传输效率。

此外，高维数据聚类分析在多方面都具有广泛的应用。但是，受“维度效应”的影响，许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果，然而高维数据向低维数据转化或者低维数据聚合为高维数据的需求很常见，而目前根据维度进行分布式存储的方案少之又少，根据数据的维度存储是数据存储的一个重要方向。

对原始数据预先进行定制化的维度处理后再存储，一方面可收集有效数据，剔除不必要的原始数据，能够提炼数据纯度，提高存储数据在使用计算时的效率。例如，某数据模型需要十万条数据记录中的每条数据记录的某个属性项的数据，没有经过处理而直接存储的原始数据在使用过程中必然要增加筛查去重过滤、搜索、排查等动作，极大的增加了计算时间、拖累运行结果效率和增加程序处理原始数据的成本。而直接使用预先根据存储需求进行维度处理后的维度数据，简化了数据的筛查、过滤、排查等操作，节省了数据使用过程中的计算时间，提高效率的同时还节省产品程序运行能耗。

而根据存储需求对原始数据预先进行定制化的维度处理后再存储，能够对存储空间进行合理分配。相对于将原始数据零散或者粗略的分类存储，在分配存储空间时是比较单一粗暴的，可能会导致一些种类的原始数据的存储空间比较富余，而另一些种类的原始数据的存储空间紧张，没有得到有效的资源分配。但是经过维度化处理，存储空间可根据处理后得到的数据的维度去匹配，高维数据可能需要较大的存储空间，低维数据相对就会节省一些存储空间，这样在分配存储资源的时候就能有所倾斜，避免存储空间的空置或紧张的情况。

本发明提供一种基于维度的分布式存储方法，能够帮助用户根据数据需求和网络质量，合理运用网络资源的同时，高效存储高维数据、低维数据以及混维数据，帮助各种维度数据在数据分析上得到管理，更利于高低维数据分析工作的开展。同时，对数据预先进行定制化的维度处理，将分散的数据处理成有意义的数据形式，得到新的维度数据，提升数据价值，帮助发掘新的数据潜力。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本说明书中一种基于维度的分布式存储方法流程示意图，具体包括以下步骤：

S101：获取待存储的原始数据。

一般的，业务平台的服务器可先获取待存储的原始数据，然后再执行数据存储方法。其中，原始数据可以是客户端用户提交的需要存储的原始数据，还可以是来自其他存储服务器的待存储的原始数据，或者来自第三方平台公共数据中需要存储的原始数据。本说明书对原始数据的合法来源不做限制。

本说明书中提到的服务器可以是设置于业务平台的服务器，或能执行本说明书方案的诸如台式机、笔记本电脑等设备。为了方便说明，下面仅以服务器为执行主体进行说明。

S102：根据对原始数据的维度存储需求，配置WEB服务组合规则；其中，WEB服务组合规则包括数据聚类规则、数据存储规则以及数据维度化规则。

服务器在获取到待存储的原始数据后，可根据对原始数据的存储需求，配置WEB服务组合规则。

其中，维度存储需求可以是对应于原始数据的实时性和重要性的存储要求和传输要求，以及根据存储数据的应用需求而对数据的处理需求。于是，这里所说的WEB服务组合规则可至少包括数据聚类规则、数据存储规则以及数据维度化规则。

所说的数据聚类规则可以是指如何对原始数据进行聚类分析。

而数据存储规则可以是指处理后的维度数据的一些存储上的需求，例如，需要存储至某地域的某服务器节点，或者以根据属性项的数量对处理后的数据进行维度划分从而确定其对应的存储器类型。

对于数据维度化规则，可以表征对聚类得到的各类原始数据进行特定维度操作，例如，对每类原始数据进行属性项选择和属性项提取等，从而减少每类原始数据的属性项。或者进行属性项合并等，从而增加每类原始数据的属性项。换句话说，是对每类原始数据进行进一步的属性项处理转换等操作，从而将其表示为适合进行特定分析任务，满足维度存储需求的数据形式。处理后得到的数据既可能会增加维度，也可能会减少维度，具体可根据维度存储需求确定，或者进一步的根据对应的分析任务确定。通常来说，处理后得到的数据更适合于后续的建模、分析或可视化等。通过合理选择和转换数据的维度，可以更好的发现数据中的模式、关联和结构，从而实现更精确的分析、预测和决策。

后续，服务器可先根据数据聚类规则和数据维度化规则对原始数据进行处理，得到所需的高维数据或低维数据或者高维数据和低维数据的组合后，再根据数据存储规则对处理后得到的各类维度数据分别进行存储。

具体的，在本说明书一个或多个实施例中，WEB服务组合规则的设置可参考表1，表1为本说明书中一种WEB服务组合设计指标示意表。

表1 WEB服务组合设计指标示意表

表1中仅为WEB服务组合规则在部分方面的示例，例如，其中数据聚维类型判断规则中可预先设置多种待选维度，包括地理位置维度、时间维度、产品维度、客户维度、渠道维度、属性维度、经济维度、价格维度、功能维度、部门维度等。该规则对应后续在对原始数据进行聚类时，聚类中心的选取，表1中设置参数一列表示示例性的配置。继续以数据聚维类型判断规则为例，可将WEB服务组合规则中数据聚维类型判断规则配置为时间维度和部门维度，后续可根据所配置的维度对原始数据进行聚类处理。

表1中还示例性展示了部分数据存储规则的配置、传输规则的配置、对处理后得到的数据高低维划分规则的配置等等。WEB服务组合规则具体包括何种规则可根据需要设置，本说明书对此不做限制。

S103：根据WEB服务组合规则中的数据聚类规则，选取聚类算法对原始数据进行聚类，并根据数据维度化规则处理聚类得到的每类原始数据，得到高维数据或低维数据或包含高维数据和低维数据的混维数据。

通过上述配置好WEB服务组合规则后，服务器即可根据WEB服务组合规则对原始数据进行处理，待得到所需的数据后再进行存储。即，服务器可先根据WEB服务组合规则中的数据聚类规则，选取聚类算法对原始数据进行聚类，然后再对聚类得到的各类别的原始数据，根据数据维度化规则进行进一步处理。

表2 通过数据处理得到高维数据示意表

具体的，在本说明书一个或多个实施例中，数据聚类规则可包括聚类属性、数据维度化规则与聚类算法的对应关系。于是，服务器可先根据WEB服务组合规则中的数据维度化规则，以及数据维度化规则与聚类算法的对应关系，选取聚类算法。然后基于数据聚类规则中的聚类属性，通过选取的聚类算法对原始数据进行聚类。再对聚类得到的各类别的原始数据，根据数据维度化规则进行处理。如表2、表3、表4所示。

其中，表2为本说明书中一种通过数据处理得到高维数据示意表。以表2为例进行说明，由表2的数据源和聚类要求可知，表2展示了原始数据为医院各科室门诊患者病例数据，通过将不同年龄门诊患者的病例数据作为输入，得到以年龄段为聚类中心的各年龄段相似患者的多个组合病例数据，从而满足聚类目的，即对不同年龄段相似患者进行病例研究。于是，服务器可先通过划分法（如，K-MEANS算法）对原始数据进行聚类分析，并在分析过程中将各数据簇进行组合。以聚类结果中，年龄段为0~3的病例数据簇为例进行说明，可将该数据簇中的相似患者病历聚类组合在一起，从而可得到原始数据全部0~3年龄段的患者病历数据的高维度数据记录。这里将0-3年龄段的患者病历聚类组合在一起即可通过数据维度化规则进行标识。

由于对聚类分析得到的每一类数据都进行了组合，可想而知，组合得到的数据具有非常多的数据属性。例如，包括多种病名、病因等等。当然了，还可根据聚类目的剔除组合得到的数据中不需要的数据属性。例如，剔除病患的姓名、性别等无关属性。

由表1可知，对数据属于高维数据或低维数据可根据存储需求进行灵活划分，例如，表1中将数据属性总数大于或等于18的数据记录划分为高维数据。将数据属性总数小于18的数据记录划分为低维数据。服务器可根据处理得到的数据的数据属性数目确定处理后的数据是高维数据或者低维数据。

表3 通过数据处理得到低维数据示意表

表3为本说明书中一种通过数据处理得到低维数据示意表。在表3中，展示了原始数据为医院各科室挂号信息，其中聚类分析根据挂号的密度对原始数据进行划分，得到挂号分布对应的各数据簇，然后再计算各簇数据的总数，得到原始数据的在各天的挂号情况，从而满足了解周中各天各科室的挂号情况，合理分配医务资源的聚类目的。其中计算各簇数据的总数即可通过数据维度化规则进行标识。

表4 通过数据处理得到混维数据示意表

表4为本说明书中一种通过数据处理得到混维数据示意表。表4中，通过将每个患者的档案数据作为输入，基于患者病例数据，根据病例之间的相似性进行聚类分析，当然了，聚类后的每类数据可能会对应某个科室，或者某几个科室，或者分类较为细致时并不对应一整个科室。表4中仅为示例性的解释。每个聚类中心代表的簇通常对应一个聚类分析后特定的患者群体，其患者档案在某种程度上相似，可能涉及年龄、性别、疾病类型、就诊频率等。

以A科室对应的患者群体为例说明，可仅将A科室对应的数据中患者姓名和身份证号提取出来得到低维数据，作为档案病患查询索引的低维数据，并将A科室对应的数据中所有病患数据进行组合得到高维数据，作为患者档案详情记录，从而可为A科室对应的处理后得到的数据开辟缓存数据空间，对应存储处理得到的高维数据和低维数据，方便在海量档案中从低维数据快速定位患者索引，并根据患者索引从高维数据中找到患者档案信息，不仅查询效率高，计算快捷，也更方便进行数据权限的划分，加强了数据的安全管理。其中将A科室对应的数据中患者姓名和身份证号提取出来，以及将A科室对应的数据中所有病患数据进行组合可通过数据维度化规则进行标识。通过聚类分析和维度操作得到医院各类型患者的病例信息，从而可在存储后进一步服务于其他业务以发现其内在模式、相似性和群体等特征。

上述所说的数据维度化规则与聚类算法的对应关系，可以是指通过数据维度化规则对聚类后的每类数据进行处理后，处理后的数据预测维度与聚类算法的对应关系。例如，上述表2中处理后的数据预测为高维数据，在对原始数据进行聚类时可选择K-MEANS算法，或者上述表3中处理后的数据预测为低维数据，此时对原始数据进行聚类时可选择DBSCAN算法。通过由该对应关系选取聚类算法可进一步方便对数据进行处理。当然这里仅为举例说明。

S104：针对每类维度数据，根据当前分布式存储系统中各存储器的性能指标和WEB服务组合规则中的数据存储规则，将该类维度数据存储于对应目标存储器中；其中，目标存储器包括高维存储器，低维存储器以及混维存储器。

通过上述完成对原始数据的处理，得到目标数据后，服务器可根据目标数据的维度，确定用于存储各类维度数据的存储器，并使存储器执行存储。其中，WEB服务组合规则中的数据存储规则可以是数据维度和各类存储器的对应关系，所说的目标存储器包括高维存储器，低维存储器以及混维存储器。例如，高维数据对应高维存储器A、高维存储器B和高维存储器C，其他类型同理。

于是，在本说明书一个或多个实施例中，针对高维数据，服务器可根据各高维存储器的性能指标从各高维存储器中选择一个作为目标存储器，并将高维数据对应存储在该目标存储器中，对于低维数据和混维数据与此同理。

此外，在本说明书一个或多个实施例中，数据存储规则还可包括目标存储节点和目标存储地域。具体的，服务器可针对每类维度数据（高维数据，或低维数据，或包含高维数据和低维数据的混维数据），先根据WEB服务组合规则中的数据存储规则中的目标存储地域和目标存储节点，确定分布式存储系统中在目标存储地域目标存储节点的可用存储器。然后根据各可用存储器当前的性能指标，确定用于存储该类维度数据的目标存储器，并将该类维度数据存储于对应目标存储器中。

这里的性能指标是指存储容量、存储时间、存储周期和存储器带宽等。例如，可根据存储器当前的存储容量判断存储器是否可满足存储上述处理后得到的维度数据的大小。

当然了，在本说明书一个或多个实施例中，WEB服务组合规则中的数据存储规则中还可配置待存储数据的实时性、重要性等指标，从而服务器可进一步根据配置的数据存储规则和各存储器的性能指标，确定用于存储该类维度数据的目标存储器。

此外，在本说明书一个或多个实施例中，WEB服务组合规则还可包括传输规则，该传输规则为推迟不满足预设数据流速率的数据传输。于是，服务器还可根据当前存储网络的QOS指标和WEB服务组合规则中的传输规则，确定存储时间。后续，服务器可根据用于存储该类维度数据的目标存储器和存储时间，生成存储指令，以将该类维度数据在存储时间存储于对应目标存储器中。

服务器可通过三类存储器对前述处理后得到的各维度数据进行处理，具体的，可通过高维存储器存储高维数据，通过低维存储器存储低维数据，通过混维存储器存储包含高维数据和低维数据的混维数据。

服务器可对应每类维度数据，先从对应存储该类维度数据的各存储器中，确定用于存储当前的该类维度数据的目标存储器，然后再将该类维度数据和对应存储指令发送至目标存储器，使目标存储器执行存储指令对该类维度数据进行存储并返回存储结果。

进一步的，在本说明书一个或多个实施例中，服务器还可检查用于存储该类维度数据的目标存储器是否正常工作，若是，则将该类维度数据存储于对应目标存储器中。若否，则不将该类维度数据存储于对应目标存储器中，针对该类维度数据，根据检查结果、当前分布式存储系统中各存储器的性能指标和WEB服务组合规则中的数据存储规则，重新确定用于存储该类维度数据的目标存储器并进行存储。即，以检查结果为指引，使服务器在检查结果显示的不可用存储器之外，重新确定可用的目标存储器。从而保障处理后得到的数据顺利完成存储。

基于图1所示的基于维度的分布式存储方法，先获取待存储的原始数据，然后根据对原始数据的存储需求，配置WEB服务组合规则，该WEB服务组合规则至少包括数据聚类规则、数据存储规则以及数据维度化规则。接着根据数据聚类规则和数据维度化规则对原始数据进行聚类以及后处理，得到高维数据和/或低维数据。最后针对每类维度数据，根据当前分布式存储系统中各存储器的性能指标和数据存储规则，确定用于存储该类维度数据的目标存储器并对应生成存储指令，最后将该类维度数据和对应存储指令发送至目标存储器，使目标存储器执行存储指令对该类维度数据进行存储并返回存储结果。

本发明基于维度存储需求，基于维度存储需求，先对原始数据进行聚类分析处理并根据数据维度化规则对各类原始数据进行处理后再存储，便于后续其他业务需要维度数据时，直接读取维度数据进行应用，避免或减少了在业务程序中重复性的进行大量数据的提炼和计算，降低了存储后数据的处理成本，提升了其应用效率；同时根据处理后维度数据的类型通过对应类型的存储器进行存储，通过较大空间的高维储存器存储数据量较大的高维数据，以及通过较小空间的低维存储器存储数据量较少的低维数据，提高了存储器资源的利用率。

并且在提升效率的同时还能节省计算能耗，大量的维度数据还可便于进一步根据观察分析、统计分析、算法等手段继续挖掘数据潜力，提升数据价值，创造更大的数据收益。

在应用本说明书提供的基于维度的分布式存储方法时，可不根据图1所示的各步骤的顺序执行，具体各步骤的执行顺序可根据需要确定，本说明书对此不做限制。

此外，在本说明书一个或多个实施例中，服务器还可通过缓存存储器对待存储的原始数据，以及得到高维数据和/或低维数据进行缓存。并从缓存存储器中读取原始数据，以及各维度数据。于是，当服务器接收到各目标存储器存储成功的存储结果时，向缓存存储器发送缓存数据删除指令，使缓存存储器删除缓存数据。当接收到各目标存储器存储失败的存储结果时，根据存储结果、预设的数据存储规则和对原始数据的存储需求，重新配置WEB服务组合规则。通过缓存存储器暂存数据提高数据的读取效率，并根据存储结果删除缓存存储器中的缓存数据，提高缓存存储器的空间利用率。

另外，在本说明书一个或多个实施例中，WEB服务组合规则中的数据存储规则还可包括存储中止规则和存储终止规则。如表1中所示，存储中止QOS规划展示了：存储中止规则为根据QOS指标变化程度确定中止存储并在后续完成存储；存储终止规则行展示了：存储终止规则为根据QOS指标变化程度确定不适宜继续存储，终止存储，可返回存储失败结果。服务器可将每类维度数据存储至对应目标存储器的过程中，根据QOS指标变化程度确定中止存储或终止存储。第三列中的相关项可根据存储需求灵活配置。通过对数据存储规则的配置，可使得存储网络资源逊色的地域的存储器使用等级降低，或存储实时性需求不大，重要性不高的数据。相对的，可提高对存储网络资源好的地域存储器的使用优先级，或通过存储网络资源好的地域存储器存储存储实时性需求较高，重要性较高的数据。

进一步的，在本说明书一个或多个实施例中，参考表1，WEB服务组合规则中还可包括QOS拥塞管理规则，用于在数据传输中应对拥塞。具体包括何种规则可根据需要确定。

上述对基于维度的分布式存储方法以服务器为执行主体，基于服务器的视角进行描述的，本说明书还提供了从软件系统角度的响应描述，具体如下。

图2为本说明书提供的一种基于QOS指标和WEB服务组合模块管理分布式聚类存储系统示意图。由图2可知，本系统包含过渡存储器、WEB聚类存储可视化管理器、数据聚类存储处理器、聚维数据缓存管理器、分布式聚类存储方案管理器、分布式聚类存储方案执行管理器、存储终端管理器。

具体的，对于过渡存储器，服务器可通过过渡存储器缓存原始数据，当累计到一定数据量再执行数据存储，服务器还可通过过渡存储器支持数据聚类存储处理器的数据需要，以及能让WEB聚类存储可视化管理器查看原始数据，以便用户根据原始数据和存储需求设计出WEB服务组合规则。

对于WEB聚类存储可视化管理器，包含向用户展示的WEB服务可视化交互页面和WEB服务组合模块。其中，服务器可通过可视化交互页面从WEB服务组合模块中获取数据存储规则设置，并向用户展示，使得用户可根据存储需求配置WEB服务组合规则，并将配置好的WEB服务组合规则发送至数据聚类存储处理器。此外，用户还可通过可视化交互页面管理过渡存储器中缓存的内容，例如读取展示过渡存储器中缓存的内容，或者在过渡存储器中缓存的内容存储成功后，删除过渡存储器中缓存的内容，从而保障存储空间的有效利用。

对于数据聚类存储处理器，包含数据维度化规则计算模块、数据维度化处理模块和维数据传输模块。其中，服务器可通过数据维度化规则计算模块根据接收到的WEB服务组合规则确定聚类算法，然后将WEB服务组合规则和确定得到的聚类算法标识传入数据维度化处理模块。数据维度化处理模块接收到WEB服务组合规则和聚类算法标识后，将从过渡存储器读取缓存数据，并根据聚类算法对原始数据进行聚类，然后根据WEB服务组合规则中所组合的规则对数据进一步进行处理，从而得到高维数据或低维数据或者混维数据（即，高维数据和低维数据的组合），也就是处理成所需的维数据。数据维度化处理模块完成数据处理后，将向维数据传输模块发送维数据传输请求，维数据传输模块接收到维数据传输请求后，将向聚维数据缓存管理器请求存储要求，接收到反馈是否能够存储的指令，若能够存储，则通过维数据传输模块向聚维数据缓存管理器传输维数据，若不能存储，则进行等待，并定时向聚维数据缓存管理器请求存储指令，直到数据传输完成。

对于聚维数据缓存管理器，服务器主要可通过该聚维数据缓存管理器接收处理得到的维数据，其中聚维数据存储管理模块接收到存储指令，可即时查询聚维数据缓存存储器是否可用，可用将维数据存入聚维数据缓存存储器，并根据存储完成度定时清理缓存数据，保证缓存空间的有效利用，当聚维数据缓存存储器不可用时，将反馈到数据聚类存储处理器，让维数据传输模块进入传输等待机制。

对于分布式聚类存储方案管理器，服务器可通过该存储方案管理器查询当前分布式存储系统中各存储器的各项指标和当前存储网络的QOS指标，从各指标中取出需要参数，结合WEB服务组合规则，计算存储方案。并判断存储方案是否可行，若可行，则将存储方案发送到分布式聚类存储方案执行管理器，若不可行，则将存储方案不可行的结果，反馈到WEB聚类存储可视化管理器，通知到客户端，使得用户可对配置的WEB服务组合规则进行调整。同时，该存储方案管理器也接收来自分布式聚类存储方案执行管理器反馈的存储结果，并向上反馈到WEB聚类存储可视化管理器以及聚维数据缓存管理器。

对于分布式聚类存储方案执行管理器，服务器可通过存储方案执行管理器从聚维数据缓存存储器获取维数据，执行接收到的存储方案，根据方案要求，将数据发送到对应的存储终端管理器（高维、低维、混维），并接收来自存储终端管理器的存储结果，以及将存储结果反馈到分布式聚类存储方案管理器。进一步的，分布式聚类存储方案执行管理器将检查所接收方案中涉及的各个分布存储管理器是否正常，以及设备真实情况是否具备存储需求，若各个分布存储管理器反馈正常，将执行存储指令，获取聚维数据缓存存储器所缓存的维数据，进行存储工作。若存在存储终端管理器异常，不能够执行存储方案，将向上反馈，直到WEB聚类可视化管理器。在获取到各个存储终端管理器成功存储或者失败存储的信息后，会直接反馈分布式聚类存储方案执行管理器，再向上反馈。

对于存储终端管理器，可不限数量配置，但是分为三类：高维、低维、混维，每个存储终端管理器管理各自的存储设备读写删，并将存储结果反馈到分布式聚类存储方案执行管理器。其中各存储终端管理器负责检测管理域下的存储设备，在获取分布式聚类存储方案管理器的指令后，检查其存储设备情况，反馈存储设备信息是否具备聚类存储方案执行条件。以及负责接收数据存入域下的存储设备，并返回存储结果。

以上为本说明书的一个或多个实施例提供的基于维度的分布式存储方法，基于同样的思路，本说明书还提供了相应的基于维度的分布式存储装置，如图3所示。

图3为本说明书提供的一种基于维度的分布式存储装置示意图，包括：

获取模块201，用于获取待存储的原始数据；

配置模块202，用于根据对原始数据的维度存储需求，配置WEB服务组合规则；其中，WEB服务组合规则至少包括数据聚类规则、数据存储规则以及数据维度化规则；

处理模块203，用于根据WEB服务组合规则中的数据聚类规则，选取聚类算法对原始数据进行聚类，并根据数据维度化规则处理聚类得到的每类原始数据，得到高维数据或低维数据或包含高维数据和低维数据的混维数据；

存储模块204，用于针对每类维度数据，根据当前分布式存储系统中各存储器的性能指标和WEB服务组合规则中的数据存储规则，将该类维度数据存储于对应目标存储器中；其中，目标存储器包括高维存储器，低维存储器以及混维存储器。

可选地，所述数据聚类规则包括：聚类属性、数据维度化规则与聚类算法的对应关系。

所述处理模块203，根据WEB服务组合规则中的数据维度化规则，以及数据维度化规则与聚类算法的对应关系，选取聚类算法，基于数据聚类规则中的聚类属性，通过选取的聚类算法对原始数据进行聚类。

可选地，所述数据存储规则包括目标存储节点和目标存储地域。

所述存储模块204，根据WEB服务组合规则中的数据存储规则中的目标存储地域和目标存储节点，确定分布式存储系统中在目标存储地域目标存储节点的可用存储器，根据各可用存储器当前的性能指标，确定用于存储该类维度数据的目标存储器，并将该类维度数据存储于对应目标存储器中。

可选地，所述WEB服务组合规则还包括传输规则；所述传输规则为推迟不满足预设数据流速率的数据传输。

所述存储模块204，根据当前存储网络的QOS指标和WEB服务组合规则中的传输规则，确定存储时间，根据用于存储该类维度数据的目标存储器和存储时间，生成对应的存储指令，以将该类维度数据在存储时间存储于对应目标存储器中。

可选地，所述存储模块204，检查用于存储该类维度数据的目标存储器是否正常工作，若是，则将该类维度数据存储于对应目标存储器中，若否，则不将该类维度数据存储于对应目标存储器中，针对该类维度数据，根据检查结果、当前分布式存储系统中各存储器的性能指标和WEB服务组合规则中的数据存储规则，重新确定用于存储该类维度数据的目标存储器并进行存储。

可选地，通过缓存存储器对待存储的原始数据，以及得到高维数据或低维数据或混维数据进行缓存；从缓存存储器中读取原始数据进行聚类，以及从缓存存储器中读取各类维度数据进行存储。

所述装置若接收到各目标存储器存储成功的存储结果，向缓存存储器发送缓存数据删除指令，使缓存存储器删除缓存数据，若接收到各目标存储器存储失败的存储结果，根据存储结果、预设的数据存储规则和对原始数据的维度存储需求，重新配置WEB服务组合规则。

可选地，数据存储规则还包括存储中止规则和存储终止规则，所述存储中止规则为根据QOS指标变化程度确定中止存储并在后续完成存储，所述存储终止规则为根据QOS指标变化程度确定终止存储并返回存储失败结果。

所述存储模块204，将该类维度数据存储至对应目标存储器的过程中，根据QOS指标变化程度确定中止存储或终止存储。

关于基于维度的分布式存储装置的具体限定可以参见上文中对于基于维度的分布式存储方法的限定，在此不再赘述。上述基于维度的分布式存储装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的基于维度的分布式存储方法。

本说明书还提供了图4所示的计算机设备的结构示意图，如图4所述，在硬件层面，该计算机设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1提供的基于维度的分布式存储方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于维度的分布式存储方法，其特征在于，包括：

获取待存储的原始数据；

针对每类维度数据，根据当前分布式存储系统中各存储器的性能指标和WEB服务组合规则中的数据存储规则，将该类维度数据存储于对应目标存储器中；其中，目标存储器包括高维存储器，低维存储器以及混维存储器。

2.如权利要求1所述的基于维度的分布式存储方法，其特征在于，所述数据聚类规则包括：聚类属性、数据维度化规则与聚类算法的对应关系；

3.如权利要求1所述的基于维度的分布式存储方法，其特征在于，所述数据存储规则包括目标存储节点和目标存储地域；

4.如权利要求1所述的基于维度的分布式存储方法，其特征在于，所述WEB服务组合规则还包括传输规则；所述传输规则为推迟不满足预设数据流速率的数据传输；

所述将该类维度数据存储于对应目标存储器中，具体包括：

5.如权利要求1所述的基于维度的分布式存储方法，其特征在于，所述将该类维度数据存储于对应目标存储器中，具体包括：

检查用于存储该类维度数据的目标存储器是否正常工作；

若是，则将该类维度数据存储于对应目标存储器中；

6.如权利要求1所述的基于维度的分布式存储方法，其特征在于，通过缓存存储器对待存储的原始数据，以及得到高维数据或低维数据或混维数据进行缓存；从缓存存储器中读取原始数据进行聚类，以及从缓存存储器中读取各类维度数据进行存储；

所述方法还包括：

7.如权利要求1所述的基于维度的分布式存储方法，其特征在于，所述数据存储规则还包括存储中止规则和存储终止规则；

所述方法还包括：

8.一种基于维度的分布式存储装置，其特征在于，包括：

获取模块，用于获取待存储的原始数据；

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～7任一项所述的基于维度的分布式存储方法。

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1～7任一所述的基于维度的分布式存储方法。