CN115827324B

CN115827324B - 一种数据备份方法、网络节点及系统

Info

Publication number: CN115827324B
Application number: CN202211533888.6A
Authority: CN
Inventors: 刘旭涛
Original assignee: Renhe Shuzhi Technology Co ltd
Current assignee: Renhe Shuzhi Technology Co ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-12-22
Anticipated expiration: 2042-12-02
Also published as: CN115827324A

Abstract

本发明实施例提供的数据备份方法、网络节点及系统，通过获取不少于两个待备份数据对应的不少于两个中间型数据归类簇，并获取不少于两个中间型数据归类簇各自对应的序列贡献差值，然后依据不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇，得到不少于两个待备份数据对应的最终数据归类簇，最后基于不少于两个待备份数据对应的最终数据归类簇进行数据备份。因为最终数据归类簇的归类合理性和包容性强，在获取所有中间型数据归类簇对应的序列贡献差值时，运算量少，使得确定最终数据归类簇的速度得到提升，通过最终数据归类簇备份待备份数据的效率提高。

Description

一种数据备份方法、网络节点及系统

技术领域

本申请涉及数据备份领域，具体而言，涉及一种数据备份方法、网络节点及系统。

背景技术

数据备份是数据容灾的基础，在传统的数据备份过程中，往往采用数据无差别按次序备份以对数据进行存储，一旦因不可抗因素导致在备份中断或者存储设备的存储容量不足时，数据备份即宣告失败。在大多数情况下，需要备份的数据往往具有一定的区别，例如数据经常使用、不经常使用、重要数据、次要数据等，如果在备份时发生事故，重要数据未能备份完成，则可能造成不可估量的损失。如何根据数据的使用情况或重要性进行数据的备份，是需要考虑的技术问题，需要说明的是，以上技术问题的发现属于申请人付出创造性劳动的结果，上述公开内容仅用于辅助理解本申请技术方案，而不代表其可以作为评判本申请新创性的依据。

发明内容

本发明的目的在于提供一种数据备份方法、网络节点及系统，以改善上述问题。

第一方面，本申请实施例提供一种数据备份方法，其特征在于，所述方法包括：

获取不少于两个待备份数据对应的不少于两个中间型数据归类簇，每一所述中间型数据归类簇是基于对所述不少于两个待备份数据进行独立数据归类得到，所述不少于两个中间型数据归类簇中的第一中间型数据归类簇和第二中间型数据归类簇都包含两个待备份数据序列，所述第一中间型数据归类簇包含的第一个待备份数据序列是基于在所述第二中间型数据归类簇包含的第二个待备份数据序列中筛选N个待备份数据填入至所述第二中间型数据归类簇包含的第一个待备份数据序列中得到，所述第一中间型数据归类簇包含的第二个待备份数据序列包括所述第二中间型数据归类簇包含的第二个待备份数据序列中筛选余下的待备份数据，所述待备份数据为不同类型的数字化服务交互数据中的至少一种；

获取所述不少于两个中间型数据归类簇各自对应的序列贡献差值，每一所述中间型数据归类簇对应的序列贡献差值用以指示所述每一所述中间型数据归类簇的每一个待备份数据序列在贡献度维度的区别，所述第一中间型数据归类簇对应的序列贡献差值为所述第二中间型数据归类簇对应的序列贡献差值与预设差值的和值，所述预设差值通过所述N个待备份数据的贡献度标记确定，任意一待备份数据的贡献度标记包括所述任意一待备份数据对应的数据使用记录归纳的对所述任意一待备份数据的贡献分配权重；

依据所述不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇，得到所述不少于两个待备份数据对应的最终数据归类簇；

基于所述不少于两个待备份数据对应的最终数据归类簇进行数据备份。

进一步地，所述依据所述不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇，得到所述不少于两个待备份数据对应的最终数据归类簇的步骤前，还包括：

依据所述N个待备份数据的贡献度标记，得到所述N个待备份数据各自对应的第一贡献度均值；

通过所述N个待备份数据各自对应的第一贡献度均值、所述第二中间型数据归类簇包含的第一个待备份数据序列对应的序列贡献度均值和所述第一中间型数据归类簇包含的第一个待备份数据序列中的待备份数据的项数，得到第一差值；

通过所述N个待备份数据各自对应的第一贡献度均值、所述序列贡献度均值和所述不少于两个待备份数据对应的全局贡献度均值，确定第二差值；

依据所述第一差值和所述第二差值，得到所述预设差值；

将所述第二中间型数据归类簇对应的序列贡献差值和所述预设差值的和值，确定为所述第一中间型数据归类簇对应的序列贡献差值。

进一步地，所述依据所述不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇，得到所述不少于两个待备份数据对应的最终数据归类簇的步骤包括：

将所述不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇的每一个待备份数据序列确定为各个参考待备份数据序列；当所述各个参考待备份数据序列的项数大于或等于预设项数，或当所述各个参考待备份数据序列的项数小于所述预设项数，同时所述各个参考待备份数据序列都未达到数据归类要求，将所述不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇确定为所述不少于两个待备份数据对应的最终数据归类簇；

或者；

将所述不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇的每一个待备份数据序列确定为各个参考待备份数据序列；当所述各个参考待备份数据序列的项数小于所述预设项数，同时所述各个参考待备份数据序列包括达到数据归类要求的第一待备份数据序列，获取所述第一待备份数据序列中的第一待备份数据对应的序列贡献差值最大的中间型数据归类簇；依据所述第一待备份数据对应的序列贡献差值最大的中间型数据归类簇，得到多个修正之后的参考待备份数据序列；当所述各个修正之后的参考待备份数据序列的项数大于或等于所述预设项数，或当所述各个修正之后的参考待备份数据序列的项数小于所述预设项数，同时所述各个修正之后的参考待备份数据序列都未达到数据归类要求，将包含所述多个修正之后的参考待备份数据序列的数据归类簇确定为所述不少于两个待备份数据对应的最终数据归类簇。

进一步地，所述依据所述第一待备份数据对应的序列贡献差值最大的中间型数据归类簇，得到多个修正之后的参考待备份数据序列的步骤包括：

当所述各个参考待备份数据序列还包含未达到数据归类要求的第二待备份数据序列时，则将所述第一待备份数据对应的序列贡献差值最大的中间型数据归类簇的每一个待备份数据序列和所述第二待备份数据序列，确定为所述多个修正之后的参考待备份数据序列；

或者；

当所述各个参考待备份数据序列都达到数据归类要求时，则将所述第一待备份数据对应的序列贡献差值最大的中间型数据归类簇的每一个待备份数据序列，确定为所述多个修正之后的参考待备份数据序列。

进一步地，所述第一中间型数据归类簇是所述不少于两个中间型数据归类簇内排除第一个中间型数据归类簇之后余下的每一所述中间型数据归类簇，所述第二中间型数据归类簇为所述不少于两个中间型数据归类簇中排在所述第一中间型数据归类簇之前的的中间型数据归类簇；

所述获取不少于两个待备份数据对应的不少于两个中间型数据归类簇的步骤包括：

获取所述不少于两个中间型数据归类簇包含的第一个中间型数据归类簇，所述第一个中间型数据归类簇包含的第一个待备份数据序列包括从所述不少于两个待备份数据中筛选的一个或多个待备份数据，所述第一个中间型数据归类簇包含的第二个待备份数据序列包括所述不少于两个待备份数据中筛选余下的待备份数据；

在所述第一个中间型数据归类簇包含的第二个待备份数据序列中筛选N个待备份数据填入至所述第一个中间型数据归类簇包含的第一个待备份数据序列中，得到修正之后的第一个待备份数据序列，将包含所述第一个中间型数据归类簇中的第二个待备份数据序列中筛选余下的待备份数据的待备份数据序列确定为修正之后的第二个待备份数据序列，将包含所述修正之后的第一个待备份数据序列和所述修正之后的第二个待备份数据序列的数据归类簇确定为所述不少于两个中间型数据归类簇包含的第二个中间型数据归类簇；

当所述第二个中间型数据归类簇包含的第二个待备份数据序列中的待备份数据的项数小于或等于所述N，将所述第二个中间型数据归类簇确定为所述不少于两个中间型数据归类簇中的末尾的中间型数据归类簇。

进一步地，所述N=1，所述通过所述N个待备份数据各自对应的第一贡献度均值、所述第二中间型数据归类簇包含的第一个待备份数据序列对应的序列贡献度均值和所述第一中间型数据归类簇包含的第一个待备份数据序列中的待备份数据的项数，得到第一差值的步骤包括：

计算所述一个待备份数据对应的第一贡献度均值的第一运算结果、所述序列贡献度均值的第一运算结果和所述第一中间型数据归类簇包含的第一个待备份数据序列中的待备份数据的项数的第一运算结果；

依据所述一个待备份数据对应的第一贡献度均值的第一运算结果和所述序列贡献度均值的第一运算结果的和值和所述第一中间型数据归类簇包含的第一个待备份数据序列中的待备份数据的项数的第一运算结果，得到所述第一差值。

进一步地，所述N个待备份数据为一个待备份数据，所述通过所述N个待备份数据各自对应的第一贡献度均值、所述序列贡献度均值和所述不少于两个待备份数据对应的全局贡献度均值，确定第二差值的步骤包括：

计算所述一个待备份数据对应的第一贡献度均值和所述序列贡献度均值的第二运算结果D-value1；

确定所述序列贡献度均值和所述序列贡献度均值的第二运算结果D-value2；

依据所述第二运算结果D-value1和所述第二运算结果D-value2，确定所述第二差值。

进一步地，所述基于所述不少于两个待备份数据对应的最终数据归类簇进行数据备份的步骤包括：

获取对最终数据归类簇进行数据备份标签识别得到的识别结果，所述识别结果包括从所述最终数据归类簇识别到的数据备份标签的标签种类，以及进行数据备份的一个或多个期望备份数据库指示信息；

基于所述数据备份标签的标签种类确定从所述最终数据归类簇中选取一个或多个目标备份数据库指示信息的筛选规则，所述一个或多个目标备份数据库指示信息用于指示所述数据备份标签的标签种类以及进行数据备份关联的备份数据属性信息，其中，所述筛选规则包括以下至少一个信息：所述目标备份数据库指示信息的个数、所述目标备份数据库指示信息之间的依赖关系、所述目标备份数据库指示信息的优先级；

根据所述期望备份数据库指示信息一个或多个期望备份数据库指示信息以及所述筛选规则，从所述最终数据归类簇中确定一个或多个目标备份数据库指示信息；

根据所述目标备份数据库指示信息指示的数据库进行数据备份。

第二方面，本申请实施例提供了一种网络节点，包括处理器和存储器，所述存储器存储有计算机程序，当所述处理器运行所述计算机程序时，实现如本申请第一方面提供的方法。

第三方面，本申请实施例提供了一种数据备份系统，包括如本申请第二方面提供的网络节点。

本申请实施例中，最终数据归类簇为通过序列贡献差值最大的中间型数据归类簇获取的，可以确保最终数据归类簇中的待备份数据序列在贡献度维度上具备较大的区别，基于最终数据归类簇备份待备份数据，便于增加数据在贡献度维度的备份综合性，最终数据归类簇的归类合理性和包容性强。进一步而言，不少于两个中间型数据归类簇中的第一中间型数据归类簇对应的序列贡献差值是第二中间型数据归类簇对应的序列贡献差值和预设差值的和值，因为预设差值通过N个待备份数据的贡献度标记得到，且N个待备份数据为所有待备份数据的一部分，那么在已经确定第二中间型数据归类簇对应的序列贡献差值时，只需要衡量部分待备份数据的贡献度标记，就能够得到第一中间型数据归类簇对应的序列贡献差值，得到第一中间型数据归类簇对应的序列贡献差值的过程所依赖的运算量低，进而在获取所有中间型数据归类簇对应的序列贡献差值时，运算量随之减少，最终使得确定最终数据归类簇的速度得到提升，那么通过最终数据归类簇备份待备份数据的效率也得到提高。

在后面的描述中，将部分地陈述其他的特征。在检查后面内容和附图时，本领域的技术人员将部分地发现这些特征，或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面，当前申请中的特征可以被实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

附图中的方法、系统和/或程序将根据示例性实施例进一步描述。这些示例性实施例将参照图纸进行详细描述。这些示例性实施例是非限制的示例性实施例，其中参考数字在附图的各个视图中代表相似的机构。

图1是根据本申请的一些实施例所示的一种数据备份系统的框图。

图2是根据本申请的一些实施例所示的一种网络节点中硬件和软件组成的示意图。

图3是根据本申请的一些实施例所示的一种数据备份方法的流程图。

图4是本申请实施例提供的数据备份装置的架构示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本申请技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

在下面的详细描述中，通过实例阐述了许多具体细节，以便提供对相关指导的全面了解。然而，对于本领域的技术人员来说，显然可以在没有这些细节的情况下实施本申请。在其他情况下，公知的方法、程序、系统、组成和/或电路已经在一个相对较高水平上被描述，没有细节，以避免不必要的模糊本申请的方面。

这些和其他特性、当前申请披露的功能、执行的方法、结构中相关元素的功能和部件的组合和生产经济性,在参照附图进行以下描述的考虑中可能会变得更加明显,所有这些形成本申请的一部分。然而，需要理解清楚的是，附图仅仅是为了说明和描述的目的，并不旨在限制本申请的范围。应当了解的是，这些图纸不是按比例绘制的。然而，应当明确理解的是，附图仅用于说明和描述的目的，并不意图限制本申请的范围。应当知晓的是，这些附图并不依照比例。

本申请中使用流程图说明根据本申请的实施例的系统所执行的执行过程。应当明确理解的是，流程图的执行过程可以不按顺序执行。相反，这些执行过程可以以相反的顺序或同时执行。另外，可以将至少一个其他执行过程添加到流程图。一个或多个执行过程可以从流程图中删除。

图1是根据本申请的一些实施例所示的数据备份系统300的系统架构框图，该数据备份系统300包括终端设备200和多个与之通信的网络节点100。

终端设备200中的数据为需要备份的数据，例如可以是具备网络交互功能的服务器、个人电脑、笔记本电脑、平板电脑或智能手机等。网络节点100用于备份存储终端设备200中的数据。

在一些实施例中，请参照图2，是网络节点100的架构示意图，该网络节点100包括数据备份装置110、存储器120、处理器130和通信单元140。存储器120、处理器130以及通信单元140各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。数据备份装置110包括至少一个可以软件或固件（firmware）的形式存储于存储器120中或固化在终端设备200的操作系统（operating system，OS）中的软件功能模块。处理器130用于执行存储器120中存储的可执行模块，例如基于远程教育的业务信息处理装置110所包括的软件功能模块及计算机程序等。

其中，存储器120可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-OnlyMemory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，EEPROM）等。其中，存储器120用于存储程序，处理器130在接收到执行指令后，执行所述程序。通信单元140用于通过网络建立网络节点100和终端设备200的通信连接，并用于通过网络收发数据。

处理器可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（NetworkProcessor，NP）等；还可以是数字信号处理器（DSP））、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

可以理解，图2所示的结构仅为示意，网络节点100还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

图3是根据本申请的一些实施例所示的一种数据备份方法的流程图，该方法应用于图1中的终端设备200，具体可以包括以下步骤S100-S400。在以下步骤S100-S400的基础上，将对一些可选实施例进行说明，这些实施例应当理解为示例，不应理解为实现本方案所必不可少的技术特征。

申请人发现，如果将数据提前进行合理的区分归类，然后再进行适应性地存储，即使数据备份中断，重要数据仍完成备份，这样有助于增加应对备份事故。然而，目前还没有针对上述技术思路开发的技术方案

本申请实施例提供的数据归类簇的确定方法包括如下步骤S100-S400。

在S100中，获取不少于两个待备份数据对应的不少于两个中间型数据归类簇，不少于两个中间型数据归类簇中的第一中间型数据归类簇和第二中间型数据归类簇都包含两个待备份数据序列，第一中间型数据归类簇包含的第一个待备份数据序列是基于在第二中间型数据归类簇包含的第二个待备份数据序列中筛选N个待备份数据填入至第二中间型数据归类簇包含的第一个待备份数据序列中得到，第一中间型数据归类簇包含的第二个待备份数据序列包括第二中间型数据归类簇包含的第二个待备份数据序列中筛选余下的待备份数据，N为大于等于1的正整数。

在本申请实施例中，所述待备份数据为不同类型的数字化服务交互数据中的至少一种，不同类型的数字化服务交互数据涉及电子商务、远程办公、智慧政企、云游戏、元宇宙等。举例而言，待备份数据可以是现有电子商务类的用户活动数据（包括但不限于用户的页面操作数据、文本语音沟通信息等）。又比如，待备份数据还可以是现有远程办公类的文件资料（包括但不限于远程会议的会议记录、重要文件资料的记录信息等）。再比如，待备份数据也可以是现有智慧政企类的业务办理记录（比如企业资质办理记录、政企服务质量的反馈消息等）。应当理解，对于本领域技术人员而言，可根据实际应用需求选择不同类型的数据信息作为待备份数据，在此不限。

在本申请实施例中，每一个中间型数据归类簇是基于对不少于两个待备份数据进行独立数据归类获取到的。待备份数据是指需要备份的数据，数据的类型本申请不做限定。

不少于两个待备份数据表示需要确定最终数据归类簇的待备份数据。此处对不少于两个待备份数据具体个数不做限定。作为一种实施方式，当获取不少于两个待备份数据后，可以获取不少于两个待备份数据对应的不少于两个中间型数据归类簇（临时的或者备选的数据归类簇，数据归类簇即对数据进行分类得到的集合）。不少于两个中间型数据归类簇为需要评估序列贡献差值的数据归类簇，每一个中间型数据归类簇是基于对不少于两个待备份数据进行独立数据归类（即各自之间没有重叠部分的归类）得到。

对不少于两个待备份数据进行独立数据归类得到的每一个中间型数据归类簇包括不少于两个待备份数据序列，上述不少于两个待备份数据序列中的待备份数据的合集为该不少于两个待备份数据，同时不少于两个待备份数据序列中不同待备份数据序列中不具备重复的待备份数据。换言之，每个中间型数据归类簇都是对不少于两个待备份数据进行独立数据归类得到的簇，且每个中间型数据归类簇包括待备份数据无重复的不少于两个待备份数据序列。

其中，不同中间型数据归类簇包括的待备份数据序列的项数可以相等或不等。如果不同中间型数据归类簇包括的待备份数据序列的项数相等，那么不同中间型数据归类簇包括待备份数据序列中待备份数据的散布情形不同。本申请实施例中，任意一个中间型数据归类簇包括的不同待备份数据序列中的待备份数据的数据量可以相同或不同。

不少于两个中间型数据归类簇中包含第一中间型数据归类簇和第二中间型数据归类簇，其中，第一中间型数据归类簇和第二中间型数据归类簇的具有以下特征，第一中间型数据归类簇和第二中间型数据归类簇都包含两个待备份数据序列；第一中间型数据归类簇包含的第一个待备份数据序列是基于在第二中间型数据归类簇包含的第二个待备份数据序列中筛选N个待备份数据填入至第二中间型数据归类簇包含的第一个待备份数据序列中得到的；第一中间型数据归类簇包含的第二个待备份数据序列包括第二中间型数据归类簇包含的第二个待备份数据序列中筛选余下的待备份数据。换言之，在第二中间型数据归类簇包含的第二个待备份数据序列中筛选N个待备份数据填入至第二中间型数据归类簇包含的第一个待备份数据序列后，第二中间型数据归类簇包含的第一个待备份数据序列和第二个待备份数据序列都产生改变，把涵盖了改变之后的两个待备份数据序列的数据归类簇确定为第一中间型数据归类簇。

其中，第二中间型数据归类簇内的两个待备份数据序列中，关于第一个待备份数据序列和第二个待备份数据序列的确定并不做限制，前提是确保第二中间型数据归类簇的第二个待备份数据序列中的待备份数据的项数大于N，N的具体数值视实际情况而定。

上述步骤中，对来自第二中间型数据归类簇中的第二个待备份数据序列中筛选N个待备份数据的过程不做限定，例如可以是随机筛选的，或者依据事先设定的筛选策略（例如数据产生时间、数据使用次数等）进行筛选的。不少于两个中间型数据归类簇包括在第一个中间型数据归类簇到末尾的中间型数据归类簇的各个中间型数据归类簇，在第一中间型数据归类簇和第二中间型数据归类簇在不少于两个中间型数据归类簇中所在位置的不同可能性中，得到不少于两个待备份数据对应的不少于两个中间型数据归类簇的情形不同。

作为一种实施方式，第一中间型数据归类簇和第二中间型数据归类簇在不少于两个中间型数据归类簇中所在的位置为第一中间型数据归类簇为不少于两个中间型数据归类簇内排除第一个中间型数据归类簇之后余下的每一所述中间型数据归类簇，第二中间型数据归类簇为不少于两个中间型数据归类簇中排在第一中间型数据归类簇之前的的中间型数据归类簇。比如第一中间型数据归类簇可能是第三个中间型数据归类簇，那么第二中间型数据归类簇为第二个中间型数据归类簇。

在第一中间型数据归类簇和第二中间型数据归类簇在不少于两个中间型数据归类簇中所在位置是以上情形时，则邻近的两个中间型数据归类簇都包含两个待备份数据序列，同时两个相邻中间型数据归类簇中，后一个中间型数据归类簇包含的第一个待备份数据序列是基于在前一个中间型数据归类簇包含的第二个待备份数据序列中筛选N个待备份数据填入至前一个中间型数据归类簇包含的第一个待备份数据序列中获取，后一个中间型数据归类簇包含的第二个待备份数据序列包含前一个中间型数据归类簇包含的第二个待备份数据序列中筛选余下的待备份数据。基于此，获取不少于两个待备份数据对应的不少于两个中间型数据归类簇的实现过程包括以下步骤S110-S130，下面对步骤S110-S130进行详细介绍。

S110，获取不少于两个中间型数据归类簇包含的第一个中间型数据归类簇，第一个中间型数据归类簇包含的第一个待备份数据序列包括从不少于两个待备份数据中筛选的一个或多个待备份数据，第一个中间型数据归类簇包含的第二个待备份数据序列包括不少于两个待备份数据中筛选余下的待备份数据。

第一个中间型数据归类簇包含的第一个待备份数据序列包含的待备份数据的项数（从不少于两个待备份数据中筛选的待备份数据的项数）可以据实而定。作为一种实施方式，确定第一个中间型数据归类簇的过程可以是从不少于两个待备份数据中筛选一个或多个待备份数据，将包含筛选的一个或多个待备份数据的待备份数据序列确定为第一个中间型数据归类簇包含的第一个待备份数据序列，将包含不少于两个待备份数据中筛选余下的待备份数据的待备份数据序列确定为第一个中间型数据归类簇包含的第二个待备份数据序列，从而获得第一个中间型数据归类簇。

S120，在第一个中间型数据归类簇包含的第二个待备份数据序列中筛选N个待备份数据填入至第一个中间型数据归类簇包含的第一个待备份数据序列中，获得修正（或者说更新、补充、完善）之后的第一个待备份数据序列，将包含第一个中间型数据归类簇中第二个待备份数据序列中筛选余下的待备份数据的待备份数据序列确定为修正之后的第二个待备份数据序列，将包含修正之后的第一个待备份数据序列和修正之后的第二个待备份数据序列的数据归类簇确定为不少于两个中间型数据归类簇包含的第二个中间型数据归类簇。在第一个中间型数据归类簇包含的第二个待备份数据序列中筛选N个待备份数据的过程例如是随机筛选的，或者是依据预设的筛选策略筛选的，本申请对此不做限定。

S130，当第二个中间型数据归类簇包含的第二个待备份数据序列中的待备份数据的项数小于或等于N，将第二个中间型数据归类簇确定为不少于两个中间型数据归类簇中的末尾的中间型数据归类簇。

在确定第二个中间型数据归类簇后，评估第二个中间型数据归类簇包含的第二个待备份数据序列中的待备份数据的项数是否大于N，如果第二个中间型数据归类簇包含的第二个待备份数据序列中的待备份数据的项数小于或等于N，那么表示不能在第二个中间型数据归类簇获得第三个中间型数据归类簇，该情况下，则将第二个中间型数据归类簇确定为不少于两个中间型数据归类簇中的末尾的中间型数据归类簇，以上即完成确定不少于两个中间型数据归类簇。

如果第二个中间型数据归类簇包含的第二个待备份数据序列中的待备份数据的项数大于N，则可根据S120中的步骤，在第二个中间型数据归类簇基础上得到第三个中间型数据归类簇，评估第三个中间型数据归类簇包含的第二个待备份数据序列中的待备份数据的项数大于N与否。如果第三个中间型数据归类簇包含的第二个待备份数据序列中的待备份数据的项数小于或等于N，那么把第三个中间型数据归类簇确定为不少于两个中间型数据归类簇中的末尾的中间型数据归类簇，以上即完成确定不少于两个中间型数据归类簇。如果第三个中间型数据归类簇包含的第二个待备份数据序列中的待备份数据的项数大于N，那么根据S120的步骤，在第三个中间型数据归类簇获取第四个中间型数据归类簇，循环往复下直至获得不少于两个中间型数据归类簇中的末尾的中间型数据归类簇，完成确定不少于两个中间型数据归类簇的步骤。

举例而言，设定不少于两个待备份数据包括待备份数据Data1、待备份数据Data2、待备份数据Data3和待备份数据Data4，N=1，依据以上S110-S130确定不少于两个待备份数据对应的不少于两个中间型数据归类簇的步骤，那么：从不少于两个待备份数据中筛选待备份数据Data1，将包含待备份数据Data1的待备份数据序列确定为第一个中间型数据归类簇包含的第一个待备份数据序列（定义为（Data1）），将包含不少于两个待备份数据中筛选余下的待备份数据Data2、待备份数据Data3和待备份数据Data4的待备份数据序列确定为第一个中间型数据归类簇包含的第二个待备份数据序列（（Data2、Data3、Data4）），获得第一个中间型数据归类簇（（Data1）；（Data2、Data3、Data4））。在第一个中间型数据归类簇包含的第二个待备份数据序列中筛选一个待备份数据（例如待备份数据Data2）填入至第一个中间型数据归类簇包含的第一个待备份数据序列中，得到修正之后的第一个待备份数据序列（（Data1、Data2）），把包含第一个中间型数据归类簇包含的第二个待备份数据序列中筛选余下的待备份数据的待备份数据序列确定为修正之后的第二个待备份数据序列（（Data3、Data4），把包含修正之后的第一个待备份数据序列和修正之后的第二个待备份数据序列的数据归类簇确定为第二个中间型数据归类簇（（Data1、Data2）；（Data3、Data4））。

因为第二个中间型数据归类簇包含的第二个待备份数据序列中的待备份数据的项数大于1，则从第二个中间型数据归类簇包含的第二个待备份数据序列中筛选一个待备份数据（比如待备份数据Data3）填入至第二个中间型数据归类簇包含的第一个待备份数据序列中，获得二次修正之后的第一个待备份数据序列（（Data1、Data2、Data3）），将包含第二个中间型数据归类簇包含的第二个待备份数据序列中筛选余下的待备份数据的待备份数据序列确定为二次修正之后的第二个待备份数据序列（（Data4），把包含二次修正之后的第一个待备份数据序列和二次修正之后的第二个待备份数据序列的数据归类簇确定为第三个中间型数据归类簇（（Data1、Data2、Data3）；（Data4））。因为第三个中间型数据归类簇包含的第二个待备份数据序列中的待备份数据的项数小于或等于1，则把第三个中间型数据归类簇确定为末尾的中间型数据归类簇。通过以上过程，获取到各个中间型数据归类簇（（Data1）；（Data2、Data3、Data4））、（（Data1、Data2）；（Data3、Data4））以及（（Data1、Data2、Data3）；（Data4））。

上述步骤S110-S130只为在第一中间型数据归类簇为不少于两个中间型数据归类簇内排除第一个中间型数据归类簇之后余下的每一所述中间型数据归类簇，第二中间型数据归类簇为不少于两个中间型数据归类簇中排在第一中间型数据归类簇之前的的中间型数据归类簇时，获取不少于两个待备份数据对应的不少于两个中间型数据归类簇。第一中间型数据归类簇和第二中间型数据归类簇在不少于两个中间型数据归类簇中所在位置在其他实施方式中可以具有变化。

例如，第一中间型数据归类簇和第二中间型数据归类簇在不少于两个中间型数据归类簇中还可以是第一中间型数据归类簇是不少于两个中间型数据归类簇中的第i个中间型数据归类簇，第二中间型数据归类簇是不少于两个中间型数据归类簇中的第j个中间型数据归类簇，i和j不同，且i和j都是大于或等于1。在此基础上，获取不少于两个中间型数据归类簇内除第i个中间型数据归类簇之后余下的中间型数据归类簇，仅需确保第j个中间型数据归类簇包含两个待备份数据序列且第二个待备份数据序列中的待备份数据的项数大于N，再从第j个中间型数据归类簇包含的第二个待备份数据序列中筛选N个待备份数据填入至第j个中间型数据归类簇包含的第一个待备份数据序列中，获得修正之后的第一个待备份数据序列，把包含第j个中间型数据归类簇包含的第二个待备份数据序列中筛选余下的待备份数据的待备份数据序列确定为修正之后的第二个待备份数据序列，把包含修正之后的第一个待备份数据序列和修正之后的第二个待备份数据序列的数据归类簇确定为第i个中间型数据归类簇，通过以上步骤则获得不少于两个待备份数据对应的不少于两个中间型数据归类簇。

在S200中，确定不少于两个中间型数据归类簇各自对应的序列贡献差值，第一中间型数据归类簇对应的序列贡献差值为第二中间型数据归类簇对应的序列贡献差值与预设差值的和值，预设差值依据N个待备份数据的贡献度标记得到的。

其中，中间型数据归类簇对应的序列贡献差值用以指示该中间型数据归类簇的每一个待备份数据序列在贡献度维度的区别，任意一待备份数据的贡献度标记涵盖该任意一待备份数据对应的数据使用记录归纳的对该任意一待备份数据的贡献分配权重，即通过待备份数据的使用记录，分析出的数据的贡献度（重要性），以匹配对应的权重，例如使用越频繁，贡献度越高，权重越大。

例如，任意一中间型数据归类簇对应的序列贡献差值越大，表征该中间型数据归类簇的每一个待备份数据序列在贡献度维度的区别越大。任意一个中间型数据归类簇对应的序列贡献差值越小，表征该中间型数据归类簇的每一个待备份数据序列在贡献度维度的区别越小。比如，任意一个中间型数据归类簇的每一个待备份数据序列在贡献度维度的区别越大，表征该中间型数据归类簇的每一个待备份数据序列在贡献度维度的抽离性越大，表明该中间型数据归类簇的归类合理性高。

在不少于两个中间型数据归类簇各自对应的序列贡献差值中，第一中间型数据归类簇对应的序列贡献差值为第二中间型数据归类簇对应的序列贡献差值与预设差值的和值。预设差值通过N个待备份数据的贡献度标记得到。换言之，在确定了第二中间型数据归类簇对应的序列贡献差值后，只要衡量N个待备份数据的贡献度标记就能够得到第一中间型数据归类簇对应的序列贡献差值，这样缓解了获得第一中间型数据归类簇对应的序列贡献差值的运算消耗，从而提升得到第一中间型数据归类簇对应的序列贡献差值的速度，便于提升获得所有中间型数据归类簇对应的序列贡献差值的速度。

任意一待备份数据的贡献度标记包括该任意一待备份数据对应的数据使用记录归纳的对该任意一待备份数据的贡献分配权重，具体过程请参后文。

预设差值用于表征第一中间型数据归类簇对应的序列贡献差值相较于第二中间型数据归类簇对应的序列贡献差值的改变量。作为一种实施方式，第一中间型数据归类簇对应的序列贡献差值的获取过程可以包括以下步骤S10-S40。

S10，通过N个待备份数据的贡献度标记，确定N个待备份数据各自对应的第一贡献度均值。

例如，N个待备份数据中的任意一待备份数据对应的第一贡献度均值为该任意一待备份数据的贡献度标记涵盖的所有贡献度的均值。

S20，依据N个待备份数据各自对应的第一贡献度均值、第二中间型数据归类簇包含的第一个待备份数据序列对应的序列贡献度均值和第一中间型数据归类簇包含的第一个待备份数据序列中的待备份数据的项数，确定第一差值。

第二中间型数据归类簇包含的第一个待备份数据序列对应的序列贡献度均值是在获取第一中间型数据归类簇对应的序列贡献差值之前就获得的系数。例如，第二中间型数据归类簇包含的第一个待备份数据序列对应的序列贡献度均值为第二中间型数据归类簇包含的第一个待备份数据序列的每一个待备份数据对应的贡献度均值的均值，每个待备份数据对应的贡献度均值为每个待备份数据的贡献度标记包含的各个贡献度的均值。

作为一种实施方式，N=1，在此设定下，S20包括：获得上述一个待备份数据对应的第一贡献度均值的第一运算结果、序列贡献度均值的第一运算结果和第一中间型数据归类簇包含的第一个待备份数据序列中的待备份数据的项数的第一运算结果；依据上述一个待备份数据对应的第一贡献度均值的第一运算结果与序列贡献度均值的第一运算结果的和值和第一中间型数据归类簇包含的第一个待备份数据序列中的待备份数据的项数的第一运算结果，确定第一差值。上述的第一运算结果可以是贡献度均值平方计算后的结果。

S30，根据N个待备份数据各自对应的第一贡献度均值、序列贡献度均值和不少于两个待备份数据对应的全局贡献度均值，确定第二差值。

全局贡献度均值是在确定第一中间型数据归类簇对应的序列贡献差值前获得的系数。全局贡献度均值表示不少于两个待备份数据各自对应的贡献度均值的均值，各个待备份数据对应的贡献度均值为该每个待备份数据的贡献度标记包含的各个贡献度的均值。

作为一种实施方式，N=1，在该设定下，S30可以包括：获取一个待备份数据对应的第一贡献度均值与序列贡献度均值的第二运算结果D-value1；并获取序列贡献度均值与序列贡献度均值的第二运算结果D-value2。依据第二运算结果D-value1和第二运算结果D-value2，确定第二差值。例如，可以参照以下公式：D_t,nt+1=2（X_t,_nt+1-Y_t）×（Y_t-Z）。

其中， D为第二差值；X_t,nt+1为上述一个待备份数据对应的第一贡献度均值；Y_t为序列贡献度均值；（X_t,nt+1-Y_t）即第二运算结果D-value1；Z为全局贡献度均值；（Y_t-Z）为第二运算结果D-value2；t为第一中间型数据归类簇和第二中间型数据归类簇包含的第一个待备份数据序列的序号；nt为第二中间型数据归类簇包含的第一个待备份数据序列中的待备份数据的项数，其为大于或等于1；nt+1是第一中间型数据归类簇包含的第一个待备份数据序列中的待备份数据的项数。

S40，通过第一差值和第二差值，得到预设差值，将第二中间型数据归类簇对应的序列贡献差值与预设差值的和值，确定为第一中间型数据归类簇对应的序列贡献差值。

第二中间型数据归类簇对应的序列贡献差值是在获取第一中间型数据归类簇对应的序列贡献差值前已获取的系数。对于第二中间型数据归类簇对应的序列贡献差值的确定过程本申请不做限定，例如，通过第一差值和第二差值，得到预设差值可以是将第一差值和第二差值的和值确定为预设差值。

作为一种实施方式，在第一中间型数据归类簇和第二中间型数据归类簇在不少于两个中间型数据归类簇中所在位置不同时，获取不少于两个中间型数据归类簇对应的序列贡献差值的过程不相同。下面以第一中间型数据归类簇为不少于两个中间型数据归类簇内排除第一个中间型数据归类簇之后余下的任意一个中间型数据归类簇，第二中间型数据归类簇为不少于两个中间型数据归类簇中排在第一中间型数据归类簇之前的的中间型数据归类簇的情况，说明获取不少于两个中间型数据归类簇对应的序列贡献差值的方式。

因为第一中间型数据归类簇对应的序列贡献差值在第二中间型数据归类簇对应的序列贡献差值基础上确定，那么第二中间型数据归类簇对应的序列贡献差值在获取第一个中间型数据归类簇对应的序列贡献差值之前确定。因第二中间型数据归类簇是不少于两个中间型数据归类簇中排在第一中间型数据归类簇之前的的中间型数据归类簇，则在获取不少于两个中间型数据归类簇各自对应的序列贡献差值时，依据在第一个中间型数据归类簇到末尾的中间型数据归类簇的递次关系确定各个中间型数据归类簇各自对应的序列贡献差值。

因为第一中间型数据归类簇为不少于两个中间型数据归类簇内排除第一个中间型数据归类簇之后余下的每一所述中间型数据归类簇，则获取不少于两个中间型数据归类簇各自对应的序列贡献差值包括：确定第一个中间型数据归类簇对应的序列贡献差值，再自第二个中间型数据归类簇开始，按序将每个中间型数据归类簇和该每个中间型数据归类簇之前的中间型数据归类簇确定为第一中间型数据归类簇和第二中间型数据归类簇，根据确定第一中间型数据归类簇对应的序列贡献差值的过程确定每个中间型数据归类簇对应的序列贡献差值，直到获取末尾的中间型数据归类簇对应的序列贡献差值。

第一个中间型数据归类簇对应的序列贡献差值不能按照上述过程中获取第一中间型数据归类簇对应的序列贡献差值的过程确定，下面说明确定第一个中间型数据归类簇对应的序列贡献差值的方式。

作为一种实施方式，确定第一个中间型数据归类簇对应的序列贡献差值包括：通过第一个中间型数据归类簇中的任意一待备份数据序列中的待备份数据的贡献度标记，确定该任意一待备份数据序列对应的序列贡献度均值；依据第一个中间型数据归类簇的每一个待备份数据序列各自对应的第一贡献度差值，确定第一个中间型数据归类簇对应的序列贡献差值，第一个中间型数据归类簇中的任意一待备份数据序列对应的第一贡献度差值为任意一待备份数据序列对应的序列贡献度均值与全局贡献度均值之间的区别。全局贡献度均值通过不少于两个待备份数据的贡献度标记得到。

例如，任意一待备份数据序列对应的序列贡献度均值为任意一待备份数据序列的每一个待备份数据相应的贡献度均值的均值，每个待备份数据对应的贡献度均值为该各待备份数据的贡献度标记包含的各个贡献度的均值。

任意一待备份数据序列对应的第一贡献度差值为该任意一待备份数据序列对应的序列贡献度均值与全局贡献度均值之间的区别。本申请中，对评估任意一待备份数据序列对应的序列贡献度均值和全局贡献度均值间的区别的方式不作限定。例如，可以将任意一待备份数据序列对应的序列贡献度均值和全局贡献度均值的绝对差值确定为该任意一待备份数据序列对应的序列贡献度均值与全局贡献度均值之间的区别。又例如，将任意一待备份数据序列对应的序列贡献度均值与全局贡献度均值的差的第一运算结果（平方）确定为该任意一待备份数据序列对应的序列贡献度均值与全局贡献度均值之间的区别。

根据确定任意一待备份数据序列对应的第一贡献度差值的过程，可以获取第一个中间型数据归类簇的每一个待备份数据序列各自对应的第一贡献度差值，在获得第一个中间型数据归类簇的每一个待备份数据序列各自对应的第一贡献度差值后，根据第一个中间型数据归类簇的每一个待备份数据序列各自对应的第一贡献度差值，得到该第一个中间型数据归类簇对应的序列贡献差值。

具体而言，根据第一个中间型数据归类簇的每一个待备份数据序列各自对应的第一贡献度差值，获取该第一个中间型数据归类簇对应的序列贡献差值的可以为：针对第一个中间型数据归类簇中的任意一待备份数据序列，将任意一待备份数据序列对应的第一贡献度差值与任意一待备份数据序列中的待备份数据的项数的积，确定为任意一待备份数据序列对应的第二贡献度差值，把总的贡献度差值与对照值的比例确定为第一个中间型数据归类簇对应的序列贡献差值，总的贡献度差值为第一个中间型数据归类簇中的两个待备份数据序列各自对应的第二贡献度差值的和值，对照值通过第一个中间型数据归类簇中的待备份数据序列的项数确定。

例如，对照值可以是第一个中间型数据归类簇中的待备份数据序列的项数。例如，设不少于两个待备份数据的项数为Q，每个中间型数据归类簇都包含两个待备份数据序列，后一个中间型数据归类簇中的两个待备份数据序列是基于在前一个中间型数据归类簇包含的第二个待备份数据序列中筛选一个待备份数据填入至前一个中间型数据归类簇包含的第一个待备份数据序列得到，下面举例说明如何获取不少于两个中间型数据归类簇各自对应的序列贡献差值。

在不少于两个待备份数据中筛选一个待备份数据，把包含该一个待备份数据的待备份数据序列确定为第一个中间型数据归类簇包含的第一个待备份数据序列，把包含余下Q-1个待备份数据的待备份数据序列确定为第一个中间型数据归类簇包含的第二个待备份数据序列，得到第一个中间型数据归类簇，采取预设的计算方式，如基于方差无偏估计量获取到第一个中间型数据归类簇对应的序列贡献差值。

在第一个中间型数据归类簇包含的第二个待备份数据序列中的Q-1个待备份数据中筛选一个待备份数据填入至第一个中间型数据归类簇包含的第一个待备份数据序列中，得到修正之后的第一个待备份数据序列，把包含第一个中间型数据归类簇包含的第二个待备份数据序列中筛选余下的Q-2待备份数据的待备份数据序列确定为修正之后的第二个待备份数据序列，把包含修正之后的第一个待备份数据序列和修正之后的第二个待备份数据序列的数据归类簇确定为第二个中间型数据归类簇，把第二个中间型数据归类簇与第一个中间型数据归类簇各自确定为不少于两个中间型数据归类簇中的第一中间型数据归类簇和第二中间型数据归类簇，计算第二个中间型数据归类簇对应的序列贡献差值。

以上过程是依据第一个中间型数据归类簇的每一个待备份数据序列各自对应的第一贡献度差值，获取该第一个中间型数据归类簇对应的序列贡献差值的方式仅为示例。

通过第一个中间型数据归类簇的每一个待备份数据序列各自对应的第一贡献度差值，得到该第一个中间型数据归类簇对应的序列贡献差值还可以是将第一个中间型数据归类簇的每一个待备份数据序列各自对应的第一贡献度差值的和值确定为该第一个中间型数据归类簇对应的序列贡献差值。另外，通过第一个中间型数据归类簇的每一个待备份数据序列各自对应的第一贡献度差值，得到该第一个中间型数据归类簇对应的序列贡献差值的方式还可以是将第一个中间型数据归类簇的每一个待备份数据序列各自对应的第一贡献度差值的和值和第一设定值的比例值确定为第一个中间型数据归类簇对应的序列贡献差值。设定值可以是该第一个中间型数据归类簇中的待备份数据序列的项数，或者是该第一个中间型数据归类簇中的待备份数据序列的项数与第二设定值（自行设定）的差。

作为另一种实施方式，第一中间型数据归类簇和第二中间型数据归类簇在不少于两个中间型数据归类簇中所在位置还可以是：第一中间型数据归类簇为不少于两个中间型数据归类簇中的第i个中间型数据归类簇，第二中间型数据归类簇为不少于两个中间型数据归类簇中的第j个中间型数据归类簇，i和j不同，i和j都是大于或等于1且小于或等于不少于两个中间型数据归类簇的项数。在此基础上，获取不少于两个中间型数据归类簇各自对应的序列贡献差值可以是：通过以上获取第一个中间型数据归类簇对应的序列贡献差值的过程，获取不少于两个中间型数据归类簇中的除第i个中间型数据归类簇之后余下的中间型数据归类簇各自对应的序列贡献差值，把第j个中间型数据归类簇对应的序列贡献差值与预设差值的和值，确定为第i个中间型数据归类簇对应的序列贡献差值，然后执行S300。

在S300中，通过不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇，确定不少于两个待备份数据对应的最终数据归类簇。

获取不少于两个中间型数据归类簇各自对应的序列贡献差值后，可以依据不少于两个中间型数据归类簇各自对应的序列贡献差值，在不少于两个中间型数据归类簇中确定出不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇，再根据不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇确定不少于两个待备份数据对应的最终数据归类簇。

因为序列贡献差值越大，代表中间型数据归类簇的每一个待备份数据序列在贡献度维度的区别越大，换言之中间型数据归类簇的每一个待备份数据序列在贡献度维度的抽离性越大，中间型数据归类簇的归类合理性就越佳，则根据不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇得到的最终数据归类簇的每一个待备份数据序列在贡献度维度包含较大的区别，在贡献度维度具备较大的抽离性，最终数据归类簇的合理性高。

因为最终数据归类簇的每一个待备份数据序列在贡献度维度的区别较大，则最终数据归类簇中包括贡献度大的待备份数据序列和贡献度小的待备份数据序列，基于最终数据归类簇为数据使用记录归纳的进行归类，从最终数据归类簇中的贡献分配权重较高的待备份数据序列中为数据使用记录归纳的使用较多的待备份数据，从贡献度小的待备份数据序列中为数据使用记录归纳的使用较少的待备份数据，因此提升在贡献度维度的备份综合性和合理性。

作为一种实施方式，根据不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇，确定不少于两个待备份数据对应的最终数据归类簇的过程可以包括：将不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇直接确定为不少于两个待备份数据对应的最终数据归类簇。

作为一种实施方式，根据不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇，得到不少于两个待备份数据对应的最终数据归类簇的过程可以包括：将不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇的每一个待备份数据序列确定为各个参考待备份数据序列；评估各个参考待备份数据序列的项数是否大于或等于预设项数。预设项数被配置为限制最终得到的最终数据归类簇中的待备份数据序列的最小项数其可以自行设定。

当各个参考待备份数据序列的项数大于或等于预设项数，代表已得到确定最终数据归类簇的充足的参考待备份数据序列，那么，把包括各个参考待备份数据序列的数据归类簇确定为不少于两个待备份数据对应的最终数据归类簇。因为各个参考待备份数据序列为不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇，则将不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇确定为不少于两个待备份数据对应的最终数据归类簇。

当各个参考待备份数据序列的项数小于预设项数，评估各个参考待备份数据序列是否都未达到数据归类要求。任一参考待备份数据序列未达到数据归类要求代表该任一参考待备份数据序列中的待备份数据不能归类，例如参考待备份数据序列未达到数据归类要求为参考待备份数据序列中的待备份数据的项数小于可归类数。

当各个参考待备份数据序列的项数小于预设项数且各个参考待备份数据序列都未达到数据归类要求，代表即使没有得到到用来确定最终数据归类簇的充足的参考待备份数据序列，但参考待备份数据序列中的待备份数据都不能对垒，此时把不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇确定为不少于两个待备份数据对应的最终数据归类簇。

当各个参考待备份数据序列的项数小于预设项数且各个参考待备份数据序列包括达到数据归类要求的第一待备份数据序列，代表没有获取到用来确定最终数据归类簇的充足的参考待备份数据序列，且各个参考待备份数据序列包括待备份数据可分组的第一待备份数据序列，此时确定不少于两个待备份数据对应的最终数据归类簇的步骤包括以下步骤Si-Siii。

Si，获取第一待备份数据序列中的第一待备份数据对应的序列贡献差值最大的中间型数据归类簇。

例如，将第一待备份数据序列中的待备份数据定义成第一待备份数据，Si包括：获取第一待备份数据对应的不少于两个中间型数据归类簇，第一待备份数据对应的每一所述中间型数据归类簇包括对第一待备份数据进行独立数据归类得到的不少于两个待备份数据序列，确定该不少于两个中间型数据归类簇各自对应的序列贡献差值，通过该不少于两个对照数据归类簇各自对应的序列贡献差值，获取第一待备份数据对应的序列贡献差值最大的中间型数据归类簇。

每一所述中间型数据归类簇对应的序列贡献差值可以参考S200中确定第一个中间型数据归类簇对应的序列贡献差值的过程得到。例如，如果第一待备份数据对应的不少于两个中间型数据归类簇中的每一所述中间型数据归类簇何另一中间型数据归类簇关联，那么该每一所述中间型数据归类簇对应的序列贡献差值可以根据S200中确定第一中间型数据归类簇对应的序列贡献差值来确定。

每一中间型数据归类簇和另一中间型数据归类簇关联表示该每一所述中间型数据归类簇和另一个中间型数据归类簇都包含两个待备份数据序列，同时该每一所述中间型数据归类簇包含的第一个待备份数据序列是基于在另一个中间型数据归类簇包含的第二个待备份数据序列中筛选N个待备份数据填入至另一个中间型数据归类簇包含的第一个待备份数据序列中得到，该每一所述中间型数据归类簇包含的第二个待备份数据序列包括另一个中间型数据归类簇包含的第二个待备份数据序列中筛选余下的待备份数据。

第一待备份数据序列的项数可以是一个或多个，如果是多个，第一待备份数据对应的序列贡献差值最大的中间型数据归类簇为各个第一待备份数据序列中的第一待备份数据各自对应的序列贡献差值最大的对照数据归类簇。

Sii，通过第一待备份数据对应的序列贡献差值最大的中间型数据归类簇，得到多个修正之后的参考待备份数据序列。

各个参考待备份数据序列中可以只包含第一待备份数据序列，或除包括第一待备份数据序列外，还包含未达到数据归类要求的第二待备份数据序列，对应的Sii的方式具有差异。

例如，当各个参考待备份数据序列还包括未达到数据归类要求的第二待备份数据序列，将第一待备份数据对应的序列贡献差值最大的中间型数据归类簇的每一个待备份数据序列和第二待备份数据序列，确定为各修正之后的参考待备份数据序列。当各个参考待备份数据序列均达到数据归类要求，也即各个参考待备份数据序列只包含第一待备份数据序列，将第一待备份数据对应的序列贡献差值最大的中间型数据归类簇的每一个待备份数据序列，确定为各修正之后的参考待备份数据序列。

Siii，当各个修正之后的参考待备份数据序列的项数大于或等于预设项数，或当各修正之后的参考待备份数据序列的项数小于预设项数且各修正之后的参考待备份数据序列都未达到数据归类要求，将包含各个修正之后的参考待备份数据序列的数据归类簇确定为不少于两个待备份数据对应的最终数据归类簇。

一些情况中，各修正之后的参考待备份数据序列的项数小于预设项数，同时各修正之后的参考待备份数据序列包括达到数据归类要求的第三待备份数据序列，基于此，通过Si和Sii来获取各修正之后的参考待备份数据序列，循环直到各修正之后的参考待备份数据序列的项数大于或等于预设项数，或各修正之后的参考待备份数据序列的项数小于预设项数，同时各修正之后的参考待备份数据序列都未达到数据归类要求，把包含各个修正之后的参考待备份数据序列的数据归类簇确定为不少于两个待备份数据对应的最终数据归类簇。

S400，基于不少于两个待备份数据对应的最终数据归类簇进行数据备份。

数据备份的过程，可以包括：获取对最终数据归类簇进行数据备份标签识别得到的识别结果，识别结果包括从最终数据归类簇识别到的数据备份标签的标签种类（和筛选规则一一映射），以及进行数据备份的一个或多个期望备份数据库指示信息（可以指示备份的数据库的信息，例如数据库的编号、种类、位置）；基于数据备份标签的标签种类确定从最终数据归类簇中选取一个或多个目标备份数据库指示信息的筛选规则（事先部署的，与标签种类一一映射），一个或多个目标备份数据库指示信息表示数据备份标签的标签种类以及进行数据备份关联的备份数据属性信息。其中，筛选规则包括以下至少一个信息：目标备份数据库指示信息的个数（可以反映备份数据库的个数）、目标备份数据库指示信息之间的依赖关系（例如数据库容纳的数据之间的母子关系）、目标备份数据库指示信息的优先级（备份存储数据的优先级）；根据期望备份数据库指示信息一个或多个期望备份数据库指示信息以及筛选规则，从最终数据归类簇中确定一个或多个目标备份数据库指示信息；根据目标备份数据库指示信息指示的数据库进行数据备份。

上述过程中，将最终数据归类簇与筛选的合适的备份数据库进行映射，在备份时，将对应的备份数据存储到对应的数据库中，保障备份过程的稳定性和速度。

其中，根据期望备份数据库指示信息一个或多个期望备份数据库指示信息以及筛选规则，从最终数据归类簇中确定一个或多个目标备份数据库指示信息，可以包括：将期望备份数据库指示信息作为目标备份数据库指示信息。或根据期望备份数据库指示信息和筛选规则，从最终数据归类簇中除期望备份数据库指示信息以外的其余备份数据库指示信息中确定至少一个参考备份数据库指示信息，将期望备份数据库指示信息和参考备份数据库指示信息作为目标备份数据库指示信息。或根据期望备份数据库指示信息以及筛选规则，从最终数据归类簇中除期望备份数据库指示信息以外的其余备份数据库指示信息中确定至少一个参考备份数据库指示信息，将参考备份数据库指示信息作为目标备份数据库指示信息。

其中，根据期望备份数据库指示信息以及筛选规则，从最终数据归类簇中除期望备份数据库指示信息以外的其余备份数据库指示信息中选取至少一个参考备份数据库指示信息，包括：通过以下方式中的一种或多种从其余备份数据库指示信息中选取备选备份数据库指示信息：从其余备份数据库指示信息中选择与期望备份数据库指示信息的容量差值小于预设容量的备份数据库指示信息作为备选备份数据库指示信息；或从其余备份数据库指示信息中选择与期望备份数据库指示信息的数据存储属性相同的备份数据库指示信息，作为备选备份数据库信息

请参照图4，是本发明实施例提供的数据备份装置110的架构示意图，该数据备份装置110可用于执行数据备份方法，其中，数据备份装置110包括：

第一归类簇获取模块111，用于通过获取不少于两个待备份数据对应的不少于两个中间型数据归类簇。

差值获取模块112，用于获取不少于两个中间型数据归类簇各自对应的序列贡献差值。

第二归类簇获取模块113，用于依据不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇，得到不少于两个待备份数据对应的最终数据归类簇。

备份模块114，用于基于不少于两个待备份数据对应的最终数据归类簇进行数据备份。

其中，第一归类簇获取模块111可用于执行步骤S100，差值获取模块112可用于执行步骤S200，第二归类簇获取模块113可用于执行步骤S300，备份模块114可用于执行步骤S400。

由于在上述实施例中，已经对本发明实施例提供的数据备份方法进行了详细的介绍，而该数据备份装置110的原理与该方法相同，此处不再对数据备份装置110的各模块的执行原理进行赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要理解的是，针对上述内容没有进行名词解释的技术术语，本领域技术人员可以根据上述所公开的内容进行前后推导毫无疑义地确定其所指代的含义。本申请实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解，本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的，因此上述内容并不是对整体方案的创造性的评判。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可以对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同样应当理解的是，为了简化本申请揭示的表述，从而帮助对至少一个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法幷不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

Claims

1.一种数据备份方法，其特征在于，所述方法包括：

获取不少于两个待备份数据对应的不少于两个中间型数据归类簇，每一所述中间型数据归类簇是基于对所述不少于两个待备份数据进行独立数据归类得到的，所述不少于两个中间型数据归类簇中的第一中间型数据归类簇和第二中间型数据归类簇都包含两个待备份数据序列，所述第一中间型数据归类簇包含的第一个待备份数据序列是基于在所述第二中间型数据归类簇包含的第二个待备份数据序列中筛选N个待备份数据填入至所述第二中间型数据归类簇包含的第一个待备份数据序列中得到，所述N为大于等于1的正整数，所述第一中间型数据归类簇包含的第二个待备份数据序列包括所述第二中间型数据归类簇包含的第二个待备份数据序列中筛选余下的待备份数据，所述待备份数据为不同类型的数字化服务交互数据中的至少一种；

获取所述不少于两个中间型数据归类簇各自对应的序列贡献差值，每一所述中间型数据归类簇对应的序列贡献差值用以指示所述每一所述中间型数据归类簇的每一个待备份数据序列在贡献度维度的区别，所述贡献度通过待备份数据的使用记录分析得到，使用越频繁，贡献度越高，所述第一中间型数据归类簇对应的序列贡献差值为所述第二中间型数据归类簇对应的序列贡献差值与预设差值的和值，所述预设差值通过所述N个待备份数据的贡献度标记确定，任意一待备份数据的贡献度标记包括所述任意一待备份数据对应的数据使用记录归纳的对所述任意一待备份数据的贡献分配权重；

2.根据权利要求1所述的方法，其特征在于，所述依据所述不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇，得到所述不少于两个待备份数据对应的最终数据归类簇的步骤前，还包括：

依据所述第一差值和所述第二差值，得到所述预设差值；

3.根据权利要求1所述的方法，其特征在于，所述依据所述不少于两个待备份数据对应的序列贡献差值最大的中间型数据归类簇，得到所述不少于两个待备份数据对应的最终数据归类簇的步骤包括：

或者；

4.根据权利要求3所述的方法，其特征在于，所述依据所述第一待备份数据对应的序列贡献差值最大的中间型数据归类簇，得到多个修正之后的参考待备份数据序列的步骤包括：

或者；

5.根据权利要求1所述的方法，其特征在于，所述第一中间型数据归类簇是所述不少于两个中间型数据归类簇内排除第一个中间型数据归类簇之后余下的每一所述中间型数据归类簇，所述第二中间型数据归类簇为所述不少于两个中间型数据归类簇中排在所述第一中间型数据归类簇之前的的中间型数据归类簇；

6.根据权利要求2或3所述的方法，其特征在于，所述N=1，所述通过所述N个待备份数据各自对应的第一贡献度均值、所述第二中间型数据归类簇包含的第一个待备份数据序列对应的序列贡献度均值和所述第一中间型数据归类簇包含的第一个待备份数据序列中的待备份数据的项数，得到第一差值的步骤包括：

7.根据权利要求2所述的方法，其特征在于，所述N个待备份数据为一个待备份数据，所述通过所述N个待备份数据各自对应的第一贡献度均值、所述序列贡献度均值和所述不少于两个待备份数据对应的全局贡献度均值，确定第二差值的步骤包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述不少于两个待备份数据对应的最终数据归类簇进行数据备份的步骤包括：

9.一种网络节点，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，当所述处理器运行所述计算机程序时，实现如权利要求1-8任一项所述的方法。

10.一种数据备份系统，其特征在于，包括如权利要求9所述的网络节点。