CN114816838A

CN114816838A - 用于提高数据恢复效率的方法、装置、介质及计算机设备

Info

Publication number: CN114816838A
Application number: CN202110081238.1A
Authority: CN
Inventors: 张李攀
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2022-07-29

Abstract

本发明提供了一种用于提高数据恢复效率的方法、装置、介质及计算机设备，方法包括：获取所有用户的用户数据；基于预设的数据识别策略对所述用户数据中的热数据及冷数据进行识别；当服务器重启时，基于预设的热更新策略对识别出的所述热数据进行热更新；如此，先对用户数据中的冷数据及热数据进行识别，确定出用户数据中热数据后，可基于热更新策略只对热数据进行更新，无需对冷数据进行更新；这样可以大幅减少需要热更新的数据量，因此可以提高数据热更新效率，缩短数据恢复时长，进而提高数据恢复的效率。

Description

用于提高数据恢复效率的方法、装置、介质及计算机设备

技术领域

本发明属于直播平台数据处理技术领域，尤其涉及一种用于提高数据恢复效率的方法、装置、介质及计算机设备。

背景技术

服务器的数据存储通常会选择以内存作为存储介质，内存存储具有读写数据快、性能好的优点。然而内存数据无法持久化保存，一旦服务器重启，内存数据都会丢失。

相关技术中，为了避免服务器重启后丢失数据，通常会在服务器重启时候利用一些数据恢复策略对数据进行恢复，以确保在服务器在启动的时候能够恢复内存的缓存数据。但是相关技术中的数据恢复策略在恢复数据时，数据恢复较慢，耗时较长，导致数据恢复效率得不到确保。

发明内容

针对现有技术存在的问题，本发明实施例提供了一种用于提高数据恢复效率的方法、装置、介质及计算机设备，用于解决现有技术中在服务器重启对数据恢复时，数据恢复慢、耗时长，进而导致数据恢复效率得不到确保的技术问题。

本发明的第一方面，提供一种用于提高数据恢复效率的方法，应用在直播平台中，所述方法包括：

获取所有用户的用户数据；

基于预设的数据识别策略对所述用户数据中的热数据及冷数据进行识别；

当服务器重启时，基于预设的热更新策略对识别出的所述热数据进行热更新。

可选的，所述基于预设的数据识别策略对所述用户数据中的热数据及冷数据进行识别，包括：

针对当前用户，根据数据识别公式

确定当前条用户数据的数据标识值p_i；

基于所述数据标识值对所述用户数据中的热数据及冷数据进行识别；其中，所述i为所述当前用户的当前条用户数据；所述C_i为所述当前条用户数据的使用次数；所述now为数据热更新时刻；所述T_i为所述当前条用户数据最后一次的使用时刻；所述N为热更新数据初始基数值；所述S为所有用户的用户数据总量；所述j为所述用户数据总量中的任意一条数据；所述w为所述用户数据总量的平均值对应的权重系数；所述e为指数e；所述C_j为所述用户数据总量中的任意一条数据的使用次数，所述T_j为所述用户数据总量中的任意一条数据最后一次的使用时刻。

可选的，所述基于所述数据标识值对所述用户数据中的热数据及冷数据进行识别，包括：

当确定所述用户数据的数据标识值大于0时，则确定所述用户数据为热数据；

当确定所述用户数据的数据标识值小于或等于0时，则确定所述用户数据为冷数据。

可选的，所述方法还包括：

获取预设的目标热更新时长；

基于所述目标热更新时长确定所述热更新数据初始基数值。

可选的，所述基于所述目标热更新时长确定所述热更新数据初始基数值，包括：

基于所述目标热更新时长从映射表中获取所述热更新数据初始基数值；所述映射表中存储有所述各热更新时长与热更新是数据初始基数值之间的对应关系。

可选的，所述基于预设的热更新策略对识别出的所述热数据进行热更新，包括：

基于Protobuf序列化函数将所述热数据转换为二进制数据流；

将所述二进制数据流写入至预设的文件中；

当所述服务器启动时，从所述文件中提取所述二进制数据流；

基于Protobuf反序列函数对所述二进制数据流进行解析并恢复，以完成所述热数据的热更新过程。

本发明的第二方面，提供一种用于提高数据恢复效率的装置，应用在直播平台中，所述装置包括：

获取单元，用于获取所有用户的用户数据；

识别单元，用于基于预设的数据识别策略对所述用户数据中的热数据及冷数据进行识别；

更新单元，用于当服务器重启时，基于预设的热更新策略对识别出的所述热数据进行热更新。

可选的，所述识别单元具体用于：

针对当前用户，根据数据识别公式

确定当前条用户数据的数据标识值p_i；

基于所述数据标识值对所述用户数据中的热数据及冷数据进行识别；其中，所述i为所述当前用户的当前条用户数据；所述C_i为所述当前条用户数据的使用次数；所述now为数据热更新时刻；所述T_i为所述当前条用户数据最后一次的使用时刻；所述N为热更新数据初始基数值；所述S为所有用户的用户数据总量；所述j为所述用户数据总量中的任意一条数据；所述w为所述用户数据总量的平均值对应的权重系数所述e为指数e；所述C_j为所述用户数据总量中的任意一条数据的使用次数，所述T_j为所述用户数据总量中的任意一条数据最后一次的使用时刻。

本发明的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述的方法。

本发明的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面中任一项所述的方法。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的用于提高数据恢复效率的方法流程示意图；

图2为本发明实施例提供的用于提高数据恢复效率的装置结构示意图；

图3为本发明实施例提供的用于提高数据恢复效率的计算机设备结构示意图；

图4为本发明实施例提供的用于提高数据恢复效率的计算机可读存储介质结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明，应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明，而不是对本说明书技术方案的限定，在不冲突的情况下，本说明书实施例以及实施例中的技术特征可以相互组合。

实施例一

本实施例提供一种用于提高数据恢复效率的方法，可如图1所示，方法包括以下步骤：

S110，获取所有用户的用户数据；

本发明实施例提供的数据恢复效率的方法，可以应用在直播平台中，也可以应用在其他场景中，在此不做限制。

以直播平台为例来说，用户可以在直播平台中进行直播，浏览页面等操作，因此每个用户都会产生对应的用户数据。用户数据可以包括：直播数据、浏览数据等。

这里，在用户产生对应的用户数据后，可以获取所有用户的用户数据。

S111，基于预设的数据识别策略对所述用户数据中的热数据及冷数据进行识别；

但是在实际应用中，在一定的时间段内，可能某些用户在直播平台中比较活跃，会频繁登录直播平台并在直播平台中进行多种行为操作，这些用户产生的用户数据可以称之为热数据。而有些用户在直播平台中的活跃度不高，在短期内登陆一次直播平台后，后续会间隔很长时间不再使用或较少使用直播平台，那么这些用户产生的用户数据可以称之为冷数据。

在本发明实施例中，发明人在实际应用中发现若在服务器重启的过程中，对所有用户的所有数据进行恢复时，会导致数据恢复耗时较长，耗时约2min。但是因为直播平台是一个即时互动的平台，需要确保直播过程的流畅度。然而这个耗时对于直播平台来说，会严重影响直播的流畅。

基于此，本发明实施例获取到用户的用户数据后，基于预设的数据识别策略对用户数据中的热数据及冷数据进行识别，以能对热数据及冷数据进行分离。

本发明的实施例中，考虑到如果某个数据的使用次数越多，则越有可能是热数据，反之，使用次数越少的数据越有可能是冷数据。

考虑到若某个数据近期被使用过，则该数据很有可能会再次被使用，因此该数据可能是热数据；反之，如果某个数据长期未使用，则很有可能不再使用，所以该数据有可能是冷数据。

考虑到将冷数据与热数据进行分离的目的是为了减少需要热更新的数据量，因此还需要根据所有用户的总数据量来调节热数据的数量。举例来说，若总数据量只有10万，那么可以将总数据量全部调整成热数据；若总数据量为1亿，则需要对热数据的数量进行调整。

基于此，在本发明的实施例中，基于预设的数据识别策略对用户数据中的热数据及冷数据进行识别，包括：

针对当前用户，根据数据识别公式

确定当前条用户数据的数据标识值p_i；当前用户为所有用户中的任一用户；

基于数据标识值对用户数据中的热数据及冷数据进行识别；其中，i为当前用户的当前条用户数据；C_i为当前条用户数据的使用次数；now为数据热更新时刻；T_i为当前条用户数据最后一次的使用时刻；N为热更新数据初始基数值；S为所有用户的用户数据总量；j为用户数据总量中的任意一条数据；w为用户数据总量的平均值对应的权重系数；e为指数e，一般取值为2.71828；C_j为用户数据总量中的任意一条数据的使用次数，T_j为用户数据总量中的任意一条数据最后一次的使用时刻。

可以看出，上述公式中包括第一部分

和第二部分

第二部分又包括：第一子部分

和第二子部分

第一部分主要是用于确定当前条用户数据的使用次数与当前条用户数据最后一次使用时刻与热更新时刻之间这段时间差之间的比率；这个比率越大，说明该数据为热数据的可能性就越大。

第二部分中第一子部分

主要是用于确定用户数据总量随热更新数据初始基数值变化时呈现的指数变化趋势。该指数变数趋势为“S”曲线，在“S”曲线与竖直线的交点处，用户数据总量S与随热更新数据初始基数值是相等的；若用户数据总量S偏离热更新数据初始基数值N时，最终的热数据量会随之变化。这样设计的好处是当用户数据总量S偏离了热更新数据初始基数值N后，能够快速的影响需要进行热更新的热数据的数量，进而可以确保热数据数量的确定精度。

具体的，如果S的值向大于的N方向(可理解为S>N，S比N越来越大)偏离，则热数据的占比会快速的减少。反之，如果S的值向小于N(可理解为S<N，S比N越来越小)的方向偏离，则热数据的占比会快速的增加。而当S离N较远时(比如S为N的2倍)，热数据的总量基本上已经稳定了，不会再出现明显的变化，所以变化趋势会逐步放缓。而

表示这种变化是基于N的倍率确定的，这表明用户数据总量S和热更新数据初始基数值N并不会在极小误差的情况下有明显的变化趋势，防止在轻微偏差的时候就导致热数据的数量出现剧烈变化，进而确保热数据的确定精度。

这里，在确定热更新数据初始基数值时，方法包括：

获取预设的目标热更新时长；

基于目标热更新时长确定热更新数据初始基数值。

进一步地，基于目标热更新时长确定热更新数据初始基数值，包括：

基于目标热更新时长从映射表中获取热更新数据初始基数值；映射表中存储有各热更新时长与热更新是数据初始基数值之间的对应关系。

举例来说，若目标热更新时长为10s，那么映射表中对应的热更新数据初始基数值可以为10万；若目标热更新时长为20s，那么映射表中对应的热更新数据初始基数值可以为20万。

进一步地，若当前条用户数据的数据标识值p_i确定出之后，基于数据标识值对用户数据中的热数据及冷数据进行识别，包括：

当确定用户数据的数据标识值大于0时，则确定用户数据为热数据；

当确定用户数据的数据标识值小于或等于0时，则确定用户数据为冷数据。

本步骤中利用数据识别策略识别出热数据，在后续进行热更新时，只对热数据进行更新，减少数据恢复的数量，提高数据恢复效率。并且本步骤在确定数据识别策略时，考虑到数据的使用次数、使用时长、用户数据总量及热更新数据初始基数值，因此在对用户数据中的冷数据及热数据进行识别时，可以确保热数据的识别精度，得到一个合适的热数据的数量，在对热数据进行更新时，确保数据恢复的速度，降低数据恢复的耗时。

S112，当服务器重启时，基于预设的热更新策略对识别出的所述热数据进行热更新。

确定出热数据后，当服务器重启时，基于预设的热更新策略对识别出的热数据进行热更新。

本发明实施例中，发明人在实际应用中发现直接以文本形式将数据持久化到文件中，在对数据进行恢复时，再从文件中读取并通过解析文本的方式恢复数据的这种数据恢复方式也存在很多问题，导致数据恢复耗时较长。

基于此，本发明的实施例基于预设的热更新策略对识别出的热数据进行热更新，包括：

基于Protobuf序列化函数将热数据转换为二进制数据流；

将二进制数据流写入至预设的文件中；

当服务器启动时，从文件中提取二进制数据流；

基于Protobuf反序列函数对二进制数据流进行解析并恢复，以完成热数据的热更新过程。

本步骤中，因在利用Protobuf序列化函数是采用二进制的方式将热数据持久化至磁盘文件中的，序列化速度更快，在文件中占用的空间也更小。在对二进制数据流进行反序列化时，由于是二进制数据，解析速率也会加快，从而降低数据恢复的耗时。

基于同样的发明构思，本发明实施例还提供一种用于提高数据恢复效率的装置，详见实施例二。

实施例二

本实施例提供一种用于提高数据恢复效率的装置，如图2所示，装置包括：

获取单元21，用于获取所有用户的用户数据；

识别单元22，用于基于预设的数据识别策略对所述用户数据中的热数据及冷数据进行识别；

更新单元23，用于当服务器重启时，基于预设的热更新策略对识别出的所述热数据进行热更新。

这里，在用户产生对应的用户数据后，获取单元21可以获取所有用户的用户数据。

基于此，在本发明的实施例中，识别单元22基于预设的数据识别策略对用户数据中的热数据及冷数据进行识别，包括：

针对当前用户，根据数据识别公式

基于数据标识值对用户数据中的热数据及冷数据进行识别；其中，i为当前用户的当前条用户数据；C_i为当前条用户数据的使用次数；now为数据热更新时刻；T_i为当前条用户数据最后一次的使用时刻；N为热更新数据初始基数值；S为所有用户的用户数据总量；j为用户数据总量中的任意一条数据；w为用户数据总量的平均值对应的权重系数；所述e为指数e，一般取值为2.71828；C_j为用户数据总量中的任意一条数据的使用次数，T_j为用户数据总量中的任意一条数据最后一次的使用时刻。

可以看出，上述公式中包括第一部分

和第二部分

第二部分又包括：第一子部分

和第二子部分

第二部分中第一子部分

主要是用于确定用户数据总量随热更新数据初始基数值变化时呈现的指数变化趋势。该指数变数趋势为“S”曲线，在“S”曲线与竖直线的交点处，用户数据总量S与随热更新数据初始基数值是相等的；若用户数据总量S偏离热更新数据初始基数值N时，最终的热数据量会随之变化。这样设计的好处是当用户数据总量S偏离了热更新数据初始基数值N后，能够快速的影响需要进行热更新的数据的数量，进而可以确保热数据数量的确定精度。

这里，在确定热更新数据初始基数值时，识别单元22还用于：

获取预设的目标热更新时长；

基于目标热更新时长确定热更新数据初始基数值。

进一步地，若当前条用户数据的数据标识值p_i确定出之后，识别单元22基于数据标识值对用户数据中的热数据及冷数据进行识别，包括：

确定出热数据后，当服务器重启时，更新单元23用于基于预设的热更新策略对识别出的热数据进行热更新。

基于此，本发明的实施例更新单元23基于预设的热更新策略对识别出的热数据进行热更新，包括：

基于Protobuf序列化函数将热数据转换为二进制数据流；

将二进制数据流写入至预设的文件中；

当服务器启动时，从文件中提取二进制数据流；

本发明实施例提供的至少一种或几种实施例能够带来的有益效果至少是：

本发明实施例一种用于提高数据恢复效率的方法、装置、介质及计算机设备，方法包括：获取所有用户的用户数据；基于预设的数据识别策略对所述用户数据中的热数据及冷数据进行识别；当服务器重启时，基于预设的热更新策略对识别出的所述热数据进行热更新；如此，先对用户数据中的冷数据及热数据进行识别，确定出用户数据中热数据后，可基于热更新策略只对热数据进行更新，无需对冷数据进行更新；这样可以大幅减少需要热更新的数据量，因此可以提高数据热更新效率，缩短数据恢复时长，进而提高数据恢复的效率；并且，本发明实施例因在利用Protobuf序列化函数是采用二进制的方式将热数据持久化至磁盘文件中的，序列化速度更快，在文件中占用的空间也更小。在对二进制数据流进行反序列化时，由于是二进制数据，解析速率也会加快，从而降低数据恢复的耗时。

实施例三

本实施例提供一种计算机设备300，如图3所示，包括存储器310、处理器320及存储在存储器310上并可在处理器320上运行的计算机程序311，处理器320执行计算机程序311时实现以下步骤：

获取所有用户的用户数据；

在具体实施过程中，处理器320执行计算机程序311时，可以实现实施例二中任一实施方式。

由于本实施例所介绍的计算机设备为实施本申请实施例一种用于提高数据恢复效率的方法所采用的设备，故而基于本申请实施例一中所介绍的方法，本领域所属技术人员能够了解本实施例的计算机设备的具体实施方式以及其各种变化形式，所以在此对于该服务器如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备，都属于本申请所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的存储介质，详见实施例四。

实施例四

本实施例提供一种计算机可读存储介质400，如图4所示，其上存储有计算机程序411，该计算机程序411被处理器执行时实现以下步骤：

获取所有用户的用户数据；

在具体实施过程中，该计算机程序411被处理器执行时，可以实现实施例二中任一实施方式。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于提高数据恢复效率的方法，其特征在于，应用在直播平台中，所述方法包括：

获取所有用户的用户数据；

2.如权利要求1所述的方法，其特征在于，所述基于预设的数据识别策略对所述用户数据中的热数据及冷数据进行识别，包括：

针对当前用户，根据数据识别公式

确定当前条用户数据的数据标识值p_i；

3.如权利要求2所述的方法，其特征在于，所述基于所述数据标识值对所述用户数据中的热数据及冷数据进行识别，包括：

4.如权利要求2所述的方法，其特征在于，所述方法还包括：

获取预设的目标热更新时长；

基于所述目标热更新时长确定所述热更新数据初始基数值。

5.如权利要求4所述的方法，其特征在于，所述基于所述目标热更新时长确定所述热更新数据初始基数值，包括：

6.如权利要求1所述的方法，其特征在于，所述基于预设的热更新策略对识别出的所述热数据进行热更新，包括：

基于Protobuf序列化函数将所述热数据转换为二进制数据流；

将所述二进制数据流写入至预设的文件中；

7.一种用于提高数据恢复效率的装置，其特征在于，应用在直播平台中，所述装置包括：

获取单元，用于获取所有用户的用户数据；

8.如权利要求7所述的装置，其特征在于，所述识别单元具体用于：

针对当前用户，根据数据识别公式

确定当前条用户数据的数据标识值p_i；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6任一项所述的方法。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任一项所述的方法。