CN115858478B

CN115858478B - 一种可互动的智慧教学平台的数据快速压缩方法

Info

Publication number: CN115858478B
Application number: CN202310159823.8A
Authority: CN
Inventors: 王广周
Original assignee: Shandong Zhonglian Hanyuan Education Technology Co ltd
Current assignee: Shandong Zhonglian Hanyuan Education Technology Co ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-05-12
Anticipated expiration: 2043-02-24
Also published as: CN115858478A

Abstract

本发明涉及数据压缩技术领域，具体涉及一种可互动的智慧教学平台的数据快速压缩方法。该方法包括：对多个原始数据段中的全部数据块进行排序，得到数据块序列，将数据块序列分割成多个候选数据段；从每个候选数据段中选取任意两个数据块，将任意两个数据块分别与其对应的原始数据段中的其他数据块进行拼接处理，得到对应的目标原始数据段；判断任意两个数据块的目标原始数据段是否为近似数据段，得到判断结果；在判断结果指示目标原始数据为近似数据段时，从候选数据段之外的其他候选数据段中确定待调换数据块，将待调换数据块调换至候选数据段中，得到目标数据段；对目标数据段进行压缩处理，得到压缩数据。本发明能够提高数据的压缩效率。

Description

一种可互动的智慧教学平台的数据快速压缩方法

技术领域

本发明涉及数据压缩技术领域，具体涉及一种可互动的智慧教学平台的数据快速压缩方法。

背景技术

智慧教学平台应用于网络授课和信息化授课，讲师在教学时会与学生产生交互，例如提问、随堂测验、布置和提交作业等，在交互的过程中需要将数据上传至服务器，由服务器进行分发，为了提高数据上传效率，在上传数据前往往需要将数据进行压缩处理。

现有技术中，以学生为单位，对每一个学生所上传的数据进行单独压缩，由于每个学生上传的数据重复性较低，导致数据的压缩效率较低。

发明内容

为了解决数据的压缩效率较低的技术问题，本发明的目的在于提供一种可互动的智慧教学平台的数据快速压缩方法，所采用的技术方案具体如下：

本发明提出了一种可互动的智慧教学平台的数据快速压缩方法，所述方法包括：

获取可互动的智慧教学平台中学生上传的多个原始数据段，将所述原始数据段分割成至少两个数据块；

获取所述数据块的第一标准信息熵，按照所述第一标准信息熵的大小顺序，对所述多个原始数据段中的全部所述数据块进行排序，得到数据块序列；

获取所述数据块序列中相邻数据块之间的第一标准信息熵差异，根据所述第一标准信息熵差异，将所述数据块序列分割成多个候选数据段；

从每个所述候选数据段中选取任意两个数据块，将所述任意两个数据块分别与其对应的原始数据段中的其他数据块进行拼接处理，得到对应的目标原始数据段；

判断所述任意两个数据块的所述目标原始数据段是否为近似数据段，得到判断结果；

在所述判断结果指示所述目标原始数据为所述近似数据段时，从所述候选数据段之外的其他候选数据段中确定待调换数据块，将所述待调换数据块调换至所述候选数据段中，得到目标数据段；

对所述目标数据段进行压缩处理，得到压缩数据。

在一些实施例中，所述获取所述数据块的第一标准信息熵，包括：

获取所述数据块中每个数据的数据频率，根据所述数据频率获取所述数据块的信息熵；

比较每个所述数据块的信息熵的大小，确定最大信息熵；

以所述最大信息熵为基准对所述信息熵进行标准化处理，得到所述第一标准信息熵。

在一些实施例中，所述根据所述第一标准信息熵差异，将所述数据块序列分割成多个候选数据段，包括：

在所述第一标准信息熵差异大于设定差异阈值时，确定所述第一标准信息熵差异对应的相邻数据块为非近似数据块；

根据所述非近似数据块，确定所述数据块序列的分割边界，根据所述分割边界将所述数据块序列分成所述多个候选数据段。

在一些实施例中，所述将所述任意两个数据块分别与其对应的原始数据段中的其他数据块进行拼接处理，得到对应的目标原始数据段，包括：

针对所述任意两个数据块中的任一数据块，确定所述任一数据块对应的原始数据段为候选原始数据段；

在所述候选原始数据段上，以所述任一数据块为起始按照设定步长向每侧方向进行延伸，将处于延伸范围内的其他数据块与所述任一数据块进行拼接，得到所述目标原始数据段。

在一些实施例中，所述判断所述任意两个数据块的所述目标原始数据段是否为近似数据段，得到判断结果，包括：

获取两个所述目标原始数据段的第二标准信息熵；

根据所述第二标准信息熵，获取两个所述目标原始数据段之间的第二标准信息熵差异；

若所述第二标准信息熵差异小于或等于设定差异阈值，则确定两个所述目标原始数据段为所述近似数据段；

若所述第二标准信息熵差异大于设定差异阈值，则确定两个所述目标原始数据段为非近似数据段。

在一些实施例中，所述从所述候选数据段之外的其他候选数据段中确定待调换数据块，将所述待调换数据块调换至所述候选数据段中，得到目标数据段，包括：

从所述其他候选数据段中确定所述目标原始数据段内所述任意两个数据块之外的数据块为所述待调换数据块；

将所述待调换数据块调换至所述任意两个数据块所在的候选数据段中，得到调换后的候选数据段；

按照所述目标原始数据段内的数据块顺序对所述调换后的候选数据段重新排序，得到所述目标数据段。

在一些实施例中，在所述判断结果指示所述目标原始数据段为非近似数据段时，将所述候选数据段作为所述目标数据段。

本发明具有如下有益效果：通过将原始数据段进行分割处理，并根据第一标准信息熵对分割后的数据块进行排序得到数据块序列，可以使得近似的数据块聚集在一起，也即是说，数据块序列中距离越近的数据块相似性越大，以便于后续对数据块序列的分割。由于第一标准信息熵可以反映数据块内部的数据分布，相邻像素块之间的第一标准信息熵差异可以反映相邻像素块之间的相似性，由此根据第一标准信息熵差异将数据块分割成多个候选数据段，可以保证每个候选数据段内均为近似数据块。通过候选数据段中的任意两个数据块与其对应的原始数据段中的其他数据块进行拼接处理，得到对应的目标原始数据段，并进行相似性判断，能够判断原始数据段中原本相似的长数据段是否被拆分。通过比较目标原始数据段之间的相似性来调换候选数据段中的数据块，能够复原原始数据段中原本相似的长数据段，以此方式得到的目标数据段的内部数据重复性较高，从而能够提高数据压缩效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种可互动的智慧教学平台的数据快速压缩方法的流程示意图；

图2为本发明一个实施例提供的一种可互动的智慧教学平台的交互示意图；

图3为本发明一个实施例提供的一种目标数据段的生成原理示例图；

图4为本发明一个实施例提供的一种LZ77压缩算法的压缩原理示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种可互动的智慧教学平台的数据快速压缩方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种可互动的智慧教学平台的数据快速压缩方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种可互动的智慧教学平台的数据快速压缩方法的流程示意图，该方法包括以下步骤：

S101，获取可互动的智慧教学平台中学生上传的多个原始数据段，将原始数据段分割成至少两个数据块。

图2为本发明一个实施例提供的一种可互动的智慧教学平台的交互示意图，如图2所示，讲师可以通过可互动的智慧教学平台对多个学生进行教学授课。讲师在授课时，可以通过讲师端终端设备将课程传输到服务器，再由服务器将课程发生给到每个学生端终端设备中，由学生通过学生端终端设备学习课程。在学生上传答案或提交作业等场景下，学生需要通过学生端终端设备将待上传数据上传至服务器，再由服务器已上传的数据进行整合压缩后发送到讲师端终端设备中。

在学生通过学生端终端将待上传数据上传至服务器之前，可以由学生端终端设备按照一定的顺序对待上传数据进行排序得到原始数据段，然后将原始数据段上传至服务器。

需要说明是，本发明实施例中的终端设备包括但不限于手机、台式电脑、笔记本电脑、平板电脑等电子设备。

本发明实施例中，实际场景中，对于相同问题或相同作业，不同学生上传的数据之间往往具有较多的重复数据，也即是说，多个原始数据段之间具有较多的重复数据，因此，可以通过将多个原始数据段中的重复数据聚集于同一数据段中进行压缩来提高数据压缩效率，为了将多个原始数据段中的重复数据聚集于同一数据段中，首选需要对原始数据段进行分割处理。

一些实施例中，可以通过下述公式将每个原始数据段分割成至少两个数据块：

其中，为数据块的数量，为第个原始数据段的长度，为原始数据段的索引，为数据块的设定数据块长度，表示对向上取整。

需要说明的是，设定数据块长度可以根据实际场景需求进行设定，此处不做任何限定，可选地，设定数据块长度可以为5kb的字符长度。如果分割后的数据块的长度小于设定数据块长度，则可以使用空字符对数据块进行补充，使得数据块的长度达到设定数据块长度。

S102，获取数据块的第一标准信息熵，按照第一标准信息熵的大小顺序，对多个原始数据段中的全部数据块进行排序，得到数据块序列。

在本发明实施例中，获取数据块的第一标准信息熵，包括以下步骤：

S201，获取数据块中每个数据的数据频率，根据数据频率获取数据块的信息熵。

具体地，可以通过下述公式计算每个数据块的信息熵：

其中，为第个原始数据段中第个数据块的信息熵，为第个原始数据段的第个数据块中第种数据的数据频率，为对数函数，为第个原始数据段的第个数据块的数据种类数量，为原始数据段的索引，为第个原始数据段中每个数据块的索引。

本发明实施例中，数据块的信息熵可以反映数据块内部的数据分布情况，通过上述公式获取数据块的信息熵可以为后续数据块之间的相似性判断提供可靠依据。

S202，比较每个数据块的信息熵的大小，确定最大信息熵。

S203，以最大信息熵为基准对信息熵进行标准化处理，得到第一标准信息熵。

具体地，可以通过下述公式计算每个数据块的第一标准信息熵：

其中，为第个原始数据段中第个数据块的第一标准信息熵，为第个原始数据段中第个数据块的信息熵，为第个原始数据段中全部数据块的最大信息熵，为原始数据段的索引，为第个原始数据段中数据块的索引。

在获取每个原始数据段中每个数据块的第一标准信息熵后，可以按照第一标准信息熵从大到小或者从小到达的顺序排列多个原始数据段中的全部数据块，得到对应的数据块序列。

本发明实施例中，对数据块的信息熵进行标准化处理处理后，标准化处理后数据处于同一数据级别，通过标准化处理后的数据即第一标准化信息熵比较数据块之间的数据分布差异，来判断不同的数据块是否为相似数据块，提高了判断的准确性。

S103，获取数据块序列中相邻数据块之间的第一标准信息熵差异，根据第一标准信息熵差异，将数据块序列分割成多个候选数据段。

计算数据块序列中相邻数据块之间的第一标准信息熵的差值绝对值作为第一标准信息熵差异。

具体地，可以通过下述公式计算第一标准信息熵差异：

其中，为第个原始数据段中第个数据块与第个原始数据段中第个数据块之间的第一标准信息熵差异，为第个原始数据段中第个数据块的第一标准信息熵，为第个原始数据段中第个数据块的第一标准信息熵，为原始数据段的索引，和为第个原始数据段中数据块的索引。

本发明实施例中，根据第一标准信息熵差异，将数据块序列分割成多个候选数据段，包括：在第一标准信息熵差异小于或等于设定差异阈值时，确定第一标准信息熵差异对应的相邻数据块为非近似数据块，根据非近似数据块，确定数据块序列的分割边界，根据分割边界将数据块序列分割成多个候选数据段。

需要说明的是，设定差异阈值可以根据实际场景需求进行设定，此处不做任何限定。可选地，设定差异阈值可以为0.1。

本发明实施例中，如果数据块序列中相邻数据块之间的第一标准信息熵差异较大，则说明相邻数据块之间的数据分布差异较大，从而说明相邻数据块为非近似数据块，如果数据块序列中相邻数据块之间的第一标准信息熵差异较小，则说明相邻数据块之间的数据分布差异较小，从而说明相邻数据块为近似数据块，由此，可以通过相邻数据块之间的第一标准信息熵差异判断相邻数据块是否为近似数据块。

具体地，在获取数据块序列中相邻数据块之间的第一标准信息熵差异后，判断第一标准信息熵差异是否大于设定差异阈值，若是，则确定该相邻数据块为非近似数据块，若否，则确定该相邻数据块为近似数据块。

进一步地，可以将非近似数据块之间的界限作为数据块序列的分割边界，并根据分割边界将数据块序列分割成多个候选数据段，可以认为每个候选数据段中的数据块是近似数据块，其中，近似数据块中的数据重复性较高，而每个候选数据段中的数据块均为近似数据块，因此每个候选数据段的数据重复性较高。

S104，从每个候选数据段中选取任意两个数据块，将任意两个数据块分别与其对应的原始数据段中的其他数据块进行拼接处理，得到对应的目标原始数据段。

本发明实施例中，在原始数据段分割成至少两个数据块时，可能会出现原本近似的长数据段被分割成的情况，因此需要在原始数据段中对分割后的数据块进行拼接，以比较拼接后的数据段是否近似，并根据比较结果进一步对候选数据段进行调整，以尽可能的提高候选数据段的数据重复性，从而进一步提高数据的压缩效率。

本发明实施例中，将任意两个数据块分别与其对应的原始数据段中的其他数据块进行拼接处理，得到对应的目标原始数据段，包括：针对任意两个数据块中的任一数据块，确定任一数据块对应的原始数据段为候选原始数据段，在候选原始数据段上，以任一数据块为起始按照设定步长向每侧方向进行延伸，将处于延伸范围内的其他数据块与任一数据块进行拼接，得到目标原始数据段。

需要说明的是，设定步长可以根据实际场景需求进行设定，此处不做任何限定，可选地，设定步长可以为1，即每次延伸一个数据块。

其中，任一数据块包括左侧和右侧两个方向，若任一数据块左侧方向无数据块，则不向左侧方向进行延伸，若任一数据块右侧方向无数据块，则不向右侧方向进行延伸。

示例性的，以向任一数据块的右侧方向延伸为例进行说明，候选原始数据段中的任一数据块每次向右侧延伸一个数据块，并与处于延伸范围内的其他数据块进行拼接，得到对应的目标原始数据段，例如，第一次与其右侧第一个其他数据块拼接，得到第一个目标原始数据段，第二次与其右侧相邻的两个其他数据块拼接，得到第二个目标原始数据段，第三次与其右侧相邻的三个其他数据块进行拼接，得到第三个目标原始数据段，直至延伸到候选原始数据段最后一个其他数据块结束延伸。

需要说明的是，本发明实施例的任意两个数据块各自对应的目标原始数据段的长度一致。

S105，判断任意两个数据块的目标原始数据段是否为近似数据段，得到判断结果。

本发明实施例中，判断任意两个数据块的目标原始数据段是否为近似数据段，得到判断结果，包括：获取两个目标原始数据段的第二标准信息熵，根据第二标准信息熵，获取两个目标原始数据段之间的第二标准信息熵差异，若第二标准信息熵差异小于或等于设定差异阈值，则确定两个目标原始数据段为近似数据段，若第二标准信息熵差异大于设定差异阈值，则确定两个目标原始数据段为非近似数据段。

具体地，可以通过下述公式计算每个目标原始数据段的第二标准信息熵：

其中，为第个候选原始数据段中第个数据块向右侧或左侧延伸次后拼接得到的目标原始数据段的第二标准信息熵，为第个候选原始数据段中第个数据块向右侧或左侧延伸次后拼接得到的目标原始数据段的信息熵，为第个候选原始数据段中全部数据块的最大信息熵，为候选原始数据段的索引，为候选原始数据段中数据块的索引，表示延伸次数。

需要说明的是，表示向右侧延伸，表示向左侧延伸。

本发明实施例中，通过获取候选数据段中任意两个数据块的目标原始数据段的第二标准信息熵，可以为目标原始数据段的相似性判断提供可靠依据。

在获取两个目标原始数据段之间的第二标准信息熵差异之后，判断该第二标准信息熵差异是否小于或等于设定差异阈值，若是，则确定两个目标原始数据段为近似数据段，若否，则确定两个目标原始数据段为非近似数据段。

本发明实施例中，若两个目标原始数据段之间的第二标准信息熵差异较大，则说明该两个目标原始数据段之间的数据分布差异较大，即该两个目标原始数据段为非近似数据段，若两个目标原始数据段之间的第二标准信息熵差异较小，则说明该两个目标原始数据段之间的数据分布差异较小，即该两个目标原始数据段为近似数据段。因此通过该两个目标原始数据段之间的第二标准信息熵差异判断该两个目标原始数据段之间的相似性，能够提高近似数据段判断的准确性。

S106，在判断结果指示目标原数据段为近似数据段时，从候选数据段之外的其他候选数据段中确定待调换数据块，将待调换数据块调换至候选数据段中，得到目标数据段。

本发明实施例中，从候选数据段之外的其他候选数据段中确定待调换数据块，将待调换数据块调换至候选数据段中，得到目标数据段，包括：从其他候选数据段中确定目标原始数据段内任意两个数据块之外的数据块为待调换数据块，将待调换数据块调换至任意两个数据块所在的候选数据段中，得到调换后的候选数据段，按照目标原始数据段内的数据块顺序对调换后的候选数据段重新排序，得到目标数据段。

对于数据块序列中的每个候选数据段，在从该候选数据段中选取任意两个数据块，且该两个数据块的对应的目标原始数据段为近似数据块时，将两个目标原始数据段中该任意两个数据块之外的数据块作为待调换数据块，并确定该待调换数据块所在的候选数据段作为待调换数据段，并将该待调换数据段中的待调换数据块调换至该任意两个数据块所在的候选数据段中，得到调换后的候选数据段，然后按照目标原始数据段内的数据块顺序对调换后的候选数据段重新排序，得到目标数据段。

示例性的，图3为本发明一个实施例提供的一种目标数据段的生成原理示例图，如图3所示，原始数据段1中的数据块包括A、B、C、D、E、F、G，原始数据段2中的数据块包括g、b、a、d、e、f、c,按照第一标准信息熵的大小顺序对原始数据段1和原始数据段2中的数据块进行排序，得到数据块序列：A、a、B、b、C、c、D、d、E、e、F、f、G、g，根据相邻数据块之间的第一标准信息熵差异可以将数据块序列分割成多个候选数据段，比如，候选数据段1：A、a、B、b、C、c，候选数据段2：D、d、E、e，候选数据段3：F、f、G、g。假设从候选数据段2中选取数据块D和数据块d，其中，数据块D对应的目标原始数据段1为D、E、F，数据块d对应的目标原始数据段2为d、e、f，目标原始数据段1与目标原始数据段2近似，数据块F和数据块f确定为待调换数据块，则候选数据段3为待调换数据段，将候选数据段3中的数据块F和数据块f调换至候选数据段2中，并按照目标原始数据段1与目标原始数据段2顺序重新进行排序，得到目标数据段：D、E、F、d、e、f。

进一步地，在判断结果指示目标原始数据段为非近似数据段时，将候选数据段作为目标数据段。

若目标原始数据段为非近似数据段，则说明不存在原本数据中相似长的数据段被拆分的情况，可以直接将候选数据段作为目标数据段。

S107，对目标数据段进行压缩处理，得到压缩数据。

可选地，采用LZ77压缩算法对每个目标数据段进行压缩处理，得到压缩数据。其中，LZ77压缩算法为一种基于字典对滑动窗口查找的无损压缩技术，LZ77算法的压缩效率取决于数据项的重复程度，对于数据项重复多的数据流能在数据字典中用元组表示更长的数据项，从而能够降低空间占比和压缩时间。

由于目标数据段的数据重复性较高，通过LZ77压缩算法对目标数据段进行压缩处理能够提高数据的压缩效率。

采用LZ77压缩算法对目标数据段进行压缩时，将目标数据段中的待压缩数据写入先行缓冲区，然后与查找缓冲区中的数据字典比对，将相同的字符段使用元组表示，实现数据压缩。

图4为本发明一个实施例提供的一种LZ77压缩算法的压缩原理示意图，如图4所示，先行缓冲区中的字符串<#&*#>可以在查找缓冲区中找到相同的数据项，则使用查找缓冲区内的数据项的指针数组表示，例如将字符串<#&*#*>压缩后输出<(1,4)##>，其中，重复项越多，压缩效果越明显。

综上所述，本发明实施例中，通过将原始数据段进行分割处理，并根据第一标准信息熵对分割后的数据块进行排序得到数据块序列，可以使得近似的数据块聚集在一起，也即是说，数据块序列中距离越近的数据块相似性越大，以便于后续对数据块序列的分割。由于第一标准信息熵可以反映数据块内部的数据分布，相邻像素块之间的第一标准信息熵差异可以反映相邻像素块之间的相似性，由此根据第一标准信息熵差异将数据块分割成多个候选数据段，可以保证每个候选数据段内均为近似数据块。通过候选数据段中的任意两个数据块与其对应的原始数据段中的其他数据块进行拼接处理，得到对应的目标原始数据段，并进行相似性判断，能够判断原始数据段中原本相似的长数据段是否被拆分。通过比较目标原始数据段之间的相似性来调换候选数据段中的数据块，能够复原原始数据段中原本相似的长数据段，以此方式得到的目标数据段的内部数据重复性较高，从而能够提高数据压缩效率。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种可互动的智慧教学平台的数据快速压缩方法，其特征在于，所述方法包括：

在所述判断结果指示所述目标原始数据段为所述近似数据段时，从所述候选数据段之外的其他候选数据段中确定待调换数据块，将所述待调换数据块调换至所述候选数据段中，得到目标数据段；

对所述目标数据段进行压缩处理，得到压缩数据；

所述获取所述数据块的第一标准信息熵，包括：

比较每个所述数据块的信息熵的大小，确定最大信息熵；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一标准信息熵差异，将所述数据块序列分割成多个候选数据段，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述任意两个数据块分别与其对应的原始数据段中的其他数据块进行拼接处理，得到对应的目标原始数据段，包括：

4.根据权利要求1所述的方法，其特征在于，所述判断所述任意两个数据块的所述目标原始数据段是否为近似数据段，得到判断结果，包括：

获取两个所述目标原始数据段的第二标准信息熵，具体获取第二标准信息熵的公式包括：

其中，为第个候选原始数据段中第个数据块向右侧或左侧延伸次后拼接得到的目标原始数据段的第二标准信息熵，为第个候选原始数据段中第个数据块向右侧或左侧延伸次后拼接得到的目标原始数据段的信息熵，为第个候选原始数据段中全部数据块的最大信息熵，为候选原始数据段的索引，为候选原始数据段中数据块的索引，表示延伸次数；

5.根据权利要求1所述的方法，其特征在于，所述从所述候选数据段之外的其他候选数据段中确定待调换数据块，将所述待调换数据块调换至所述候选数据段中，得到目标数据段，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述判断结果指示所述目标原始数据段为非近似数据段时，将所述候选数据段作为所述目标数据段。