CN111062419B

CN111062419B - 一种深度学习数据集的压缩和恢复方法

Info

Publication number: CN111062419B
Application number: CN201911174831.XA
Authority: CN
Inventors: 王轶彤; 李文坦
Original assignee: Fudan University; Zhuhai Fudan Innovation Research Institute
Current assignee: Fudan University; Zhuhai Fudan Innovation Research Institute
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-06-02
Anticipated expiration: 2039-11-26
Also published as: CN111062419A

Abstract

本发明公开了一种深度学习数据集的压缩和恢复方法，包括如下具体步骤：从原始数据集中获取元数据；根据最大中心影响力的元数据坐标和分类标签构造第三元数据进行数据压缩，得到压缩数据集；将所述压缩数据集中任意元数据根据权重、坐标和分类标签进行数据恢复，得到原始数据集。本发明提供了一种深度学习数据集的压缩和恢复方法，该方法的目的是减少深度学习数据集的大小，为了保证深度学习训练结果的正确性，本算法在压缩的前提下最大限度地保证了压缩后数据集表达的内容接近于压缩前数据集的表达内容，并且能够压缩的数据集进行恢复。

Description

一种深度学习数据集的压缩和恢复方法

技术领域

本发明涉及深度学习技术领域，更具体的说是涉及一种深度学习数据集的压缩和恢复方法。

背景技术

深度学习通过对真实世界信息的反复学习，使得计算机可以领会真实世界的若干规律，从而在某些方面可以像人一样对事物进行判断，如图片识别技术，通过对大量图片及图片所表示事物的标记进行学习，使得计算机可以识别图片中所有物体的名称，又如推荐系统，通过对大量用户喜好进行学习，从而可以预测用户的兴趣偏好，从而为用户推荐感兴趣的商品。深度学习的数据集则是一些现实情况的表达，如图片识别中大量图片及图片中物体的名称，又如推荐系统中大量用户以及这些用户感兴趣的内容等等。深度学习的效果好坏与否相当程度上依赖数据集的好坏。

为了提高深度学习的学习结果，深度学习数据集往往需要收集大量的现实数据，由于数据量庞大，数据集对存储空间的占用要求较高，不方便进行移动，这极大限制了深度学习技术的发展。

因此，如何提供一种数据集压缩和恢复的方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种深度学习数据集的压缩和恢复方法，该方法的目的是减少深度学习数据集的大小，为了保证深度学习训练结果的正确性，本算法在压缩的前提下最大限度地保证了压缩后数据集表达的内容接近于压缩前数据集的表达内容，并且能够压缩的数据集进行恢复。

为了实现上述目的，本发明提供如下技术方案：

一种深度学习数据集的压缩和恢复方法，包括如下具体步骤：

从原始数据集中获取元数据；

根据最大中心影响力的元数据坐标和分类标签构造第三元数据进行数据压缩，得到压缩数据集；

将所述压缩数据集中任意元数据根据权重、坐标和分类标签进行数据恢复，得到原始数据集。

优选的，在上述的一种深度学习数据集的压缩和恢复方法中，所述获取压缩数据集的具体步骤包括：

步骤21：计算中心影响力，并确定最大中心影响力的数据为第一元数据；

步骤22：确定所述第一元数据的坐标和分类标签；

步骤23：删除第一元数据、以及与所述第一元数据具有相同分类标签的第二元数据，得到中间数据集；

步骤24：构造第三元数据，所述第三元数据的分类标签和坐标均与所述第一元数据相同，并引入权重，所述权重为删除元数据的个数；

步骤25：将所述第三元数据添加到所述中间数据集中，得到压缩数据集；

步骤26：如果所述中间数据集中已无元数据，则结束，否则，进入步骤27；

步骤27：重新计算原始数据集中所有元数据的中心影响力，然后回到步骤21。

优选的，在上述的一种深度学习数据集的压缩和恢复方法中，所述步骤21中，所述中心影响力计算公式如下：

其中，v是被计算的元数据，d是坐标的长度，即高维空间的维度，N_k(v)是所有坐标距离到元数据v小于k的元数据集合，D_c(u,i)是指原数据u的第i维坐标。

优选的，在上述的一种深度学习数据集的压缩和恢复方法中，所述数据恢复的具体步骤包括：

步骤31：构建一个空数据集；

步骤32：选择压缩数据集中的元数据，将所述元数据从所述压缩数据集中删除；

步骤33：根据选择的元数据确定权重、坐标和分类标签，在空数据集中添加恢复元数据；

步骤34：如果压缩数据集中已无元数据，则结束，否则，进入步骤32。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种深度学习数据集的压缩和恢复方法，该方法的目的是减少深度学习数据集的大小，为了保证深度学习训练结果的正确性，本算法在压缩的前提下最大限度地保证了压缩后数据集表达的内容接近于压缩前数据集的表达内容，并且能够压缩的数据集进行恢复。

深度学习的数据集由若干元数据构成，每条元数据代表现实世界中的一个具体案例，如在数字手写体识别的案例中，由大量手写数字构成的图片及每张图片所对应的真实数字构成了一个数据集，数据集的每条元数据即一张图片以及该图片所对应的数字。

实际操作中，为了使计算机能够理解这些图片，每张图片会被处理成一个高维向量，因此，每张图片将能够对应于高维空间中的一点，图片的高维向量集合组成了元数据的坐标集合，图片所对应的实际数字构成了元数据的分类标签集合。深度学习的数据集即是由坐标集合以及每个坐标对应的分类标签所组成的。

本发明的原理是，假设某条元数据X有坐标A和分类标签B，当数据集中，存在若干其他元数据组成集合Y，集合Y中的元数据的坐标在高位空间中较为均匀地分布在元数据X周围，且集合Y中的元数据和元数据X具有相同的分类标签B时，可以使用坐标A替代集合Y中所有元数据的坐标，从而在数据集存储时，元数据集合X+Y只需要存储一份坐标，即元数据X的坐标，从而做到对数据集存储体积的压缩。之所以上述操作对数据集表达信息影响较小，是因为假设存在两条元数据F和G，在深度学习运算中，使用两次F和G坐标的连线的中心点坐标进行训练和分别使用F和G的坐标进行两次训练所得到的结果是几乎一样的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明的数据压缩流程图；

图2附图为本发明的数据恢复流程图；

图3附图为实施例的表示示意图；

图4附图为实施例被压缩后的表示示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种深度学习数据集的压缩和恢复方法，该方法的目的是减少深度学习数据集的大小，为了保证深度学习训练结果的正确性，本算法在压缩的前提下最大限度地保证了压缩后数据集表达的内容接近于压缩前数据集的表达内容，并且能够压缩的数据集进行恢复。

从原始数据集中获取元数据；

原始数据集由若干元数据构成，元数据在计算机中的表述方式如图3所示。压缩后，元数据数量减少，但每条元数据除坐标、分类标签外，增加了权重这一数据，图4中三条元数据拥有相同的分类标签，然后其被压缩为一条元数据。

为了进一步优化上述技术方案，如图1所示，获取压缩数据集的具体步骤包括：

步骤21：计算中心影响力，并确定最大中心影响力的数据为第一元数据；所述中心影响力计算公式如下：

其中，v是被计算的元数据，d是坐标的长度，即高维空间的维度，N_k(v)是所有坐标距离到元数据v小于k的元数据集合，D_c(u,i)是指原数据u的第i维坐标；

步骤22：确定所述第一元数据的坐标、分类标签；

为了进一步优化上述技术方案，如图2所示，所述数据恢复的具体步骤包括：

步骤31：构建一个空数据集；

恢复后的数据集W的元数据只包括坐标和分类标签，因此可以像一般数据集一样被用于深度学习算法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种深度学习数据集的压缩和恢复方法，其特征在于，包括如下具体步骤：从原始数据集中获取元数据；

获取压缩数据集的具体步骤包括：

所述中心影响力计算公式如下：

步骤22：确定所述第一元数据的坐标和分类标签；

步骤27：重新计算原始数据集中所有元数据的中心影响力，然后回到步骤21；

将所述压缩数据集中任意元数据根据权重、坐标和分类标签进行数据恢复，得到原始数据集；

所述数据恢复的具体步骤包括：

步骤31：构建一个空数据集；