CN111062419B - 一种深度学习数据集的压缩和恢复方法 - Google Patents

一种深度学习数据集的压缩和恢复方法 Download PDF

Info

Publication number
CN111062419B
CN111062419B CN201911174831.XA CN201911174831A CN111062419B CN 111062419 B CN111062419 B CN 111062419B CN 201911174831 A CN201911174831 A CN 201911174831A CN 111062419 B CN111062419 B CN 111062419B
Authority
CN
China
Prior art keywords
metadata
data set
coordinates
deep learning
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911174831.XA
Other languages
English (en)
Other versions
CN111062419A (zh
Inventor
王轶彤
李文坦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Zhuhai Fudan Innovation Research Institute
Original Assignee
Fudan University
Zhuhai Fudan Innovation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, Zhuhai Fudan Innovation Research Institute filed Critical Fudan University
Priority to CN201911174831.XA priority Critical patent/CN111062419B/zh
Publication of CN111062419A publication Critical patent/CN111062419A/zh
Application granted granted Critical
Publication of CN111062419B publication Critical patent/CN111062419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种深度学习数据集的压缩和恢复方法,包括如下具体步骤:从原始数据集中获取元数据;根据最大中心影响力的元数据坐标和分类标签构造第三元数据进行数据压缩,得到压缩数据集;将所述压缩数据集中任意元数据根据权重、坐标和分类标签进行数据恢复,得到原始数据集。本发明提供了一种深度学习数据集的压缩和恢复方法,该方法的目的是减少深度学习数据集的大小,为了保证深度学习训练结果的正确性,本算法在压缩的前提下最大限度地保证了压缩后数据集表达的内容接近于压缩前数据集的表达内容,并且能够压缩的数据集进行恢复。

Description

一种深度学习数据集的压缩和恢复方法
技术领域
本发明涉及深度学习技术领域,更具体的说是涉及一种深度学习数据集的压缩和恢复方法。
背景技术
深度学习通过对真实世界信息的反复学习,使得计算机可以领会真实世界的若干规律,从而在某些方面可以像人一样对事物进行判断,如图片识别技术,通过对大量图片及图片所表示事物的标记进行学习,使得计算机可以识别图片中所有物体的名称,又如推荐系统,通过对大量用户喜好进行学习,从而可以预测用户的兴趣偏好,从而为用户推荐感兴趣的商品。深度学习的数据集则是一些现实情况的表达,如图片识别中大量图片及图片中物体的名称,又如推荐系统中大量用户以及这些用户感兴趣的内容等等。深度学习的效果好坏与否相当程度上依赖数据集的好坏。
为了提高深度学习的学习结果,深度学习数据集往往需要收集大量的现实数据,由于数据量庞大,数据集对存储空间的占用要求较高,不方便进行移动,这极大限制了深度学习技术的发展。
因此,如何提供一种数据集压缩和恢复的方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种深度学习数据集的压缩和恢复方法,该方法的目的是减少深度学习数据集的大小,为了保证深度学习训练结果的正确性,本算法在压缩的前提下最大限度地保证了压缩后数据集表达的内容接近于压缩前数据集的表达内容,并且能够压缩的数据集进行恢复。
为了实现上述目的,本发明提供如下技术方案:
一种深度学习数据集的压缩和恢复方法,包括如下具体步骤:
从原始数据集中获取元数据;
根据最大中心影响力的元数据坐标和分类标签构造第三元数据进行数据压缩,得到压缩数据集;
将所述压缩数据集中任意元数据根据权重、坐标和分类标签进行数据恢复,得到原始数据集。
优选的,在上述的一种深度学习数据集的压缩和恢复方法中,所述获取压缩数据集的具体步骤包括:
步骤21:计算中心影响力,并确定最大中心影响力的数据为第一元数据;
步骤22:确定所述第一元数据的坐标和分类标签;
步骤23:删除第一元数据、以及与所述第一元数据具有相同分类标签的第二元数据,得到中间数据集;
步骤24:构造第三元数据,所述第三元数据的分类标签和坐标均与所述第一元数据相同,并引入权重,所述权重为删除元数据的个数;
步骤25:将所述第三元数据添加到所述中间数据集中,得到压缩数据集;
步骤26:如果所述中间数据集中已无元数据,则结束,否则,进入步骤27;
步骤27:重新计算原始数据集中所有元数据的中心影响力,然后回到步骤21。
优选的,在上述的一种深度学习数据集的压缩和恢复方法中,所述步骤21中,所述中心影响力计算公式如下:
Figure BDA0002289680380000021
其中,v是被计算的元数据,d是坐标的长度,即高维空间的维度,Nk(v)是所有坐标距离到元数据v小于k的元数据集合,Dc(u,i)是指原数据u的第i维坐标。
优选的,在上述的一种深度学习数据集的压缩和恢复方法中,所述数据恢复的具体步骤包括:
步骤31:构建一个空数据集;
步骤32:选择压缩数据集中的元数据,将所述元数据从所述压缩数据集中删除;
步骤33:根据选择的元数据确定权重、坐标和分类标签,在空数据集中添加恢复元数据;
步骤34:如果压缩数据集中已无元数据,则结束,否则,进入步骤32。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种深度学习数据集的压缩和恢复方法,该方法的目的是减少深度学习数据集的大小,为了保证深度学习训练结果的正确性,本算法在压缩的前提下最大限度地保证了压缩后数据集表达的内容接近于压缩前数据集的表达内容,并且能够压缩的数据集进行恢复。
深度学习的数据集由若干元数据构成,每条元数据代表现实世界中的一个具体案例,如在数字手写体识别的案例中,由大量手写数字构成的图片及每张图片所对应的真实数字构成了一个数据集,数据集的每条元数据即一张图片以及该图片所对应的数字。
实际操作中,为了使计算机能够理解这些图片,每张图片会被处理成一个高维向量,因此,每张图片将能够对应于高维空间中的一点,图片的高维向量集合组成了元数据的坐标集合,图片所对应的实际数字构成了元数据的分类标签集合。深度学习的数据集即是由坐标集合以及每个坐标对应的分类标签所组成的。
本发明的原理是,假设某条元数据X有坐标A和分类标签B,当数据集中,存在若干其他元数据组成集合Y,集合Y中的元数据的坐标在高位空间中较为均匀地分布在元数据X周围,且集合Y中的元数据和元数据X具有相同的分类标签B时,可以使用坐标A替代集合Y中所有元数据的坐标,从而在数据集存储时,元数据集合X+Y只需要存储一份坐标,即元数据X的坐标,从而做到对数据集存储体积的压缩。之所以上述操作对数据集表达信息影响较小,是因为假设存在两条元数据F和G,在深度学习运算中,使用两次F和G坐标的连线的中心点坐标进行训练和分别使用F和G的坐标进行两次训练所得到的结果是几乎一样的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的数据压缩流程图;
图2附图为本发明的数据恢复流程图;
图3附图为实施例的表示示意图;
图4附图为实施例被压缩后的表示示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种深度学习数据集的压缩和恢复方法,该方法的目的是减少深度学习数据集的大小,为了保证深度学习训练结果的正确性,本算法在压缩的前提下最大限度地保证了压缩后数据集表达的内容接近于压缩前数据集的表达内容,并且能够压缩的数据集进行恢复。
一种深度学习数据集的压缩和恢复方法,包括如下具体步骤:
从原始数据集中获取元数据;
根据最大中心影响力的元数据坐标和分类标签构造第三元数据进行数据压缩,得到压缩数据集;
将所述压缩数据集中任意元数据根据权重、坐标和分类标签进行数据恢复,得到原始数据集。
原始数据集由若干元数据构成,元数据在计算机中的表述方式如图3所示。压缩后,元数据数量减少,但每条元数据除坐标、分类标签外,增加了权重这一数据,图4中三条元数据拥有相同的分类标签,然后其被压缩为一条元数据。
为了进一步优化上述技术方案,如图1所示,获取压缩数据集的具体步骤包括:
步骤21:计算中心影响力,并确定最大中心影响力的数据为第一元数据;所述中心影响力计算公式如下:
Figure BDA0002289680380000051
其中,v是被计算的元数据,d是坐标的长度,即高维空间的维度,Nk(v)是所有坐标距离到元数据v小于k的元数据集合,Dc(u,i)是指原数据u的第i维坐标;
步骤22:确定所述第一元数据的坐标、分类标签;
步骤23:删除第一元数据、以及与所述第一元数据具有相同分类标签的第二元数据,得到中间数据集;
步骤24:构造第三元数据,所述第三元数据的分类标签和坐标均与所述第一元数据相同,并引入权重,所述权重为删除元数据的个数;
步骤25:将所述第三元数据添加到所述中间数据集中,得到压缩数据集;
步骤26:如果所述中间数据集中已无元数据,则结束,否则,进入步骤27;
步骤27:重新计算原始数据集中所有元数据的中心影响力,然后回到步骤21。
为了进一步优化上述技术方案,如图2所示,所述数据恢复的具体步骤包括:
步骤31:构建一个空数据集;
步骤32:选择压缩数据集中的元数据,将所述元数据从所述压缩数据集中删除;
步骤33:根据选择的元数据确定权重、坐标和分类标签,在空数据集中添加恢复元数据;
步骤34:如果压缩数据集中已无元数据,则结束,否则,进入步骤32。
恢复后的数据集W的元数据只包括坐标和分类标签,因此可以像一般数据集一样被用于深度学习算法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (1)

1.一种深度学习数据集的压缩和恢复方法,其特征在于,包括如下具体步骤:从原始数据集中获取元数据;
根据最大中心影响力的元数据坐标和分类标签构造第三元数据进行数据压缩,得到压缩数据集;
获取压缩数据集的具体步骤包括:
步骤21:计算中心影响力,并确定最大中心影响力的数据为第一元数据;
所述中心影响力计算公式如下:
Figure FDA0004076027210000011
其中,v是被计算的元数据,d是坐标的长度,即高维空间的维度,Nk(v)是所有坐标距离到元数据v小于k的元数据集合,Dc(u,i)是指原数据u的第i维坐标;
步骤22:确定所述第一元数据的坐标和分类标签;
步骤23:删除第一元数据、以及与所述第一元数据具有相同分类标签的第二元数据,得到中间数据集;
步骤24:构造第三元数据,所述第三元数据的分类标签和坐标均与所述第一元数据相同,并引入权重,所述权重为删除元数据的个数;
步骤25:将所述第三元数据添加到所述中间数据集中,得到压缩数据集;
步骤26:如果所述中间数据集中已无元数据,则结束,否则,进入步骤27;
步骤27:重新计算原始数据集中所有元数据的中心影响力,然后回到步骤21;
将所述压缩数据集中任意元数据根据权重、坐标和分类标签进行数据恢复,得到原始数据集;
所述数据恢复的具体步骤包括:
步骤31:构建一个空数据集;
步骤32:选择压缩数据集中的元数据,将所述元数据从所述压缩数据集中删除;
步骤33:根据选择的元数据确定权重、坐标和分类标签,在空数据集中添加恢复元数据;
步骤34:如果压缩数据集中已无元数据,则结束,否则,进入步骤32。
CN201911174831.XA 2019-11-26 2019-11-26 一种深度学习数据集的压缩和恢复方法 Active CN111062419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911174831.XA CN111062419B (zh) 2019-11-26 2019-11-26 一种深度学习数据集的压缩和恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911174831.XA CN111062419B (zh) 2019-11-26 2019-11-26 一种深度学习数据集的压缩和恢复方法

Publications (2)

Publication Number Publication Date
CN111062419A CN111062419A (zh) 2020-04-24
CN111062419B true CN111062419B (zh) 2023-06-02

Family

ID=70298688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911174831.XA Active CN111062419B (zh) 2019-11-26 2019-11-26 一种深度学习数据集的压缩和恢复方法

Country Status (1)

Country Link
CN (1) CN111062419B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09109461A (ja) * 1995-10-16 1997-04-28 Seiko Epson Corp 圧縮された2値画像データの復元装置
CN1452388A (zh) * 2002-04-17 2003-10-29 佳能株式会社 图像压缩方法及装置、图像编码装置及图像编码方法
CN107247786A (zh) * 2017-06-15 2017-10-13 北京小度信息科技有限公司 用于确定相似用户的方法、装置和服务器
CN107851118A (zh) * 2015-05-21 2018-03-27 基因福米卡数据系统有限公司 下一代测序数据的存储、传输和压缩
CN108734646A (zh) * 2017-04-24 2018-11-02 英特尔公司 跨处理系统进行的高效数据共享和压缩扩展
CN109919324A (zh) * 2019-03-07 2019-06-21 广东工业大学 基于标签比例学习的迁移学习分类方法、系统及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09109461A (ja) * 1995-10-16 1997-04-28 Seiko Epson Corp 圧縮された2値画像データの復元装置
CN1452388A (zh) * 2002-04-17 2003-10-29 佳能株式会社 图像压缩方法及装置、图像编码装置及图像编码方法
CN107851118A (zh) * 2015-05-21 2018-03-27 基因福米卡数据系统有限公司 下一代测序数据的存储、传输和压缩
CN108734646A (zh) * 2017-04-24 2018-11-02 英特尔公司 跨处理系统进行的高效数据共享和压缩扩展
CN107247786A (zh) * 2017-06-15 2017-10-13 北京小度信息科技有限公司 用于确定相似用户的方法、装置和服务器
CN109919324A (zh) * 2019-03-07 2019-06-21 广东工业大学 基于标签比例学习的迁移学习分类方法、系统及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高邈,史国友,李伟峰.改进的Sliding Window在线船舶AIS轨迹数据压缩算法.《交通运输工程学报》.2018,218-227. *

Also Published As

Publication number Publication date
CN111062419A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111858954A (zh) 面向任务的文本生成图像网络模型
CN110599592B (zh) 一种基于文本的三维室内场景重建方法
WO2022105117A1 (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN103678702A (zh) 视频去重方法及装置
WO2023138188A1 (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
WO2022105119A1 (zh) 意图识别模型的训练语料生成方法及其相关设备
CN111581923A (zh) 文案生成方法、装置、设备和计算机可读存储介质
WO2023024413A1 (zh) 信息的匹配方法、装置、计算机设备及可读存储介质
CN108537109B (zh) 基于OpenPose的单目相机手语识别方法
CN110866042A (zh) 表格智能查询方法、装置及计算机可读存储介质
CN113902010A (zh) 分类模型的训练方法和图像分类方法、装置、设备和介质
CN110363206A (zh) 数据对象的聚类、数据处理及数据识别方法
CN111104572A (zh) 用于模型训练的特征选择方法、装置及电子设备
CN115131803A (zh) 文档字号的识别方法、装置、计算机设备和存储介质
CN107016732A (zh) 使用描述符的3d对象定位
CN113822232A (zh) 一种基于金字塔注意力的场景识别方法、训练方法及装置
CN112380978A (zh) 基于关键点定位的多人脸检测方法、系统及存储介质
CN111062419B (zh) 一种深度学习数据集的压缩和恢复方法
JP2020502710A (ja) ウェブページメイン画像認識方法及び装置
CN107066926A (zh) 使用描述符的3d对象定位
CN110717405A (zh) 人脸特征点定位方法、装置、介质及电子设备
CN114445833B (zh) 文本识别方法、装置、电子设备和存储介质
CN113239215B (zh) 多媒体资源的分类方法、装置、电子设备及存储介质
CN103530656B (zh) 基于隐结构学习的图像摘要生成方法
CN103164504A (zh) 一种智能手机精细化图片搜索系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant