CN111242235A - 一种相似特征测试数据集生成方法 - Google Patents

一种相似特征测试数据集生成方法 Download PDF

Info

Publication number
CN111242235A
CN111242235A CN202010059647.7A CN202010059647A CN111242235A CN 111242235 A CN111242235 A CN 111242235A CN 202010059647 A CN202010059647 A CN 202010059647A CN 111242235 A CN111242235 A CN 111242235A
Authority
CN
China
Prior art keywords
data set
generated
network
target
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010059647.7A
Other languages
English (en)
Other versions
CN111242235B (zh
Inventor
安竹林
孙涛
程坦
徐勇军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Original Assignee
Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences filed Critical Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Priority to CN202010059647.7A priority Critical patent/CN111242235B/zh
Publication of CN111242235A publication Critical patent/CN111242235A/zh
Application granted granted Critical
Publication of CN111242235B publication Critical patent/CN111242235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种相似特征测试数据集生成方法,包括:S1、选取多个不同的初始评价网络,再分别对所述初始评价网络进行训练,得到多个应用评价网络;S2、获取与目标数据集格式相同的样本数据集;S3、通过数据校正模型删减样本数据集中数据的个数,得到生成数据集;S4、使用每个所述应用评价网络比较S3中的生成数据集和目标数据集,计算得到偏差比;S5、若所述偏差比在预设的阈值范围内,将S3中的生成数据集作为测试数据集;若所述偏差比不在预设的阈值范围内,在S3中的生成数据集中增加数据,将增加数据后的生成数据集作为新的样本数据集,再重复执行S3至S4,直至偏差比在预设的阈值范围内,并将最后一次的生成数据集作为测试数据集。

Description

一种相似特征测试数据集生成方法
技术领域
本发明涉及数据处理领域,具体涉及一种相似特征测试数据集生成方法。
背景技术
随着深度学习的兴起,数据集的重要性凸显出来。任何算法只能在解决了实际问题的时候才能算是一个好的算法,因此,深度神经网络需要大量的数据集进行验证和比较,以此来评判网络的好坏程度。如果每个网络的评价都用不同的数据集,那么性能好坏将不具有说服性,因此,需要一些公认的第三方数据集。当科研人员提出新的深度神经网络的时候,通常会在这些数据集上进行实验和测试,来评价自己网络的性能。因此,这些数据集为深度学习网络提供了一个评判的标准。特别是近一段时间以来,通过网络架构搜索得到的网络性能逐步超过传统手工设计网络,数据集的评价作用更加显现出来。
网络架构搜索是一种通过演化算法或者强化学习自动生成深度神经网络的一种方法,这些方法通常分为若干轮,在每一轮开始时通过某种策略生成多个网络,然后对多个网络进行评价,最后根据评价结果选择较好的网络,并根据较好的网络生成新网络,最后进入下一轮。网络架构搜索中对于网络的评价也是通过数据集进行的,数据集通常包括训练集和测试集两部分,深度神经网络模型在训练集上进行训练,然后使用测试集测试训练效果。为了确保测试的准确性和公平性,通常在训练过程中不涉及任何测试集的信息,只将测试信息用于模型评价。
通过上面的分析可以看出,网络架构搜索在空间和时间上都需要对多个网络进行训练,因此需要消耗大量的算力。大量的算力的投入,带来的负面影响是,尽管没有使用测试集参与演化与训练,但是不断地用测试集进行测试,然后选择一组比较好的结果,可能导致网络在测试集上过拟合,影响了其泛化能力。因此,找到一种方法能够生成与原测试数据(下称目标数据集)集特征分布相似的新数据集,用于评价模型的泛化性能是非常有意义的。
发明内容
本发明的目的在于提供一种相似特征测试数据集生成方法,采用逆向思维,用若干应用评价网络来评价不同数据集的差异,并且通过对数据集中的数据样本进行删减,减小生成数据集与目标数据集在不同应用评价网络中的差异,从而得到与目标数据集特征分布相似的生成数据集。
为实现上述目的,本发明采用以下技术方案:
一种相似特征测试数据集生成方法,包括:
S1、训练评价网络:选取多个不同的初始评价网络,再分别对所述初始评价网络使用目标数据集的训练集进行训练,分别保存训练得到的多个应用评价网络;
S2、数据准备:获取与目标数据集格式相同的样本数据集;所述样本数据集中数据的个数大于目标数据集中数据的个数;
S3、数据校正:通过数据校正模型删减样本数据集中数据的个数,得到生成数据集;
S4、数据集评价:使用每个所述应用评价网络比较S3中的生成数据集和目标数据集,计算得到偏差比;
S5、数据集生成:若所述偏差比在预设的阈值范围内,直接将S3中的生成数据集作为测试数据集;若所述偏差比不在预设的阈值范围内,在S3中的生成数据集中增加数据,将增加数据后的生成数据集作为新的样本数据集,再重复执行S3至S4,直至所述偏差比在预设的阈值范围内,并将最后一次的生成数据集作为测试数据集。
优选地,所述初始评价网络从vgg、resnet、googlenet、densnet、resnext、mobilenetv2、shufflenetv2、senet中进行选取。
优选地,所述目标数据集为图片数据集,生成数据集中的图片与目标数据集中的图片尺寸相同。
优选地,所述数据校正模型具体为,首先进行符号定义:
T={ti|0≤i<m}:目标数据集,其中m表示目标数据集中数据样本个数;
G={gi|0≤i<n}:生成数据集,其中n表示生成数据集中数据样本个数;
E={ei|0≤i<k}:应用评价网络,其中k表示应用评价网络个数;
W={wij}:数据集中每个样本在每个应用评价网络上的表现,表示数据集中样本在应用评价网络上是否被正确分类;
S(W)={∑iWij}:表示数据集在每个应用评价网络上正确分类的个数;
M={mi|0≤i<n}:生成数据集选择向量,mi=1表示生成数据集中样本i被选中,mi=0表示生成数据集中样本i未被选中;
由上面的定义,可知WT和WG分别为目标数据集和生成数据集在应用评价网络上的表现,通过将目标数据集和生成数据集分别在各个应用评价网络上进行推理而得到;目标数据集在应用评价网络上的正确分类数为S(WT)只需要对WT按行累加即可以得到,生成数据集在应用评价网络上的正确分类数为S(WG⊙M),用WG与M做Hadamard乘积后对结果按行累加即可以得到;通过上面的定义,将数据校正方法建模为一个0-1规划问题:
目标:min(S(WG⊙M),S(WT))
约束:n=m
对此0-1规划问题进行求解,即可完成数据校正,得到与目标数据集相匹配的生成数据集。
优选地,所述测试数据集用于评价深度神经网络的泛化性能。
采用上述技术方案后,本发明与背景技术相比,具有如下有益效果:
1、本发明将数据集逼近问题转化为0-1规划问题,并建立数据样本多于目标数据集的生成数据集,通过对生成数据集中的数据样本进行增删,从而调整生成数据集中的特征分布,减小生成数据集与目标数据集在不同应用评价网络中的差异,最终得到与目标数据集特征分布相似的生成数据集。
2、本发明改变传统使用数据集评价网络的思路,采用逆向思维,使用网络来评价数据集,采用该思路可以生成与目标数据集数据分布特征相似的生成数据集,以用于评价深度神经网络的泛化性能,以便于使用者选择泛化性能较好的深度神经网络,提高在实际应用中网络的分类精度。
附图说明
图1为本发明提供的一种相似特征测试数据集生成方法的具体实施方式的流程框图;
图2为本发明提供的一种相似特征测试数据集生成方法的原理结构图;
图3为本发明实施例中生成的生成数据集与目标数据集的对比曲线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参见图1至图3所示,一种相似特征测试数据集生成方法,包括:
S1、训练评价网络:选取vgg、resnet、googlenet、densnet、resnext、mobilenetv2、shufflenetv2、senet这8个不同的初始评价网络,再分别对所述初始评价网络使用目标数据集的训练集进行训练,分别保存训练得到8个应用评价网络;
S2、数据准备:获取与目标数据集格式相同的样本数据集;所述样本数据集中数据的个数大于目标数据集中数据的个数;
S3、数据校正:通过数据校正模型删减样本数据集中数据的个数,得到生成数据集;当所述目标数据集为图片数据集时,生成数据集中的图片与目标数据集中的图片尺寸相同;
S4、数据集评价:使用S1中经训练后得到的每个所述应用评价网络比较S3中的生成数据集和目标数据集,计算得到偏差比;
S5、数据集生成:若所述偏差比在预设的阈值范围内,直接将S3中的生成数据集作为测试数据集;若所述偏差比不在预设的阈值范围内,在S3中的生成数据集中增加数据,将增加数据后的生成数据集作为新的样本数据集,再重复执行S3至S4,直至所述偏差比在预设的阈值范围内,并将最后一次的生成数据集作为测试数据集。
需要指出的是,一般的数据集按照不同的标签可以划分为若干类(如图像数据集中的“猫”类和“狗”类),由于各个类别的数据样本在物理上是相互独立的,在各个评价网络上的表现也是相互独立的,因此可以分别进行处理。为了方便讨论,下面仅对某一类数据的处理进行说明。
首先进行符号定义:
T={ti|0≤i<m}:目标数据集,其中m表示目标数据集中数据样本个数;
G={gi|0≤i<n}:生成数据集,其中n表示生成数据集中数据样本个数;
E={ei|0≤i<k}:应用评价网络,其中k表示应用评价网络个数;
W={wij}:数据集中每个样本在每个应用评价网络上的表现,表示数据集中样本在应用评价网络上是否被正确分类;
S(W)={∑iWij}:表示数据集在每个应用评价网络上正确分类的个数;
M={mi|0≤i<n}:生成数据集选择向量,mi=1表示生成数据集中样本i被选中,mi=0表示生成数据集中样本i未被选中;
由上面的定义,可知WT和WG分别为目标数据集和生成数据集在应用评价网络上的表现,通过将目标数据集和生成数据集分别在各个应用评价网络上进行推理而得到;目标数据集在应用评价网络上的正确分类数为S(WT)只需要对WT按行累加即可以得到,生成数据集在应用评价网络上的正确分类数为S(WG⊙M),用WG与M做Hadamard乘积后对结果按行累加即可以得到;通过上面的定义,将数据校正方法建模为一个0-1规划问题:
目标:min(S(WG⊙M),S(WT))
约束:n=m
对此0-1规划问题进行求解,即可完成数据校正,得到与目标数据集相匹配的生成数据集。
如图3所示,将Cifar-10数据集的测试数据集作为目标数据集,并应用本发明方法生成相应的生成数据集。图3中,纵坐标为生成数据集与目标数据集在相应应用评价网络和相应类型数据上的精度的比值(即偏差比),横坐标为8个应用评价网络,十条曲线表示Cifar-10的十类数据。从图3可以看出,曲线基本集中在偏差比为1的位置,说明采用本发明生成的生成数据集很好的拟合了目标数据集。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种相似特征测试数据集生成方法,其特征在于,包括:
S1、训练评价网络:选取多个不同的初始评价网络,再分别对所述初始评价网络使用目标数据集的训练集进行训练,分别保存训练得到的多个应用评价网络;
S2、数据准备:获取与目标数据集格式相同的样本数据集;所述样本数据集中数据的个数大于目标数据集中数据的个数;
S3、数据校正:通过数据校正模型删减样本数据集中数据的个数,得到生成数据集;
S4、数据集评价:使用每个所述应用评价网络比较S3中的生成数据集和目标数据集,计算得到偏差比;
S5、数据集生成:若所述偏差比在预设的阈值范围内,直接将S3中的生成数据集作为测试数据集;若所述偏差比不在预设的阈值范围内,在S3中的生成数据集中增加数据,将增加数据后的生成数据集作为新的样本数据集,再重复执行S3至S4,直至所述偏差比在预设的阈值范围内,并将最后一次的生成数据集作为测试数据集。
2.如权利要求1所述的一种相似特征测试数据集生成方法,其特征在于:所述初始评价网络从vgg、resnet、googlenet、densnet、resnext、mobilenetv2、shufflenetv2、senet中进行选取。
3.如权利要求1所述的一种相似特征测试数据集生成方法,其特征在于:所述目标数据集为图片数据集,生成数据集中的图片与目标数据集中的图片尺寸相同。
4.如权利要求1所述的一种相似特征测试数据集生成方法,其特征在于,所述数据校正模型具体为,首先进行符号定义:
T={ti|0≤i<m}:目标数据集,其中m表示目标数据集中数据样本个数;
G={gi|0≤i<n}:生成数据集,其中n表示生成数据集中数据样本个数;
E={ei|0≤i<k}:应用评价网络,其中k表示应用评价网络个数;
W={wij}:数据集中每个样本在每个应用评价网络上的表现,表示数据集中样本在应用评价网络上是否被正确分类;
S(W)={∑iWij}:表示数据集在每个应用评价网络上正确分类的个数;
M={mi|0≤i<n}:生成数据集选择向量,mi=1表示生成数据集中样本i被选中,mi=0表示生成数据集中样本i未被选中;
由上面的定义,可知WT和WG分别为目标数据集和生成数据集在应用评价网络上的表现,通过将目标数据集和生成数据集分别在各个应用评价网络上进行推理而得到;目标数据集在应用评价网络上的正确分类数为S(WT)只需要对WT按行累加即可以得到,生成数据集在应用评价网络上的正确分类数为S(WG⊙M),用WG与M做Hadamard乘积后对结果按行累加即可以得到;通过上面的定义,将数据校正方法建模为一个0-1规划问题:
目标:min(S(WG⊙M),S(WT))
约束:n=m
对此0-1规划问题进行求解,即可完成数据校正,得到与目标数据集相匹配的生成数据集。
5.如权利要求1所述的一种相似特征测试数据集生成方法,其特征在于:所述测试数据集用于评价深度神经网络的泛化性能。
CN202010059647.7A 2020-01-19 2020-01-19 一种相似特征测试数据集生成方法 Active CN111242235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010059647.7A CN111242235B (zh) 2020-01-19 2020-01-19 一种相似特征测试数据集生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010059647.7A CN111242235B (zh) 2020-01-19 2020-01-19 一种相似特征测试数据集生成方法

Publications (2)

Publication Number Publication Date
CN111242235A true CN111242235A (zh) 2020-06-05
CN111242235B CN111242235B (zh) 2023-04-07

Family

ID=70874745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010059647.7A Active CN111242235B (zh) 2020-01-19 2020-01-19 一种相似特征测试数据集生成方法

Country Status (1)

Country Link
CN (1) CN111242235B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295506A (zh) * 2016-07-25 2017-01-04 华南理工大学 一种基于集成卷积神经网络的年龄识别方法
CN106919920A (zh) * 2017-03-06 2017-07-04 重庆邮电大学 基于卷积特征和空间视觉词袋模型的场景识别方法
CN108038471A (zh) * 2017-12-27 2018-05-15 哈尔滨工程大学 一种基于深度学习技术的水声通信调制模式识别方法
CN108520225A (zh) * 2018-03-30 2018-09-11 南京信息工程大学 一种基于空间变换卷积神经网络的指纹检测分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295506A (zh) * 2016-07-25 2017-01-04 华南理工大学 一种基于集成卷积神经网络的年龄识别方法
CN106919920A (zh) * 2017-03-06 2017-07-04 重庆邮电大学 基于卷积特征和空间视觉词袋模型的场景识别方法
CN108038471A (zh) * 2017-12-27 2018-05-15 哈尔滨工程大学 一种基于深度学习技术的水声通信调制模式识别方法
CN108520225A (zh) * 2018-03-30 2018-09-11 南京信息工程大学 一种基于空间变换卷积神经网络的指纹检测分类方法

Also Published As

Publication number Publication date
CN111242235B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111181939B (zh) 一种基于集成学习的网络入侵检测方法及装置
KR102252081B1 (ko) 이미지 특성의 획득
CN109740657B (zh) 一种用于图像数据分类的神经网络模型的训练方法与设备
CN108399428B (zh) 一种基于迹比准则的三元组损失函数设计方法
CN108256482B (zh) 一种基于卷积神经网络进行分布学习的人脸年龄估计方法
CN111950656B (zh) 图像识别模型生成方法、装置、计算机设备和存储介质
CN109271958B (zh) 人脸年龄识别方法及装置
CN111444951B (zh) 样本识别模型的生成方法、装置、计算机设备和存储介质
CN110728656A (zh) 基于元学习的无参考图像质量数据处理方法、智能终端
CN110909224B (zh) 一种基于人工智能的敏感数据自动分类识别方法及系统
CN110930996B (zh) 模型训练方法、语音识别方法、装置、存储介质及设备
US20210326700A1 (en) Neural network optimization
CN111586728B (zh) 一种面向小样本特征的异构无线网络故障检测与诊断方法
CN109978058B (zh) 确定图像分类的方法、装置、终端及存储介质
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
CN111242235B (zh) 一种相似特征测试数据集生成方法
CN113627464B (zh) 图像处理方法、装置、设备和存储介质
CN116129189A (zh) 一种植物病害识别方法、设备、存储介质及装置
CN113821452B (zh) 根据被测系统测试表现动态生成测试案例的智能测试方法
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质
CN114529096A (zh) 基于三元闭包图嵌入的社交网络链路预测方法及系统
CN113449631A (zh) 图像分类方法及系统
CN113360772A (zh) 一种可解释性推荐模型训练方法与装置
CN112418252A (zh) 基于图像内含社交网络平台指纹的起源社交网络识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000

Applicant after: Zhongke (Xiamen) data Intelligence Research Institute

Address before: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000

Applicant before: Xiamen Institute of data intelligence, Institute of computing technology, Chinese Academy of Sciences

GR01 Patent grant
GR01 Patent grant