CN110941603A - 一种数据的扩充方法、装置、存储介质和电子设备 - Google Patents

一种数据的扩充方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN110941603A
CN110941603A CN201911403282.9A CN201911403282A CN110941603A CN 110941603 A CN110941603 A CN 110941603A CN 201911403282 A CN201911403282 A CN 201911403282A CN 110941603 A CN110941603 A CN 110941603A
Authority
CN
China
Prior art keywords
data
point
data set
density
expanded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911403282.9A
Other languages
English (en)
Inventor
赵耕弘
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201911403282.9A priority Critical patent/CN110941603A/zh
Publication of CN110941603A publication Critical patent/CN110941603A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种数据的扩充方法、装置、存储介质和电子设备,涉及数据处理技术领域,应用于扩充监督学习过程中使用的训练样本的数据集合,该方法包括:获取待扩充数据集合的中心数据点与边缘数据点之间的距离D;确定正常数据集合中在D的范围内数据密度最大的数据点为正常数据集合的第一参考点,数据密度为以数据点为中心,在给定的范围内包括的数据点的数量;确定正常数据集合中数据密度大于预设阈值且与第一参考点距离最大的数据点为第二参考点,并获取第一参考点和第二参考点之间的参考距离r;利用中心数据点、第一参考点对应的数据密度ρ和参考距离r扩充待扩充数据集合的数据。利用该方法能够合理的扩充数据集合中的数据。

Description

一种数据的扩充方法、装置、存储介质和电子设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据的扩充方法、装置、存储介质和电子设备。
背景技术
随着人工智能产业的不断发展,机器学习作为重要的计算手段在各行各业中被广泛应用。其中,监督学习作为常用手段之一,在各个场景中起到了重要的作用。
监督学习能够利用带标签的数据集合调整模型的参数,使训练后的模型达到所要求的性能。但是,在很多场景的实际应用过程中,不同标签的数据集合中数据的数量通常不均衡,例如有些数据集合中的数据很多,有些数据集合中的数据很少,这些不均衡的数据集合在实际应用过程中会严重影响训练得到的模型的性能。
因此,当数据集合中的数据较少时,需要一种数据的扩充方法以使数据的数量达到正常水平。
发明内容
为了解决现有技术存在的上述技术问题,本申请提供了一种数据的扩充方法、装置、存储介质和电子设备,能够合理的扩充数据集合中的数据。
本申请提供了一种数据的扩充方法,应用于扩充监督学习过程中使用的训练样本的数据集合,包括:
获取待扩充数据集合的中心数据点与边缘数据点之间的距离D,数据集合的中心数据点与同一数据集合的其它数据点的距离之和最小,边缘数据点与同一数据集合的其它数据点的距离之和最大;
确定正常数据集合中在所述D的范围内数据密度最大的数据点为所述正常数据集合的第一参考点,所述数据密度为以数据点为中心,在给定的范围内包括的数据点的数量;
确定所述正常数据集合中数据密度大于预设阈值且与所述第一参考点距离最大的数据点为第二参考点,并获取所述第一参考点和所述第二参考点之间的参考距离r;
利用所述中心数据点、所述第一参考点对应的数据密度ρ和所述参考距离r扩充所述待扩充数据集合的数据。
可选的,当存在N个正常数据集合,所述N为大于或等于1的整数时,所述利用所述中心数据点、所述第一参考点对应数据密度ρ和所述参考距离r扩充所述待扩充数据集合的数据,具体包括:
获取N个所述正常数据集合的第一参考点对应的数据密度中的最小值ρmin和所述参考距离中的最小值rmin
以所述ρmin为所述待扩充数据集合的数据密度,以所述中心数据点为所述待扩充数据集合的中心,在所述rmin的范围内扩充所述待扩充数据集合的数据。
可选的,当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于2的整数时,所述方法还包括:
获取所述第i个正常数据集合的中心数据点与边缘数据点;
确定第j个所述数据密度最大的数据点与所述第i个正常数据集合的中心数据点与边缘数据点的距离之和,所述j=1,2…M;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
可选的,当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于2的整数时,所述方法还包括:
获取第j个所述数据密度最大的数据点与所述第i个正常数据集合的中的其它数据点的距离之和,所述j=1,2…M;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
可选的,当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于3的整数时,所述方法还包括:
获取第j个所述数据密度最大的数据点与其它M-1个数据密度最大的数据点的距离值和;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
本申请还提供了一种数据的扩充装置,应用于扩充监督学习过程中使用的训练样本的数据集合,包括:获取单元、第一确定单元、第二确定单元和数据扩充单元;
所述获取单元,用于获取待扩充数据集合的中心数据点与边缘数据点之间的距离D,数据集合的中心数据点与同一数据集合的其它数据点的距离之和最小,边缘数据点与同一数据集合的其它数据点的距离之和最大;
所述第一确定单元,用于确定正常数据集合中在所述D的范围内数据密度最大的数据点为所述正常数据集合的第一参考点,所述数据密度为以数据点为中心,在给定的范围内包括的数据点的数量;
所述第二确定单元,用于确定所述正常数据集合中数据密度大于预设阈值且与所述第一参考点距离最大的数据点为第二参考点,并获取所述第一参考点和所述第二参考点之间的参考距离r;
所述数据扩充单元,用于利用所述中心数据点、所述第一参考点对应的数据密度ρ和所述参考距离r扩充所述待扩充数据集合的数据。
可选的,所述数据扩充单元,具体用于:
当存在N个正常数据集合,所述N为大于或等于1的整数时,获取N个所述正常数据集合的第一参考点对应的数据密度中的最小值ρmin和所述参考距离中的最小值rmin
以所述ρmin为所述待扩充数据集合的数据密度,以所述中心数据点为所述待扩充数据集合的中心,在所述rmin的范围内扩充所述待扩充数据集合的数据。
可选的,所述第一确定单元,还用于:
当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于2的整数时,获取所述第i个正常数据集合的中心数据点与边缘数据点;
确定第j个所述数据密度最大的数据点与所述第i个正常数据集合的中心数据点与边缘数据点的距离之和,所述j=1,2…M;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
可选的,所述第一确定单元,还用于:
当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于2的整数时,获取第j个所述数据密度最大的数据点与所述第i个正常数据集合的中的其它数据点的距离之和,所述j=1,2…M;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
可选的,所述第一确定单元,还用于:
当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于3的整数时,获取第j个所述数据密度最大的数据点与其它M-1个数据密度最大的数据点的距离值和;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
本申请还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现以上所述的数据的扩充方法。
本申请还提供了一种电子设备,所述电子设备用于运行程序,其中,所述程序运行时执行以上所述的数据的扩充方法。
本申请所述方法至少具有以下优点:
该方法获取待扩充数据集合的中心数据点与边缘数据点之间的距离D,该距离D即待扩充数据集合的数据范围;确定正常数据集合中数据密度最大的数据点为所述正常数据集合的第一参考点,数据密度的给定范围为D,即利用待扩充数据集合的数据范围确定正常数据集合中数据密度最大的点。确定正常数据集合中数据密度大于预设阈值且与第一参考点距离最大的数据点为第二参考点,并获取第一参考点和第二参考点之间的参考距离r,以该参考距离r作为待扩充数据集合的数据扩充范围。利用中心数据点、第一参考点对应的数据密度ρ和参考距离r扩充待扩充数据集合的数据。利用本方法,为待扩充数据集合确定出了合理的数据扩充范围和数据扩充密度,因此能够合理的扩充待扩充数据集合中的数据,同时还避免了修改待扩充数据集合过于严重的现象,进而使得各数据集合的数据量能够相对均衡,因此能够提升训练得到的模型的性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种数据的扩充方法的流程图;
图2为本申请实施例提供的数据集合的数据分布示意图一;
图3为本申请实施例提供的数据集合的数据分布示意图二;
图4为本申请实施例提供的一种数据的扩充装置的示意图;
图5为本申请实施例提供的一种电子设备的示意图。
具体实施方式
监督学习能够利用带标签的数据集合调整模型的参数,使训练后的模型达到所要求的性能。但是,在很多场景的实际应用过程中,不同标签的数据集合中数据的数量通常不均衡,例如有些数据集合中的数据很多,有些数据集合中的数据很少,这些不均衡的数据集合在实际应用过程中会严重影响训练得到的模型的性能。
例如对信息过滤技术领域,为了识别并过滤邮件、信息和短信等中的敏感内容或广告等,往往需要使用带标签的数据集合对模型进行训练以使模型能够精准识别出敏感内容或广告,但实际中用于训练模型的多个数据集合中的数据可能分配不均衡。例如带有A标签的数据集合中的数据有1000条,带有B标签的数据集合中的数据有900条,而带有C标签的数据集合中的数据只有50条。此时利用以上的数据在进行监督学习模型训练时会导致C样本的数据在训练过程中得不到有效的计算,使得后续的模型在应用时很难将属于C样本的数据进行正确的识别。
为了解决现有技术存在的上述技术问题,本申请提供了一种数据的扩充方法、装置、存储介质和电子设备,通过为数据量较少的数据集合添加一个合理的数据扩充范围和数据扩充密度,在该扩充范围内进行数据采样以添加数据数量,因此能够合理的扩充数据集合中的数据,进而使得各数据集合的数据量能够相对均衡,因此能够提升训练得到的模型的性能。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
可以理解的是,本申请实施例中的“第一”和“第二”等用词仅是为了方便说明,并不构成对于本申请实施例的限定。
实施例一:
本申请实施例提供了一种数据的扩充方法,下面结合附图具体说明。
参见图1,该图为本申请实施例提供的一种数据的扩充方法的流程图。
本申请实施例所述方法包括以下步骤:
S101:获取待扩充数据集合的中心数据点与边缘数据点之间的距离D,数据集合的中心数据点与同一数据集合的其它数据点的距离之和最小,边缘数据点与同一数据集合的其它数据点的距离之和最大。
本申请实施例将监督学习过程中使用的训练样本的数据集合区分为待扩充数据集合和正常数据集合。其中,待扩充数据集合中的数据较少,需要被扩充,而正常数据集合中的数据充足。
可以根据实际的应用场景和训练模型的需求确定当数据集合的数据数量小于合适的预设阈值时,确定该数据集合为待扩充数据集合。
参见图2,该图为本申请实施例提供的数据集合的数据分布示意图一。
本申请首先获取待扩充数据集合的中心数据点与边缘数据点之间的距离D。
其中,本申请实施例的中心数据点为与同一数据集合的其它数据点的距离之和最小的数据点;边缘数据点为与同一数据集合的其它数据点的距离之和最大的数据点。
基于以上说明确定出待扩充数据集合的中心数据点201以及边缘数据点202,进而确定出待扩充数据集合的中心数据点201以及边缘数据点202之间的距离D。
该距离D可以理解为当前待扩充数据集合的数据范围。
S102:确定正常数据集合中在D的范围内数据密度最大的数据点为正常数据集合的第一参考点,数据密度为以数据点为中心,在给定的范围内包括的数据点的数量。
本申请实施例中对于每个数据点,其数据密度为以该数据点为中心,在给定范围内包括的数据点的数量。数据密度越高,则在给定范围内包括的数据点的数量越多。
以给定范围为D,获取正常数据集合中的所有数据点的数据密度,并将正常数据集合中数据密度最大的点作为正常数据集合的第一参考点。
S103:确定正常数据集合中数据密度大于预设阈值且与第一参考点距离最大的数据点为第二参考点,并获取第一参考点和第二参考点之间的参考距离r。
为了为待扩充样本集合确定一个合理的数据扩充范围,该范围需要参考正常数据集合中的数据分布情况确定,本步骤即用于确定该合理的数据扩充范围。
确定正常数据集合中数据密度大于预设阈值且与第一参考点距离最大的数据点为第二参考点,则第一参考点和第二参考点之间的参考距离r即为待扩充数据集合的数据扩充范围。
其中,预设阈值可以根据实际情况确定,本申请实施例对此不作具体限定。例如预设阈值可以设置为一个具体的值,例如20、30等,还可以与正常数据集合中第一参考点的数据密度相关,进而能够实现自动调整,例如可以设置为正常数据集合第一参考点的数据密度的三分之一。
S104:利用中心数据点、第一参考点对应的数据密度ρ和参考距离r扩充待扩充数据集合的数据。
在一种可能的实现方式中,以待扩充数据集合以S101中确定的中心数据点为数据扩充的中心,以第一参考点对应的数据密度ρ为数据扩充的密度,以参考距离r为数据扩充的范围对待扩充数据集合的数据进行扩充。
数据扩充时随机采样的方法。
在另一种可能的实现方式中,以待扩充数据集合以S101中确定的中心数据点为数据扩充的中心,以第一参考点对应的数据密度ρ为数据扩充的最大密度,以参考距离r为数据扩充的范围对待扩充数据集合的数据进行扩充直至满足预先设定的目标数据数量,此时待扩充数据集合的数据密度可能小于第一参考点对应的数据密度ρ。
可以理解的是,本申请实施例对数据的维度不作具体限定,例如数据可以为二维数据,即在平面对待扩充数据集合进行扩充,此时中心数据点为圆心,以参考距离r为数据扩充的半径。又例如数据可以为三维数据,即在空间对待扩充数据集合进行扩充,此时中心数据点为球心,以参考距离r为数据扩充的半径。数据还可以为四维、五维等更高的维度,本申请实施例在此不再赘述。
利用本申请实施例提供的方法,首先获取待扩充数据集合的中心数据点与边缘数据点之间的距离D,该距离D即待扩充数据集合的数据范围;确定正常数据集合中在D的范围内数据密度最大的数据点为所述正常数据集合的第一参考点,即利用待扩充数据集合的数据范围确定正常数据集合中数据密度最大的点。然后确定正常数据集合中数据密度大于预设阈值且与第一参考点距离最大的数据点为第二参考点,并获取第一参考点和第二参考点之间的参考距离r,以该参考距离r作为待扩充数据集合的数据扩充范围。利用中心数据点、第一参考点对应的数据密度ρ和参考距离r扩充待扩充数据集合的数据。利用本方法,为待扩充数据集合确定出了合理的数据扩充范围和数据扩充密度,因此能够合理的扩充待扩充数据集合中的数据,不会使扩充的数据数量过大,避免了修改待扩充数据集合过于严重的现象,进而使得各数据集合的数据量能够相对均衡,因此能够提升训练得到的模型的性能。
实施例二:
以上实施例以利用一个正常数据集合扩充待扩充数据集合的数据为例,可以理解的是,实际应用中在进行样本训练时,可以存在多个正常数据集合,下面说明利用多个正常数据集合扩充待扩充数据集合的数据的方法。
当存在多个正常数据集合时,为了更加合理确定出待扩充数据集合的数据扩充范围以及数据扩充密度,本申请的方法会参考所有正常数据集合的数据情况,下面具体说明。
当存在N个正常数据集合,所述N为大于或等于2的整数时,在S101的基础上对每一个正常数据集合均执行S102,获取每一个正常数据集合的第一参考点以及所有第一参考点对应的数据密度,分别以ρ1、ρ2、…ρN表示。
进一步对每一个正常数据集合均执行S103,获取每一个正常数据集合的第二参考点以及每一个正常数据集合的第一参考点和第二参考点之间的参考距离,分别以r1、r2、…rN表示。
此时为了实现对待扩充数据集合中的数据进行合理扩充,获取N个所述正常数据集合的第一参考点对应的数据密度(即ρ1、ρ2、…ρN)中的最小值ρmin和所有参考距离(即r1、r2、…rN)中的最小值rmin
以所述ρmin为所述待扩充数据集合的数据密度,以所述中心数据点为所述待扩充数据集合的中心,在所述rmin的范围内扩充所述待扩充数据集合的数据。
下面具体举例说明。
参见图3,该图为本申请实施例提供的数据集合的数据分布示意图二。
图3中示出了当存在两个正常数据集合时的示意图,正常数据集合B对应的第一参考点和第二参考点之间的参考距离为r1,B的第一参考点对应的数据密度为ρ1
正常数据集合C对应的第一参考点和第二参考点之间的参考距离为r2,C的第一参考点对应的数据密度为ρ2
其中r1<r2,ρ1>ρ2
则对待扩充数据集合A进行数据扩充时,以A的中心数据点为中心,以数据密度ρ2为待扩充数据集合A的数据密度,在参考距离r1的范围内扩充所述待扩充数据集合的数据。
利用本申请实施例提供的方法,能够结合参考所有正常数据集合的数据分布情况,为待扩充数据集合确定出了合理的数据扩充范围和数据扩充密度,即从多个正常数据集合中选择最小的第一参考点对应的数据密度作为待扩充数据集合的数据密度,从多个正常数据集合中选择最小的参考距离作为待扩充数据集合的数据扩充范围,因此能够合理的扩充待扩充数据集合中的数据,不会使扩充的数据数量过大,避免造成修改待扩充数据集合过于严重的现象,进而使得各数据集合的数据量能够相对均衡,因此能够提升训练得到的模型的性能。
实施例三:
基于以上实施例提供的数据的扩充方法,当S102中以给定范围为D,获取正常数据集合中的所有数据点的数据密度时,可能获取多个数据密度并列最大的数据点,下面具体说明从多个数据密度并列最大数据点中确定第一参考点的方法。
在一种可能的实现方式中,当第i个正常数据集合中存在M个在D的范围内数据密度最大的数据点,i=1,2…N,所述M为大于或等于2的整数时,可以通过以下步骤确定第一参考点:
A1:获取第i个正常数据集合的中心数据点与边缘数据点。
A2:确定第j个数据密度最大的数据点与第i个正常数据集合的中心数据点与边缘数据点的距离之和,所述j=1,2…M。
A3:确定距离之和最小的数据点为第i个正常数据集合的第一参考点。
以上实现方式获取的第一参考点最接近第i个正常数据集合的中心数据点与边缘数据点的连线,能够使最终确定的第一参考点靠近正常数据集合的对称轴,避免选择到较为偏离的数据点。
在另一种可能的实现方式中,当第i个正常数据集合中存在M个在D的范围内数据密度最大的数据点,i=1,2…N,M为大于或等于2的整数时,可以通过以下步骤确定第一参考点:
B1:获取第j个所述数据密度最大的数据点与所述第i个正常数据集合的中的其它数据点的距离之和,所述j=1,2…M;
B2:确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
通过本实现方式确定的第一参考点为所有数据密度最大的数据点中最接近于第i个正常数据集合的中心数据点的数据点,因此根据该方法确定的第一参考点进一步确定第二参考点,再进一步获取的参考距离r更加符合正常数据集合的数据分布。
在又一种可能的实现方式中,当第i个正常数据集合中存在M个在D的范围内数据密度最大的数据点,i=1,2…N,M为大于或等于3的整数时,可以通过以下步骤确定第一参考点:
C1:获取第j个所述数据密度最大的数据点与其它M-1个数据密度最大的数据点的距离值和;
C2:确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
此外,当M为2时可以选择任意一个数据密度最大的数据点作为第一参考点。
通过该实现方式确定的第一参考点为所有数据密度最大的数据点中物理位置位于中心的数据点。当正常数据集合中的数据量庞大时,本实现方式的计算量与计算难度相对较小,能够减少数据处理的时间开销。
通过以上的任意一种实现方式,能够从多个数据密度并列最大数据点中确定第一参考点,本申请对具体采用的方式不作具体限定,实际应用中可以分别应用并进行模型的训练,根据最终获取的模型的准确度确定适合当前模型的实现方式。
实施例四:
基于上述实施例提供的数据的扩充方法,本申请实施例还提供了一种数据的扩充装置,下面结合附图具体说明。
参见图4,该图为本申请实施例提供的一种数据的扩充装置的示意图。
本申请实施例所述装置包括:获取单元401、第一确定单元402、第二确定单元403和数据扩充单元404。
获取单元401用于获取待扩充数据集合的中心数据点与边缘数据点之间的距离D。
其中,本申请实施例对中心数据点为与同一数据集合的其它数据点的距离之和最小的数据点;边缘数据点为与同一数据集合的其它数据点的距离之和最大的数据点。
该距离D可以理解为当前待扩充数据集合的数据范围。
第一确定单元402确定正常数据集合中在所述D的范围内数据密度最大的数据点为所述正常数据集合的第一参考点。
本申请实施例中对于每个数据点,其数据密度为以该数据点为中心,在给定范围内包括的数据点的数量。数据密度越高,则在给定范围内包括的数据点的数量越多。
第一确定单元402以给定范围为D,获取正常数据集合中的所有数据点的数据密度,并将正常数据集合中数据密度最大的点作为正常数据集合的第一参考点。
可选的,第一确定单元402还用于当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于2的整数时,获取所述第i个正常数据集合的中心数据点与边缘数据点;
确定第j个所述数据密度最大的数据点与所述第i个正常数据集合的中心数据点与边缘数据点的距离之和,所述j=1,2…M;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
可选的,第一确定单元402还用于当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于2的整数时,获取第j个所述数据密度最大的数据点与所述第i个正常数据集合的中的其它数据点的距离之和,所述j=1,2…M;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
可选的,第一确定单元402还用于当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于3的整数时,获取第j个所述数据密度最大的数据点与其它M-1个数据密度最大的数据点的距离值和;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
第二确定单元403确定所述正常数据集合中数据密度大于预设阈值且与所述第一参考点距离最大的数据点为第二参考点,并获取所述第一参考点和所述第二参考点之间的参考距离r。
其中,预设阈值可以根据实际情况确定,本申请实施例对此不作具体限定。例如预设阈值可以设置为一个具体的值,例如20、30等,还可以与正常数据集合中第一参考点的数据密度相关,进而能够实现自动调整,例如可以设置为正常数据集合第一参考点的数据密度的三分之一。
数据扩充单元404用于利用所述中心数据点、所述第一参考点对应的数据密度ρ和所述参考距离r扩充所述待扩充数据集合的数据。
进一步的,数据扩充单元404用于当存在N个正常数据集合,所述N为大于或等于1的整数时,获取N个所述正常数据集合的第一参考点对应的数据密度中的最小值ρmin和参考距离中的最小值rmin
以所述ρmin为所述待扩充数据集合的数据密度,以所述中心数据点为所述待扩充数据集合的中心,在所述rmin的范围内扩充所述待扩充数据集合的数据。
利用本申请实施例提供的装置,通过获取单元获取待扩充数据集合的中心数据点与边缘数据点之间的距离D,该距离D即待扩充数据集合的数据范围。通过第一确定单元确定正常数据集合中在D的范围内数据密度最大的数据点为所述正常数据集合的第一参考点,即利用待扩充数据集合的数据范围确定正常数据集合中数据密度最大的点。然后通过第二确定单元确定正常数据集合中数据密度大于预设阈值且与第一参考点距离最大的数据点为第二参考点,并获取第一参考点和第二参考点之间的参考距离r,以该参考距离r作为待扩充数据集合的数据扩充范围。通过数据扩充单元利用中心数据点、第一参考点对应的数据密度ρ和参考距离r扩充待扩充数据集合的数据。利用本装置,能够为待扩充数据集合确定出了合理的数据扩充范围和数据扩充密度,因此能够合理的扩充待扩充数据集合中的数据,不会使扩充的数据数量过大,避免了修改待扩充数据集合过于严重的现象,进而使得各数据集合的数据量能够相对均衡,因此能够提升训练得到的模型的性能。
所述数据的扩充装置包括处理器和存储器,上述获取单元、第一确定单元、第二确定单元和数据扩充单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现扩充待扩充数据集合的数据。
实施例五:
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现以上实施例所述的数据的扩充方法。
本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行以上实施例所述数据的扩充方法。
本申请实施例还提供了一种电子设备,下面结合附图具体说明。
参见图5,该图为本申请实施例提供的一种电子设备的示意图。
该电子设备50包括至少一个处理器501、以及与处理器501连接的至少一个存储器502和总线503。
其中,处理器501、存储器502通过总线503完成相互间的通信,处理器501用于调用存储器502中的程序指令,以执行上述的数据的扩充方法。
本申请中的电子设备具体可以为手机、笔记本电脑、可穿戴电子设备(例如智能手表)、平板电脑、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备以及车载设备等,本申请实施例对此不作具体限定。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取待扩充数据集合的中心数据点与边缘数据点之间的距离D,数据集合的中心数据点与同一数据集合的其它数据点的距离之和最小,边缘数据点与同一数据集合的其它数据点的距离之和最大;
确定正常数据集合中在所述D的范围内数据密度最大的数据点为所述正常数据集合的第一参考点,所述数据密度为以数据点为中心,在给定的范围内包括的数据点的数量;
确定所述正常数据集合中数据密度大于预设阈值且与所述第一参考点距离最大的数据点为第二参考点,并获取所述第一参考点和所述第二参考点之间的距离r;
利用所述中心数据点、所述第一参考点对应的数据密度ρ和所述参考距离r扩充所述待扩充数据集合的数据。
可选的,当存在N个正常数据集合,所述N为大于或等于1的整数时,所述利用所述中心数据点、所述第一参考点对应数据密度ρ和所述参考距离r扩充所述待扩充数据集合的数据,具体包括:
获取N个所述正常数据集合的第一参考点对应的数据密度中的最小值ρmin和所述参考距离中的最小值rmin
以所述ρmin为所述待扩充数据集合的数据密度,以所述中心数据点为所述待扩充数据集合的中心,在所述rmin的范围内扩充所述待扩充数据集合的数据。
可选的,当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于2的整数时,所述方法还包括:
获取所述第i个正常数据集合的中心数据点与边缘数据点;
确定第j个所述数据密度最大的数据点与所述第i个正常数据集合的中心数据点与边缘数据点的距离之和,所述j=1,2…M;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
可选的,当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于2的整数时,所述方法还包括:
获取第j个所述数据密度最大的数据点与所述第i个正常数据集合的中的其它数据点的距离之和,所述j=1,2…M;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
可选的,当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于3的整数时,所述方法还包括:
获取第j个所述数据密度最大的数据点与其它M-1个数据密度最大的数据点的距离值和;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据的扩充方法,其特征在于,应用于扩充监督学习过程中使用的训练样本的数据集合,包括:
获取待扩充数据集合的中心数据点与边缘数据点之间的距离D,数据集合的中心数据点与同一数据集合的其它数据点的距离之和最小,边缘数据点与同一数据集合的其它数据点的距离之和最大;
确定正常数据集合中在所述D的范围内数据密度最大的数据点为所述正常数据集合的第一参考点,所述数据密度为以数据点为中心,在给定的范围内包括的数据点的数量;
确定所述正常数据集合中数据密度大于预设阈值且与所述第一参考点距离最大的数据点为第二参考点,并获取所述第一参考点和所述第二参考点之间的参考距离r;
利用所述中心数据点、所述第一参考点对应的数据密度ρ和所述参考距离r扩充所述待扩充数据集合的数据。
2.根据权利要求1所述的方法,其特征在于,当存在N个正常数据集合,所述N为大于或等于1的整数时,所述利用所述中心数据点、所述第一参考点对应数据密度ρ和所述参考距离r扩充所述待扩充数据集合的数据,具体包括:
获取N个所述正常数据集合的第一参考点对应的数据密度中的最小值ρmin和所述参考距离中的最小值rmin
以所述ρmin为所述待扩充数据集合的数据密度,以所述中心数据点为所述待扩充数据集合的中心,在所述rmin的范围内扩充所述待扩充数据集合的数据。
3.根据权利要求2所述的方法,其特征在于,当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于2的整数时,所述方法还包括:
获取所述第i个正常数据集合的中心数据点与边缘数据点;
确定第j个所述数据密度最大的数据点与所述第i个正常数据集合的中心数据点与边缘数据点的距离之和,所述j=1,2…M;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
4.根据权利要求2所述的方法,其特征在于,当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于2的整数时,所述方法还包括:
获取第j个所述数据密度最大的数据点与所述第i个正常数据集合的中的其它数据点的距离之和,所述j=1,2…M;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
5.根据权利要求2所述的方法,其特征在于,当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于3的整数时,所述方法还包括:
获取第j个所述数据密度最大的数据点与其它M-1个数据密度最大的数据点的距离值和;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
6.一种数据的扩充装置,其特征在于,应用于扩充监督学习过程中使用的训练样本的数据集合,包括:获取单元、第一确定单元、第二确定单元和数据扩充单元;
所述获取单元,用于获取待扩充数据集合的中心数据点与边缘数据点之间的距离D,数据集合的中心数据点与同一数据集合的其它数据点的距离之和最小,边缘数据点与同一数据集合的其它数据点的距离之和最大;
所述第一确定单元,用于确定正常数据集合中在所述D的范围内数据密度最大的数据点为所述正常数据集合的第一参考点,所述数据密度为以数据点为中心,在给定的范围内包括的数据点的数量;
所述第二确定单元,用于确定所述正常数据集合中数据密度大于预设阈值且与所述第一参考点距离最大的数据点为第二参考点,并获取所述第一参考点和所述第二参考点之间的参考距离r;
所述数据扩充单元,用于利用所述中心数据点、所述第一参考点对应的数据密度ρ和所述参考距离r扩充所述待扩充数据集合的数据。
7.根据权利要求6所述的装置,其特征在于,所述数据扩充单元,具体用于:
当存在N个正常数据集合,所述N为大于或等于1的整数时,获取N个所述正常数据集合的第一参考点对应的数据密度中的最小值ρmin和所述参考距离中的最小值rmin
以所述ρmin为所述待扩充数据集合的数据密度,以所述中心数据点为所述待扩充数据集合的中心,在所述rmin的范围内扩充所述待扩充数据集合的数据。
8.根据权利要求7所述的装置,其特征在于,所述第一确定单元,还用于:
当第i个正常数据集合中存在M个在所述D的范围内数据密度最大的数据点,所述i=1,2…N,所述M为大于或等于3的整数时,获取第j个所述数据密度最大的数据点与其它M-1个数据密度最大的数据点的距离值和;
确定所述距离之和最小的数据点为所述第i个正常数据集合的第一参考点。
9.一种存储介质,其特征在于,其上存储有程序,该程序被处理器执行时实现权利要求1-5中任意一项所述的数据的扩充方法。
10.一种电子设备,其特征在于,所述电子设备用于运行程序,其中,所述程序运行时执行权利要求1-5中任意一项所述的数据的扩充方法。
CN201911403282.9A 2019-12-30 2019-12-30 一种数据的扩充方法、装置、存储介质和电子设备 Pending CN110941603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911403282.9A CN110941603A (zh) 2019-12-30 2019-12-30 一种数据的扩充方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911403282.9A CN110941603A (zh) 2019-12-30 2019-12-30 一种数据的扩充方法、装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN110941603A true CN110941603A (zh) 2020-03-31

Family

ID=69913150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911403282.9A Pending CN110941603A (zh) 2019-12-30 2019-12-30 一种数据的扩充方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN110941603A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421176A (zh) * 2021-07-16 2021-09-21 昆明学院 一种异常数据智能筛选方法
CN114998956A (zh) * 2022-05-07 2022-09-02 北京科技大学 一种基于类内差异的小样本图像数据扩充方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421176A (zh) * 2021-07-16 2021-09-21 昆明学院 一种异常数据智能筛选方法
CN113421176B (zh) * 2021-07-16 2022-11-01 昆明学院 一种学生成绩分数中异常数据智能筛选方法
CN114998956A (zh) * 2022-05-07 2022-09-02 北京科技大学 一种基于类内差异的小样本图像数据扩充方法及装置

Similar Documents

Publication Publication Date Title
CN110768912B (zh) Api网关限流方法及装置
CN111310784B (zh) 资源数据的处理方法及装置
CN110941603A (zh) 一种数据的扩充方法、装置、存储介质和电子设备
CN109951494B (zh) 仿真数据处理方法、装置、仿真设备及存储介质
CN109492891B (zh) 用户流失预测方法及装置
CN111382241A (zh) 会话场景切换方法及装置
CN109857964B (zh) 一种页面操作的热力图绘制方法、装置、存储介质及处理器
CN115712866A (zh) 数据处理方法、装置及设备
CN115035347A (zh) 图片识别方法、装置及电子设备
CN109992470B (zh) 一种阈值调整方法和装置
CN113111687A (zh) 数据处理方法、系统及电子设备
CN110796115A (zh) 图像检测方法、装置、电子设备及可读存储介质
CN113269806B (zh) 测量血管内部血流流量的方法、装置与处理器
CN110347699B (zh) 确定身份证相关实体活跃度的方法及装置
CN111242232B (zh) 数据分片处理方法、装置及学分银行服务器
CN114288674A (zh) 一种vr滑雪控制方法及系统
CN114817209A (zh) 监控规则的处理方法和装置、处理器及电子设备
CN109829126A (zh) 信任站点的添加方法及相关装置
CN110086867B (zh) 一种还车网点推送方法
CN113304482A (zh) 应用于云计算的云游戏玩家画像处理方法、服务器及介质
CN107833259B (zh) 基于智能终端的动态漫画引擎处理方法及系统
CN112783441A (zh) 一种调整虚拟机磁盘读写限速的方法、装置及计算设备
CN111125165A (zh) 集合的合并方法、装置、处理器及机器可读存储介质
CN110909071A (zh) 数据同步方法、装置以及系统
CN108984060A (zh) 一种图标显示方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200331

RJ01 Rejection of invention patent application after publication