CN110727901B - 一种用于大数据分析的数据样本均匀采样方法及装置 - Google Patents
一种用于大数据分析的数据样本均匀采样方法及装置 Download PDFInfo
- Publication number
- CN110727901B CN110727901B CN201910900079.6A CN201910900079A CN110727901B CN 110727901 B CN110727901 B CN 110727901B CN 201910900079 A CN201910900079 A CN 201910900079A CN 110727901 B CN110727901 B CN 110727901B
- Authority
- CN
- China
- Prior art keywords
- data
- point
- representative
- points
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000007405 data analysis Methods 0.000 title claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000007781 pre-processing Methods 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 229940060587 alpha e Drugs 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种用于大数据分析的数据样本均匀采样方法,先确定一个初始点数据作为第一个代表点,包括由用户指定初始数据点,或选择离数据集中心最近的数据点为初始数据点;计算所有候选点与其最近的代表点之间的距离,选择距离最远的候选点加入代表点集合,直到找到足够多的代表点,返回这些代表点作为最后选取的采样点。本发明可以获得分布均匀、覆盖完整的采样结果,从而较好地完成数据预处理工作,提高采样效率,从而提高大数据分析的整体效率,提供更准确的自动化分析结果。
Description
技术领域
本发明属于大数据分析中数据预处理领域,尤其涉及一种大数据分析数据样本均匀采样方法及装置。
背景技术
数据是大数据时代的工业基础,在大规模数据中选取有代表性的样本是大数据分析的前提,物流、多媒体等各方面数据都被广泛采集并进行分析。大数据分析的应用非常广,比如说,利用大数据分析的技术探究档案用户行为背后的各类行为轨迹;IBM也充分应用了大数据分析的工具帮助企业做好预测;还有大数据在医疗疾病预测方面也起到了巨大的成效。目前关于大数据技术的实现已有一些研究成果,例如大数据存储服务方法-201610668885.1和一种大数据加密方法-201410258583.8等。本发明注意到,选取有代表性的样本,例如在构建零件质量评价模型的时候,专家分析的人力资源有限,必须选取有代表性的样本预先进行标记,才能支撑后面的训练,让评价模型更为准确,支持更广域的自动化样本分析。
减少采集的数据量是采样的最终目标,而在这个过程中,保持原有数据集信息的完整以及分布的均匀是困难的。最朴素的采样方法就是随机采样,而随机采样遇到的最大问题就是密度高的样本区域可能采样过多,而偏向离群部分的样本无法被采样覆盖。这也是大部分采样方法具有的问题,这样的采样结果可能在专家监督的时候极大地浪费人力,也会造成稀有样本无法被选取到,监督效果不完善,导致训练后模型效果不佳,从而影响后续的自动化分析成果的准确性。在很多方法中都有数据分布是均匀的假设,然而实际数据往往分布得很不均匀,甚至在某些特殊分析场景中,数据不仅不均匀,有的类别样本数还非常少,这种问题就很棘手,而常见的做法中,上采样会导致过拟合,下采样会丢失数据。综上所述,亟需一种可以不受数据样本分布密度影响的均匀采样方法来帮助模型训练,从而降低成本、提高效率。
发明内容
为了在采样的时候尽量减少样本密度对采样结果的影响,均匀地在数据中采样,本发明提供了一种不受数据样本分布密度影响的均匀采样方法。先确定一个初始点,计算所有候选点与其最近的代表点之间的距离,选择距离最远的候选点加入代表点集合,直到找到足够多的代表点。
本发明所采用的技术方案是一种用于大数据分析的数据样本均匀采样方法,先确定一个初始点,计算所有候选点与其最近的代表点之间的距离,选择距离最远的候选点加入代表点集合,直到找到足够多的代表点,返回这些代表点作为最后选取的采样点;实现方式如下,
记给定的数据集为P={p1,p2,…,pn},pi为该数据集中第i个数据点,1≤i≤n,是一个d维向量;用Rt和Ct分别表示第t次选取后的代表点集合和候选点集合,采样过程中的每个数据点只能属于候选点集合或代表点集合,设定采样比例为α,执行包括以下步骤:
步骤1,指定数据集P的初始数据点作为第一个代表点,包括由用户指定初始数据点,或选择离数据集中心最近的数据点为初始数据点;
步骤2,假设已经选取了t个代表点,1≤t≤(α·n-1),选择第t+1个代表点的实现如下,
对于每个候选点pi∈Ct,得到距离最近的代表点进而得到与最近代表点的距离||pi-pj*||;
选取离最近代表点距离最远的候选点pi*作为第t+1个代表点,计算公式如下,
步骤3,返回步骤2选择下一个代表点,直到代表点个数达到α·n个时,代表点采样结束。
而且,所述α∈[0.02,0.1]。
而且,步骤1中,选择离数据集中心最近的数据点为初始数据点,采用以下方式实现,首先,计算数据集P的正中心坐标,第j维的坐标最大值和最小值的均值为 则正中心坐标为pmean=(pmean,1,pmean,2,…,pmean,d);
其中max1≤i≤npi,j是这n个数据点在第j维坐标上的坐标值中的最大值;min1≤i≤npi,j是这n个数据点在第j维坐标上的坐标值中的最小值;
然后,计算每个数据点到正中心的距离||pi-pmean||,取距离最小值相应的数据点作为第一个代表点。
本发明还提供用于大数据分析的数据样本均匀采样装置,用于执行如上所述的用于大数据分析的数据样本均匀采样方法。
本发明可以获得分布均匀、覆盖完整的采样结果,从而较好地完成数据预处理工作,提高采样效率,从而提高大数据分析的整体效率,提供更准确的自动化分析结果。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例的数据集。
图3是本发明实施例在数据集上采样的结果图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供用于大数据分析的数据样本均匀采样方法,是一种不受数据样本分布密度影响的均匀采样方法,记给定的数据集为P={p1,p2,…,pn},pi为该数据集中第i个数据点(1≤i≤n),是一个d维向量。设第t次选取后得到了第t个代表点,用Rt和Ct分别表示第t次选取后的代表点集合和候选点集合,采样过程中的每个数据点只能属于候选点集合或代表点集合,即P=Rt∪Ct且设定采样比例为α。方法输出最后选取的采样点集合。参见图1,实施例的具体步骤如下:
步骤1:对于数据集P,由用户指定初始数据点,即第一个代表点。若用户未指定初始数据点,则选择离数据集正中心点最近的数据点作为第一个代表点。
作为优选,步骤1中,若用户未指定初始数据点,可采用如下方法选择初始数据点。
首先计算数据集P的正中心坐标。第j(1≤j≤d)维的坐标最大值和最小值的均值为则正中心坐标为pmean=(pmean,1,pmean,2,…,pmean,d)。
其中,max1≤i≤npi,j是这n个数据点在第j维坐标上的坐标值中的最大值;min1≤i≤ npi,j是这n个数据点在第j维坐标上的坐标值中的最小值,i是数据点的标号。
然后计算每个数据点到正中心的距离||pi-pmean||,取得到距离最小值的数据点作为第一个代表点。
步骤2:假设已经选取了t(1≤t≤(α·n-1))个代表点,现在要选择第(t+1)个代表点。对于每个候选点pi∈Ct,得到距离其最近的代表点进而得到其与最近代表点的距离为||pi-pj*||。最后选取离最近代表点距离取值最大(即距离最远)的候选点pi*作为第(t+1)个代表点,计算公式如下:
作为优选,步骤2中所述α∈[0.02,0.1]。
步骤3:返回步骤2选择下一个代表点,直到代表点个数达到α·n个时,代表点采样结束。
参见图2,以该数据集为例,运行上述流程后得到的结果如图3。
本发明研究了一种不受数据样本分布密度影响的均匀采样方法,通过本文方法,只需利用数据集中各数据样本的数据空间坐标即可获得分布均匀、覆盖完整的采样结果。具体实施时,可采用软件方式实现流程的自动运行。运行流程的装置也应当在本发明的保护范围内。
应当理解的是,本说明书未详细阐述的部分均属于现有技术,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (4)
1.一种用于大数据分析的数据样本均匀采样方法,其特征在于:先从数据集指定一个初始数据点作为第一个代表点,数据集中属于代表点之外的数据点是候选点,计算所有候选点与其最近的代表点之间的距离,选择距离最远的候选点加入代表点集合,直到找到足够多的代表点,返回这些代表点作为最后选取的采样点;实现方式如下,
记给定的数据集为P={p1,p2,…,pn},pi为该数据集中第i个数据点,1≤i≤n,是一个d维向量;用Rt和Ct分别表示第t次选取后的代表点集合和候选点集合,采样过程中的每个数据点只能属于候选点集合或代表点集合,设定采样比例为α,执行包括以下步骤:
步骤1,指定数据集P的初始数据点作为第一个代表点,包括由用户指定初始数据点,或选择离数据集中心最近的数据点为初始数据点;
步骤2,假设已经选取了t个代表点,1≤t≤(α·n-1),选择第t+1个代表点的实现如下,
对于每个候选点pi∈Ct,得到距离最近的代表点进而得到与最近代表点的距离/>
选取离最近代表点距离最远的候选点作为第t+1个代表点加入代表点集合,计算公式如下,
步骤3,返回步骤2选择下一个代表点,直到代表点个数达到α·n个时,找到足够多的代表点,代表点采样结束,返回这些代表点集合中的代表点作为最后选取的采样点。
2.根据权利要求1所述的用于大数据分析的数据样本均匀采样方法,其特征在于:所述α∈[0.02,0.1]。
3.根据权利要求1或2所述的用于大数据分析的数据样本均匀采样方法,其特征在于:步骤1中,选择离数据集中心最近的数据点为初始数据点,采用以下方式实现,
首先,计算数据集P的正中心坐标,第j维的坐标最大值和最小值的均值为 则正中心坐标为pmean=(pmean,1,pmean,2,…,pmean,d);
其中max1≤i≤npi,j是这n个数据点在第j维坐标上的坐标值中的最大值;min1≤i≤npi,j是这n个数据点在第j维坐标上的坐标值中的最小值;
然后,计算每个数据点到正中心的距离||pi-pmean||,取距离最小值相应的数据点作为第一个代表点。
4.一种用于大数据分析的数据样本均匀采样装置,其特征在于:用于执行如权利要求1至3任一项所述的用于大数据分析的数据样本均匀采样方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910900079.6A CN110727901B (zh) | 2019-09-23 | 2019-09-23 | 一种用于大数据分析的数据样本均匀采样方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910900079.6A CN110727901B (zh) | 2019-09-23 | 2019-09-23 | 一种用于大数据分析的数据样本均匀采样方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110727901A CN110727901A (zh) | 2020-01-24 |
CN110727901B true CN110727901B (zh) | 2024-04-16 |
Family
ID=69218250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910900079.6A Active CN110727901B (zh) | 2019-09-23 | 2019-09-23 | 一种用于大数据分析的数据样本均匀采样方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110727901B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103196698A (zh) * | 2013-03-20 | 2013-07-10 | 浙江大学 | 一种基于近地传感器技术的土壤采样方法 |
CN105912726A (zh) * | 2016-05-13 | 2016-08-31 | 北京邮电大学 | 基于密度中心性的虚拟资产异常交易数据的采样-检测方法 |
CN106778893A (zh) * | 2016-12-28 | 2017-05-31 | 东北大学 | 一种基于降维与聚类的高光谱样本选择方法 |
CN107145901A (zh) * | 2017-04-24 | 2017-09-08 | 武汉大学 | 一种面向大数据中稀有类数据的快速查询方法 |
CN109508350A (zh) * | 2018-11-05 | 2019-03-22 | 北京邮电大学 | 一种对数据进行采样的方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013510612A (ja) * | 2009-11-16 | 2013-03-28 | アドバンスド メディカル ダイアグノスティクス ホールディング ソシエテ アノニム | 超音波データの再サンプリング方法 |
US20130097103A1 (en) * | 2011-10-14 | 2013-04-18 | International Business Machines Corporation | Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set |
WO2018014018A1 (en) * | 2016-07-15 | 2018-01-18 | University Of Central Florida Research Foundation, Inc. | Synthetic data generation of time series data |
-
2019
- 2019-09-23 CN CN201910900079.6A patent/CN110727901B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103196698A (zh) * | 2013-03-20 | 2013-07-10 | 浙江大学 | 一种基于近地传感器技术的土壤采样方法 |
CN105912726A (zh) * | 2016-05-13 | 2016-08-31 | 北京邮电大学 | 基于密度中心性的虚拟资产异常交易数据的采样-检测方法 |
CN106778893A (zh) * | 2016-12-28 | 2017-05-31 | 东北大学 | 一种基于降维与聚类的高光谱样本选择方法 |
CN107145901A (zh) * | 2017-04-24 | 2017-09-08 | 武汉大学 | 一种面向大数据中稀有类数据的快速查询方法 |
CN109508350A (zh) * | 2018-11-05 | 2019-03-22 | 北京邮电大学 | 一种对数据进行采样的方法和装置 |
Non-Patent Citations (2)
Title |
---|
一种基于k 近邻图的稀有类检测算法;王淞等;软件学报;2320-2331 * |
基于均匀B样条拟合的测量点采样研究;王琦;中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑;C030-11 * |
Also Published As
Publication number | Publication date |
---|---|
CN110727901A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109741332B (zh) | 一种人机协同的图像分割与标注方法 | |
CN111127364B (zh) | 图像数据增强策略选择方法及人脸识别图像数据增强方法 | |
CN115410026A (zh) | 基于标签传播对比半监督学习的图像分类方法与系统 | |
CN111784595B (zh) | 一种基于历史记录的动态标签平滑加权损失方法及装置 | |
CN111061709A (zh) | 一种相似重复记录的数据清洗自动化方法及系统 | |
Bouguila et al. | Mml-based approach for finite dirichlet mixture estimation and selection | |
CN111508000B (zh) | 基于参数空间噪声网络的深度强化学习目标跟踪方法 | |
CN115063664A (zh) | 用于工业视觉检测的模型学习方法、训练方法及系统 | |
CN109961129A (zh) | 一种基于改进粒子群的海上静止目标搜寻方案生成方法 | |
CN110727901B (zh) | 一种用于大数据分析的数据样本均匀采样方法及装置 | |
CN110070120B (zh) | 基于判别采样策略的深度度量学习方法及系统 | |
CN112053006A (zh) | 基于迁移学习的冷热电联供系统优化时间加速方法及系统 | |
Liu et al. | Fuzzy c-mean algorithm based on Mahalanobis distances and better initial values | |
Yang et al. | PseKNC and Adaboost-based method for DNA-binding proteins recognition | |
CN114943741A (zh) | 一种动态场景下基于目标检测和几何概率的视觉slam方法 | |
CN114168782B (zh) | 一种基于三元组网络的深度哈希图像检索方法 | |
CN112738724B (zh) | 一种区域目标人群的精准识别方法、装置、设备和介质 | |
Gerstgrasser et al. | A Bayesian approach to analyzing phenotype microarray data enables estimation of microbial growth parameters | |
CN116091867B (zh) | 一种模型训练、图像识别方法、装置、设备及存储介质 | |
CN113345538B (zh) | 一种基于动态选取训练集的材料性能预测方法 | |
CN115527612B (zh) | 基于数值特征表达的基因组二四代融合组装方法及系统 | |
CN116612420B (zh) | 弱监督视频时序动作检测方法、系统、设备及存储介质 | |
CN115828120B (zh) | 船舶交通行为模式自适应识别方法、系统及计算机设备 | |
CN116843368B (zh) | 基于arma模型的营销数据处理方法 | |
CN111242235B (zh) | 一种相似特征测试数据集生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |