CN117909841A - 一种数据分析处理方法及系统 - Google Patents
一种数据分析处理方法及系统 Download PDFInfo
- Publication number
- CN117909841A CN117909841A CN202410316138.6A CN202410316138A CN117909841A CN 117909841 A CN117909841 A CN 117909841A CN 202410316138 A CN202410316138 A CN 202410316138A CN 117909841 A CN117909841 A CN 117909841A
- Authority
- CN
- China
- Prior art keywords
- data
- sample set
- samples
- type
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 26
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 23
- 238000003491 array Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明涉及数据处理技术领域,公开了一种数据分析处理方法及系统。利用多个待分析处理数据建立样本集;根据特征值的类型将所述样本集划分为第一类样本集和第二类样本集;获取第一类样本的特征值与每一个第二类样本的特征值之间的皮尔逊相关系数;获取每一个皮尔逊相关系数对应的权重,将权重分别写入第一类样本和第二类样本;利用K中心聚类算法对所述特征权重样本集进行聚类;计算获得聚类簇的抽离样本的数量;根据抽离样本的数量,采用随机采样方法从所述第二类样本集中抽离相应数量的第二类样本。本发明在处理相同标准数据集时具有更好分类效果,显著提高了数据集中各类的分类精度。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据分析处理方法及系统。
背景技术
不平衡数据分类问题广泛存在于实际应用场景的多个领域中,在数据不平衡条件下直接构建分类模型会导致分类器将更多地关注度集中于多数类样本,难以保证少数类样本的识别精度。非均衡数据集中不同类别之间数据样本分布不均衡,其中多数类样本属于某种类别,而余下的属于其它类别。然而,少数类样本所包含的信息通常更受关注,其误判的代价也更高。因此,在数据分布不平衡条件下提升少数类样本的分类精度十分必要。目前,国内外学者主要从数据平衡化处理、分类算法改进或两者结合的途径解决分类中的数据不平衡问题。非均衡数据处理方法的出现,使得数据挖掘技术向前迈进了一大步的同时也极大地推动了大数据的发展。例如,数据平衡化处理以过采样和欠采样为主要手段,独立于分类器,具有对各种具体分类算法的广泛适用性,因此应用较为广泛。其中过采样和欠采样分别通过扩增少数类样本和删除部分多数类样本构建平衡数据集,但欠采样在删除样本过程中易删除对分类影响较大的多数类样本从而造成重要信息丢失,即欠采样方法就是多数类数据中对一部分样本数据进行增删处理,使之与少数类样本数量相对平衡,从而转化为均衡分类问题。
常用的欠采样方法主要有随机欠采样方法、Hart提出的紧缩最近邻规则、Wilson提出的Tomeklinks方法等。欠采样方法容易导致其删去了所具有的一部分特征属性,从而影响到了不平衡数据分类效果。过采样方法则是增加少数类的数据,其中最简单的一种就是随机过采样算法,其中最著名的算法就是SMOTE算法。
上述方法在数据层面上对于非均衡数据分类问题得以解决,提高了样本的分类精确度,但都使得数据的特征分布发生改变,这些问题对整体样本的分类结果造成了一定影响。
有鉴于此,特提出本申请。
发明内容
本发明的目的在于提供一种数据分析处理方法及系统,解决现有的对于非均衡数据分类方法会改变数据的特征分布,影响对整体样本的分类效果的问题。
本发明通过下述技术方案实现:
第一方面,提供一种数据分析处理方法,包括以下步骤:利用多个待分析处理数据建立样本集;所述样本集中包含多个样本和每一个样本对应的特征值;根据特征值的类型将所述样本集划分为第一类样本集和第二类样本集;所述第一类样本集中包含多个第一类样本i,所述第二类样本集中包含多个第二类样本j;i=1,2,…,I,I表示所述第一类样本集所包含的样本总数;j=1,2,…,J,J表示所述第二类样本集所包含的样本总数;针对每一个第一类样本i,执行S1和S2,得到特征权重样本集;S1:获取第一类样本i的特征值与每一个第二类样本j的特征值之间的皮尔逊相关系数C ij;S2:获取每一个皮尔逊相关系数C ij对应的权重W ij,将权重W ij分别写入第一类样本i和第二类样本j;利用K中心聚类算法对所述特征权重样本集进行聚类,得到多个聚类簇;针对每一个聚类簇,执行S3和S4,得到新的样本集;S3:计算获得聚类簇的抽离样本的数量;所述抽离样本表示需从所述第二类样本集中抽离的第二类样本;S4:根据抽离样本的数量,采用随机采样方法从所述第二类样本集中抽离相应数量的第二类样本。
进一步的,所述利用待分析处理数据建立样本集,包括以下步骤:对每一个待分析处理数据进行特征提取,得到每一个待分析处理数据对应的特征值;将具有相同特征值的多个待分析处理数据划分到同一个数组中,得多个数组;一个数组对应一个样本,一个样本对应一个特征值;利用得到的多个样本和每一个样本对应的特征值建立所述样本集。
进一步的,将所述样本集划分为第一类样本集和第二类样本集,包括以下步骤:获取每一个特征值对应的样本中所包含的待分析处理数据的数量;设置分类阈值;将待分析处理数据的数量<所述分类阈值的样本划分为所述第一类样本;将待分析处理数据的数量≥所述分类阈值的样本划分为所述第二类样本。
进一步的,获取皮尔逊相关系数C ij1包括以下步骤:将第二类样本j划分为多个子样本j1;分别获取第一类样本i的特征值与每一个子样本j1的特征值之间的皮尔逊相关系数C ij1;获取所有皮尔逊相关系数C ij1的平均值,得到皮尔逊相关系数C ij。
进一步的,抽离样本的数量的计算公式为:;D表示需抽离样本的数量;/>表示样本集中第二类样本的数量;m表示聚类簇,m=1,2,…,M,M表示聚类簇的总数;x m表示聚类簇m中第二类样本的数量,y m表示聚类簇m中第一类样本的数量。
进一步的,所述数据分析处理方法还包括以下步骤:从所述样本集中随机选取一个待分析处理数据;获取随机选取的待分析处理数据与所述样本集中其余每一个待分析处理数据之间的欧式距离;设置距离阈值;除随机选取的待分析处理数据之外,从所述样本集中挑选出一个欧式距离≤所述距离阈值的待分析处理数据;采用线性插值法在随机选取的待分析处理数据和挑选出的待分析处理数据之间插入新的待分析处理数据;将新的待分析处理数据放入所述样本集。
第二方面,提供一种数据分析处理系统,包括:样本集创建模块、样本集分类模块、相关系数计算模块、权重计算模块、K中心聚类模块、抽离样本数量计算模块和样本抽取模块。其中,样本集创建模块用于利用多个待分析处理数据建立样本集;所述样本集中包含多个样本和每一个样本对应的特征值。样本集分类模块用于根据特征值的类型将所述样本集划分为第一类样本集和第二类样本集;所述第一类样本集中包含多个第一类样本i,所述第二类样本集中包含多个第二类样本j;i=1,2,…,I,I表示所述第一类样本集所包含的样本总数;j=1,2,…,J,J表示所述第二类样本集所包含的样本总数。相关系数计算模块用于针对每一个第一类样本i,获取第一类样本i的特征值与每一个第二类样本j的特征值之间的皮尔逊相关系数C ij。权重计算模块用于获取每一个皮尔逊相关系数C ij对应的权重W ij,将权重W ij分别写入第一类样本i和第二类样本j。K中心聚类模块用于利用K中心聚类算法对所述特征权重样本集进行聚类,得到多个聚类簇。抽离样本数量计算模块用于针对每一个聚类簇,计算获得聚类簇的抽离样本的数量;所述抽离样本表示需从所述第二类样本集中抽离的第二类样本。样本抽取模块用于根据抽离样本的数量,采用随机采样方法从所述第二类样本集中抽离相应数量的第二类样本。
进一步的,所述样本集创建模块包括:特征提取单元、数据分组单元和样本集创建单元。其中,特征提取单元用于对每一个待分析处理数据进行特征提取,得到每一个待分析处理数据对应的特征值。数据分组单元用于将具有相同特征值的多个待分析处理数据划分到同一个数组中,得多个数组;一个数组对应一个样本,一个样本对应一个特征值。样本集创建单元用于利用得到的多个样本和每一个样本对应的特征值建立所述样本集。
进一步的,所述样本集分类模块包括:样本数据统计单元、分类阈值设置单元和样本数据分类单元。其中,样本数据统计单元用于获取每一个特征值对应的样本中所包含的待分析处理数据的数量。分类阈值设置单元用于设置分类阈值。样本数据分类单元用于将待分析处理数据的数量<所述分类阈值的样本划分为所述第一类样本;将待分析处理数据的数量≥所述分类阈值的样本划分为所述第二类样本。
进一步的,所述数据分析处理系统还包括数据插值模块;所述数据插值模块包括:第一数据选取单元、欧式距离计算单元、距离阈值设置单元、第二数据选取单元、数据插值单元和样本集扩充单元。其中,第一数据选取单元用于从所述样本集中随机选取一个待分析处理数据。欧式距离计算单元用于获取随机选取的待分析处理数据与所述样本集中其余每一个待分析处理数据之间的欧式距离。距离阈值设置单元用于设置距离阈值。第二数据选取单元用于从所述样本集中挑选出一个除随机选取的待分析处理数据之外的欧式距离≤所述距离阈值的待分析处理数据。数据插值单元用于采用线性插值法在随机选取的待分析处理数据和挑选出的待分析处理数据之间插入新的待分析处理数据。样本集扩充单元,用于将新的待分析处理数据放入所述样本集。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明可实现对待分析处理数据进行均衡处理,解决目前基于样本数据处理的方法会引入新的噪音数据同时还会改变原始数据的分布等问题。本发明通过过对待分析处理数据按照特征值属性进行分类,对分类得到的第一类数据样本集和第二类数据样本集进行相关系数计算和权重计算,对起主要作用的样本特征的权重值进行增大,又同时减小了对分类决策时起次要作用的样本特征的权重值;另外,结合K中心聚类抽样出的数据对于数据分类作用较小的数据,使得分类器对不平衡数据的分类性能有所提高,在处理相同标准数据集时具有更好分类效果,显著提高了数据集中各类的分类精度。
2、通过插值法对样本集进行扩充,可有效应对小样本数据对分类结果产生影响的情况。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种数据分析处理方法流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
为解决现有的对于非均衡数据分类方法会改变数据的特征分布,影响对整体样本的分类效果的问题。本实施例提供一种数据分析处理方法和系统。基于传统的欠采样方法,在多数类样本中对一部分样本数据进行增删处理,使之与少数类样本数量相对平衡,从而转化为均衡分类问题。通过数据分类、权重提取和K中心聚类实现对待分析处理数据进行处理,得到平衡数据样本,从而提高不平衡类数据的分类行能,提高数据分类处理的精度。
本实施例第一方面提供一种数据分析处理方法,如图1所示,包括以下步骤:
步骤1:利用多个待分析处理数据建立样本集。
在众多实际应用场景中,待分析处理的数据通常为不平衡数据,步骤1首先对待分析处理的数据进行特征提取,采用原始样本数据与对应特征数据相结合的方式建立样本集。具体步骤如下:
步骤1.1:对每一个待分析处理数据进行特征提取,得到每一个待分析处理数据对应的特征值。例如,对非均衡数据集{a 1,a 2,…,a n}中的每一个待分析处理数据a i,i=1,2,…,n,进行特征提取,对应得到每一个待分析处理数据的特征值。
步骤1.2:将具有相同特征值的多个待分析处理数据划分到同一个数组中,得多个数组;一个数组对应一个样本,一个样本对应一个特征值。
由于在非均衡数据集中通常存在多个数据属于同一数据类型的情况,因此在经过特征提取后会出现多个数据拥有相同的特征值。针对此种情况,本步骤以特征值为标签,将具有相同特征值的所有待分析处理数据划分到同一数组中,从而实现对原始的非均衡数据集进行分组,使得一个数组形成一个样本,该样本中包含了多个具有相同特征值的待分析处理数据,并且一个样本对应了一个特征值。
经过上述步骤1.1和步骤1.2,可实现对原始非均衡数据集的分类处理,根据特征值的类型将所有的待分析处理数据划分为多个样本,形成步骤1所述的样本集。该样本集的可同样如下数据结构表示:T={(p 1,q 1),(p 2,q 2),…,(p n,q n)},其中,T表示样本集,p i表示第i个样本,q i表示第i个样本p i对应的特征值,p i中包含了多个具有特征值p i的待分析处理数据。
步骤2:根据特征值的类型将所述样本集划分为第一类样本集和第二类样本集。
根据步骤1得到的样本集可知,该样本集T={(p 1,q 1),(p 2,q 2),…,(p n,q n)}中包含了多个样本,并且每一个样本中包含了多个拥有相同特征值的待分析处理数据,各样本中所包含的待分析处理数据的数量并不相同,甚至具有较大的数量差异,即T为不平衡样本集。公知的,在数据不平衡条件下直接构建分类模型会导致分类器将更多的关注度集中于多数类样本,难以保证少数类样本的识别精度。因此,针对不平衡样本集T根据特征值的类型将所述样本集划分为第一类样本集和第二类样本集,具体执行步骤如下:
步骤2.1:获取每一个特征值对应的样本中所包含的待分析处理数据的数量。即对每一个样本中所包含的待分析处理数据的数量进行统计。
步骤2.2:设置分类阈值,设为R 1;
步骤2.3:将待分析处理数据的数量<所述分类阈值的样本划分为所述第一类样本;将待分析处理数据的数量≥所述分类阈值的样本划分为所述第二类样本。
由步骤2.2和步骤2.3可知,第一类样本中所包含的待分析处理数据的数量少于第二类样本中所包含的待分析处理数据的数量,当一个样本集中各样本所包含的待分析处理数据的数量差距较大时,通过设置分量阈值可以将样本集划分为少数类样本集和多数类样本集。本实施例中,所述第一类样本集可理解为少数类样本集,第二类样本集可理解为多数类样本集。其中,所述第一类样本集中包含多个第一类样本i,所述第二类样本集中包含多个第二类样本j;i=1,2,…,I,I表示所述第一类样本集所包含的样本总数;j=1,2,…,J,J表示所述第二类样本集所包含的样本总数。
步骤3:针对每一个第一类样本i,执行S1和S2,得到特征权重样本集。
S1:获取第一类样本i的特征值与每一个第二类样本j的特征值之间的皮尔逊相关系数C ij。具体而言,获取皮尔逊相关系数C ij的方法为:
首先将第二类样本j划分为多个子样本j1。需说明的是,在对第二类样本j进行划分过程当中,应尽量保证各子样本j1中所包含的待分析处理数据的数量相同。
然后,分别获取第一类样本i的特征值与每一个子样本j1的特征值之间的皮尔逊相关系数C ij1。皮尔逊相关系数的计算公式为现有技术,此次不在赘述。
最后:计算出所有皮尔逊相关系数C ij1的平均值,得到皮尔逊相关系数C ij。
S2:获取每一个皮尔逊相关系数C ij对应的权重W ij,将权重W ij分别写入第一类样本i和第二类样本j。
本实施例提供的一种数据分析处理方法对各特征值的权重进行考虑,权重更大的特征值对应的样本在数据分类过程当中起到更大的作用。因此,在计算样本特征权重值时,首先设第一类样本i的特征值与每一个子样本j1的特征值之间的皮尔逊相关系数为1,根据S1计算获得的逊相关系数C ij,如果逊相关系数C ij为一个较小的数值,则第一类样本i的特征值与每一个子样本j1的特征值之间的相关程度低,则说明第一类样本i的特征值对于分类作用大。基于此,权重W ij可定义为。当C ij越小,则对应权重W ij更大,即表示该权重对应的第一类样本i对应数据分类所起到的作用越大。
步骤4:利用K中心聚类算法对所述特征权重样本集进行聚类,得到多个聚类簇。
步骤5:针对每一个聚类簇,执行S3和S4,得到新的样本集;
S3:计算获得聚类簇的抽离样本的数量;所述抽离样本表示需从所述第二类样本集中抽离的第二类样本;
S4:根据抽离样本的数量,采用随机采样方法从所述第二类样本集中抽离相应数量的第二类样本。
K中心点聚类(K-Medoids)算法使用不同于相对误差标准的绝对误差标准来定义一个分类簇中紧密程度变化。每次选取的质点都是从其聚类方法的样本点中选取,选取当该样本点成为新质点后能提高各分类簇的聚类质量的样本点作为新的质点,因而各簇的样本更为紧靠一起。
本步骤采用K中心聚类算法对特征权重样本集进行聚类。根据S2计算得到的权重W ij,将其对应写入步骤1获得的样本集中,得到特征权重样本集;使用K中心聚类方法对附有特征权重的特征权重样本集聚类,得到k个簇。对于第m个簇,其中的第一类样本(少数类样本)数量表示为y m,多数类样本数量表示为x m。此时,对第m个簇对应的去特征权重值后的多数类样本使用无放回抽样方法抽取数量为D,其计算的公式为;D表示需抽离样本的数量;/>表示样本集中第二类样本的数量;m表示聚类簇,m=1,2,…,M,M表示聚类簇的总数;x m表示聚类簇m中第二类样本的数量,y m表示聚类簇m中第一类样本的数量。
此外,需补充说明的是,在实际运用当中会遇到原始待分析处理数据量较少的情况,同样会对数据处理结果造成影响。针对此类情况,本实施例采用线性插值的方式对原始样本集进行扩充,具体步骤为:从所述样本集中随机选取一个待分析处理数据;获取随机选取的待分析处理数据与所述样本集中其余每一个待分析处理数据之间的欧式距离;设置距离阈值;除随机选取的待分析处理数据之外,从所述样本集中挑选出一个欧式距离≤所述距离阈值的待分析处理数据;采用线性插值法在随机选取的待分析处理数据和挑选出的待分析处理数据之间插入新的待分析处理数据;将新的待分析处理数据放入所述样本集。
与上述第一方面对应的,本实施例第二方面,提供一种数据分析处理系统,包括:样本集创建模块、样本集分类模块、相关系数计算模块、权重计算模块、K中心聚类模块、抽离样本数量计算模块和样本抽取模块。其中,样本集创建模块用于利用多个待分析处理数据建立样本集;所述样本集中包含多个样本和每一个样本对应的特征值。样本集分类模块用于根据特征值的类型将所述样本集划分为第一类样本集和第二类样本集;所述第一类样本集中包含多个第一类样本i,所述第二类样本集中包含多个第二类样本j;i=1,2,…,I,I表示所述第一类样本集所包含的样本总数;j=1,2,…,J,J表示所述第二类样本集所包含的样本总数。相关系数计算模块用于针对每一个第一类样本i,获取第一类样本i的特征值与每一个第二类样本j的特征值之间的皮尔逊相关系数C ij。权重计算模块用于获取每一个皮尔逊相关系数C ij对应的权重W ij,将权重W ij分别写入第一类样本i和第二类样本j。K中心聚类模块用于利用K中心聚类算法对所述特征权重样本集进行聚类,得到多个聚类簇。抽离样本数量计算模块用于针对每一个聚类簇,计算获得聚类簇的抽离样本的数量;所述抽离样本表示需从所述第二类样本集中抽离的第二类样本。样本抽取模块用于根据抽离样本的数量,采用随机采样方法从所述第二类样本集中抽离相应数量的第二类样本。
进一步的,所述样本集创建模块包括:特征提取单元、数据分组单元和样本集创建单元。其中,特征提取单元用于对每一个待分析处理数据进行特征提取,得到每一个待分析处理数据对应的特征值。数据分组单元用于将具有相同特征值的多个待分析处理数据划分到同一个数组中,得多个数组;一个数组对应一个样本,一个样本对应一个特征值。样本集创建单元用于利用得到的多个样本和每一个样本对应的特征值建立所述样本集。
进一步的,所述样本集分类模块包括:样本数据统计单元、分类阈值设置单元和样本数据分类单元。其中,样本数据统计单元用于获取每一个特征值对应的样本中所包含的待分析处理数据的数量。分类阈值设置单元用于设置分类阈值。样本数据分类单元用于将待分析处理数据的数量<所述分类阈值的样本划分为所述第一类样本;将待分析处理数据的数量≥所述分类阈值的样本划分为所述第二类样本。
进一步的,所述数据分析处理系统还包括数据插值模块;所述数据插值模块包括:第一数据选取单元、欧式距离计算单元、距离阈值设置单元、第二数据选取单元、数据插值单元和样本集扩充单元。其中,第一数据选取单元用于从所述样本集中随机选取一个待分析处理数据。欧式距离计算单元用于获取随机选取的待分析处理数据与所述样本集中其余每一个待分析处理数据之间的欧式距离。距离阈值设置单元用于设置距离阈值。第二数据选取单元用于从所述样本集中挑选出一个除随机选取的待分析处理数据之外的欧式距离≤所述距离阈值的待分析处理数据。数据插值单元用于采用线性插值法在随机选取的待分析处理数据和挑选出的待分析处理数据之间插入新的待分析处理数据。样本集扩充单元,用于将新的待分析处理数据放入所述样本集。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据分析处理方法,其特征在于,包括以下步骤:
利用多个待分析处理数据建立样本集;所述样本集中包含多个样本和每一个样本对应的特征值;
根据特征值的类型将所述样本集划分为第一类样本集和第二类样本集;所述第一类样本集中包含多个第一类样本i,所述第二类样本集中包含多个第二类样本j;i=1,2,…,I,I表示所述第一类样本集所包含的样本总数;j=1,2,…,J,J表示所述第二类样本集所包含的样本总数;
针对每一个第一类样本i,执行S1和S2,得到特征权重样本集;S1:获取第一类样本i的特征值与每一个第二类样本j的特征值之间的皮尔逊相关系数C ij;S2:获取每一个皮尔逊相关系数C ij对应的权重W ij,将权重W ij分别写入第一类样本i和第二类样本j;
利用K中心聚类算法对所述特征权重样本集进行聚类,得到多个聚类簇;
针对每一个聚类簇,执行S3和S4,得到新的样本集;
S3:计算获得聚类簇的抽离样本的数量;所述抽离样本表示需从所述第二类样本集中抽离的第二类样本;
S4:根据抽离样本的数量,采用随机采样方法从所述第二类样本集中抽离相应数量的第二类样本。
2.根据权利要求1所述的一种数据分析处理方法,其特征在于,所述利用待分析处理数据建立样本集,包括以下步骤:
对每一个待分析处理数据进行特征提取,得到每一个待分析处理数据对应的特征值;
将具有相同特征值的多个待分析处理数据划分到同一个数组中,得多个数组;一个数组对应一个样本,一个样本对应一个特征值;
利用得到的多个样本和每一个样本对应的特征值建立所述样本集。
3.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,将所述样本集划分为第一类样本集和第二类样本集,包括以下步骤:
获取每一个特征值对应的样本中所包含的待分析处理数据的数量;
设置分类阈值;
将待分析处理数据的数量<所述分类阈值的样本划分为所述第一类样本;将待分析处理数据的数量≥所述分类阈值的样本划分为所述第二类样本。
4.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,获取皮尔逊相关系数C ij包括以下步骤:
将第二类样本j划分为多个子样本j1;
分别获取第一类样本i的特征值与每一个子样本j1的特征值之间的皮尔逊相关系数C ij1;
获取所有皮尔逊相关系数C ij1的平均值,得到皮尔逊相关系数C ij。
5.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,抽离样本的数量的计算公式为:;D表示需抽离样本的数量;/>表示样本集中第二类样本的数量;m表示聚类簇,m=1,2,…,M,M表示聚类簇的总数;x m表示聚类簇m中第二类样本的数量,y m表示聚类簇m中第一类样本的数量。
6.根据权利要求1或2所述的一种数据分析处理方法,其特征在于,还包括以下步骤:
从所述样本集中随机选取一个待分析处理数据;
获取随机选取的待分析处理数据与所述样本集中其余每一个待分析处理数据之间的欧式距离;
设置距离阈值;
除随机选取的待分析处理数据之外,从所述样本集中挑选出一个欧式距离≤所述距离阈值的待分析处理数据;
采用线性插值法在随机选取的待分析处理数据和挑选出的待分析处理数据之间插入新的待分析处理数据;
将新的待分析处理数据放入所述样本集。
7.一种数据分析处理系统,其特征在于,包括
样本集创建模块,用于利用多个待分析处理数据建立样本集;所述样本集中包含多个样本和每一个样本对应的特征值;
样本集分类模块,用于根据特征值的类型将所述样本集划分为第一类样本集和第二类样本集;所述第一类样本集中包含多个第一类样本i,所述第二类样本集中包含多个第二类样本j;i=1,2,…,I,I表示所述第一类样本集所包含的样本总数;j=1,2,…,J,J表示所述第二类样本集所包含的样本总数;
相关系数计算模块,用于针对每一个第一类样本i,获取第一类样本i的特征值与每一个第二类样本j的特征值之间的皮尔逊相关系数C ij;
权重计算模块,用于获取每一个皮尔逊相关系数C ij对应的权重W ij,将权重W ij分别写入第一类样本i和第二类样本j;
K中心聚类模块,用于利用K中心聚类算法对所述特征权重样本集进行聚类,得到多个聚类簇;
抽离样本数量计算模块,用于针对每一个聚类簇,计算获得聚类簇的抽离样本的数量;所述抽离样本表示需从所述第二类样本集中抽离的第二类样本;
样本抽取模块,用于根据抽离样本的数量,采用随机采样方法从所述第二类样本集中抽离相应数量的第二类样本。
8.根据权利要求7所述的一种数据分析处理系统,其特征在于,所述样本集创建模块包括:
特征提取单元,用于对每一个待分析处理数据进行特征提取,得到每一个待分析处理数据对应的特征值;
数据分组单元,用于将具有相同特征值的多个待分析处理数据划分到同一个数组中,得多个数组;一个数组对应一个样本,一个样本对应一个特征值;
样本集创建单元,用于利用得到的多个样本和每一个样本对应的特征值建立所述样本集。
9.根据权利要求7或8所述的一种数据分析处理系统,其特征在于,所述样本集分类模块包括:
样本数据统计单元,用于获取每一个特征值对应的样本中所包含的待分析处理数据的数量;
分类阈值设置单元,用于设置分类阈值;
样本数据分类单元,用于将待分析处理数据的数量<所述分类阈值的样本划分为所述第一类样本;将待分析处理数据的数量≥所述分类阈值的样本划分为所述第二类样本。
10.根据权利要求7或8所述的一种数据分析处理系统,其特征在于,还包括数据插值模块;所述数据插值模块包括:
第一数据选取单元,用于从所述样本集中随机选取一个待分析处理数据;
欧式距离计算单元,用于获取随机选取的待分析处理数据与所述样本集中其余每一个待分析处理数据之间的欧式距离;
距离阈值设置单元,用于设置距离阈值;
第二数据选取单元,用于从所述样本集中挑选出一个除随机选取的待分析处理数据之外的欧式距离≤所述距离阈值的待分析处理数据;
数据插值单元,用于采用线性插值法在随机选取的待分析处理数据和挑选出的待分析处理数据之间插入新的待分析处理数据;
样本集扩充单元,用于将新的待分析处理数据放入所述样本集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410316138.6A CN117909841A (zh) | 2024-03-20 | 2024-03-20 | 一种数据分析处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410316138.6A CN117909841A (zh) | 2024-03-20 | 2024-03-20 | 一种数据分析处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117909841A true CN117909841A (zh) | 2024-04-19 |
Family
ID=90692616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410316138.6A Pending CN117909841A (zh) | 2024-03-20 | 2024-03-20 | 一种数据分析处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117909841A (zh) |
-
2024
- 2024-03-20 CN CN202410316138.6A patent/CN117909841A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920720B (zh) | 基于深度哈希和gpu加速的大规模图像检索方法 | |
CN110636445B (zh) | 基于wifi的室内定位方法、装置、设备及介质 | |
CN110618082B (zh) | 基于神经网络的储层微观孔隙结构评价方法及装置 | |
CN111556016B (zh) | 一种基于自动编码器的网络流量异常行为识别方法 | |
CN112036297B (zh) | 基于网联车辆驾驶数据的典型与极限场景划分与提取方法 | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN110968845B (zh) | 基于卷积神经网络生成的针对lsb隐写的检测方法 | |
CN104462301A (zh) | 一种网络数据的处理方法和装置 | |
CN115170868A (zh) | 一种基于聚类的小样本图像分类两阶段元学习方法 | |
CN113239321A (zh) | 一种基于过滤式和封装式层次递进的特征选择方法 | |
CN115600194A (zh) | 一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备 | |
CN115510981A (zh) | 一种决策树模型特征重要性计算方法、装置及存储介质 | |
CN109286622B (zh) | 一种基于学习规则集的网络入侵检测方法 | |
CN112347246A (zh) | 一种基于谱分解的自适应文档聚类方法及系统 | |
CN108491719A (zh) | 一种改进朴素贝叶斯算法的安卓恶意程序检测方法 | |
CN114301719A (zh) | 一种基于变分自编码器的恶意更新检测方法及模型 | |
CN111275206A (zh) | 一种基于启发式采样的集成学习方法 | |
CN107077617B (zh) | 指纹提取方法及装置 | |
CN117909841A (zh) | 一种数据分析处理方法及系统 | |
CN108154162A (zh) | 一种聚类分析方法及装置 | |
CN105373583A (zh) | 基于数据压缩的支撑向量机建模方法 | |
CN113673683A (zh) | 一种基于cgan判别器和生成器的电子鼻识别模型优化方法 | |
CN110990349A (zh) | 一种智能系统安全体系中的不平衡日志过采样方法 | |
CN112488169A (zh) | 一种基于PCA的海量Linux系统运维数据降维方法 | |
CN111785296B (zh) | 基于重复旋律的音乐分段边界识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |