CN111325227B - 数据特征提取方法、装置及电子设备 - Google Patents
数据特征提取方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111325227B CN111325227B CN201811540504.7A CN201811540504A CN111325227B CN 111325227 B CN111325227 B CN 111325227B CN 201811540504 A CN201811540504 A CN 201811540504A CN 111325227 B CN111325227 B CN 111325227B
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- subsets
- data
- feature set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000010801 machine learning Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 5
- 230000036772 blood pressure Effects 0.000 description 4
- 206010020772 Hypertension Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据特征提取方法、装置及电子设备,所述方法包括:获取目标数据,目标数据包括多个样本,每个样本包括多个特征;基于每个特征在各个样本中的取值,对多个特征进行划分,获得第一特征集合和第二特征集合;将第二特征集合中的多个特征进行划分,获得多个第一特征子集;对多个第一特征子集进行特征选择处理,获得与多个第一特征子集一一对应的多个第二特征子集;基于多个第二特征子集和第一特征集合,获得目标数据的数据特征。数据特征代表了第一特征集合的特征和第二特征集中的特征中性能好的特征,提高了数据特征的性能。解决了现有技术中数据特征的性能差的技术问题,达到了提高数据特征的性能的技术效果。
Description
技术领域
本发明电子信息技术领域,具体而言,涉及一种数据特征提取方法、装置及电子设备。
背景技术
大数据时代的到来推动了机器学习相关的技术的发展。大数据是具有的数据体量巨大(volume)、数据类型繁多(variety)、数据价值密度低(value)等特征的数据,对机器学习算法来说,处理这些数据是个挑战。大数据具有维度高的特点,每个维度表征数据的一个属性特征(以下称为特征),然而过高的维度数目,常常意味着存在无用的特征。
现有技术中,有两种选择数据的有用属性特征的方法,第一种方法是在数据的原始特征的基础上,根据某种评估标准从原始特征中选择出一个特征子集,从而达到对数据的特征进行降低数据的维度的目的,第二种方法是特通过从数据的原始特征中剔除无关和冗余的特征,选择出与分类任务相关度达到设定值的特征子集。但是,这些方法通过特征选择的算法过滤掉数据的无用的特征,但是这些方法会抛弃掉对数据有用的部分特征,或者数据特征维度高,因而获得的数据特征性能差。
发明内容
本发明的目的在于提供一种数据特征提取方法、装置及电子设备,其旨在提高数据特征的性能。
第一方面,本发明实施例提供了一种数据特征提取方法,包括:
获取目标数据,所述目标数据包括多个样本,每个样本包括多个特征,所述特征表征所述目标数据的属性特性;
针对所述多个特征,基于每个特征在各个样本中的取值,对所述多个特征进行划分,获得第一特征集合和第二特征集合,所述第一特征集合包括一个或者多个特征,所述第二特征集合包括多个特征;
将所述第二特征集合中的多个特征进行划分,获得多个第一特征子集;
对所述多个第一特征子集进行特征选择处理,获得与所述多个第一特征子集一一对应的多个第二特征子集;
基于所述多个第二特征子集和所述第一特征集合,获得所述目标数据的数据特征。
可选的,所述针对所述多个特征,基于每个特征在各个样本中的取值,对所述多个特征进行划分,获得第一特征集合和第二特征集合,包括:
针对所述多个特征中的其中一个特征,统计该特征在各个样本中的取值在第一阈值范围内的数量;
获得所述数量与所述多个样本的个数的比值;
若所述比值在第二阈值范围内,将所述特征分类到所述第一特征集合;
否则,将所述特征分类到所述第二特征集合。
可选的,所述将所述第二特征集合中的多个特征进行划分,获得多个第一特征子集,包括:
针对所述第二特征集合中的多个特征,根据每个特征在各个样本中的取值,对所述多个特征进行聚类,获得多个第一特征子集。
可选的,每个第一特征子集包括一个或者多个特征;所述对所述多个第一特征子集进行特征选择处理,获得与所述多个第一特征子集一一对应的多个第二特征子集,包括:
针对所述多个第一特征子集中的其中一个第一特征子集,获取该第一特征子集中的其中一个特征的贡献度;
若所述贡献度在针对所述第一特征子集的第三阈值范围内,剔除掉所述特征,获得与所述多个第一特征子集一一对应的多个第二特征子集,每个第二特征子集包括一个或者多个特征,其中,所述贡献度表征所述特征对所述目标数据的性能的影响程度。
可选的,所述基于所述多个第二特征子集和所述第一特征集合,获得所述目标数据的数据特征,包括:
针对所述多个第二特征子集,对每个第二特征子集进行降维处理,获得与所述多个第二特征子集一一对应的多个第三特征子集;
将所述多个第三特征子集进行组合,获得第四特征集合;
将所述第一特征集合和所述第四特征集合进行组合,获得所述数据特征。
可选的,所述针对所述多个第二特征子集,对每个第二特征子集进行降维处理,获得与所述多个第二特征子集一一对应的多个第三特征子集,包括:
基于机器学习模型,降低每个第二特征子集中的每个特征的维度至设定值,获得与所述多个第二特征子集一一对应的多个第三特征子集。
第二方面,本发明实施例提供了一种数据特征提取装置,包括:
获取模块,用于获取目标数据,所述目标数据包括多个样本,每个样本包括多个特征,所述特征表征所述目标数据的属性特性;
处理模块,用于针对所述多个特征,基于每个特征在各个样本中的取值,对所述多个特征进行划分,获得第一特征集合和第二特征集合,所述第一特征集合包括一个或者多个特征,所述第二特征集合包括多个特征;将所述第二特征集合中的多个特征进行划分,获得多个第一特征子集;对所述多个第一特征子集进行特征选择处理,获得与所述多个第一特征子集一一对应的多个第二特征子集;基于所述多个第二特征子集和所述第一特征集合,获得所述目标数据的数据特征。
可选的,所述处理模块具体用于:针对所述多个特征中的其中一个特征,统计该特征在各个样本中的取值在第一阈值范围内的数量;获得所述数量与所述多个样本的个数的比值;若所述比值在第二阈值范围内,将所述特征分类到所述第一特征集合;否则,将所述特征分类到所述第二特征集合。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
第四方面,本发明实施例提供了一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
相对现有技术,本发明具有以下有益效果:
本发明实施例提供了一种数据特征提取方法、装置及电子设备,所述方法包括:获取目标数据,目标数据包括多个样本,每个样本包括多个特征,特征表征目标数据的属性特性;基于每个特征在各个样本中的取值,对多个特征进行划分,获得第一特征集合和第二特征集合,第一特征集合包括一个或者多个特征,第二特征集合包括多个特征;将第二特征集合中的多个特征进行划分,获得多个第一特征子集;对多个第一特征子集进行特征选择处理,获得与多个第一特征子集一一对应的多个第二特征子集;基于多个第二特征子集和第一特征集合,获得目标数据的数据特征。通过对多个特征进行划分,获得特性不同的第一特征集合和第二特征集合,对第二特征集合进行划分,获得特性不同的多个第一特征子集,每个第一特征子集为一个特征种类,对多个第一特征子集进行特征选择处理,过滤掉性能差的特征,获得包括性能好的特征的第二特征子集,基于多个第二特征子集和第一特征集合,获得目标数据的数据特征,数据特征包括了第一特征集合的特征和第二特征集中的每个种类的特征中性能好的特征,提高了数据特征的性能。解决了现有技术中数据特征的性能差的技术问题,达到了提高数据特征的性能的技术效果。
本发明实施例的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的一种数据特征提取方法的流程图。
图2示出了本发明实施例提供的另一种数据特征提取方法的流程图。
图3示出了本发明实施例提供的一种数据特征提取装置200的方框结构示意图。
图4示出了本发明实施例提供的一种电子设备的方框结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了本发明实施例提供了一种数据特征提取方法、装置及电子设备,用以解决现有技术中数据特征的性能差的技术问题。
实施例
本发明实施例提供的一种数据特征提取方法,包括如图1所示的S100~S500,以下结合图1对S100~S500进行阐述。
S100:获取目标数据,所述目标数据包括多个样本,每个样本包括多个特征,特征表征目标数据的属性特性。
S200:针对多个特征,基于每个特征在各个样本中的取值,对多个特征进行划分,获得第一特征集合和第二特征集合。
其中,第一特征集合包括一个或者多个特征,第二特征集合包括多个特征。
S300:将第二特征集合中的多个特征进行划分,获得多个第一特征子集。
S400:对多个第一特征子集进行特征选择处理,获得与多个第一特征子集一一对应的多个第二特征子集。
S500:基于多个第二特征子集和第一特征集合,获得目标数据的数据特征。
作为一种可选的实施方式,目标数据包括W个样本,每个样本包括N个特征,其中,W和N是大于1的正整数。针对N个特征,基于每个特征在各个样本中的取值,对N个特征进行划分,获得第一特征集合和第二特征集合,第一特征集合包括一个或多个特征,第二特征集合包括L个特征,L是大于1的正整数。将第二特征集合中的L个特征进行划分,获得k个第一特征子集,k是正整数,k小于或者等于L。对k个第一特征子集进行特征选择处理,获得与k个第一特征子集一一对应的k个第二特征子集。基于k个第二特征子集和第一特征集合,获得目标数据的数据特征。
通过采用以上方案,通过对多个特征进行划分,获得特性不同的第一特征集合和第二特征集合,对第二特征集合进行划分,获得特性不同的多个第一特征子集,每个第一特征子集为一个特征种类,对多个第一特征子集进行特征选择处理,过滤掉性能差的特征,获得包括性能好的特征的第二特征子集,基于多个第二特征子集和第一特征集合,获得目标数据的数据特征,数据特征包括了第一特征集合的特征和第二特征集中的每个种类的特征中性能好的特征,提高了数据特征的性能。解决了现有技术中数据特征的性能差的技术问题,达到了提高数据特征的性能的技术效果。
在本发明实施例中,每个特征在每个样本有一个取值,即每个样本包括相同的特征。例如,每个样本都包括特征A、特征B和特征C。
作为一种可选的实施方式,S200的具体是:针对多个特征中的其中一个特征,统计该特征在各个样本中的取值在第一阈值范围内的数量;获得数量与多个样本的个数的比值;若比值在第二阈值范围内,将特征分类到第一特征集合;否则,将特征分类到第二特征集合。例如,多个特征中的某个特征表示为第x个特征,x为正整数,则统计第x个特征在各个样本中的取值小于在第一阈值范围内的数量,获得数量与全部样本的个数的比值;若比值在第二阈值范围内,将第x个特征分类到第一特征集合;若比值不在第二阈值范围内,将第x个特征分类到第二特征集合。需要说明的是,多个样本的个数指的是目标数据包括的全部样本的数量。例如,目标数据包括W个样本,则全部样本的个数是W。
例如,目标数据包括5个样本,5个样本分别是样本1、样本2、样本3、样本4和样本5,对于每个样本都包括的特征A,特征A在样本1、样本2、样本3、样本4和样本5中的取值分别是0.1、0、0.3、0.1和0,第一阈值范围内是[0,0.2],则特征A在样本1、样本2、样本3、样本4和样本5中的在[0,0.2]内的数量是4。5个样本的个数是5,4/5=0.8,第二阈值范围是[0.5,1],0.8在[0.5,1]内,则将特征A分类到第一特征集合。
对于每个集合都包括的特征B,特征B在样本1、样本2、样本3、样本4和样本5中的取值分别是0.5、0.2、0、0.9和0.4,第一阈值范围内是[0,0.2],则特征B在样本1、样本2、样本3、样本4和样本5中的在[0,0.2]内的数量是2。5个样本的个数是5,2/5=0.4,第二阈值范围是[0.5,1],0.4不在[0.5,1]内,则将特征B分类到第二特征集合。
作为一种可选的实施方式,第一特征集合中包括的特征是常见的特征,第二特征集合中包括的特征不是常见的特征,对于常见的特征的特性是已知的,常见的特征对的性能的影响程度是达到设定条件,则不需要对常见的特征进行处理,对第二特征集合中包括的不是常见的特征进行处理,从而降低目标数据的冗余度,同时保证目标数据的可靠性。具体的,通过采用S300所述的方式对第二特征集合中的特征进行处理。
作为一种可选的实施方式,S300具体是:针对第二特征集合中的多个特征,根据每个特征在各个样本中的取值,对多个特征进行聚类,获得多个第一特征子集。其中,作为一种可选的实施方式,对多个特征进行聚类的方式具体为:通过获取每个特征在各个样本中的取值的平均值,基于平均值对多个特征进行聚类。
对于第一种对多个特征进行聚类的方式,获得每个特征在各个样本中的取值的平均值,每个特征对应一个平均值,通过均值聚类算法,基于平均值对多个特征进行聚类。对于第二种对多个特征进行聚类的方式,获得特征在各个样本中的取值在第一阈值范围内的数量与多个样本的个数的比值,每个特征对应一个比值,通过均值聚类算法,基于比值对多个特征进行聚类。其中,每个第一特征子集包括一个或者多个特征。对于目标数据存在特征冗余的现象,每个第一特征子集中包括的特征可能存在冗余,即第一特征子集中包括对目标数据的性能没有影响的特征,此时,需要剔除掉冗余的特征,以降低目标数据的特征的维度,降低目标数据所占的内存,提高目标数据的适用性。具体的,通过S400对目标数据的特征进行降维处理。
作为一种可选的实施方式,S400具体为:针对多个第一特征子集中的其中一个第一特征子集,获取该第一特征子集中的其中一个特征的贡献度;若贡献度在针对第一特征子集的第三阈值范围内,剔除掉特征,获得与多个第一特征子集一一对应的多个第二特征子集,每个第二特征子集包括一个或者多个特征,其中,贡献度表征特征对目标数据的性能的影响程度。例如,针对k个第一特征子集中的其中一个第一特征子集i,获取第一特征子集i中的其中一个特征j的贡献度;若特征j的贡献度在针对第一特征子集i的第三阈值范围内,剔除掉特征j,获得与k个第一特征子集一一对应的k个第二特征子集,每个第二特征子集包括一个或者多个特征,其中,贡献度表征特征对目标数据的性能的影响程度,i和j是正整数。例如,第三阈值范围是[0.5,1],若某个特征j的贡献度是0.1,0.1不在[0.5,1]内,则剔除掉特征j,若特征j的贡献度是0.8,则保留特征j。其中,特征的贡献度通过历史数据统计获得。对于特征的贡献度,具体的可以通过在采用包括特征的历史数据进行某项预测活动时,统计出该特征对这项预测活动的结果的影响来确定,例如,通过某个待测试者的包括身高、体重、血压这几个特征的历史数据来确定该待测试者是否患有高血压疾病,基于多个历史的待测试者的预测结果,基于经验,确定血压这个特征与高血压疾病的相关性比较大,则在将血压这个特征的贡献度设置成较高的值,而身高和体重与高血压疾病的相关性小,则将身高和体重的贡献度设置成较低的值。
如此,获得与多第一特征子集一一对应的多个第二特征子集,多个第二特征子集的个数与多个第一特征子集的个数相同,例如,输出k个第二特征子集,其中,每个第二特征子集包括的特征的数量可能不同,例如多个第二特征子集中的某个第二特征子集包括的特征的数量是3,另一个第二特征子集包括的特征的数量是1,等等。
在本发明实施例中,对于不同的第一特征子集,针对不同的第一特征子集的第三阈值范围是不同的,例如,针对第一特征子集j的第三阈值范围是[0.9,1],针对第一特征子集s的第三阈值范围是[0.5,1],针对第一特征子集f的第三阈值范围是[0.2,0.8],等等。
通过采用以上方案,可以将每个第一特征子集中的冗余的特征剔除掉,降低了每个第一特征子集的复杂度,获得复杂度低的第二特征子集。每个第二特征子集中保留的特征都是有用的特征,每个第二特征子集中保留下来的特征能够表征该第二特征子集的特性,第二特征子集的性能好,提高了第二特征子集的表征目标数据的性能的可靠性。由于获得的低复杂度和可靠性高的多个第二特征子集是零散的,第二特征子集是基于第二特征集合获得的,第二特征集合只是目标数据的部分特征,因而每个第二特征子集都不能完整地表征目标数据的性能。所以,可以通过S500获得可以完整、准确表征目标数据的性能的数据特征。
作为一种可选的实施方式,如图2所示,S500具体包括:
S500-1:针对多个第二特征子集,对每个第二特征子集进行降维处理,获得与多个第二特征子集一一对应的多个第三特征子集。
S500-2:将多个第三特征子集进行组合,获得第四特征集合。
S500-3:将第一特征集合和第四特征集合进行组合,获得数据特征。
其中,作为S500-1的一种可选的实施方式,具体是:基于机器学习模型,将每个第二特征子集中的特征输入机器学习模型中,机器学习模型对每个第二特征子集的维度降低至预设值,获得与多个第二特征子集一一对应的多个第三特征子集。例如,预设值是2,某个第二特征子集包括3个特征,机器学习模型是自动编码器,3个特征分别为特征U,特征V和特征F,将特征U,特征V和特征F输入自动编码器中,自动编码器对特征U,特征V和特征F进行降维处理,获得包括特征L和特征G的第三特征子集。需要说明的是,多个第三特征子集的数量与多个第二特征子集的数量是相同的,即若有k个第二特征子集,对应的获得k个第三特征子集。
在本发明实施例中,第二特征子集包括的特征的维度可以是一维或者多维。当第二特征子集包含的特征的维度是多维时,在对每个第二特征子集进行降维处理之前,将每个第二特征子集中的每个特征进行降维,具体的,基于机器学习模型,降低每个第二特征子集中的每个特征的维度至设定值,即,将每个第二特征子集中的每个特征输入机器学习模型中,机器学习模型对每个特征进行降维处理,机器学习模型输出的每个特征的维度是设定值。通过采用以上方案,从横向和纵向对特征进行降维,在降低目标数据的特征的维度的同时,保留目标数据的特征的携带的信息。
作为S500-1的另一种可选的实施方式,具体是:基于上述的降低维度后的特征,获得与多个第二特征子集一一对应的多个第三特征子集,具体的,基于机器学习模型,降低每个第二特征子集中的每个特征的维度至设定值,获得与所述多个第二特征子集一一对应的多个第三特征子集。多个第二特征子集的个数与多个第三特征子集的个数相同,例如,有k个第二特征子集,处理后产生k个一一对应的第三特征子集。具体的,预先设置维度的设定值,预设值为m,m是正整数。将每个第二特征子集中的每个特征输入自动编码器中,针对每个第二特征子集中的每个特征,自动编码器输出的特征的维度等于或者小于设定值。例如,m=3,某个第二特征子集中包括2个特征,其中第一个特征的维度是5,第二个特征的维度是4,则将第一个特征和第二个特征输入自动编码器后,自动编码器输出的第一个特征的维度为5,第二个特征的维度为3。即每个第三特征子集中包括的特征的维度为小于等于3。如此,降低了每个第二特征子集中的特征的维度,获得的第三特征子集维度低,复杂度低。
作为一种可选的实施例,针对S500中的所述的将多个第三特征子集进行组合,获得第四特征集合,具体为:将多个第三特征子集进行集合的并运算,获得包括每个特征子集的每个特征的第四特征子集。例如有2个第三特征子集,第一个第三特征子集包括特征A和特征B,第二个第三特征子集包括特征C和特征D,将第一个第三特征子集和第二个第三特征子集进行集合的并运算后,获得包括特征A、特征B、特征C和特征D的第四特征子集,第四特征子集中包含的特征携带的信息量大。如此获得的第四特征子集的维度低,冗余低,第四特征子集中包括的特征的准确性高,因而第四特征子集可以准确、完整、简洁地表征第二特征集合的性能。为了能够完整地表征目标数据的性能,将第四特征子集和第一特征集合进行组合,获得目标数据的数据特征集合。具体的,将第四特征子集和第一特征集合进行集合的并运算,获得数据特征集合,如此,获得的数据特征集合中包括的数据特征就是第四特征子集和第一特征集合中的特征,即包括了第一特征集合中的是常见的、对目标数据的贡献度高的特征和第二特征集合中包括的不常见的、但是对目标数据有贡献的特征。因此,数据特征具有第四特征子集中的特征的特性和第一特征集合中的特征的特性,数据特征能够准确、简洁、完整地表征目标数据,数据特征的性能好。
针对上述实施例提供一种数据特征提取方法,本申请实施例还对应提供一种用于执行上述的步骤的执行主体,该执行主体可以为图3中数据特征提取装置200。请参考图3,该装置包括:
获取模块210,用于获取目标数据,所述目标数据包括多个样本,每个样本包括多个特征,所述特征表征所述目标数据的属性特性;
处理模块220,用于针对所述多个特征,基于每个特征在各个样本中的取值,对所述多个特征进行划分,获得第一特征集合和第二特征集合,所述第一特征集合包括一个或者多个特征,所述第二特征集合包括多个特征;将所述第二特征集合中的多个特征进行划分,获得多个第一特征子集;对所述多个第一特征子集进行特征选择处理,获得与所述多个第一特征子集一一对应的多个第二特征子集;基于所述多个第二特征子集和所述第一特征集合,获得所述目标数据的数据特征。
所述处理模块220具体用于:针对所述多个特征中的其中一个特征,统计该特征在各个样本中的取值在第一阈值范围内的数量;获得所述数量与所述多个样本的个数的比值;若所述比值在第二阈值范围内,将所述特征分类到所述第一特征集合;否则,将所述特征分类到所述第二特征集合。
所述处理模块220具体还用于:针对所述第二特征集合中的多个特征,根据每个特征在各个样本中的取值,对所述多个特征进行聚类,获得多个第一特征子集。
所述处理模块220具体还用于:针对所述多个第一特征子集中的其中一个第一特征子集,获取该第一特征子集中的其中一个特征的贡献度;若所述贡献度在针对所述第一特征子集的第三阈值范围内,剔除掉所述特征,获得与所述多个第一特征子集一一对应的多个第二特征子集,每个第二特征子集包括一个或者多个特征,其中,所述贡献度表征所述特征对所述目标数据的性能的影响程度。
所述处理模块220具体还用于:针对所述多个第二特征子集,对每个第二特征子集进行降维处理,获得与所述多个第二特征子集一一对应的多个第三特征子集;将所述多个第三特征子集进行组合,获得第四特征集合;将所述第一特征集合和所述第四特征集合进行组合,获得所述数据特征。
所述处理模块220具体还用于:基于机器学习模型,降低每个第二特征子集中的每个特征的维度至设定值,获得与所述多个第二特征子集一一对应的多个第三特征子集。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供了一种电子设备,如图4所示,包括存储器504、处理器502及存储在存储器504上并可在处理器502上运行的计算机程序,所述处理器502执行所述程序时实现前文所述数据特征提取方法的任一方法的步骤。
其中,在图4中,总线架构(用总线500来代表),总线500可以包括任意数量的互联的总线和桥,总线500将包括由处理器502代表的一个或多个处理器和存储器504代表的存储器的各种电路链接在一起。总线500还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进进一步描述。总线接口505在总线500和接收器501和发送器503之间提供接口。接收器501和发送器503可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器502负责管理总线500和通常的处理,而存储器504可以被用于存储处理器502在执行操作时所使用的数据。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述数据特征提取方法的任一方法的步骤。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种数据特征提取方法,其特征在于,包括:
获取目标数据,所述目标数据包括多个样本,每个样本包括多个特征,所述特征表征所述目标数据的属性特性;
针对所述多个特征,基于每个特征在各个样本中的取值,对所述多个特征进行划分,获得第一特征集合和第二特征集合,所述第一特征集合包括一个或者多个特征,所述第二特征集合包括多个特征;
将所述第二特征集合中的多个特征进行划分,获得多个第一特征子集;
对所述多个第一特征子集进行特征选择处理,获得与所述多个第一特征子集一一对应的多个第二特征子集;
基于所述多个第二特征子集和所述第一特征集合,获得所述目标数据的数据特征。
2.根据权利要求1所述的方法,其特征在于,所述针对所述多个特征,基于每个特征在各个样本中的取值,对所述多个特征进行划分,获得第一特征集合和第二特征集合,包括:
针对所述多个特征中的其中一个特征,统计该特征在各个样本中的取值在第一阈值范围内的数量;
获得所述数量与所述多个样本的个数的比值;
若所述比值在第二阈值范围内,将所述特征分类到所述第一特征集合;
否则,将所述特征分类到所述第二特征集合。
3.根据权利要求1所述的方法,其特征在于,所述将所述第二特征集合中的多个特征进行划分,获得多个第一特征子集,包括:
针对所述第二特征集合中的多个特征,根据每个特征在各个样本中的取值,对所述多个特征进行聚类,获得多个第一特征子集。
4.根据权利要求1-3任一项所述的方法,其特征在于,每个第一特征子集包括一个或者多个特征;所述对所述多个第一特征子集进行特征选择处理,获得与所述多个第一特征子集一一对应的多个第二特征子集,包括:
针对所述多个第一特征子集中的其中一个第一特征子集,获取该第一特征子集中的其中一个特征的贡献度;
若所述贡献度在针对所述第一特征子集的第三阈值范围内,剔除掉所述特征,获得与所述多个第一特征子集一一对应的多个第二特征子集,每个第二特征子集包括一个或者多个特征,其中,所述贡献度表征所述特征对所述目标数据的性能的影响程度。
5.根据权利要求4所述的方法,其特征在于,所述基于所述多个第二特征子集和所述第一特征集合,获得所述目标数据的数据特征,包括:
针对所述多个第二特征子集,对每个第二特征子集进行降维处理,获得与所述多个第二特征子集一一对应的多个第三特征子集;
将所述多个第三特征子集进行组合,获得第四特征集合;
将所述第一特征集合和所述第四特征集合进行组合,获得所述数据特征。
6.根据权利要求5所述的方法,其特征在于,所述针对所述多个第二特征子集,对每个第二特征子集进行降维处理,获得与所述多个第二特征子集一一对应的多个第三特征子集,包括:
基于机器学习模型,降低每个第二特征子集中的每个特征的维度至设定值,获得与所述多个第二特征子集一一对应的多个第三特征子集。
7.一种数据特征提取装置,其特征在于,包括:
获取模块,用于获取目标数据,所述目标数据包括多个样本,每个样本包括多个特征,所述特征表征所述目标数据的属性特性;
处理模块,用于针对所述多个特征,基于每个特征在各个样本中的取值,对所述多个特征进行划分,获得第一特征集合和第二特征集合,所述第一特征集合包括一个或者多个特征,所述第二特征集合包括多个特征;将所述第二特征集合中的多个特征进行划分,获得多个第一特征子集;对所述多个第一特征子集进行特征选择处理,获得与所述多个第一特征子集一一对应的多个第二特征子集;基于所述多个第二特征子集和所述第一特征集合,获得所述目标数据的数据特征。
8.根据权利要求7所述的装置,其特征在于,所述处理模块具体用于:
针对所述多个特征中的其中一个特征,统计该特征在各个样本中的取值在第一阈值范围内的数量;获得所述数量与所述多个样本的个数的比值;若所述比值在第二阈值范围内,将所述特征分类到所述第一特征集合;否则,将所述特征分类到所述第二特征集合。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-6任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811540504.7A CN111325227B (zh) | 2018-12-14 | 2018-12-14 | 数据特征提取方法、装置及电子设备 |
PCT/CN2018/121860 WO2020118743A1 (zh) | 2018-12-14 | 2018-12-18 | 数据特征提取方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811540504.7A CN111325227B (zh) | 2018-12-14 | 2018-12-14 | 数据特征提取方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325227A CN111325227A (zh) | 2020-06-23 |
CN111325227B true CN111325227B (zh) | 2023-04-07 |
Family
ID=71075295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811540504.7A Active CN111325227B (zh) | 2018-12-14 | 2018-12-14 | 数据特征提取方法、装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111325227B (zh) |
WO (1) | WO2020118743A1 (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008017991A2 (en) * | 2006-08-11 | 2008-02-14 | Koninklijke Philips Electronics, N.V. | Methods and apparatus to integrate systematic data scaling into genetic algorithm-based feature subset selection |
CN104573741A (zh) * | 2014-12-24 | 2015-04-29 | 杭州华为数字技术有限公司 | 一种特征选择方法及装置 |
WO2018040387A1 (zh) * | 2016-08-30 | 2018-03-08 | 苏州大学 | 基于支持向量数据描述的特征提取及分类方法及其系统 |
CN108288074A (zh) * | 2018-01-31 | 2018-07-17 | 湖北工业大学 | 一种数据特征的选择方法及系统 |
WO2018136369A1 (en) * | 2017-01-20 | 2018-07-26 | Microsoft Technology Licensing, Llc | Pre-statistics of data for node of decision tree |
CN108805159A (zh) * | 2018-04-17 | 2018-11-13 | 杭州电子科技大学 | 一种基于过滤法和遗传算法的高维数据特征选择方法 |
CN108960264A (zh) * | 2017-05-19 | 2018-12-07 | 华为技术有限公司 | 分类模型的训练方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9135567B2 (en) * | 2013-01-18 | 2015-09-15 | International Business Machines Corporation | Transductive lasso for high-dimensional data regression problems |
-
2018
- 2018-12-14 CN CN201811540504.7A patent/CN111325227B/zh active Active
- 2018-12-18 WO PCT/CN2018/121860 patent/WO2020118743A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008017991A2 (en) * | 2006-08-11 | 2008-02-14 | Koninklijke Philips Electronics, N.V. | Methods and apparatus to integrate systematic data scaling into genetic algorithm-based feature subset selection |
CN104573741A (zh) * | 2014-12-24 | 2015-04-29 | 杭州华为数字技术有限公司 | 一种特征选择方法及装置 |
WO2018040387A1 (zh) * | 2016-08-30 | 2018-03-08 | 苏州大学 | 基于支持向量数据描述的特征提取及分类方法及其系统 |
WO2018136369A1 (en) * | 2017-01-20 | 2018-07-26 | Microsoft Technology Licensing, Llc | Pre-statistics of data for node of decision tree |
CN108960264A (zh) * | 2017-05-19 | 2018-12-07 | 华为技术有限公司 | 分类模型的训练方法及装置 |
CN108288074A (zh) * | 2018-01-31 | 2018-07-17 | 湖北工业大学 | 一种数据特征的选择方法及系统 |
CN108805159A (zh) * | 2018-04-17 | 2018-11-13 | 杭州电子科技大学 | 一种基于过滤法和遗传算法的高维数据特征选择方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020118743A1 (zh) | 2020-06-18 |
CN111325227A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858461B (zh) | 一种密集人群计数的方法、装置、设备以及存储介质 | |
CN110554958B (zh) | 图数据库测试方法、系统、设备和存储介质 | |
US20170269985A1 (en) | Method and apparatus for failure classification | |
CN109101539B (zh) | 业务数据质量评价方法、装置、存储介质及电子设备 | |
CN109858613B (zh) | 一种深度神经网络的压缩方法、系统及终端设备 | |
CN110910982A (zh) | 自编码模型训练方法、装置、设备及存储介质 | |
CN110148117B (zh) | 基于电力图像的电力设备缺陷识别方法、装置与存储介质 | |
CN110969092A (zh) | 脉冲信号去噪方法、装置及终端设备 | |
CN105225523A (zh) | 一种车位状态检测方法及装置 | |
CN112307860A (zh) | 图像识别模型训练方法和装置、图像识别方法和装置 | |
CN110245684B (zh) | 数据处理方法、电子设备和介质 | |
CN116578843A (zh) | 离心泵诊断模型训练方法、诊断方法、系统、装置及介质 | |
CN113487223B (zh) | 一种基于信息融合的风险评估方法和评估系统 | |
CN111325227B (zh) | 数据特征提取方法、装置及电子设备 | |
CN111611781B (zh) | 数据标注方法、问答方法、装置及电子设备 | |
CN116610983B (zh) | 空气净化控制系统的异常分析方法及系统 | |
JP6991960B2 (ja) | 画像認識装置、画像認識方法及びプログラム | |
US10467258B2 (en) | Data categorizing system, method, program software and recording medium therein | |
CN113378304B (zh) | 一种车辆性能目标的确定方法、装置、存储介质及设备 | |
CN115205954A (zh) | 一种眼部病症识别方法、装置及设备 | |
CN106547531B (zh) | 基于php的应用性能管理方法及其模块 | |
CN109086207B (zh) | 页面响应故障分析方法、计算机可读存储介质及终端设备 | |
CN113256622A (zh) | 基于三维图像的目标检测方法、装置及电子设备 | |
CN113139579B (zh) | 一种基于图像特征自适应卷积网络的图像分类方法和系统 | |
CN110309127B (zh) | 一种数据处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |