CN110991473A - 图像样本的特征选择方法、装置、计算机设备及存储介质 - Google Patents
图像样本的特征选择方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110991473A CN110991473A CN201910964124.4A CN201910964124A CN110991473A CN 110991473 A CN110991473 A CN 110991473A CN 201910964124 A CN201910964124 A CN 201910964124A CN 110991473 A CN110991473 A CN 110991473A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- redundant
- image sample
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像样本的特征选择方法、装置、计算机设备及存储介质。所述方法包括:获取包含图像样本特征的特征集合;对特征集合中的所述图像样本特征进行冗余特征筛选;对每个冗余特征子集进行施密特正交化处理,得到N个正交化特征子集,并采用预设的Wrapper方法对N个正交化特征子集进行特征筛选,将筛选出的特征组成第一特征子集;计算特征集合中的每个图像样本特征与预设的目标类别特征之间的相关度,并根据相关度筛选出与目标类别特征相关的图像样本特征,组成第二特征子集;将非冗余特征子集、第一特征子集和第二特征子集进行并集操作,得到新特征集合。本发明的技术方案能够提高图像识别模型的训练精度和识别准确率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种图像样本的特征选择方法、装置、计算机设备及存储介质。
背景技术
目前,当数据挖掘和机器学习在图像识别领域相关场景中应用时,在图像识别模型的训练过程中,为了达到训练精度的要求,往往需要大量的样本图像对图像识别模型进行模型训练。
但是,在实际应用中经常存在一些应用场景,只能收集到少量样本,例如,在通过遥感图像或者红外图像进行目标识别中,由于机载雷达、遥感卫星等图像的采集成本高和难度大,往往只能收集到少量的样本,无法采集到大量的遥感图像或者红外图像进行精准的模型训练,又例如,在对水下生物进行物种识别时,由于海洋环境复杂,水下图像的采集需要花费大量人力和物力,也使得没有足够的样本图像进行准确的模型训练。并且,这些小样本常常涵盖了不可囊括的多方面因素的作用,造成了高维小样本的现象。
在样本不充足的情况下,更多的特征维度虽然可以使得待量化问题有更好的拟合性,但同时也增加了容易携带大量冗余、不相关、相关性过高的特征甚至是噪音的可能性。这些小样本数据由于其特征维数相对较多,并且常常包含不相关或者冗余的特征,导致使用小样本数据进行模型训练的效果不理想,造成训练结果的准确性不高。
为了提高图像识别模型的模型训练准确性,进而提高图像识别模型的目标识别准确率,使用合适的特征选择方式实现对小样本数据的特征降维是亟待研究和解决的问题。但是,现有的过滤式特征选择方法仅使用单一相关性度量过滤冗余特征和不相关特征,存在降维误差,造成降维后的特征不具有较高的可解释性,无法对小样本数据进行准确的特征降维,导致使用小样本数据进行模型训练的精度不高。
发明内容
本发明实施例提供一种图像样本的特征选择方法、装置、计算机设备及存储介质,以解决现有技术无法对图像处理的小样本数据进行准确的特征降维,影响图像识别模型训练精度的问题。
一种图像样本的特征选择方法,包括:
获取包含图像样本特征的特征集合;
基于预设的Filter方法对所述特征集合中的所述图像样本特征进行冗余特征筛选,得到N个冗余特征子集以及包含非冗余特征的非冗余特征子集,其中,每个所述冗余特征子集中包含互为冗余的所述冗余特征,N为正整数;
对每个所述冗余特征子集进行施密特正交化处理,得到N个正交化特征子集,并采用预设的Wrapper方法对N个所述正交化特征子集进行特征筛选,将筛选出的特征组成第一特征子集;
计算所述特征集合中的每个所述图像样本特征与预设的目标类别特征之间的相关度,并根据所述相关度筛选出与所述目标类别特征相关的所述图像样本特征,将筛选出的所述图像样本特征组成第二特征子集;
将所述非冗余特征子集、所述第一特征子集和所述第二特征子集进行并集操作,得到新特征集合。
一种图像样本的特征选择装置,包括:
获取模块,用于获取包含图像样本特征的特征集合;
第一筛选模块,用于基于预设的Filter方法对所述特征集合中的所述图像样本特征进行冗余特征筛选,得到N个冗余特征子集以及包含非冗余特征的非冗余特征子集,其中,每个所述冗余特征子集中包含互为冗余的所述冗余特征,N为正整数;
第二筛选模块,用于对每个所述冗余特征子集进行施密特正交化处理,得到N个正交化特征子集,并采用预设的Wrapper方法对N个所述正交化特征子集进行特征筛选,将筛选出的特征组成第一特征子集;
第三筛选模块,用于计算所述特征集合中的每个所述图像样本特征与预设的目标类别特征之间的相关度,并根据所述相关度筛选出与所述目标类别特征相关的所述图像样本特征,将筛选出的所述图像样本特征组成第二特征子集;
组合模块,用于将所述非冗余特征子集、所述第一特征子集和所述第二特征子集进行并集操作,得到新特征集合。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述图像样本的特征选择方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述图像样本的特征选择方法的步骤。
上述图像样本的特征选择方法、装置、计算机设备及存储介质中,一方面,使用Filter方法从特征集合的图像样本特征中筛选出N个冗余特征子集以及包含非冗余特征的非冗余特征子集,然后对每个冗余特征子集进行施密特正交化处理,去除冗余特征之间的线性相似度,并采用预设的Wrapper方法对N个正交化特征子集进行特征筛选,将筛选出的特征组成第一特征子集,从而将冗余特征重构为新的图像特征;另一方面,计算特征集合中的每个图像样本特征与预设的目标类别特征之间的相关度,并根据该相关度筛选出与目标类别特征相关的样本特征组成第二特征子集;最后将非冗余特征子集、第一特征子集和第二特征子集进行并集操作,得到新特征集合。实现了从提取非冗余特征,对冗余特征重构,以及筛选与目标类别特征相关度较高的图像样本特征三个方面并行的进行特征选择,降低特征维度,去除不重要的因素,并充分考虑特征之间的交互性,得到能够全面且准确反映图像特点的核心特征,使得该核心特性在应用场景中的解释性的可信度较高,达到对图像处理的小样本数据进行准确的特征降维,从而有效提高使用特征降维后的小样本数据进行图像识别模型的训练精度,进而提高图像识别模型的识别准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中图像样本的特征选择方法的一应用环境示意图;
图2是本发明一实施例中图像样本的特征选择方法的一流程图;
图3是本发明一实施例中图像样本的特征选择方法中步骤S2的一流程图;
图4是本发明一实施例中图像样本的特征选择方法的步骤S4的一流程图;
图5是本发明一实施例中图像样本的特征选择方法的步骤S1的一流程图;
图6是本发明一实施例中图像样本的特征选择装置的一示意图;
图7是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的图像样本的特征选择方法,可应用在如图1所示的应用环境中,该应用环境包括服务端和数据库,其中,服务端和数据库之间通过网络进行连接,该网络可以是有线网络或者无线网络,服务端具体均可以用独立的服务器或者多个服务器组成的服务器集群实现。服务端从数据库获取图像样本数据,并完成对图像样本数据的特征降维处理。
在一实施例中,如图2所示,提供一种图像样本的特征选择方法,以该方法应用在图1中的服务端为例进行说明,具体包括步骤S1至步骤S5,详述如下:
S1:获取包含图像样本特征的特征集合。
具体地,服务端从数据库中获取图像样本数据,图像样本数据具体可以是高维小样本数据,即样本数量少并且样本包含的特征维度多的样本数据,通常,高维小样本数据的特征维度数远大于样本数量。
服务端按照预设的提取方式对图像样本数据进行特征提取和筛选,得到图像样本特征,并对得到的图像样本特征进行异常维度清洗,以及对图像样本特征的取值进行标准化处理等预处理过程,并将预处理完成后得到的图像样本特征组成特征集合。
S2:基于预设的Filter方法对特征集合中的图像样本特征进行冗余特征筛选,得到N个冗余特征子集以及包含非冗余特征的非冗余特征子集,其中,每个冗余特征子集中包含互为冗余的冗余特征,N为正整数。
具体地,Filter方法为现有的过滤器方法,其核心思想为先使用评分函数对每个图像样本特征进行评分度量,并根据阈值筛选出满足条件的图像样本特征。其中,评分函数可以分为相似性度量、相异性度量、基于信息论等三类评分函数。在本实施例中,评分函数具体可以使用相似性度量的评分函数。
服务端采用预设的Filter方法中的相似性度量的评分函数计算特征集合中每两个图像样本特征之间的相似度,根据相似度筛选出特征相似的冗余特征,以及不与特征集合中任何其他图像样本特征相似的非冗余特征,并将非冗余特征组成非冗余特征子集,将互为冗余的冗余特征组成冗余特征子集。
需要说明的是,由于Filter方法不依赖于训练模型的分类结果,对样本数据量大小敏感度较低,同时,Filter方法具有更好的解释性、以及更低的时间复杂度,能够满足实时计算的需求,从而高效快速的在特征集合中筛选出分辨力较强的非冗余特征子集和冗余特征子集。
可以理解的是,非冗余特征子集中的每个非冗余特征之间均为互不相似的特征,每个冗余特征子集中的冗余特征之间均为相似的特征,不同冗余特征子集之间互不相似。
S3:对每个冗余特征子集进行施密特正交化处理,得到N个正交化特征子集,并采用预设的Wrapper方法对N个正交化特征子集进行特征筛选,将筛选出的特征组成第一特征子集。
具体地,施密特正交化(Schmidt orthogonalization)是求欧氏空间正交基的一种方法。在每个冗余特征子集中,将包含的每个冗余特征进行施密特正交化处理,得到标准正交向量组,作为该冗余特征子集对应的正交化特征子集,共得到N个正交化特征子集。通过对冗余特征进行施密特正交化处理,能够去除冗余特征之间在同一个方向上的相似性,使得正交化后的线性相似度被降低,特征被分化到不同维度上。
Wrapper方法为现有的包裹器方法,这种方法把选定的特征集用分类器进行训练,用训练效果来作为特征集的评价,即通过不断的启发式搜索方式从特征集合中搜索特征子集,将每次搜索到的特征子集放入分类器学习模型中进行训练,根据训练结果比较特征子集的优劣,找到最优特征子集。
在本实施例中,使用现有技术中通用的Wrapper方法完成对N个正交化特征子集的特征筛选。服务端使用Wrapper方法对N个正交化特征子集包含的全部特征进行搜索和筛选,将筛选出的最优特征组成第一特征子集,实现了对冗余特征的重构,得到新的图像特征,降低了特征维度。
需要说明的是,Filter方法和Wrapper方法是两种互补的模式,通过两者的结合,先使用Filter方法初步剔除大部分无关或噪声等冗余特征,只保留少量非冗余特征,能够有效地减小后续搜索过程的规模,提高执行效率,然后将冗余特征进行施密特正交化处理后,利用Wrapper方法进行特征筛选,以进一步优化得到新的图像特征。
S4:计算特征集合中的每个图像样本特征与预设的目标类别特征之间的相关度,并根据相关度筛选出与目标类别特征相关的图像样本特征,将筛选出的图像样本特征组成第二特征子集。
具体地,预设的目标类别特征为预先设置的模型训练所需的目标样本图片的类别特征,服务端计算特征集合中的每个图像样本特征与预设的目标类别特征之间的相关度,该相关度用于标识图像样本特征与目标类别特征之间的相关性,相关性越高,说明这个图像样本特征作为模型特异性识别的特征可用性越高,即该图像样本特征的重要程度越高。
服务端从得到的相关度中,筛选出超过预设的相关度阈值的相关度,将筛选出的相关度对应的图像样本特征作为与目标类别特征相关的图像样本特征,并将筛选出的相关度对应的图像样本特征组成第二特征子集。
需要说明的是,步骤S2至步骤S3与步骤S4之间没有必然的先后执行序,其也可以是并列执行的关系,此处不做限制。
S5:将非冗余特征子集、第一特征子集和第二特征子集进行并集操作,得到新特征集合。
具体地,步骤S2得到的非冗余特征子集、步骤S3得到的第一特征子集以及步骤S4得到的第二特征子集之间可能存在相同特征,服务端根据集合运算中的并集运算,对非冗余特征子集、第一特征子集和第二特征子集这三个集合进行并集操作,去除重复的相同特征,将得到的并集作为新特征集合。
由于新特征集合中的图像特征是对原有的少量的高纬度的图像样本数据进行特征选择和降维后得到的核心特征,该核心特征能够准确反映图像特点,具有较高的可信度,使用新特征集合中的特征进行图像识别模型的训练,能够提高模型的训练精度,进而提高图像识别模型的识别准确率。
本实施例中,一方面,使用Filter方法从特征集合的图像样本特征中筛选出N个冗余特征子集以及包含非冗余特征的非冗余特征子集,然后对每个冗余特征子集进行施密特正交化处理,去除冗余特征之间的线性相似度,并采用预设的Wrapper方法对N个正交化特征子集进行特征筛选,将筛选出的特征组成第一特征子集,从而将冗余特征重构为新的图像特征;另一方面,计算特征集合中的每个图像样本特征与预设的目标类别特征之间的相关度,并根据该相关度筛选出与目标类别特征相关的样本特征组成第二特征子集;最后将非冗余特征子集、第一特征子集和第二特征子集进行并集操作,得到新特征集合。实现了从提取非冗余特征,对冗余特征重构,以及筛选与目标类别特征相关度较高的图像样本特征三个方面并行的进行特征选择,降低特征维度,去除不重要的因素,并充分考虑特征之间的交互性,得到能够全面且准确反映图像特点的核心特征,使得该核心特性在应用场景中的解释性的可信度较高,达到对图像处理的小样本数据进行准确的特征降维,从而有效提高使用特征降维后的小样本数据进行图像识别模型的训练精度,进而提高图像识别模型的识别准确率。
在一实施例中,如图3所示,在步骤S2中,基于预设的Filter方法对特征集合中的图像样本特征进行冗余特征筛选,得到N个冗余特征子集以及包含非冗余特征的非冗余特征子集,具体包括步骤S21至步骤S22,详述如下:
S21:计算特征集合中的每两个图像样本特征之间的特征相似度。
具体地,服务端对特征集合中的每两个图像样本特征均计算两者之间的特征相似度。例如,若特征集合中包含A1、A2、A3和A4共4个图像样本特征,则服务端分别计算A1和A2、A1和A3、A1和A4、A2和A3、A2和A4、A3和A4共6个特征相似度。
进一步地,计算特征集合中的每两个图像样本特征之间的特征相似度,具体可以包括:
计算特征集合中的每两个图像样本特征之间的欧式距离,并将欧式距离的值作为每两个图像样本特征之间的特征相似度。
具体地,服务端计算两个图像样本特征的特征向量之间的欧式距离,使用欧式距离的值作为两个图像样本特征之间的特征相似度。
S22:根据特征相似度确定冗余特征和非冗余特征,将非冗余特征组成非冗余特征子集,并将互为冗余的冗余特征组成冗余特征子集,得到N个冗余特征子集。
具体地,服务端根据步骤S21计算得到的每个特征相似度,将特征相似度大于预设的相似度阈值的两个图像样本特征确定为互为冗余特征,并将互为冗余的冗余特征组成冗余特征子集,即每个冗余特征子集中包含的每个图像样本特征之间均互为冗余特征。例如,若根据特征相似度得到图像样本特征A1和图像样本特征A2互为冗余特征,图像样本特征A1和图像样本特征A3也互为冗余特征,则图像样本特征A1、图像样本特征A2和图像样本特征A3互为冗余特征,属于一个冗余特征子集。
服务端将特征相似度小于或等于预设的相似度阈值的两个图像样本特征确定为不互为冗余特征,即两者的特征不相似,若该图像样本特征同时也不与特征集合中的其他图像样本特征互为冗余特征,则将该图像样本特征确定为非冗余特征,服务端将筛选出的全部非冗余特征组成非冗余特征子集。
本实施例中,计算特征集合中的每两个图像样本特征之间的特征相似度,并使用欧式距离作为特征相似度的度量方式,能够快速准确分析出图像样本特征之间的相似性程度,并根据该相似性程度识别出特征集合中的冗余特征和非冗余特征,将筛选出的非冗余特征组成非冗余特征子集,降低特征维度,实现了对冗余特征的简单可靠且快速的筛选处理,合理降低计算复杂度和时间复杂度,提高特征筛选效率,将互为冗余的冗余特征组成冗余特征子集,为进一步对冗余特征进行重构为新的特征提供数据基础。
在一实施例中,如图4所示,在步骤S4中,计算特征集合中的每个图像样本特征与预设的目标类别特征之间的相关度,并根据相关度筛选出与目标类别特征相关的图像样本特征,将筛选出的图像样本特征组成第二特征子集,具体包括步骤S41至步骤S42,详述如下:
S41:计算特征集合中的每个图像样本特征与预设的目标类别特征之间的协方差矩阵,并根据协方差矩阵确定每个图像样本特征与预设的目标类别特征之间的相关度。
具体地,服务端使用协方差矩阵度量图像样本特征与目标类别特征之间的相关性。图像样本特征与目标类别特征之间的协方差矩阵,能够体现图像样本特征的各个维度偏离目标类别特征的预设维度均值的程度,偏离程度越大,相关性越低。
服务端根据得到的协方差矩阵,计算图像样本特征的各个维度相对于目标类别特征的预设维度均值的偏离值,并将各个维度的偏离值的累加和代入偏离值与相关度之间的预设反比例函数,得到图像样本特征与目标类别特征之间的相关度。其中,在预设反比例函数中,偏离值与相关度的取值之间呈反比例线性函数关系,即偏离值越大则相关度的取值越小,偏离值越小则相关度的取值越大。
S42:从得到的相关度中筛选出满足预设的相关度条件的相关度,并将筛选出的相关度对应的图像样本特征组成第二特征子集。
具体地,预设的相关度条件可以相关度大于预设的相关度阈值,即从步骤S41得到的每个图像样本特征与目标类别特征之间的相关度中,筛选出相关度的取值大于预设的相关度阈值的图像样本特征,并将筛选出的图像样本特征组成第二特征子集。
本实施例中,通过计算图像样本特征与预设的目标类别特征之间的协方差矩阵,使用协方差矩阵度量图像样本特征与目标类别特征之间的相关性,并从根据协方差矩阵确定得到的图像样本特征与目标类别特征之间的相关度中,筛选出满足预设的相关度条件的相关度对应的图像样本特征,组成第二特征子集,实现了通过协方差矩阵准确准确筛选出与目标类别特征的相关性较高的图像样本特征,提高特征降维的准确性。
在一实施例中,图像样本特征为高维小样本特征。高维小样本特征是指高维小样本数据的样本特征,高维小样本数据即样本数量少并且样本包含的特征维度多的样本数据,在高维小样本特征中包含了大量冗余、不相关,或者相关性过高的特征,甚至噪音特征等。
进一步地,如图5所示,在步骤S1中,获取包含图像样本特征的特征集合,具体包括步骤S11至步骤S13,详述如下:
S11:从预设的数据库中获取图像样本数据。
具体地,预设的数据库中存储有图像样本数据,该图像样本数据为预先采集到的图像样本包含的图像信息。服务端从数据库中获取图像样本数据。
S12:按照预设的模型训练需求,对图像样本数据进行特征提取,得到基础样本特征。
具体地,模型训练需求与图像识别模型的业务功能相对应,不同的业务功能对应的模型训练需求可以相同也可以不相同,服务端预先设置有每种业务功能对应的模型训练需求。
服务端按照模型训练需求,从图像样本数据中提取与图像识别模型的业务功能相关的图像特征,得到基础样本特征。例如,若图像识别模型为特定种群的生物识别模型,其业务功能为特定种群的生物种类识别,则服务端从图像样本数据中提取该种群的生物外形特征,作为基础样本特征。
S13:对基础样本特征进行数据清洗,得到图像样本特征,并将图像样本特征组成特征集合。
具体地,对基础样本特征进行数据清洗可以包括对异常特征维度的清洗,以及对有效特征维度的标准化处理等。其中,对异常特征维度的清洗包括但不限于通过覆盖率、变化率、正负比例、空值率等删除不满于预设要求的异常特征维度,对有效特征维度的标准化处理包括但不限于归一化、离散化、哑变量编码、变量空间映射、数据变换等处理。
服务端通过对基础样本特征的数据清洗,剔除异常特征维度,并对有效特征维度进行标准化处理,得到统一规范有效的图像样本特征,并将得到的图像样本特征组成特征集合。
本实施例中,通过从预设的数据库中获取图像样本数据,并按照预设的模型训练需求,对图像样本数据进行特征提取,再对得到基础样本特征进行数据清洗,进而得到包含图像样本特征的特征集合,实现了对图像样本特征的预处理,使得特征集合中的图像样本特征均为统一规范的有效样本特征,为后续进行特征降维提供准确有效的数据基础,避免因图像样本特征不规范降低特征降维的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种图像样本的特征选择装置,该图像样本的特征选择装置与上述实施例中图像样本的特征选择方法一一对应。如图6所示,该图像样本的特征选择装置包括:获取模块10、第一筛选模块20、第二筛选模块30、第三筛选模块40和组合模块50。各功能模块详细说明如下:
获取模块10,用于获取包含图像样本特征的特征集合;
第一筛选模块20,用于基于预设的Filter方法对特征集合中的图像样本特征进行冗余特征筛选,得到N个冗余特征子集以及包含非冗余特征的非冗余特征子集,其中,每个冗余特征子集中包含互为冗余的冗余特征,N为正整数;
第二筛选模块30,用于对每个冗余特征子集进行施密特正交化处理,得到N个正交化特征子集,并采用预设的Wrapper方法对N个正交化特征子集进行特征筛选,将筛选出的特征组成第一特征子集;
第三筛选模块40,用于计算特征集合中的每个图像样本特征与预设的目标类别特征之间的相关度,并根据相关度筛选出与目标类别特征相关的图像样本特征,将筛选出的图像样本特征组成第二特征子集;
组合模块50,用于将非冗余特征子集、第一特征子集和第二特征子集进行并集操作,得到新特征集合。
进一步地,第一筛选模块20,包括:
相似度计算模块201,用于计算特征集合中的每两个图像样本特征之间的特征相似度;
冗余特征筛选子模块202,用于根据特征相似度确定冗余特征和非冗余特征,将非冗余特征组成非冗余特征子集,并将互为冗余的冗余特征组成冗余特征子集,得到N个冗余特征子集。
进一步地,相似度计算模块201,还用于计算特征集合中的每两个图像样本特征之间的欧式距离,并将欧式距离的值作为每两个图像样本特征之间的特征相似度。
进一步地,第三筛选模块40,包括:
相关度计算子模块401,用于计算特征集合中的每个图像样本特征与所述预设的目标类别特征之间的协方差矩阵,并根据协方差矩阵确定每个图像样本特征与预设的目标类别特征之间的相关度;
相关特征筛选子模块402,用于从得到的相关度中筛选出满足预设的相关度条件的相关度,并将筛选出的相关度对应的图像样本特征组成第二特征子集。
进一步地,图像样本特征为高维小样本特征,获取模块10,包括:
样本获取子模块101,用于从预设的样本数据库中获取图像样本数据;
特征提取子模块102,用于按照预设的模型训练需求,对图像样本数据进行特征提取,得到基础样本特征;
数据清洗子模块103,用于对基础样本特征进行数据清洗,得到图像样本特征,并将图像样本特征组成特征集合。
关于图像样本的特征选择装置的具体限定可以参见上文中对于图像样本的特征选择方法的限定,在此不再赘述。上述图像样本的特征选择装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像样本的特征选择方法。
在一实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中图像样本的特征选择方法的步骤,例如图2所示的步骤S1至步骤S5。或者,处理器执行计算机程序时实现上述实施例中图像样本的特征选择装置的各模块/单元的功能,例如图6所示模块10至模块50的功能。为避免重复,此处不再赘述。
在一实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中图像样本的特征选择方法,或者,该计算机程序被处理器执行时实现上述装置实施例中图像样本的特征选择装置中各模块/单元的功能。为避免重复,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像样本的特征选择方法,其特征在于,所述图像样本的特征选择方法,包括:
获取包含图像样本特征的特征集合;
基于预设的Filter方法对所述特征集合中的所述图像样本特征进行冗余特征筛选,得到N个冗余特征子集以及包含非冗余特征的非冗余特征子集,其中,每个所述冗余特征子集中包含互为冗余的所述冗余特征,N为正整数;
对每个所述冗余特征子集进行施密特正交化处理,得到N个正交化特征子集,并采用预设的Wrapper方法对N个所述正交化特征子集进行特征筛选,将筛选出的特征组成第一特征子集;
计算所述特征集合中的每个所述图像样本特征与预设的目标类别特征之间的相关度,并根据所述相关度筛选出与所述目标类别特征相关的所述图像样本特征,将筛选出的所述图像样本特征组成第二特征子集;
将所述非冗余特征子集、所述第一特征子集和所述第二特征子集进行并集操作,得到新特征集合。
2.如权利要求1所述的图像样本的特征选择方法,其特征在于,所述基于预设的Filter方法对所述特征集合中的所述图像样本特征进行冗余特征筛选,得到N个冗余特征子集以及包含非冗余特征的非冗余特征子集,包括:
计算所述特征集合中的每两个所述图像样本特征之间的特征相似度;
根据所述特征相似度确定所述冗余特征和所述非冗余特征,将所述非冗余特征组成所述非冗余特征子集,并将互为冗余的所述冗余特征组成所述冗余特征子集,得到N个所述冗余特征子集。
3.如权利要求2所述的图像样本的特征选择方法,其特征在于,所述计算所述特征集合中的每两个所述图像样本特征之间的特征相似度,包括:
计算所述特征集合中的每两个所述图像样本特征之间的欧式距离,并将所述欧式距离的值作为每两个所述图像样本特征之间的所述特征相似度。
4.如权利要求1所述的图像样本的特征选择方法,其特征在于,所述计算所述特征集合中的每个所述图像样本特征与预设的目标类别特征之间的相关度,并根据所述相关度筛选出与所述目标类别特征相关的所述图像样本特征,将筛选出的所述图像样本特征组成第二特征子集,包括:
计算所述特征集合中的每个所述图像样本特征与所述预设的目标类别特征之间的协方差矩阵,并根据所述协方差矩阵确定每个所述图像样本特征与所述预设的目标类别特征之间的所述相关度;
从得到的所述相关度中筛选出满足预设的相关度条件的相关度,并将筛选出的所述相关度对应的所述图像样本特征组成所述第二特征子集。
5.如权利要求1所述的图像样本的特征选择方法,其特征在于,所述图像样本特征为高维小样本特征,所述获取包含图像样本特征的特征集合,包括:
从预设的样本数据库中获取图像样本数据;
按照预设的模型训练需求,对所述图像样本数据进行特征提取,得到基础样本特征;
对所述基础样本特征进行数据清洗,得到所述图像样本特征,并将所述图像样本特征组成所述特征集合。
6.一种图像样本的特征选择装置,其特征在于,所述图像样本的特征选择装置,包括:
获取模块,用于获取包含图像样本特征的特征集合;
第一筛选模块,用于基于预设的Filter方法对所述特征集合中的所述图像样本特征进行冗余特征筛选,得到N个冗余特征子集以及包含非冗余特征的非冗余特征子集,其中,每个所述冗余特征子集中包含互为冗余的所述冗余特征,N为正整数;
第二筛选模块,用于对每个所述冗余特征子集进行施密特正交化处理,得到N个正交化特征子集,并采用预设的Wrapper方法对N个所述正交化特征子集进行特征筛选,将筛选出的特征组成第一特征子集;
第三筛选模块,用于计算所述特征集合中的每个所述图像样本特征与预设的目标类别特征之间的相关度,并根据所述相关度筛选出与所述目标类别特征相关的所述图像样本特征,将筛选出的所述图像样本特征组成第二特征子集;
组合模块,用于将所述非冗余特征子集、所述第一特征子集和所述第二特征子集进行并集操作,得到新特征集合。
7.如权利要求6所述的图像样本的特征选择装置,其特征在于,所述第一筛选模块,包括:
相似度计算模块,用于计算所述特征集合中的每两个所述图像样本特征之间的特征相似度;
冗余特征筛选子模块,用于根据所述特征相似度确定所述冗余特征和所述非冗余特征,将所述非冗余特征组成所述非冗余特征子集,并将互为冗余的所述冗余特征组成所述冗余特征子集,得到N个所述冗余特征子集。
8.如权利要求6所述的图像样本的特征选择装置,其特征在于,所述第三筛选模块,包括:
相关度计算子模块,用于计算所述特征集合中的每个所述图像样本特征与所述预设的目标类别特征之间的协方差矩阵,并根据所述协方差矩阵确定每个所述图像样本特征与所述预设的目标类别特征之间的所述相关度;
相关特征筛选子模块,用于从得到的所述相关度中筛选出满足预设的相关度条件的相关度,并将筛选出的所述相关度对应的所述图像样本特征组成所述第二特征子集。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的图像样本的特征选择方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的图像样本的特征选择方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910964124.4A CN110991473A (zh) | 2019-10-11 | 2019-10-11 | 图像样本的特征选择方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910964124.4A CN110991473A (zh) | 2019-10-11 | 2019-10-11 | 图像样本的特征选择方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110991473A true CN110991473A (zh) | 2020-04-10 |
Family
ID=70081949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910964124.4A Pending CN110991473A (zh) | 2019-10-11 | 2019-10-11 | 图像样本的特征选择方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991473A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200255A (zh) * | 2020-10-16 | 2021-01-08 | 浙江大学 | 一种针对样本集的信息去冗余方法 |
CN114119207A (zh) * | 2021-11-29 | 2022-03-01 | 中国工商银行股份有限公司 | 特征筛选方法、预警方法、装置、电子设备、介质和程序 |
-
2019
- 2019-10-11 CN CN201910964124.4A patent/CN110991473A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200255A (zh) * | 2020-10-16 | 2021-01-08 | 浙江大学 | 一种针对样本集的信息去冗余方法 |
CN112200255B (zh) * | 2020-10-16 | 2021-09-14 | 浙江大学 | 一种针对样本集的信息去冗余方法 |
CN114119207A (zh) * | 2021-11-29 | 2022-03-01 | 中国工商银行股份有限公司 | 特征筛选方法、预警方法、装置、电子设备、介质和程序 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108377240B (zh) | 异常接口检测方法、装置、计算机设备和存储介质 | |
US11526799B2 (en) | Identification and application of hyperparameters for machine learning | |
CN109472213A (zh) | 掌纹识别方法、装置、计算机设备和存储介质 | |
US20170032217A1 (en) | Online per-feature descriptor customization | |
CN112818162B (zh) | 图像检索方法、装置、存储介质和电子设备 | |
CN109285105A (zh) | 水印检测方法、装置、计算机设备和存储介质 | |
CN109117854B (zh) | 关键点匹配方法、装置、电子设备以及存储介质 | |
CN114037637B (zh) | 一种图像数据增强方法、装置、计算机设备和存储介质 | |
CN111259952B (zh) | 异常用户识别方法、装置、计算机设备及存储介质 | |
CN109714201B (zh) | 网络系统可靠性评估方法、装置、计算机设备和存储介质 | |
CN109727295B (zh) | 电磁图像提取方法、装置、计算机设备和存储介质 | |
CN111191533A (zh) | 行人重识别的处理方法、装置、计算机设备和存储介质 | |
CN112765386A (zh) | 基于大数据和互联网的信息管理方法、系统及云服务器 | |
CN110991473A (zh) | 图像样本的特征选择方法、装置、计算机设备及存储介质 | |
CN114254584A (zh) | 芯片产品的对比方法、建模方法、装置及存储介质 | |
CN108399125B (zh) | 自动化测试方法、装置、计算机设备和存储介质 | |
CN109377444B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN107292320B (zh) | 系统及其指标优化方法及装置 | |
CN110516123A (zh) | 数据查询耗时评估方法、装置、计算机设备和存储介质 | |
WO2015068417A1 (ja) | 画像照合システム、画像照合方法およびプログラム | |
US20200279148A1 (en) | Material structure analysis method and material structure analyzer | |
CN113032621A (zh) | 数据采样方法、装置、计算机设备和存储介质 | |
CN114756671A (zh) | 文章推荐方法、装置、计算机设备及存储介质 | |
CN113705270A (zh) | 识别二维码定位码区的方法、装置、设备和存储介质 | |
CN111353349B (zh) | 人体关键点检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |