CN110210518A - 提取降维特征的方法和装置 - Google Patents
提取降维特征的方法和装置 Download PDFInfo
- Publication number
- CN110210518A CN110210518A CN201910380805.6A CN201910380805A CN110210518A CN 110210518 A CN110210518 A CN 110210518A CN 201910380805 A CN201910380805 A CN 201910380805A CN 110210518 A CN110210518 A CN 110210518A
- Authority
- CN
- China
- Prior art keywords
- feature
- label
- feature importance
- data
- importance value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种提取降维特征的方法和装置。该方法包括:从训练数据中提取预设场景下的特征重要性数值,其中,训练数据为有标签的结构化数据,特征重要性数值用于指示该特征对标签中标识的结果的影响程度;将特征重要性数值进行归一化处理得到特征重要性向量;将特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;将无标签的结构化数据输入进行稀疏自编码网络中,以对无标签的结构化数据进行降维处理。通过本申请,解决了相关技术中有标签数据很难获得,而从无标签数据中提取有效的信息来提升该场景的模型预测性能的现有方案均无法满足当下需求的技术问题。
Description
技术领域
本申请涉及特征提取领域,具体而言,涉及一种提取降维特征的方法和装置。
背景技术
在机器学习建模场景中,会遇到标签数据缺乏,但是无标签数据量大的情况。这种情况下,如果仅仅利用少量的有标签数据进行建模,往往得不到好的预测结果。例如,在金融消费信贷领域,订单套现情况常有发生,但是这类标签数据的获取,不管从时间成本还是人力成本来讲,需要的成本都比较高。
目前应对这种样本少的方法是,利用样本生成手段以增加样本量,但是这种方法在建模的过程中,容易造成过拟合的现象。
在上述有标签数据很难获得的情况下,可以从无标签数据中提取有效的信息来提升该场景的模型预测性能,即将无标签数据的所携带的信息传递到有标签数据上,以增加模型预测的性能。具体的,采用上述处理方式的现有技术大致为以下两种:
其一、皮尔逊相关系数。即计算特征之间的皮尔逊相关系数,然后按照相关系数的大小去除相似度比较高的特征以达到降维的目的。但是该方法存在特征维度高时,计算复杂度也较高,以及只能在原始特征上进行特征筛选,不能生成新的特征的技术问题。
其二、主成分析。它是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。但是该方法存在对原始特征进行降维,同时生成新的组合特征,以及只能生成与原始特征线性相关的新特征,不能构造出更高层次的非线性特征的技术问题。
针对相关技术中,有标签数据很难获得,而从无标签数据中提取有效的信息来提升该场景的模型预测性能的现有方案均无法满足当下需求的技术问题,目前尚未提出有效的解决方案。
发明内容
本申请提供一种提取降维特征的方法和装置,以解决相关技术中有标签数据很难获得,而从无标签数据中提取有效的信息来提升该场景的模型预测性能的现有方案均无法满足当下需求的技术问题。
根据本申请的一个方面,提供了一种提取降维特征的方法。该方法包括:从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;将所述特征重要性数值进行归一化处理得到特征重要性向量;将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理。
可选的,从训练数据中提取预设场景下的特征重要性数值包括:对所述有标签的结构化数据进行预处理,以组成训练数据;将所述训练数据输入至树模型算法中,获取所述训练数据中多个特征对应的特征重要性数值。
可选的,将所述特征重要性数值进行归一化处理得到特征重要性向量包括:对所述特征重要性数值进行归一化处理,确定每个所述特征重要性数值对应的纯量值;确定位于预设范围内的目标纯量值,以及所述目标纯量值对应的目标特征;依据长尾分布定律,重新确定所述目标特征的特征重要性数值;对所述训练数据中每个特征的特征重要性数值进行整合处理,以获取特征重要性向量。
可选的,将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重包括:确定所述稀疏自编码网络对应的目标表达式和稀疏系数;基于所述特征重要性向量和所述稀疏系数,对所述目标表达式采用梯度下降法进行优化处理,确定所述稀疏自编码网络的基向量和激活系数。
可选的,所述目标表达式为:
其中,pl∈P=[p1,p2,p3...pl]T,为归一化后的特征重要性权重,为无标签的结构化数据集合,i表示样本索引,l为样本特征维度,基向量bj={b1,b2,...bs},aj为bj对应的激活向量,ρ表示目标分布,代表拟合分布,β为正则化项的系数。
根据本申请的另一方面,提供了一种提取降维特征的装置。该装置包括:提取单元,用于从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;处理单元,用于将所述特征重要性数值进行归一化处理得到特征重要性向量;传递单元,用于将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;降维单元,用于将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理。
可选的,所述提取单元包括:处理模块,用于对所述有标签的结构化数据进行预处理,以组成训练数据;获取模块,用于将所述训练数据输入至树模型算法中,获取所述训练数据中多个特征对应的特征重要性数值。
可选的,所述处理单元包括:第一确定模块,用于对所述特征重要性数值进行归一化处理,确定每个所述特征重要性数值对应的纯量值;第二确定模块,用于确定位于预设范围内的目标纯量值,以及所述目标纯量值对应的目标特征;第三确定模块,用于依据长尾分布定律,重新确定所述目标特征的特征重要性数值;整合模块,用于对所述训练数据中每个特征的特征重要性数值进行整合处理,以获取特征重要性向量。
可选的,所述传递单元包括:第四确定模块,用于确定所述稀疏自编码网络对应的目标表达式和稀疏系数;第五确定模块,用于基于所述特征重要性向量和所述稀疏系数,对所述目标表达式采用梯度下降法进行优化处理,确定所述稀疏自编码网络的基向量和激活系数。
根据本申请的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述任意一项所述的提取降维特征的方法。
根据本申请的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的提取降维特征的方法。
通过本申请,采用以下步骤:从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;将所述特征重要性数值进行归一化处理得到特征重要性向量;将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理,解决了相关技术中有标签数据很难获得,而从无标签数据中提取有效的信息来提升该场景的模型预测性能的现有方案均无法满足当下需求的技术问题。
也即,本申请依托自编码技术对结构化特征进行了更高层次的特征提取和降维处理,在实现从无标签数据中提取有效信息以提升场景模型的预测性能的前提下,仍能保持合理的计算复杂度,以及在实现降维目的的情况下,仍能生成更高层次的非线性特征。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的提取降维特征的方法的流程图;
图2是根据本申请实施例提供的一种可选的提取降维特征的方法的处理示意图;
图3是根据本申请实施例提供的一种可选的稀疏系数控制神经元激活度的示意图;
图4是根据本申请实施例提供的提取降维特征的装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种提取降维特征的方法。
图1是根据本申请实施例的提取降维特征的方法的流程图。如图1所示,该方法包括以下步骤:
步骤S102,从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度。
步骤S104,将所述特征重要性数值进行归一化处理得到特征重要性向量。
步骤S106,将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重。
步骤S108,将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理。
本申请实施例提供的提取降维特征方法,通过从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;将所述特征重要性数值进行归一化处理得到特征重要性向量;将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理,解决了相关技术中有标签数据很难获得,而从无标签数据中提取有效的信息来提升该场景的模型预测性能的现有方案均无法满足当下需求的技术问题。
也即,本申请依托自编码技术对结构化特征进行了更高层次的特征提取和降维处理,在实现从无标签数据中提取有效信息以提升场景模型的预测性能的前提下,仍能保持合理的计算复杂度,以及在实现降维目的的情况下,仍能生成更高层次的非线性特征的技术效果。
需要说明的是:相比于在计算机视觉普遍使用的稀疏编码而言,本申请具备以下两处创新点,即:将其运用到结构化数据上并得到了验证,以及可以基于场景进行较为相关而又贴切的特征提取。
针对上述本申请实施例的提取降维特征的方法,进行具体扩展说明:
图2是本申请实施例提供的一种可选的提取降维特征的方法的处理示意图。如图2所示,该方法包括以下两大阶段:
第一阶段主要为依据树模型获取结构化数据的特征重要性向量,也即,上述实施例提供的提取降维特征的方法中所提及的步骤S102和步骤S104。
在一个可选的示例中,上述步骤S102中提及的从训练数据中提取预设场景下的特征重要性数值可以通过如下步骤得以实现:
步骤A1,对所述有标签的结构化数据进行预处理,以组成训练数据。
步骤A2,将所述训练数据输入至树模型算法中,获取所述训练数据中多个特征对应的特征重要性数值。
也即,从结构化数据中剥离出有标签的结构化数据,并使用该少量的有标签的结构化数据确定树模型算法的训练样本,具体的,对上述少量的有标签的结构化数据进行预处理,确定该含有标签的结构化数据的多个特征。基于上述确定出的多个特征,启用树模型算法,得到该训练数据中多个特征对应的特征重要性数值。需要说明的是:上述树模型算法优选GBDT(Gradient Boosting Decision Tree)算法。
此后,基于上述获取的多个特征对应的特征重要性数值,进行归一化处理得到特征重要性向量。
基于上述步骤S104,需要说明的是:上述结构化数据中的部分特征在经由树模型算法处理时,树模型算法是无法精准确定该部分特征的特征重要性数值的,进而导致该部分特征的特征重要性数值无法体现该部分特征的重要性。
因此,为了避免上述情况的发生,在另一个可选的示例中,上述步骤S104中提及的将所述特征重要性数值进行归一化处理得到特征重要性向量可以通过如下步骤得以实现:
步骤B1,对所述特征重要性数值进行归一化处理,确定每个所述特征重要性数值对应的纯量值。
步骤B2,确定位于预设范围内的目标纯量值,以及所述目标纯量值对应的目标特征。
步骤B3,依据长尾分布定律,重新确定所述目标特征的特征重要性数值。
步骤B4,对所述训练数据中每个特征的特征重要性数值进行整合处理,以获取特征重要性向量。
也即,对树模型算法无法精准确定出部分特征的特征重要性数值,进而需要对该部分特征进行特征重要性数值再确定处理,即,假设该部分特征的特征重要性数值符合长尾分布定律,并基于该部分特征的特征重要性数值符合长尾分布定律这一设定,重新确定该部分特征的特征重要性数值。此后,将该部分特征的特征重要性数值整合至特征重要性向量中,得到最终确定的训练数据对应的特征重要性向量。
需要说明的是:上述长尾分布定律优选帕累托二型分布(Lomax distribution),即:
第二阶段主要为将上述获取的特征重要性向量传递至稀疏自编码网络的神经元权重中,并使用该稀疏自编码网络对无标签的结构化数据进行降维处理,也即,上述实施例提供的提取降维特征的方法中所提及的步骤S106和步骤S108。
在一个可选的示例中,上述步骤S106中提及的将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重可以通过如下步骤得以实现:
步骤C1,确定所述稀疏自编码网络对应的目标表达式和稀疏系数。
步骤C2,基于所述特征重要性向量和所述稀疏系数,对所述目标表达式采用梯度下降法进行优化处理,确定所述稀疏自编码网络的基向量和激活系数。
也即,将第一阶段获取到的特征重要性向量传递至稀疏自编码网络的神经元权重中,并使用上述将特征重要性向量传递至神经元的权重中的稀疏自编码网络对无标签的结构化数据进行稀疏编码,以学习到更高层次的降维特征。需要说明的是,上述稀疏自编码网络对应的目标表达式可以为如下形式:
其中,pl∈P=[p1,p2,p3...pl]T,为归一化后的特征重要性权重,为无标签的结构化数据集合,i表示样本索引,l为样本特征维度,基向量bj={b1,b2,...bs},aj为bj对应的激活向量,ρ表示目标分布,代表拟合分布,β为正则化项的系数。
需要说明的是:在将上述无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理之前,该方法还包括:对无标签的结构化数据进行预处理,以组成无标签数据样本,进而将该无标签数据样本输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理。
其中,上述预处理方式与对有标签的结构化数据进行预处理的操作方式相同。
在一个可选的示例中,上述ρ选用0.2,而则无限逼近于ρ,其仿真结果如图3所示。
总而言之,本申请可以实现如下技术效果:
1、将计算机视觉中稀疏编码生成更高级特征的方法应用到结构化数据中,做出了跨领域的技术性改进。
2、上述实施例提供的提取降维特征的方法,可以针对不同的建模场景而执行。也即,通过少量有标签的结构性数据获取特征重要性向量,其中,该特征重要性向量可以在特定建模场景下进行特征选择。
3、能够生成更高层次的非线性降维特征。
4、上述实施例提供的提取降维特征的方法,通过少量的有标签的结构性数据,即可对所述无标签的结构化数据进行降维处理。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种提取降维特征装置,需要说明的是,本申请实施例的提取降维特征装置可以用于执行本申请实施例所提供的用于提取降维特征方法。以下对本申请实施例提供的提取降维特征装置进行介绍。
图4是根据本申请实施例的提取降维特征装置的示意图。如图4所示,该装置包括:提取单元41、处理单元43、传递单元45和降维单元47。
提取单元41,用于从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度。
处理单元43,用于将所述特征重要性数值进行归一化处理得到特征重要性向量。
传递单元45,用于将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重。
降维单元47,用于将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理。
本申请实施例提供的提取降维特征装置,通过提取单元41从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;处理单元43将所述特征重要性数值进行归一化处理得到特征重要性向量;传递单元45将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;降维单元47将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理,解决了相关技术中有标签数据很难获得,而从无标签数据中提取有效的信息来提升该场景的模型预测性能的现有方案均无法满足当下需求的技术问题。
也即,本申请依托自编码技术对结构化特征进行了更高层次的特征提取和降维处理,在实现从无标签数据中提取有效信息以提升场景模型的预测性能的前提下,仍能保持合理的计算复杂度,以及在实现降维目的的情况下,仍能生成更高层次的非线性特征的技术效果。
可选地,在本申请实施例提供的提取降维特征装置中,所述提取单元41包括:处理模块,用于对所述有标签的结构化数据进行预处理,以组成训练数据;获取模块,用于将所述训练数据输入至树模型算法中,获取所述训练数据中多个特征对应的特征重要性数值。
可选地,在本申请实施例提供的提取降维特征装置中,所述处理单元43包括:第一确定模块,用于对所述特征重要性数值进行归一化处理,确定每个所述特征重要性数值对应的纯量值;第二确定模块,用于确定位于预设范围内的目标纯量值,以及所述目标纯量值对应的目标特征;第三确定模块,用于依据长尾分布定律,重新确定所述目标特征的特征重要性数值;整合模块,用于对所述训练数据中每个特征的特征重要性数值进行整合处理,以获取特征重要性向量。
可选地,在本申请实施例提供的提取降维特征装置中,所述传递单元45包括:第四确定模块,用于确定所述稀疏自编码网络对应的目标表达式和稀疏系数;第五确定模块,用于基于所述特征重要性向量和所述稀疏系数,对所述目标表达式采用梯度下降法进行优化处理,确定所述稀疏自编码网络的基向量和激活系数。
可选地,在本申请实施例提供的提取降维特征装置中,所述目标表达式为:
其中,pl∈P=[p1,p2,p3...pl]T,为归一化后的特征重要性权重,为无标签的结构化数据集合,i表示样本索引,l为样本特征维度,基向量bj={b1,b2,...bs},aj为bj对应的激活向量,ρ表示目标分布,代表拟合分布,β为正则化项的系数。
所述提取降维特征的装置包括处理器和存储器,上述提取单元41、处理单元43、传递单元45和降维单元47等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来在实现从无标签数据中提取有效信息以提升场景模型的预测性能的前提下,仍能保持合理的计算复杂度,以及在实现降维目的的情况下,仍能生成更高层次的非线性特征。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述提取降维特征方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述提取降维特征方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;将所述特征重要性数值进行归一化处理得到特征重要性向量;将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理。
可选的,从训练数据中提取预设场景下的特征重要性数值包括:对所述有标签的结构化数据进行预处理,以组成训练数据;将所述训练数据输入至树模型算法中,获取所述训练数据中多个特征对应的特征重要性数值。
可选的,将所述特征重要性数值进行归一化处理得到特征重要性向量包括:对所述特征重要性数值进行归一化处理,确定每个所述特征重要性数值对应的纯量值;确定位于预设范围内的目标纯量值,以及所述目标纯量值对应的目标特征;依据长尾分布定律,重新确定所述目标特征的特征重要性数值;对所述训练数据中每个特征的特征重要性数值进行整合处理,以获取特征重要性向量。
可选的,将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重包括:确定所述稀疏自编码网络对应的目标表达式和稀疏系数;基于所述特征重要性向量和所述稀疏系数,对所述目标表达式采用梯度下降法进行优化处理,确定所述稀疏自编码网络的基向量和激活系数。
可选的,所述目标表达式为:
其中,pl∈P=[p1,p2,p3...pl]T,为归一化后的特征重要性权重,为无标签的结构化数据集合,i表示样本索引,l为样本特征维度,基向量bj={b1,b2,...bs},ai为bj对应的激活向量,ρ表示目标分布,代表拟合分布,β为正则化项的系数。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;将所述特征重要性数值进行归一化处理得到特征重要性向量;将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理。
可选的,从训练数据中提取预设场景下的特征重要性数值包括:对所述有标签的结构化数据进行预处理,以组成训练数据;将所述训练数据输入至树模型算法中,获取所述训练数据中多个特征对应的特征重要性数值。
可选的,将所述特征重要性数值进行归一化处理得到特征重要性向量包括:对所述特征重要性数值进行归一化处理,确定每个所述特征重要性数值对应的纯量值;确定位于预设范围内的目标纯量值,以及所述目标纯量值对应的目标特征;依据长尾分布定律,重新确定所述目标特征的特征重要性数值;对所述训练数据中每个特征的特征重要性数值进行整合处理,以获取特征重要性向量。
可选的,将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重包括:确定所述稀疏自编码网络对应的目标表达式和稀疏系数;基于所述特征重要性向量和所述稀疏系数,对所述目标表达式采用梯度下降法进行优化处理,确定所述稀疏自编码网络的基向量和激活系数。
可选的,所述目标表达式为:
其中,pl∈P=[p1,p2,p3...pl]T,为归一化后的特征重要性权重,为无标签的结构化数据集合,i表示样本索引,l为样本特征维度,基向量bj={b1,b2,...bs},aj为bj对应的激活向量,ρ表示目标分布,代表拟合分布,β为正则化项的系数。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种提取降维特征的方法,其特征在于,包括:
从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;
将所述特征重要性数值进行归一化处理得到特征重要性向量;
将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;
将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理。
2.根据权利要求1所述的方法,其特征在于,从训练数据中提取预设场景下的特征重要性数值包括:
对所述有标签的结构化数据进行预处理,以组成训练数据;
将所述训练数据输入至树模型算法中,获取所述训练数据中多个特征对应的特征重要性数值。
3.根据权利要求1所述的方法,其特征在于,将所述特征重要性数值进行归一化处理得到特征重要性向量包括:
对所述特征重要性数值进行归一化处理,确定每个所述特征重要性数值对应的纯量值;
确定位于预设范围内的目标纯量值,以及所述目标纯量值对应的目标特征;
依据长尾分布定律,重新确定所述目标特征的特征重要性数值;
对所述训练数据中每个特征的特征重要性数值进行整合处理,以获取特征重要性向量。
4.根据权利要求1所述的方法,其特征在于,将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重包括:
确定所述稀疏自编码网络对应的目标表达式和稀疏系数;
基于所述特征重要性向量和所述稀疏系数,对所述目标表达式采用梯度下降法进行优化处理,确定所述稀疏自编码网络的基向量和激活系数。
5.根据权利要求4所述的方法,其特征在于,所述目标表达式为:
其中,pl∈P=[p1,p2,p3...pl]T,为归一化后的特征重要性权重,为无标签的结构化数据集合,i表示样本索引,l为样本特征维度,基向量bj={b1,b2,...bs},aj为bj对应的激活向量,ρ表示目标分布,ρ代表拟合分布,β为正则化项的系数。
6.一种提取降维特征的装置,其特征在于,包括:
提取单元,用于从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;
处理单元,用于将所述特征重要性数值进行归一化处理得到特征重要性向量;
传递单元,用于将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;
降维单元,用于将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理。
7.根据权利要求1所述的方法,其特征在于,所述提取单元包括:
处理模块,用于对所述有标签的结构化数据进行预处理,以组成训练数据;
获取模块,用于将所述训练数据输入至树模型算法中,获取所述训练数据中多个特征对应的特征重要性数值。
8.根据权利要求1所述的方法,其特征在于,所述处理单元包括:
第一确定模块,用于对所述特征重要性数值进行归一化处理,确定每个所述特征重要性数值对应的纯量值;
第二确定模块,用于确定位于预设范围内的目标纯量值,以及所述目标纯量值对应的目标特征;
第三确定模块,用于依据长尾分布定律,重新确定所述目标特征的特征重要性数值;
整合模块,用于对所述训练数据中每个特征的特征重要性数值进行整合处理,以获取特征重要性向量。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的取降维特征的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的取降维特征的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910380805.6A CN110210518B (zh) | 2019-05-08 | 2019-05-08 | 提取降维特征的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910380805.6A CN110210518B (zh) | 2019-05-08 | 2019-05-08 | 提取降维特征的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110210518A true CN110210518A (zh) | 2019-09-06 |
CN110210518B CN110210518B (zh) | 2021-05-28 |
Family
ID=67785620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910380805.6A Active CN110210518B (zh) | 2019-05-08 | 2019-05-08 | 提取降维特征的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210518B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115185805A (zh) * | 2022-09-13 | 2022-10-14 | 浪潮电子信息产业股份有限公司 | 一种存储系统的性能预测方法、系统、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106323636A (zh) * | 2016-08-16 | 2017-01-11 | 重庆交通大学 | 栈式稀疏自动编码深度神经网络的机械故障程度特征自适应提取与诊断方法 |
CN107563567A (zh) * | 2017-09-18 | 2018-01-09 | 河海大学 | 基于稀疏自编码的核极限学习机洪水预报方法 |
CN108830188A (zh) * | 2018-05-30 | 2018-11-16 | 西安理工大学 | 基于深度学习的车辆检测方法 |
CN109002848A (zh) * | 2018-07-05 | 2018-12-14 | 西华大学 | 一种基于特征映射神经网络的弱小目标检测方法 |
US20190005050A1 (en) * | 2017-06-29 | 2019-01-03 | Xerox Corporation | Regularities and trends discovery in a flow of business documents |
US20190073594A1 (en) * | 2017-09-01 | 2019-03-07 | Thomson Licensing | Apparatus and method to process and cluster data |
CN109460794A (zh) * | 2018-11-19 | 2019-03-12 | 广东工业大学 | 一种数据特征提取方法、系统及电子设备和存储介质 |
CN109490840A (zh) * | 2018-11-22 | 2019-03-19 | 中国人民解放军海军航空大学 | 基于改进稀疏自编码模型的雷达目标hrrp的降噪和重构方法 |
-
2019
- 2019-05-08 CN CN201910380805.6A patent/CN110210518B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106323636A (zh) * | 2016-08-16 | 2017-01-11 | 重庆交通大学 | 栈式稀疏自动编码深度神经网络的机械故障程度特征自适应提取与诊断方法 |
US20190005050A1 (en) * | 2017-06-29 | 2019-01-03 | Xerox Corporation | Regularities and trends discovery in a flow of business documents |
US20190073594A1 (en) * | 2017-09-01 | 2019-03-07 | Thomson Licensing | Apparatus and method to process and cluster data |
CN107563567A (zh) * | 2017-09-18 | 2018-01-09 | 河海大学 | 基于稀疏自编码的核极限学习机洪水预报方法 |
CN108830188A (zh) * | 2018-05-30 | 2018-11-16 | 西安理工大学 | 基于深度学习的车辆检测方法 |
CN109002848A (zh) * | 2018-07-05 | 2018-12-14 | 西华大学 | 一种基于特征映射神经网络的弱小目标检测方法 |
CN109460794A (zh) * | 2018-11-19 | 2019-03-12 | 广东工业大学 | 一种数据特征提取方法、系统及电子设备和存储介质 |
CN109490840A (zh) * | 2018-11-22 | 2019-03-19 | 中国人民解放军海军航空大学 | 基于改进稀疏自编码模型的雷达目标hrrp的降噪和重构方法 |
Non-Patent Citations (2)
Title |
---|
HONGLAK LEE 等: "Efficient sparse coding algorithms", 《IEEE》 * |
林少飞 等: "基于堆叠稀疏自动编码器的手写数字分类", 《微机处理》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115185805A (zh) * | 2022-09-13 | 2022-10-14 | 浪潮电子信息产业股份有限公司 | 一种存储系统的性能预测方法、系统、设备及存储介质 |
CN115185805B (zh) * | 2022-09-13 | 2023-01-24 | 浪潮电子信息产业股份有限公司 | 一种存储系统的性能预测方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110210518B (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009673A (zh) | 基于深度学习的新型负荷预测方法和装置 | |
CN106776503A (zh) | 文本语义相似度的确定方法及装置 | |
CN107679700A (zh) | 业务流程处理方法、装置及服务器 | |
CN110347724A (zh) | 异常行为识别方法、装置、电子设备及介质 | |
CN108830443A (zh) | 一种合同审阅方法及装置 | |
CN107748898A (zh) | 文件分类方法、装置、计算设备及计算机存储介质 | |
CN109766683B (zh) | 一种移动智能设备传感器指纹的保护方法 | |
CN110874634A (zh) | 神经网络的优化方法及装置、设备和存储介质 | |
CN112529477A (zh) | 信用评估变量筛选方法、装置、计算机设备及存储介质 | |
CN109214412A (zh) | 一种分类模型的训练方法和装置 | |
CN110263869A (zh) | 一种Spark任务的时长预测方法及装置 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN107578055A (zh) | 一种图像预测方法和装置 | |
CN110046278A (zh) | 视频分类方法、装置、终端设备及存储介质 | |
CN109346079A (zh) | 基于声纹识别的语音交互方法及装置 | |
CN107861945A (zh) | 金融数据分析方法、应用服务器及计算机可读存储介质 | |
CN109582883A (zh) | 栏目页的确定方法和装置 | |
CN106294530B (zh) | 规则匹配的方法和系统 | |
CN110210518A (zh) | 提取降维特征的方法和装置 | |
CN107273546A (zh) | 仿冒应用检测方法以及系统 | |
CN110069781A (zh) | 一种实体标签的识别方法及相关设备 | |
CN110765352B (zh) | 一种用户兴趣识别方法及装置 | |
CN109583473A (zh) | 一种特征数据的生成方法及装置 | |
CN107945034A (zh) | 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质 | |
CN110008352A (zh) | 实体发现方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |