CN117435906A - 基于交叉熵的新能源汽车配置特征选择方法 - Google Patents

基于交叉熵的新能源汽车配置特征选择方法 Download PDF

Info

Publication number
CN117435906A
CN117435906A CN202311742380.1A CN202311742380A CN117435906A CN 117435906 A CN117435906 A CN 117435906A CN 202311742380 A CN202311742380 A CN 202311742380A CN 117435906 A CN117435906 A CN 117435906A
Authority
CN
China
Prior art keywords
configuration
data
cross entropy
configuration feature
entropy loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311742380.1A
Other languages
English (en)
Other versions
CN117435906B (zh
Inventor
黄伟
梁谷羿
周浩
周海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xingbida Netlink Technology Co Ltd
Original Assignee
Hunan Xingbida Netlink Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xingbida Netlink Technology Co Ltd filed Critical Hunan Xingbida Netlink Technology Co Ltd
Priority to CN202311742380.1A priority Critical patent/CN117435906B/zh
Publication of CN117435906A publication Critical patent/CN117435906A/zh
Application granted granted Critical
Publication of CN117435906B publication Critical patent/CN117435906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于交叉熵的新能源汽车配置特征选择方法,涉及特征选择的技术领域,采用栈自动编码模型对配置特征数据进行压缩降维,将压缩降维后输出的配置特征集作为分类器的输入进行训练,调节栈自动编码模型的模型参数,得到训练好的栈自动编码模型;遍历配置特征集中每一个配置特征数据,计算剔除被遍历配置特征数据后的配置特征集在分类器上的交叉熵损失,以交叉熵损失差值阈值为衡量标准,剔除使交叉熵损失增大的配置特征数据,剩余的配置特征数据,用于汽车销量分类预测,特征选择过程计算简单,计算成本低,便于筛选出与汽车销量相关性较高的配置特征集,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征组合。

Description

基于交叉熵的新能源汽车配置特征选择方法
技术领域
本发明涉及特征选择的技术领域,更具体地,涉及一种基于交叉熵的新能源汽车配置特征选择方法。
背景技术
新能源汽车的配置特征包括:车身结构、动力系统、电池容量、充电方式及智能化系统等方面,对新能源汽车进行合理的配置特征数据组合,可以更好的满足消费者需求,提高新能源汽车的市场占有率和竞争力,同时也可以降低生产成本,提高新能源汽车销量和利润率。
新能源汽车配置特征数据组合的困难主要在于配置项数目非常多,每个配置项又有多种特征待选择,因此,组合起来的可能性非常大,难以逐一列举和考虑。而且不同的消费者对于汽车的需求和偏好也不同,需要针对不同的消费者提供不同的汽车配置特征数据组合。为了解决这个问题,汽车企业通常会采用数据分析和机器学习等技术,通过对消费者需求和市场趋势的分析,进行特征选择,然后预测出对汽车销量影响最大的配置特征组合,并将其作为主推配置向消费者推荐。
特征选择是一种从原始数据中选择最相关特征的技术,可以帮助汽车企业预测出最受欢迎的新能源汽车配置特征数据组合,从而提高汽车的销量。在新能源汽车配置特征的选择中,有很多特征需要考虑,例如车辆的续航里程、载重能力、充电时间、价格等。传统的特征选择多采用以下方法:(1)相关性分析法。通过计算各个特征与消费者喜好之间的相关性,从而筛选出与消费者喜好高度相关的特征,然而,在新能源配置特征选择中,很多特征数据无法量化,相关性分析法无法解决非量化指标的问题。(2)主成分分析法。通过主成分分析法,将原始特征转化为一组新的综合特征,筛选出对消费者喜好影响较大的综合特征。但主成分分析法假设数据符合高斯分布,但新能源汽车配置数据分布与该假设不符,则可能导致分析结果不准确,特征选择不可靠的后果。(3)装箱式特征选择法。装箱式特征选择法利用选定的特征集对样本集进行分类,获得特征子集,然后利用分类后的分类精度来判定特征子集的优劣性,从而选择最优特征子集。该方法主要是将分类效果作为特征选择的评价函数,从特定分类算法中选取最优子集,但对每一个候选特征子集均需要训练机器学习算法模型进行评估,计算成本高,速度慢,且容易出现过拟合问题,而且不能保证全局最优,仅能确保近似最优。
发明内容
为解决传统特征选择的方法不适用于新能源汽车配置特征选择,导致特征选择结果不可靠,无法准确用于汽车销量分类预测的问题,本发明提出一种基于交叉熵的新能源汽车配置特征选择方法,特征选择过程计算简单,计算成本低,提高了后续预测的准确性,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。
为了达到上述技术效果,本发明的技术方案如下:
一种基于交叉熵的新能源汽车配置特征选择方法,包括以下步骤:
S1:对新能源汽车的配置特征数据进行预处理,由预处理后的配置特征数据形成配置特征集F 1
S2:构建栈自动编码模型,利用栈自动编码模型对配置特征集F 1的配置特征数据进行压缩降维,得到压缩降维后的配置特征数据,形成配置特征集F 2
S3:引入分类器,将配置特征集F 2作为分类器的输入,以配置特征集F 2中配置特征数据组合下汽车销量作为分类器的输出,结合配置特征数据组合下汽车销量类别的标签,以交叉熵损失作为损失函数进行训练,调节栈自动编码模型的模型参数,得到训练好的栈自动编码模型;
S4:将配置特征集F 1输入至训练好的栈自动编码模型,经压缩降维后得到配置特征集F 3,计算配置特征集F 3在分类器上的交叉熵损失J f
S5:从配置特征集F 1中的第一个配置特征数据开始,对所有配置特征数据依次遍历,每遍历一个配置特征数据,将该配置特征数据从配置特征集F 1中剔除,计算剔除该配置特征数据后的配置特征集F 1在分类器上的交叉熵损失;
S6:当配置特征集F 1中的所有配置特征数据被遍历完全,得到与被剔除配置特征数据对应的若干个交叉熵损失,形成交叉熵损失数组J
S7:将交叉熵损失J f与交叉熵损失数组J中的每个交叉熵损失依次作差,得到交叉熵损失差值,形成交叉熵差数组J s
S8:将交叉熵差数组J s中的每个交叉熵损失差值按升序排列,得到升序排列后的交叉熵损失差值;
S9:设置交叉熵损失差值阈值,确定大于交叉熵损失差值阈值的交叉熵损失差值对应的从配置特征集F 1中已剔除的配置特征数据,进一步得到配置特征集F 1中剩余的配置特征数据,组成最优的新能源汽车配置特征集。
通过上述技术手段,首先采用栈自动编码模型对配置特征数据进行压缩降维,无需量化配置特征指标,也无需符合一定的分布,将压缩降维后输出的配置特征集作为分类器的输入,将压缩降维后输出的配置特征集作为分类器的输入进行训练,调节栈自动编码模型的模型参数,得到训练好的栈自动编码模型,然后,遍历配置特征集中每一个配置特征数据,每遍历一个配置特征数据,将该配置特征数据从配置特征集中剔除,计算剔除该配置特征数据后的配置特征集在分类器上的交叉熵损失,并计算未剔除配置特征数据前的配置特征集的交叉熵损失与剔除每一配置特征数据后的配置特征集的交叉熵损失之间的交叉熵损失差值,以交叉熵损失差值阈值为衡量标准,剔除使交叉熵损失增大的配置特征数据,将配置特征集中剩余的配置特征数据,组成最优的新能源汽车配置特征集用于汽车销量分类预测,不需要对每一个候选配置特征集均训练机器学习模型,特征选择过程计算简单,计算成本低,便于筛选出与汽车销量相关性较高的配置特征集,提高了后续预测的准确性,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。
优选地,新能源汽车的配置特征数据包括车型参数、功能、车辆颜色、电池容量、电机功率、续航里程、充电时间、价格、车身重量及车辆月销量;对新能源汽车的配置特征数据进行的预处理操作包括:
数据标注,根据配置特征数据的不同,制定不同的标注规则,使配置特征数据转变为能被识别的机器信息;
数据筛选,对异常或错误配置特征数据进行排除;
数据规范标准化,将配置特征数据中的无数值型数据进行编码处理,转换为数值型数据;
数据去重及归一化,将重复或冗余的配置特征数据进行去重,对配置特征数据中的数值型数据进行归一化处理。
优选地,所述栈自动编码模型包括m层堆栈式连接的自动编码器,每一层自动编码器均包括输入层、隐藏层及输出层,第一层自动编码器的输入层的输入数据假定为第一层自动编码器的输出层的输出数据,第一层自动编码器的输出层的输出数据作为第二层自动编码器的输入层的输入数据,第二层自动编码器的输入层的输入数据作为第二层自动编码器的输出层的输出数据,依次类推,第m-1层自动编码器的输出层的输出数据作为第m层自动编码器的输入层的输入数据,第m层自动编码器的输入层的输入数据假定为第m层自动编码器的输出层的输出数据,逐层进行自动编码器无监督训练,获取输入数据与输出数据的映射关系。
优选地,在逐层进行自动编码器无监督训练中,设第k层自动编码器的输入层的输入数据为x kx k的维数为d x,通过映射函数f(wx k+b)将x k从输入层投影到隐藏层,得到隐藏层输出为:h k=f(wx k+b),其中,h k的维度为d hw为维数是d h×d x的权重矩阵参数,b为输入层的偏置参数,然后通过映射函数h k映射到输出层,其中,/>为维数是d x×d h的权重矩阵参数,/>为输出层的偏置参数,采用梯度下降法训练第k层自动编码器,训练完成,重构出原输入数据x k,去掉用于重构输出的输出层;
设m层堆栈式连接的自动编码器的输入数据为x,则x通过m层自动编码器处理后,得到的映射关系为:,其中,x的维数小于/>的维数,但/>x的特征信息一致;
设预处理后的配置特征集F 1表示为:
n为正整数,f i表示配置特征集F 1中第i个配置特征数据,i=1,2,...,n;将预处理后的配置特征集F 1输入至栈自动编码模型,栈自动编码模型对配置特征集F 1中的每一个配置特征数据进行压缩降维,得到压缩降维后的配置特征数据,形成配置特征集F 2,配置特征集F 2表示为:
其中,g i表示配置特征集F 2中第i个配置特征数据,i=1,2,...,ng i的维数小于f i的维数。
通过上述技术手段,在逐层进行自动编码器无监督训练中,利用无监督训练方式使每一层自动编码器的输出层尽可能复现输入数据,设定每层自动编码器的输出数据与输入数据相同,输入数据以一定维数表示,经过隐藏层编码后,维数被压缩,但最后仍还原成一个与输入数据特征信息一致的输出数据,便于加快特征选择的速度。
优选地,所述的分类器为softmax分类器,根据汽车月销量的数量划分配置特征数据组合下汽车销量类别,以评分函数映射的值作为不同配置特征数据组合下不同汽车销量类别的分值,其中,F表示配置特征数据组合形成的配置特征集,W表示栈自动编码模型的模型参数;
构建交叉熵损失,表达式为:
其中,Li表示交叉熵损失;y p表示汽车销量正确类别的标签,S j表示评分函数映射的值向量中的第j个元素,表示配置特征数据组合下汽车销量类别预测为正确类别y p的评分值,得到softmax分类函数:
softmax分类函数将评分函数映射的值向量中的每个元素压缩到(0,1)之间,且所有元素值之和为1;z表示评分函数映射的值;t表示预测的某一汽车销量类别,表示e的分类类别为正确标签y p的评分函数映射的值的幂次;
将配置特征集F 2作为分类器的输入,利用评分函数得出配置特征集F 2中配置特征数据组合下汽车销量类别的分值,结合配置特征数据组合下汽车销量类别的标签,以交叉熵损失作为训练的损失函数,在训练过程中,调节栈自动编码模型的模型参数W,直至损失函数收敛,得到训练好的栈自动编码模型。
通过上述技术手段,引入交叉熵度量预测的汽车销量分类结果与真实汽车销量类别的差异性,采用有监督训练方式,以交叉熵损失作为包括分类器在内的整体模型训练的损失函数,在训练过程中,调节栈自动编码模型的模型参数W,直至损失函数收敛,得到一个具有分类能力的整体模型。
优选地,在步骤S4中,计算配置特征集F 3在分类器上的交叉熵损失J f的过程为:
以评分函数映射,得出配置特征集F 3中配置特征数据组合下不同汽车销量类别的分值;
结合配置特征数据组合下汽车销量类别的标签,以及评分函数映射的值向量中的第j个元素、配置特征数据组合下汽车销量类别预测为正确类别y p的评分值,根据交叉熵损失的表达式:
求解出配置特征集F 3在分类器上的交叉熵损失J f
优选地,设配置特征集F 1表示为:i=1,2,...,n,在步骤S5中,遍历配置特征集F 1的第i个配置特征数据/>后,将第i个配置特征数据/>剔除,设剔除配置特征数据/>后的配置特征集为F 11,表示为:/>,配置特征集F 11与配置特征集F 1相比,减少了一个配置特征数据/>
优选地,对配置特征集中的n个配置特征数据依次遍历,每遍历一个配置特征数据,将被遍历的特征数据从配置特征集F 1中剔除,剩余的n-1个配置特征数据组成的配置特征集,共形成n个配置特征集,分别计算n个配置特征集在分类器上的交叉熵损失,依次得到n个交叉熵损失J 1J 2、...、J i、...、J n,其中,J 1表示剔除配置特征集F 1中第一个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J 2表示剔除配置特征集F 1中第二个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J i表示剔除配置特征集F 1中第i个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J n表示剔除配置特征集F 1中第n个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失;n个交叉熵损失J 1J 2、...、J i、...、J n形成交叉熵损失数组J,表示为J=[J 1J 2,...,J i,...,J n]。
优选地,将交叉熵损失J f与交叉熵损失数组J中的每个交叉熵损失依次作差,得到交叉熵差数组J s的表达式为:J s =[,/>,...,/>,...,/>],其中,/>表示交叉熵损失J f与交叉熵损失数组J中的第i个交叉熵损失作差后得到的交叉熵损失差值,将所有交叉熵损失差值按升序排列,设升序排列后的交叉熵差数组表示为/>,/> =[/>,/>,...,,...,/>],其中,/>,/>,...,/>,...,/>的值依次增大。
通过上述技术手段,将所有交叉熵损失差值按升序排列,可以看出依次剔除了不同配置特征数据后配置特征集在分类器上的交叉熵损失值的大小变化,识别使交叉熵损失增大的配置特征数据。
优选地,交叉熵损失J f的值恒定,交叉熵损失差值越大,交叉熵损失差值对应的从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失越小,以交叉熵损失差值阈值为衡量标准,从配置特征集F 1中剔除大于交叉熵损失差值阈值时,交叉熵损失差值对应的配置特征数据,使从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失降低。
通过上述技术手段,从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失降低,交叉熵损失越小,预测结果越接近真实情况,剔除使交叉熵损失增大的配置特征数据的做法提高了后续预测的准确性,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于交叉熵的新能源汽车配置特征选择方法,采用栈自动编码模型对配置特征数据进行压缩降维,无需量化配置特征指标,也无需符合一定的分布,将压缩降维后输出的配置特征集作为分类器的输入进行训练,调节栈自动编码模型的模型参数,得到训练好的栈自动编码模型;遍历配置特征集中每一个配置特征数据,计算剔除被遍历配置特征数据后的配置特征集在分类器上的交叉熵损失,并计算未剔除配置特征数据前的配置特征集的交叉熵损失与剔除每一配置特征数据后的配置特征集的交叉熵损失之间的交叉熵损失差值,以交叉熵损失差值阈值为衡量标准,剔除使交叉熵损失增大的配置特征数据,将配置特征集中剩余的配置特征数据,组成最优的新能源汽车配置特征集用于配置特征组合汽车销量分类预测,不需要对每一个候选配置特征集均训练机器学习模型,特征选择过程计算简单,计算成本低,便于筛选出与汽车销量相关性较高的配置特征集,提高了后续预测的准确性,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征组合。
附图说明
图1表示本发明实施例中提出的基于交叉熵的新能源汽车配置特征选择方法的流程图;
图2表示本发明实施例中提出的每层自动编码器中输入数据与输出数据的映射示意图;
图3表示本发明实施例中提出的三层堆栈式连接的自动编码器组成的栈自动编码模型中输入数据与输出数据的映射示意图;
图4表示利用本发明实施例中提出的对配置特征集F 1中的每一个配置特征数据依次进行遍历,并确定交叉熵损失的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
实施例1
本实施例提出了一种基于交叉熵的新能源汽车配置特征选择方法,该方法的流程示意图参见图1,包括以下步骤:
S1:对新能源汽车的配置特征数据进行预处理,由预处理后的配置特征数据形成配置特征集F 1
S2:构建栈自动编码模型,利用栈自动编码模型对配置特征集F 1的配置特征数据进行压缩降维,得到压缩降维后的配置特征数据,形成配置特征集F 2
S3:引入分类器,将配置特征集F 2作为分类器的输入,以配置特征集F 2中配置特征数据组合下汽车销量作为分类器的输出,结合配置特征数据组合下汽车销量类别的标签,以交叉熵损失作为损失函数进行训练,调节栈自动编码模型的模型参数,得到训练好的栈自动编码模型;
S4:将配置特征集F 1输入至训练好的栈自动编码模型,经压缩降维后得到配置特征集F 3,计算配置特征集F 3在分类器上的交叉熵损失J f
S5:从配置特征集F 1中的第一个配置特征数据开始,对所有配置特征数据依次遍历,每遍历一个配置特征数据,将该配置特征数据从配置特征集F 1中剔除,计算剔除该配置特征数据后的配置特征集F 1在分类器上的交叉熵损失;
S6:当配置特征集F 1中的所有配置特征数据被遍历完全,得到与被剔除配置特征数据对应的若干个交叉熵损失,形成交叉熵损失数组J
S7:将交叉熵损失J f与交叉熵损失数组J中的每个交叉熵损失依次作差,得到交叉熵损失差值,形成交叉熵差数组J s
S8:将交叉熵差数组J s中的每个交叉熵损失差值按升序排列,得到升序排列后的交叉熵损失差值;
S9:设置交叉熵损失差值阈值,确定大于交叉熵损失差值阈值的交叉熵损失差值对应的从配置特征集F 1中已剔除的配置特征数据,进一步得到配置特征集F 1中剩余的配置特征数据,组成最优的新能源汽车配置特征集。
在本实施例中,采用一种嵌入式方法,将特征数据嵌入栈自动编码模型中,首先采用栈自动编码模型对配置特征数据进行压缩降维,不需要量化指标,也不需要符合高斯分布,适用范围广,将压缩降维后输出的配置特征集作为分类器的输入,将压缩降维后输出的配置特征集作为分类器的输入进行训练,调节栈自动编码模型的模型参数,这里采用一种有监督训练的方式,得到训练好的栈自动编码模型,然后,遍历配置特征集中每一个配置特征数据,每遍历一个配置特征数据,将该配置特征数据从配置特征集中剔除,计算剔除该配置特征数据后的配置特征集在分类器上的交叉熵损失,并计算未剔除配置特征数据前的配置特征集的交叉熵损失与剔除每一配置特征数据后的配置特征集的交叉熵损失之间的交叉熵损失差值,以交叉熵损失差值阈值为衡量标准,剔除使交叉熵损失增大的配置特征数据,将配置特征集中剩余的配置特征数据,组成最优的新能源汽车配置特征集用于汽车销量分类预测,特征选择过程计算简单,计算成本低,便于筛选出与汽车销量相关性较高的配置特征集,提高了后续预测的准确性,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。
在本实施例中,新能源汽车的配置特征数据包括车型参数、功能、车辆颜色、电池容量、电机功率、续航里程、充电时间、价格、车身重量及车辆月销量;对新能源汽车的配置特征数据进行的预处理操作包括:
(1)数据标注,考虑数据标注是大部分人工智能算法得以有效运行的关键环节,在本实施例中,根据配置特征数据的不同,制定不同的标注规则,使配置特征数据转变为能被识别的机器信息;首先,收集新能源汽车配置特征数据,确定标注规则:根据车型参数、功能、车辆颜色、电池容量、电机功率、续航里程、充电时间、价格、车身重量及车辆月销量等不同配置特征数据,制定相应的标注规则。例如,对于车辆颜色,可以制定如下的规则:“白色=1、灰色=2、黄色=3、粉色=4、红色=5、紫色=6、绿色=7、蓝色=8、棕色=9、黑色=10”,以此类推,用数字标号标注,非量化指标可以被识别。对于车辆月销量,可以制定如下的标注规则:“车辆月销量低于1000=1、车辆月销量高于1000,低于2000=2、车辆月销量高于2000,低于3000=3”,以此追加。
(2)数据筛选,对异常或错误配置特征数据进行排除;例如空值、超范围值、错误数据等进行处理。
(3)数据规范标准化,将配置特征数据中的无数值型数据进行编码处理,转换为数值型数据;对于新能源汽车的配置特征,例如对于车型、颜色等分类数据进行编码处理,将分类数据转换为可分析的数值型数据。
(4)数据去重及归一化:对于新能源汽车的配置特征数据,可能存在重复或冗余的数据,需要进行去重处理,将重复或冗余的配置特征数据进行去重,对配置特征数据中的数值型数据进行归一化处理,将数据范围归一化到[0,1]之间,以方便后续的分析和处理。
实施例2
本实施例对实施例1中构建的栈自动编码模型进行详细说明。栈自动编码模型包括m层堆栈式连接的自动编码器,以便更好地理解和分析新能源配置特征数据。每一层自动编码器均包括输入层、隐藏层及输出层,在本实施例中,m取3,将每一层的初始输入数据信息作为假定的输出数据信息,当前层自动编码器以前一层自动编码器的输出数据特征为基础,则:第一层自动编码器的输入层的输入数据假定为第一层自动编码器的输出层的输出数据,第一层自动编码器的输出层的输出数据作为第二层自动编码器的输入层的输入数据,第二层自动编码器的输入层的输入数据作为第二层自动编码器的输出层的输出数据,第二层自动编码器的输出层的输出数据作为第三层自动编码器的输入层的输入数据,第三层自动编码器的输入层的输入数据假定为第三层自动编码器的输出层的输出数据,逐层进行自动编码器无监督训练,获取输入数据与输出数据的映射关系。
具体的,在逐层进行自动编码器无监督训练中,以第k层自动编码器为例,参见图2,设第k层自动编码器的输入层的输入数据为x kx k的维数为d x,通过映射函数f(wx k+b)将x k从输入层投影到隐藏层,得到隐藏层输出为:h k=f(wx k+b),其中,h k的维度为d hw为维数是d h×d x的权重矩阵参数,b为输入层的偏置参数,然后通过映射函数h k映射到输出层,其中,/>为维数是d x×d h的权重矩阵参数,/>为输出层的偏置参数,采用梯度下降法训练第k层自动编码器,训练完成,重构出原输入数据x k,去掉用于重构输出的输出层。那么,设3层堆栈式连接的自动编码器的输入数据为x,则x通过3层自动编码器处理后,得到的映射关系为:/>,其中,x的维数小于/>的维数,但/>x的特征信息一致;当训练过程结束后,每层自动编码器的输出层部分就可以舍弃,因为栈自动编码模型仅着重于从输入x到隐藏层输出特征表示/>之间的特征映射,例如得到第一层自动编码器的隐藏层输出特征表示h 1之后,再次将h 1作为原始输入,训练第二层新的自动编码器,得到新的隐藏层输出特征表示h 2,以此类推,就可以迭代成为3层栈自动编码模型,映射示意图如图3所示。
设预处理后的配置特征集F 1表示为:
n为正整数,f i表示配置特征集F 1中第i个配置特征数据,i=1,2,...,n;将预处理后的配置特征集F 1输入至栈自动编码模型,栈自动编码模型对配置特征集F 1中的每一个配置特征数据进行压缩降维,得到压缩降维后的配置特征数据,形成配置特征集F 2,配置特征集F 2表示为:
其中,g i表示配置特征集F 2中第i个配置特征数据,i=1,2,...,ng i的维数小于f i的维数。
在本实施例中,在逐层进行自动编码器无监督训练中,利用无监督训练方式使每一层自动编码器的输出层尽可能复现输入数据,设定每层自动编码器的输出数据与输入数据相同,输入数据以一定维数表示,经过隐藏层编码后,维数被压缩,但最后仍还原成一个与输入数据特征信息一致的输出数据,便于加快特征选择的速度。
实施例3
在本实施例中,分类器为softmax分类器,根据汽车月销量的数量划分配置特征组合汽车销量类别,如前所述,设定车辆月销量低于1000为一类、车辆月销量高于1000,低于2000为二类,车辆月销量高于2000,低于3000为三类,通过新能源汽车配置特征集预测新能源汽车销量分类问题,以评分函数映射的值作为不同配置特征数据组合下不同汽车销量类别的分值,其中,F表示配置特征数据组合形成的配置特征集,W表示栈自动编码模型的模型参数。
在本实施例中,引入交叉熵度量预测的汽车销量分类结果与真实汽车销量类别的差异性,构建交叉熵损失,表达式为:
其中,Li表示交叉熵损失;y p表示汽车销量正确类别的标签,S j表示评分函数映射的值向量中的第j个元素,表示配置特征数据组合下汽车销量类别预测为正确类别y p的评分值,得到softmax分类函数:
softmax分类函数将评分函数映射的值向量中的每个元素压缩到(0,1)之间,且所有元素值之和为1;z表示评分函数映射的值;t表示预测的某一汽车销量类别,表示e的分类类别为正确标签y p的评分函数映射的值的幂次。
将配置特征集F 2作为分类器的输入,利用评分函数得出配置特征集F 2中配置特征数据组合下汽车销量类别的分值,结合配置特征数据组合下汽车销量类别的标签,以交叉熵损失作为训练的损失函数,在训练过程中,比较分类输出值与汽车销量类别的标签实际值,将分类错误的梯度值反向传播给栈自动编码模型,调节栈自动编码模型的模型参数W,直至损失函数收敛,得到训练好的栈自动编码模型,整个过程采用有监督训练方式,以交叉熵损失作为包括分类器在内的整体模型训练的损失函数,在训练过程中,调节栈自动编码模型的模型参数W,直至损失函数收敛,得到一个具有分类能力的整体模型。
利用上述训练好的栈自动编码模型,在步骤S4中,计算配置特征集F 3在分类器上的交叉熵损失J f的过程为:
以评分函数映射,得出配置特征集F 3中配置特征数据组合下不同汽车销量类别的分值;
结合配置特征数据组合下汽车销量类别的标签,以及评分函数映射的值向量中的第j个元素、配置特征数据组合下汽车销量类别预测为正确类别y p的评分值,根据交叉熵损失的表达式:
求解出配置特征集F 3在分类器上的交叉熵损失J f
实施例3
本实施例对配置特征集中配置特征数据的遍历过程进行说明。首先,设配置特征集F 1表示为:i=1,2,...,n,在步骤S5中,遍历配置特征集F 1的第i个配置特征数据/>后,将第i个配置特征数据/>剔除,设剔除配置特征数据/>后的配置特征集为F 11,表示为:/>,配置特征集F 11与配置特征集F 1相比,减少了一个配置特征数据/>
如图4所示,对配置特征集中的n个配置特征数据依次遍历,每遍历一个配置特征数据,将被遍历的特征数据从配置特征集F 1中剔除,剩余的n-1个配置特征数据组成的配置特征集,共形成n个配置特征集,分别计算n个配置特征集在分类器上的交叉熵损失,依次得到n个交叉熵损失J 1J 2、...、J i、...、J n,其中,J 1表示剔除配置特征集F 1中第一个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J 2表示剔除配置特征集F 1中第二个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J i表示剔除配置特征集F 1中第i个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J n表示剔除配置特征集F 1中第n个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失;n个交叉熵损失J 1J 2、...、J i、...、J n形成交叉熵损失数组J,表示为J =[J 1J 2,...,J i,...,J n]。
然后,将交叉熵损失J f与交叉熵损失数组J中的每个交叉熵损失依次作差,得到交叉熵差数组J s的表达式为:J s =[,/>,...,/>,...,/>],其中,/>表示交叉熵损失J f与交叉熵损失数组J中的第i个交叉熵损失作差后得到的交叉熵损失差值,将所有交叉熵损失差值按升序排列,设升序排列后的交叉熵差数组表示为/>,/> =[/>,/>,...,/>,...,/>],其中,/>,/>,...,/>,...,/>的值依次增大。在本实施例中,将所有交叉熵损失差值按升序排列,可以看出依次剔除了不同配置特征数据后配置特征集在分类器上的交叉熵损失值的大小变化,识别使交叉熵损失增大的配置特征数据。
在该过程中,交叉熵损失J f的值恒定,交叉熵损失差值越大,交叉熵损失差值对应的从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失越小,以交叉熵损失差值阈值为衡量标准,从配置特征集F 1中剔除大于交叉熵损失差值阈值时,交叉熵损失差值对应的配置特征数据,使从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失降低。交叉熵损失越小,预测结果越接近真实情况,剔除使交叉熵损失增大的配置特征数据的做法提高了后续预测的准确性,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。
实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于交叉熵的新能源汽车配置特征选择方法,其特征在于,包括以下步骤:
S1:对新能源汽车的配置特征数据进行预处理,由预处理后的配置特征数据形成配置特征集F 1
S2:构建栈自动编码模型,利用栈自动编码模型对配置特征集F 1的配置特征数据进行压缩降维,得到压缩降维后的配置特征数据,形成配置特征集F 2
S3:引入分类器,将配置特征集F 2作为分类器的输入,以配置特征集F 2中配置特征数据组合下汽车销量作为分类器的输出,结合配置特征数据组合下汽车销量类别的标签,以交叉熵损失作为损失函数进行训练,调节栈自动编码模型的模型参数,得到训练好的栈自动编码模型;
S4:将配置特征集F 1输入至训练好的栈自动编码模型,经压缩降维后得到配置特征集F 3,计算配置特征集F 3在分类器上的交叉熵损失J f
S5:从配置特征集F 1中的第一个配置特征数据开始,对所有配置特征数据依次遍历,每遍历一个配置特征数据,将该配置特征数据从配置特征集F 1中剔除,计算剔除该配置特征数据后的配置特征集F 1在分类器上的交叉熵损失;
S6:当配置特征集F 1中的所有配置特征数据被遍历完全,得到与被剔除配置特征数据对应的若干个交叉熵损失,形成交叉熵损失数组J
S7:将交叉熵损失J f与交叉熵损失数组J中的每个交叉熵损失依次作差,得到交叉熵损失差值,形成交叉熵差数组J s
S8:将交叉熵差数组J s中的每个交叉熵损失差值按升序排列,得到升序排列后的交叉熵损失差值;
S9:设置交叉熵损失差值阈值,确定大于交叉熵损失差值阈值的交叉熵损失差值对应的从配置特征集F 1中已剔除的配置特征数据,进一步得到配置特征集F 1中剩余的配置特征数据,组成最优的新能源汽车配置特征集。
2.根据权利要求1所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,新能源汽车的配置特征数据包括车型参数、功能、车辆颜色、电池容量、电机功率、续航里程、充电时间、价格、车身重量及车辆月销量;对新能源汽车的配置特征数据进行的预处理操作包括:
数据标注,根据配置特征数据的不同,制定不同的标注规则,使配置特征数据转变为能被识别的机器信息;
数据筛选,对异常或错误配置特征数据进行排除;
数据规范标准化,将配置特征数据中的无数值型数据进行编码处理,转换为数值型数据;
数据去重及归一化,将重复或冗余的配置特征数据进行去重,对配置特征数据中的数值型数据进行归一化处理。
3.根据权利要求1所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,所述栈自动编码模型包括m层堆栈式连接的自动编码器,每一层自动编码器均包括输入层、隐藏层及输出层,第一层自动编码器的输入层的输入数据假定为第一层自动编码器的输出层的输出数据,第一层自动编码器的输出层的输出数据作为第二层自动编码器的输入层的输入数据,第二层自动编码器的输入层的输入数据作为第二层自动编码器的输出层的输出数据,依次类推,第m-1层自动编码器的输出层的输出数据作为第m层自动编码器的输入层的输入数据,第m层自动编码器的输入层的输入数据假定为第m层自动编码器的输出层的输出数据,逐层进行自动编码器无监督训练,获取输入数据与输出数据的映射关系。
4.根据权利要求3所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,在逐层进行自动编码器无监督训练中,设第k层自动编码器的输入层的输入数据为x kx k的维数为d x,通过映射函数f(wx k+b)将x k从输入层投影到隐藏层,得到隐藏层输出为:h k=f(wx k+b),其中,h k的维度为d hw为维数是d h×d x的权重矩阵参数,b为输入层的偏置参数,然后通过映射函数h k映射到输出层,其中,/>为维数是d x×d h的权重矩阵参数,/>为输出层的偏置参数,采用梯度下降法训练第k层自动编码器,训练完成,重构出原输入数据x k,去掉用于重构输出的输出层;
设m层堆栈式连接的自动编码器的输入数据为x,则x通过m层自动编码器处理后,得到的映射关系为:,其中,x的维数小于/>的维数,但/>x的特征信息一致;
设预处理后的配置特征集F 1表示为:
n为正整数,f i表示配置特征集F 1中第i个配置特征数据,i=1,2,...,n;将预处理后的配置特征集F 1输入至栈自动编码模型,栈自动编码模型对配置特征集F 1中的每一个配置特征数据进行压缩降维,得到压缩降维后的配置特征数据,形成配置特征集F 2,配置特征集F 2表示为:
其中,g i表示配置特征集F 2中第i个配置特征数据,i=1,2,...,ng i的维数小于f i的维数。
5.根据权利要求4所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,所述的分类器为softmax分类器,根据汽车月销量的数量划分配置特征数据组合下汽车销量类别,以评分函数映射的值作为不同配置特征数据组合下不同汽车销量类别的分值,其中,F表示配置特征数据组合形成的配置特征集,W表示栈自动编码模型的模型参数;
构建交叉熵损失,表达式为:
其中,Li表示交叉熵损失;y p表示汽车销量正确类别的标签,S j表示评分函数映射的值向量中的第j个元素,表示配置特征数据组合下汽车销量类别预测为正确类别y p的评分值,得到softmax分类函数:
softmax分类函数将评分函数映射的值向量中的每个元素压缩到(0,1)之间,且所有元素值之和为1;z表示评分函数映射的值;t表示预测的某一汽车销量类别,/>表示e的分类类别为正确标签y p的评分函数映射的值的幂次;
将配置特征集F 2作为分类器的输入,利用评分函数得出配置特征集F 2中配置特征数据组合下汽车销量类别的分值,结合配置特征数据组合下汽车销量类别的标签,以交叉熵损失作为训练的损失函数,在训练过程中,调节栈自动编码模型的模型参数W,直至损失函数收敛,得到训练好的栈自动编码模型。
6.根据权利要求5所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,在步骤S4中,计算配置特征集F 3在分类器上的交叉熵损失J f的过程为:
以评分函数映射,得出配置特征集F 3中配置特征数据组合下不同汽车销量类别的分值;
结合配置特征数据组合下汽车销量类别的标签,以及评分函数映射的值向量中的第j个元素、配置特征数据组合下汽车销量类别预测为正确类别y p的评分值,根据交叉熵损失的表达式:
求解出配置特征集F 3在分类器上的交叉熵损失J f
7.根据权利要求6所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,设配置特征集F 1表示为:i=1,2,...,n,在步骤S5中,遍历配置特征集F 1的第i个配置特征数据/>后,将第i个配置特征数据/>剔除,设剔除配置特征数据/>后的配置特征集为F 11,表示为:/>,配置特征集F 11与配置特征集F 1相比,减少了一个配置特征数据/>
8.根据权利要求7所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,对配置特征集中的n个配置特征数据依次遍历,每遍历一个配置特征数据,将被遍历的特征数据从配置特征集F 1中剔除,剩余的n-1个配置特征数据组成的配置特征集,共形成n个配置特征集,分别计算n个配置特征集在分类器上的交叉熵损失,依次得到n个交叉熵损失J 1J 2、...、J i、...、J n,其中,J 1表示剔除配置特征集F 1中第一个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J 2表示剔除配置特征集F 1中第二个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J i表示剔除配置特征集F 1中第i个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J n表示剔除配置特征集F 1中第n个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失;n个交叉熵损失J 1J 2、...、J i、...、J n形成交叉熵损失数组J,表示为J=[J 1J 2,...,J i,...,J n]。
9.根据权利要求8所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,将交叉熵损失J f与交叉熵损失数组J中的每个交叉熵损失依次作差,得到交叉熵差数组J s的表达式为:J s =[,/>,...,/>,...,/>],其中,/>表示交叉熵损失J f与交叉熵损失数组J中的第i个交叉熵损失作差后得到的交叉熵损失差值,将所有交叉熵损失差值按升序排列,设升序排列后的交叉熵差数组表示为/>,/> =[/>,/>,...,/>,...,/>],其中,,/>,...,/>,...,/>的值依次增大。
10.根据权利要求1或9所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,交叉熵损失J f的值恒定,交叉熵损失差值越大,交叉熵损失差值对应的从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失越小,以交叉熵损失差值阈值为衡量标准,从配置特征集F 1中剔除大于交叉熵损失差值阈值时,交叉熵损失差值对应的配置特征数据,使从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失降低。
CN202311742380.1A 2023-12-18 2023-12-18 基于交叉熵的新能源汽车配置特征选择方法 Active CN117435906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311742380.1A CN117435906B (zh) 2023-12-18 2023-12-18 基于交叉熵的新能源汽车配置特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311742380.1A CN117435906B (zh) 2023-12-18 2023-12-18 基于交叉熵的新能源汽车配置特征选择方法

Publications (2)

Publication Number Publication Date
CN117435906A true CN117435906A (zh) 2024-01-23
CN117435906B CN117435906B (zh) 2024-03-12

Family

ID=89551860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311742380.1A Active CN117435906B (zh) 2023-12-18 2023-12-18 基于交叉熵的新能源汽车配置特征选择方法

Country Status (1)

Country Link
CN (1) CN117435906B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046277A (zh) * 2015-07-15 2015-11-11 华南农业大学 特征显著性在图像质量评价中的鲁棒机理研究方法
CN105975518A (zh) * 2016-04-28 2016-09-28 吴国华 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN112418653A (zh) * 2020-11-19 2021-02-26 重庆邮电大学 一种基于机器学习算法的携号转网潜客识别系统及方法
CN112633346A (zh) * 2020-12-17 2021-04-09 西安理工大学 一种基于特征交互性的特征选择方法
US20210142210A1 (en) * 2019-11-11 2021-05-13 Alibaba Group Holding Limited Multi-task segmented learning models
US20210150316A1 (en) * 2019-11-15 2021-05-20 Disney Enterprises, Inc. Data Object Classification Using an Optimized Neural Network
WO2021139309A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 人脸识别模型的训练方法、装置、设备及存储介质
CN113177608A (zh) * 2021-05-21 2021-07-27 河南大学 一种针对不完整数据的近邻模型特征选择方法及装置
CN113762005A (zh) * 2020-11-09 2021-12-07 北京沃东天骏信息技术有限公司 特征选择模型的训练、对象分类方法、装置、设备及介质
CN114215706A (zh) * 2021-12-27 2022-03-22 南京邮电大学 一种风电机组叶片开裂故障预警方法和装置
WO2022074840A1 (ja) * 2020-10-09 2022-04-14 日本電信電話株式会社 ドメイン特徴抽出器学習装置、ドメイン予測装置、学習方法、学習装置、クラス識別装置及びプログラム
CN115019319A (zh) * 2022-04-20 2022-09-06 华东师范大学 一种基于动态特征提取的结构化图片内容识别方法
US20220353512A1 (en) * 2021-04-30 2022-11-03 Tencent America LLC Content-adaptive online training with feature substitution in neural image compression
US20230024884A1 (en) * 2021-07-20 2023-01-26 Oracle International Corporation Balancing feature distributions using an importance factor
CN115860147A (zh) * 2022-01-28 2023-03-28 福建电子口岸股份有限公司 基于非平衡集成学习的报关单预判模型训练方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046277A (zh) * 2015-07-15 2015-11-11 华南农业大学 特征显著性在图像质量评价中的鲁棒机理研究方法
CN105975518A (zh) * 2016-04-28 2016-09-28 吴国华 基于信息熵的期望交叉熵特征选择文本分类系统及方法
US20210142210A1 (en) * 2019-11-11 2021-05-13 Alibaba Group Holding Limited Multi-task segmented learning models
US20210150316A1 (en) * 2019-11-15 2021-05-20 Disney Enterprises, Inc. Data Object Classification Using an Optimized Neural Network
WO2021139309A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 人脸识别模型的训练方法、装置、设备及存储介质
WO2022074840A1 (ja) * 2020-10-09 2022-04-14 日本電信電話株式会社 ドメイン特徴抽出器学習装置、ドメイン予測装置、学習方法、学習装置、クラス識別装置及びプログラム
CN113762005A (zh) * 2020-11-09 2021-12-07 北京沃东天骏信息技术有限公司 特征选择模型的训练、对象分类方法、装置、设备及介质
CN112418653A (zh) * 2020-11-19 2021-02-26 重庆邮电大学 一种基于机器学习算法的携号转网潜客识别系统及方法
CN112633346A (zh) * 2020-12-17 2021-04-09 西安理工大学 一种基于特征交互性的特征选择方法
US20220353512A1 (en) * 2021-04-30 2022-11-03 Tencent America LLC Content-adaptive online training with feature substitution in neural image compression
CN113177608A (zh) * 2021-05-21 2021-07-27 河南大学 一种针对不完整数据的近邻模型特征选择方法及装置
US20230024884A1 (en) * 2021-07-20 2023-01-26 Oracle International Corporation Balancing feature distributions using an importance factor
CN114215706A (zh) * 2021-12-27 2022-03-22 南京邮电大学 一种风电机组叶片开裂故障预警方法和装置
CN115860147A (zh) * 2022-01-28 2023-03-28 福建电子口岸股份有限公司 基于非平衡集成学习的报关单预判模型训练方法及装置
CN115019319A (zh) * 2022-04-20 2022-09-06 华东师范大学 一种基于动态特征提取的结构化图片内容识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PAN WEI 等: "Robust feature selection based on regularized brownboost loss", 《KNOWLEDGE-BASED SYSTEMS》, vol. 54, 28 February 2013 (2013-02-28), pages 180 - 198 *
李云 等: "基于K近邻分类间隔的特征选择方法研究", 《南京邮电大学学报》, vol. 29, no. 6, 31 December 2009 (2009-12-31), pages 68 - 74 *

Also Published As

Publication number Publication date
CN117435906B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN111414942B (zh) 一种基于主动学习和卷积神经网络的遥感图像分类方法
CN113191215B (zh) 融合注意力机制与孪生网络结构的滚动轴承故障诊断方法
CN109858972B (zh) 广告点击率的预测方法和装置
CN112487193B (zh) 一种基于自编码器的零样本图片分类方法
CN111079941B (zh) 信用信息处理方法、系统、终端和存储介质
CN112906500B (zh) 基于深度特权网络的人脸表情识别方法及系统
CN114019370B (zh) 基于灰度图像和轻量级cnn-svm模型的电机故障检测方法
CN107480723B (zh) 基于局部二进制阈值学习网络的纹理识别方法
CN114943694A (zh) 一种基于对抗生成网络与注意力的缺陷检测方法
CN112687349A (zh) 一种降低辛烷值损失模型的构建方法
CN112115806B (zh) 基于Dual-ResNet小样本学习的遥感影像场景精确分类方法
CN112085384A (zh) 一种基于模糊推理与lstm结合的邮寄物风险评价方法与系统
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN115795351A (zh) 一种基于残差网络和2d特征表示的电梯大数据风险预警方法
CN117237559A (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN116257759A (zh) 一种深度神经网络模型的结构化数据智能分类分级系统
CN114841268A (zh) 基于Transformer和LSTM融合算法的异常电力客户识别方法
CN117435906B (zh) 基于交叉熵的新能源汽车配置特征选择方法
CN106570514A (zh) 一种基于词袋模型和支持向量机的汽车轮毂分类方法
CN117495422A (zh) 基于电力通信网建设的造价管理系统及其方法
CN112686498A (zh) 一种基于深度卷积网络的企业信用评级方法
CN117252459A (zh) 一种基于深度学习的水果质量评估系统
CN116467930A (zh) 一种基于Transformer的结构化数据通用建模方法
CN113837266B (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN112990333A (zh) 一种基于深度学习的天气多分类识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant