CN114239697A - 目标对象的分类方法、装置、电子设备及存储介质 - Google Patents
目标对象的分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114239697A CN114239697A CN202111423883.3A CN202111423883A CN114239697A CN 114239697 A CN114239697 A CN 114239697A CN 202111423883 A CN202111423883 A CN 202111423883A CN 114239697 A CN114239697 A CN 114239697A
- Authority
- CN
- China
- Prior art keywords
- feature
- classified
- sample
- preset
- contribution degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供的目标对象的分类方法、装置、电子设备及存储介质,应用于信息技术领域,可以获取目标对象的时序数据;对时序数据进行特征提取,得到多个待分类特征;通过预设特征构建算法,计算各待分类特征的特征分布向量;通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度;选取贡献度大于预设贡献度阈值的待分类特征作为所述目标对象的当前特征;根据当前特征对目标对象进行分类,得到目标对象对应的分类结果。可以根据各待分类特征的特征分布向量预测各待分类特征的贡献度,选取贡献度最高的前N个待分类特征作为目标对象的当前特征进行分类,从而提高分类的准确率。
Description
技术领域
本发明涉及信息技术领域,特别是涉及一种目标对象的分类方法、装置、电子设备及存储介质。
背景技术
目前,目标分类的应用已经越来越广泛,利用目标分类可以根据目标对象的历史数据进行目标对象的分类,例如。通过分析用户的历史消费记录,判断该用户是否为潜在客户。而在进行目标对象的分类时,一般需要先提取目标对象的特征,然后根据目标对象的特征进行目标对象的分类。
然而,目前在进行特征提取时,往往是通过人工方法等方法进行特征提取。提取到的特征中往往会包括质量较差的特征,从而在根据提取到的特征进行目标对象的分类时,不但会增加计算量,影响分类的效率,而且会影响分类的准确率。
发明内容
本发明实施例的目的在于提供一种目标对象的分类方法、装置、电子设备及存储介质,用以提高目标对象分类的准确率。具体技术方案如下:
本申请实施例的第一方面,首先提供了一种目标对象的分类方法,所述方法包括:
获取目标对象的时序数据;
对所述时序数据进行特征提取,得到多个待分类特征;
通过预设特征构建算法,计算各待分类特征的特征分布向量;
通过预先训练好的特征构建元模型,根据所述各待分类特征的特征分布向量预测所述各待分类特征的贡献度;
选取贡献度大于预设贡献度阈值的待分类特征作为目标对象的当前特征;
根据所述当前特征对所述目标对象进行分类,得到所述目标对象对应的分类结果。
可选的,所述通过预先训练好的特征构建元模型,根据所述各待分类特征的特征分布向量预测所述各待分类特征的贡献度,包括:
通过所述预先训练好的特征构建元模型计算所述各待分类特征的特征分布向量与样本历史数据对应的样本特征分布向量的相似度;
针对任一待分类特征的特征分布向量,将与该待分类特征的特征分布向量的相似度大于预设相似度阈值的样本历史数据对应的贡献度作为该待分类特征的贡献度。
可选的,所述通过预设特征构建算法,计算各待分类特征的特征分布向量,包括:
计算所述各待分类特征对应多个预设分类类别的比例;
通过计算得到所述各待分类特征对应多个预设分类类别的比例,创建该待分类特征的特征分布向量。
可选的,所述预先训练好的特征构建元模型的训练过程,包括:
获取样本历史数据;
对所述样本历史数据进行特征提取,得到样本特征;
通过预设特征构建算法,计算所述样本特征对应的样本特征分布向量;
通过预设贡献度算法,计算所述样本特征的贡献度;
将所述样本特征对应的样本特征分布向量和所述样本特征的贡献度进行合并,得到特征分布数据集;
通过所述特征分布数据集对待训练的特征构建元模型进行训练,得到所述预先训练好的特征构建元模型。
可选的,所述通过预设贡献度算法,计算所述样本特征的贡献度,包括:
通过预设评估模型对所述样本历史数据进行分类,得到第一分类结果;根据所述第一分类结果进行分类准确率的计算,得到第一分类准确率;
通过所述预设评估模型根据所述样本历史数据和所述样本历史数据对应的样本特征分布向量进行样本历史数据的分类,得到第二分类结果;根据所述第二分类结果进行分类准确率的计算,得到第二分类准确率;
将所述第一分类准确率与所述第二分类准确率进行对比,得到所述样本特征分布向量对应的贡献度,其中,当所述第一分类准确率与所述第二分类准确率的差值大于预设差值阈值时对应的贡献度为第一数值,当所述第一分类准确率与所述第二分类准确率的差值小于等于预设差值阈值时对应的贡献度为第二数值。
可选的,所述对所述时序数据进行特征提取,得到多个待分类特征,包括:
通过一元算子和/或二元算子对所述时序数据进行特征提取,得到多个待分类特征。
本申请实施例的第二方面,首先提供了一种目标对象的分类装置,所述装置包括:
数据获取模块,用于获取目标对象的时序数据;
特征提取模块,用于对所述时序数据进行特征提取,得到多个待分类特征;
分布向量计算模块,用于通过预设特征构建算法,计算各待分类特征的特征分布向量;
贡献度预测模块,用于通过预先训练好的特征构建元模型,根据所述各待分类特征的特征分布向量预测所述各待分类特征的贡献度;
特征选取模块,用于选取贡献度大于预设贡献度阈值的待分类特征作为目标对象的当前特征;
结果获取模块,用于根据所述当前特征对所述目标对象进行分类,得到所述目标对象对应的分类结果。
可选的,所述贡献度预测模块,包括:
相似度计算子模块,用于通过所述预先训练好的特征构建元模型计算所述各待分类特征的特征分布向量与样本历史数据对应的样本特征分布向量的相似度;
贡献度计算子模块,用于针对任一待分类特征的特征分布向量,将与该待分类特征的特征分布向量的相似度大于预设相似度阈值的样本历史数据对应的贡献度作为该待分类特征的贡献度。
可选的,所述分布向量计算模块,包括:
比例计算子模块,用于计算所述各待分类特征对应多个预设分类类别的比例;
分布向量创建子模块,用于通过计算得到所述各待分类特征对应多个预设分类类别的比例,创建该待分类特征的特征分布向量。
可选的,所述装置还包括:
样本获取模块,用于获取样本历史数据;
样本特征提取模块,用于对所述样本历史数据进行特征提取,得到样本特征;
样本分布计算模块,用于通过预设特征构建算法,计算所述样本特征对应的样本特征分布向量;
样本贡献度计算模块,用于通过预设贡献度算法,计算所述样本特征的贡献度;
贡献度合并模块,用于将所述样本特征对应的样本特征分布向量和所述样本特征的贡献度进行合并,得到特征分布数据集;
模型训练模块,用于通过所述特征分布数据集对待训练的特征构建元模型进行训练,得到所述预先训练好的特征构建元模型。
可选的,所述样本贡献度计算模块,包括:
第一准确率计算子模块,用于通过预设评估模型对所述样本历史数据进行分类,得到第一分类结果;根据所述第一分类结果进行分类准确率的计算,得到第一分类准确率;
第二准确率计算子模块,用于通过所述预设评估模型根据所述样本历史数据和所述样本历史数据对应的样本特征分布向量进行样本历史数据的分类,得到第二分类结果;根据所述第二分类结果进行分类准确率的计算,得到第二分类准确率;
准确率对比子模块,用于将所述第一分类准确率与所述第二分类准确率进行对比,得到所述样本特征分布向量对应的贡献度,其中,当所述第一分类准确率与所述第二分类准确率的差值大于预设差值阈值时对应的贡献度为第一数值,当所述第一分类准确率与所述第二分类准确率的差值小于等于预设差值阈值时对应的贡献度为第二数值。
可选的,所述特征提取模块,具体用于通过一元算子和/或二元算子对所述时序数据进行特征提取,得到多个待分类特征。
本申请实施例的另一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一目标对象的分类方法步骤。
本申请实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一目标对象的分类方法步骤。
本申请实施例的另一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一目标对象的分类方法步骤。
本发明实施例有益效果:
本发明实施例提供的目标对象的分类方法、装置、电子设备及存储介质,可以获取目标对象的时序数据;对时序数据进行特征提取,得到多个待分类特征;通过预设特征构建算法,计算各待分类特征的特征分布向量;通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度;选取贡献度大于预设贡献度阈值的待分类特征作为目标对象的当前特征;根据当前特征对目标对象进行分类,得到目标对象对应的分类结果。不但可以对时序数据进行特征提取,得到多个待分类特征,还可以通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度,从而选取贡献度最高的前N个待分类特征作为目标对象的当前特征,进行目标对象的分类,得到目标对象对应的分类结果,不但可以提高计算效率,还可以提高分类的准确率。
实现待处理数据集的目标特征的构建,而且可以降低特征构建过程中的人工成本。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为本申请实施例提供的目标对象的分类方法的一种流程示意图;
图2为本申请实施例提供的特征构建元模型的训练方法的流程示意图;
图3为本申请实施例提供的计算样本特征的贡献度的流程示意图;
图4为本申请实施例提供的计算特征分布向量的流程示意图;
图5为本申请实施例提供的目标对象的分类装置的一种结构示意图;
图6为本申请实施例提供的目标对象的分类方法的另一种流程示意图;
图7为本申请实施例提供的目标对象的分类装置的另一种结构示意图;
图8为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本发明保护的范围。
首先,对本申请实施例中可能用到的专业名词进行解释:
元模型:为新数据集提供解决方案的模型。
元学习:在数据挖掘领域,从历史数据集中学习如何构建模型,当有新的数据集时,可以自动构建模型实现数据挖掘目标。
自动化特征工程:采用特征构建算法自动为数据集构建特征,可以提取出大量特征。
特征构建热启动:利用历史经验,为新数据集直接推荐特征;而不需要再尝试各种特征构建方法。
本申请实施例的第一方面,首先提供了一种目标对象的分类方法,上述方法包括:
获取目标对象的时序数据;
对时序数据进行特征提取,得到多个待分类特征;
通过预设特征构建算法,计算各待分类特征的特征分布向量;
通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度;
选取贡献度大于预设贡献度阈值的待分类特征作为目标对象的当前特征;
根据当前特征对目标对象进行分类,得到目标对象对应的分类结果。
可见,通过本申请实施例的方法,不但可以对时序数据进行特征提取,得到多个待分类特征,还可以通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度,从而选取贡献度最高的前N个待分类特征作为目标对象的当前特征,进行目标对象的分类,得到目标对象对应的分类结果,不但可以提高计算效率,还可以提高分类的准确率。
具体的,参见图1,图1为本申请实施例提供的目标对象的分类方法的一种流程示意图,包括:
步骤S11,获取目标对象的时序数据。
本申请实施例中的目标对象的时序数据,可以是目标对象的多种类型的历史数据,该数据可以是通过时间顺序进行排序或记录的数据。例如,目标对象的时序数据可以是目标对象的历史消费记录、历史浏览记录等。
本申请实施例的方法应用于智能终端,可以通过智能终端实施。该智能终端可以是通过导入训练好的特征构建元模型进行目标对象的分类,也可以是用于进行模型的训练,然后通过训练好的特征构建元模型进行目标对象的分类。具体的,该智能终端可以是电脑、手机或服务器等。
步骤S12,对时序数据进行特征提取,得到多个待分类特征。
本申请实施例中,对时序数据进行特征提取可以通过多种类型的特征提取方法进行特征提取。在实际使用过程中,可以通过分析时序数据的类型,然后通过该数据类型对应的特征提取方法对时序数据进行特征提取。具体的,上述特征提取方法可以是:LSI(LatentSemantic Indexing,潜在语义索引)、PCA(Principal Component Analysis,主成分分析)、LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)等。
可选的,对时序数据进行特征提取,得到多个待分类特征,包括:通过一元算子和/或二元算子对时序数据进行特征提取,得到多个待分类特征。在对时序数据进行特征提取时,即可以通过一元算子,如++(自加)、--(自减)等,对时序数据进行特征提取,也可以通过二元算子,如+(加)、-(减)、*(乘)、/(除)、%(取余数)等,对时序数据进行特征提取。例如,通过二元算子对目标对象某一时长内的消费金额进行求和,得到目标对象某一时长内的总消费金额,并将该总消费金额作为待分类特征。
步骤S13,通过预设特征构建算法,计算各待分类特征的特征分布向量。
通过预设特征构建算法,计算各待分类特征的特征分布向量,可以针对每一待分类特征,通过计算该待分类特征的分布特征得到特征分布向量。具体的,可以通过多种算法计算该待分类特征的分布特征,如,分箱法、直方图等。例如,可以通过分箱法,计算待分类特征对应每一分箱的比例计算得到该待分类特征的特征分布向量。
步骤S14,通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度。
其中,通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度,可以分别将各待分类特征的特征分布向量输入到预先训练好的特征构建元模型中,通过该预先训练好的特征构建元模型输出各待分类特征的贡献度。该预先训练好的特征构建元模型可以是通过样本历史数据进行训练得到的模型,具体的训练过程可以参见后续实施例,此处不再赘述。
可选的,通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度,可以通过协同过滤预测各待分类特征的贡献度。具体的,可以包括:通过预先训练好的特征构建元模型计算各待分类特征的特征分布向量与样本历史数据对应的样本特征分布向量的相似度;针对任一待分类特征的特征分布向量,将与该待分类特征的特征分布向量的相似度大于预设相似度阈值的样本历史数据对应的贡献度作为该待分类特征的贡献度。
具体的,上述预测得到的待分类特征的贡献度可以包括多个数值,通过计算得到的贡献度的数值表示该待分类特征是否有贡献。例如,上述贡献度可以通过0和1表示,0表示没有贡献,1表示有贡献。
步骤S15,选取贡献度大于预设贡献度阈值的待分类特征作为目标对象的当前特征。
其中,选取贡献度大于预设贡献度阈值的待分类特征作为目标对象的当前特征,可以将预测得到的各待分类特征的贡献度与预设贡献度阈值进行对比。上述预设贡献度阈值可以根据实际情况进行设定。例如,当贡献度通过0和1表示,0表示没有贡献,1表示有贡献时,可以设定贡献度阈值为0.5,从而在选取贡献度大于预设贡献度阈值的待分类特征作为目标对象的当前特征时,选择所有贡献度为1的待分类特征作为目标对象的当前特征。
步骤S16,根据当前特征对目标对象进行分类,得到目标对象对应的分类结果。
其中,根据当前特征对目标对象进行分类,可以通过多种方法进行分类。具体的,可以通过计算当前特征对应多个预设分类的概率,从而判断目标对象对应的分类,得到目标对象对应的分类结果。例如,可以计算当前特征对应多个预设分类的相似度,从而根据计算得到的相似度,判断目标对象所属的分类,得到目标对象对应的分类结果。
可见,通过本申请实施例的方法,不但可以对时序数据进行特征提取,得到多个待分类特征,还可以通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度,从而选取贡献度最高的前N个待分类特征作为目标对象的当前特征,进行目标对象的分类,得到目标对象对应的分类结果,不但可以提高计算效率,还可以提高分类的准确率。
可选的,参见图2,预先训练好的特征构建元模型的训练过程包括:
步骤S21,获取样本历史数据;
步骤S22,对样本历史数据进行特征提取,得到样本特征;
步骤S23,通过预设特征构建算法,计算样本特征对应的样本特征分布向量;
步骤S24,通过预设贡献度算法,计算样本特征的贡献度;
步骤S25,将样本特征对应的样本特征分布向量和样本特征的贡献度进行合并,得到特征分布数据集;
步骤S26,通过特征分布数据集对待训练的特征构建元模型进行训练,得到预先训练好的特征构建元模型。
上述历史样本数据可以是预先存储的历史数据,也可以是通过第三方数据库获取的数据。如,预先记录并存储各个用户的历史消费记录、历史浏览记录等。
对样本历史数据进行特征提取,可以通过与步骤S12对时序数据进行特征提取相同或相似的方法进行特征提取。具体的,可以是:LSI、PCA、LDA等。可选的,对样本历史数据进行特征提取,可以通过一元算子和/或二元算子对样本历史数据进行特征提取。
通过预设特征构建算法,计算样本特征对应的样本特征分布向量,可以通过与步骤S13通过预设特征构建算法,计算各待分类特征的特征分布向量相同或相似的方法进行计算。具体的,可以通过分箱法、直方图等。
通过预设贡献度算法,计算样本特征的贡献度,可以通过多种预设算法,例如随机森林算法进行计算。具体的,可以通过比较添加该样本特征之后模型分类的准确率和添加前的准确率进行对比,从而确定样本特征的贡献度。例如,当添加该样本特征之后模型分类的准确率与添加前的准确率的差值大于预设阈值时,确定该样本特征有贡献,该样本特征的贡献度为1;当差值小于或等于预设阈值时,确定该样本特征无贡献,该样本特征的贡献度为0。
通过特征分布数据集对待训练的特征构建元模型进行训练,可以通过将特征分布数据集输入待训练的特征构建元模型进行分类,得到对应的分类结果,然后将该分类结果与预设样本进行比较,得到待训练的特征构建元模型当前的准确率,然后对待训练的特征构建元模型的模型参数进行修正并返回“将特征分布数据集输入待训练的特征构建元模型进行分类”的步骤继续执行,直至对待训练的特征构建元模型的准确率大于预设值,得到训练好的特征构建元模型。
可见,通过本申请实施例的方法,可以对样本历史数据进行特征提取,得到样本特征,并计算样本特征的贡献度,从而将样本特征对应的样本特征分布向量和样本特征的贡献度进行合并,得到特征分布数据集,再通过特征分布数据集对待训练的特征构建元模型进行训练,得到预先训练好的特征构建元模型,从而可以通过通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度。
可选的,参见图3,步骤S24通过预设贡献度算法,计算样本特征的贡献度,包括:
步骤S241,通过预设评估模型对样本历史数据进行分类,得到第一分类结果;根据第一分类结果进行分类准确率的计算,得到第一分类准确率;
步骤S242,通过预设评估模型根据样本历史数据和样本历史数据对应的样本特征分布向量进行样本历史数据的分类,得到第二分类结果;根据第二分类结果进行分类准确率的计算,得到第二分类准确率;
步骤S243,将第一分类准确率与第二分类准确率进行对比,得到样本特征分布向量对应的贡献度,其中,当第一分类准确率与第二分类准确率的差值大于预设差值阈值时对应的贡献度为第一数值,当第一分类准确率与第二分类准确率的差值小于等于预设差值阈值时对应的贡献度为第二数值。
其中,通过预设评估模型对样本历史数据进行分类,得到第一分类结果,可以是通过预设评估模型对样本历史数据进行分类得到样本历史数据所属的类别,然后根据计算得到的样本历史数据所属的类别与预设样本类别进行对比,计算得到当前的分类准确率,并将该准确率作为第一分类准确率。例如,在将样本历史数据进行分类,得到第一分类结果之后,通过与预设样本类别进行对比得到10个样本数据中,3个样本数据分类错误,则当前的分类准确率为70%,即第一分类准确率为70%。通过预设评估模型根据样本历史数据和样本历史数据对应的样本特征分布向量进行样本历史数据的分类,可以通过与步骤S241相同的方法进行分类,然后通过分类结果进行分类准确率的计算,得到第二分类准确率。
其中,将第一分类准确率与第二分类准确率进行对比可以为通过随机森林算法进行计算,通过将根据第一分类结果进行分类准确率的计算,得到第一分类准确率作为baseline,然后将根据样本历史数据和样本历史数据对应的样本特征分布向量计算得到的第二分类准确率作为T。若T-baseline>阈值,则认为样本特征的贡献度为第一数值;否则贡献度为第二数值。具体的,上述第一数值和第二数值可以分别为1和0。
可见,通过本申请实施例的方法,可以计算并将第一分类准确率与第二分类准确率进行对比,得到样本特征分布向量对应的贡献度,从而将样本特征对应的样本特征分布向量和样本特征的贡献度进行合并,得到特征分布数据集,实现待训练的特征构建元模型的训练。
可选的,参见图4,步骤S13通过预设特征构建算法,计算各待分类特征的特征分布向量,包括:
步骤S131,计算各待分类特征对应多个预设分类类别的比例;
步骤S132,通过计算得到各待分类特征对应多个预设分类类别的比例,创建该待分类特征的特征分布向量。
其中,计算各待分类特征对应多个预设分类类别的比例,可以通过使用分箱法计算各待分类特征对应多个预设分类类别的比例,从而通过计算得到各待分类特征对应多个预设分类类别的比例,创建该待分类特征的特征分布向量。例如,针对待分类特征A,对应3个预设分类类别的比例分别为:0.2、0.3、0.5,则创建得到的该待分类特征的特征分布向量为(0.2,0.3,0.5)。
可见,通过本申请实施例的方法,可以通过计算得到各待分类特征对应多个预设分类类别的比例,创建该待分类特征的特征分布向量,从而实现通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度。
参见图5,图5为本申请实施例提供的目标对象的分类装置的一种结构示意图,包括:
特征提取模块501:使用一元算子,二元算子为数据集提取特征。
指标评估模块502:使用机器学习算法对数据集的分类指标进行评估。
特征分布计算模块503:按标签类别对特征取值进行分类,然后使用分箱法对每个类别下的特征进行分箱并求每箱的比例,以每箱的比例作为特征分布向量。
元模型训练模块504:使用特征分布向量和特征贡献分别作为特征和标签,训练一个分类模型。
特征推荐模块505:使用训练好的元模型对新数据集的特征分布向量进行预测,得到每个特征分布向量的贡献标签。
参见图6,图6为本申请实施例提供的目标对象的分类方法的另一种流程示意图,包括:
A、训练过程:
1、对数据集中的每个特征分别采用一元操作算子和二元操作算子进行特征提取操作将上一步中提取的特征存储到特征集合中;
2、对上一步特征集合中的每个特征,按标签分类,然后使用分箱法求落在每一箱的比例来创建特征分布向量;
3、使用模型对原始数据集进行交叉训练,得到baseline;
4、将第2步得到的特征集合中的特征分别添加到原始数据集中进行模型评估,得到分类指标;
5、确定第2步得到的特征集合中的每个特征的贡献度:即若添加特征后,模型的分类指标大于baseline,则认为贡献度为1;否则为0;
6、将第3步得到的特征分布向量和第6步得到的贡献度合并起来作为特征分布数据集;
7、使用特征分布数据集训练得到元模型;
B、预测过程:
1、对新数据集中的每个特征分别采用一元操作算子和二元操作算子进行特征提取操作;
2、将上一步中提取的特征存储到特征集合;
3、对上一步特征集合中的每个特征,按标签分类,然后使用分箱法求落在每一箱的比例来创建特征分布向量;
4、使用训练好的元模型对来上一步得到的特征向量进行预测,得到每个特征的贡献度;
5、将贡献度高的特征推荐给新的数据集。
本申请实施例的第二方面,提供了一种目标对象的分类装置,参见图7,上述装置包括:
数据获取模块701,用于获取目标对象的时序数据;
特征提取模块702,用于对时序数据进行特征提取,得到多个待分类特征;
分布向量计算模块703,用于通过预设特征构建算法,计算各待分类特征的特征分布向量;
贡献度预测模块704,用于通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度;
特征选取模块705,用于选取贡献度大于预设贡献度阈值的待分类特征作为目标对象的当前特征;
结果获取模块706,用于根据当前特征对目标对象进行分类,得到目标对象对应的分类结果。
可选的,贡献度预测模块704,包括:
相似度计算子模块,用于通过预先训练好的特征构建元模型计算各待分类特征的特征分布向量与样本历史数据对应的样本特征分布向量的相似度;
贡献度计算子模块,用于针对任一待分类特征的特征分布向量,将与该待分类特征的特征分布向量的相似度大于预设相似度阈值的样本历史数据对应的贡献度作为该待分类特征的贡献度。
可选的,分布向量计算模块703,包括:
比例计算子模块,用于计算各待分类特征对应多个预设分类类别的比例;
分布向量创建子模块,用于通过计算得到各待分类特征对应多个预设分类类别的比例,创建该待分类特征的特征分布向量。
可选的,上述装置还包括:
样本获取模块,用于获取样本历史数据;
样本特征提取模块,用于对样本历史数据进行特征提取,得到样本特征;
样本分布计算模块,用于通过预设特征构建算法,计算样本特征对应的样本特征分布向量;
样本贡献度计算模块,用于通过预设贡献度算法,计算样本特征的贡献度;
贡献度合并模块,用于将样本特征对应的样本特征分布向量和样本特征的贡献度进行合并,得到特征分布数据集;
模型训练模块,用于通过特征分布数据集对待训练的特征构建元模型进行训练,得到预先训练好的特征构建元模型。
可选的,样本贡献度计算模块,包括:
第一准确率计算子模块,用于通过预设评估模型对样本历史数据进行分类,得到第一分类结果;根据第一分类结果进行分类准确率的计算,得到第一分类准确率;
第二准确率计算子模块,用于通过预设评估模型根据样本历史数据和样本历史数据对应的样本特征分布向量进行样本历史数据的分类,得到第二分类结果;根据第二分类结果进行分类准确率的计算,得到第二分类准确率;
准确率对比子模块,用于将第一分类准确率与第二分类准确率进行对比,得到样本特征分布向量对应的贡献度,其中,当第一分类准确率与第二分类准确率的差值大于预设差值阈值时对应的贡献度为第一数值,当第一分类准确率与第二分类准确率的差值小于等于预设差值阈值时对应的贡献度为第二数值。
可选的,特征提取模块,具体用于通过一元算子和/或二元算子对时序数据进行特征提取,得到多个待分类特征。
可见,通过本申请实施例的方法,不但可以对时序数据进行特征提取,得到多个待分类特征,还可以通过预先训练好的特征构建元模型,根据各待分类特征的特征分布向量预测各待分类特征的贡献度,从而选取贡献度最高的前N个待分类特征作为目标对象的当前特征,进行目标对象的分类,得到目标对象对应的分类结果,不但可以提高计算效率,还可以提高分类的准确率。
本发明实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:
获取目标对象的时序数据;
对所述时序数据进行特征提取,得到多个待分类特征;
通过预设特征构建算法,计算各待分类特征的特征分布向量;
通过预先训练好的特征构建元模型,根据所述各待分类特征的特征分布向量预测所述各待分类特征的贡献度;
选取贡献度大于预设贡献度阈值的待分类特征作为目标对象的当前特征;
根据所述当前特征对所述目标对象进行分类,得到所述目标对象对应的分类结果。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一目标对象的分类方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一目标对象的分类方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、存储介质及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (13)
1.一种目标对象的分类方法,其特征在于,所述方法包括:
获取目标对象的时序数据;
对所述时序数据进行特征提取,得到多个待分类特征;
通过预设特征构建算法,计算各待分类特征的特征分布向量;
通过预先训练好的特征构建元模型,根据所述各待分类特征的特征分布向量预测所述各待分类特征的贡献度;
选取贡献度大于预设贡献度阈值的待分类特征作为所述目标对象的当前特征;
根据所述当前特征对所述目标对象进行分类,得到所述目标对象对应的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述通过预先训练好的特征构建元模型,根据所述各待分类特征的特征分布向量预测所述各待分类特征的贡献度,包括:
通过所述预先训练好的特征构建元模型计算所述各待分类特征的特征分布向量与样本历史数据对应的样本特征分布向量的相似度;
针对任一待分类特征的特征分布向量,将与该待分类特征的特征分布向量的相似度大于预设相似度阈值的样本历史数据对应的贡献度作为该待分类特征的贡献度。
3.根据权利要求1所述的方法,其特征在于,所述通过预设特征构建算法,计算各待分类特征的特征分布向量,包括:
计算所述各待分类特征对应多个预设分类类别的比例;
通过计算得到所述各待分类特征对应多个预设分类类别的比例,创建该待分类特征的特征分布向量。
4.根据权利要求1所述的方法,其特征在于,所述预先训练好的特征构建元模型的训练过程,包括:
获取样本历史数据;
对所述样本历史数据进行特征提取,得到样本特征;
通过预设特征构建算法,计算所述样本特征对应的样本特征分布向量;
通过预设贡献度算法,计算所述样本特征的贡献度;
将所述样本特征对应的样本特征分布向量和所述样本特征的贡献度进行合并,得到特征分布数据集;
通过所述特征分布数据集对待训练的特征构建元模型进行训练,得到所述预先训练好的特征构建元模型。
5.根据权利要求4所述的方法,其特征在于,所述通过预设贡献度算法,计算所述样本特征的贡献度,包括:
通过预设评估模型对所述样本历史数据进行分类,得到第一分类结果;根据所述第一分类结果进行分类准确率的计算,得到第一分类准确率;
通过所述预设评估模型根据所述样本历史数据和所述样本历史数据对应的样本特征分布向量进行样本历史数据的分类,得到第二分类结果;根据所述第二分类结果进行分类准确率的计算,得到第二分类准确率;
将所述第一分类准确率与所述第二分类准确率进行对比,得到所述样本特征分布向量对应的贡献度,其中,当所述第一分类准确率与所述第二分类准确率的差值大于预设差值阈值时对应的贡献度为第一数值,当所述第一分类准确率与所述第二分类准确率的差值小于等于预设差值阈值时对应的贡献度为第二数值。
6.根据权利要求1所述的方法,其特征在于,所述对所述时序数据进行特征提取,得到多个待分类特征,包括:
通过一元算子和/或二元算子对所述时序数据进行特征提取,得到多个待分类特征。
7.一种目标对象的分类装置,其特征在于,所述装置包括:
数据获取模块,用于获取目标对象的时序数据;
特征提取模块,用于对所述时序数据进行特征提取,得到多个待分类特征;
分布向量计算模块,用于通过预设特征构建算法,计算各待分类特征的特征分布向量;
贡献度预测模块,用于通过预先训练好的特征构建元模型,根据所述各待分类特征的特征分布向量预测所述各待分类特征的贡献度;
特征选取模块,用于选取贡献度大于预设贡献度阈值的待分类特征作为所述目标对象的当前特征;
结果获取模块,用于根据所述当前特征对所述目标对象进行分类,得到所述目标对象对应的分类结果。
8.根据权利要求7所述的装置,其特征在于,所述贡献度预测模块,包括:
相似度计算子模块,用于通过所述预先训练好的特征构建元模型计算所述各待分类特征的特征分布向量与样本历史数据对应的样本特征分布向量的相似度;
贡献度计算子模块,用于针对任一待分类特征的特征分布向量,将与该待分类特征的特征分布向量的相似度大于预设相似度阈值的样本历史数据对应的贡献度作为该待分类特征的贡献度。
9.根据权利要求7所述的装置,其特征在于,所述分布向量计算模块,包括:
比例计算子模块,用于计算所述各待分类特征对应多个预设分类类别的比例;
分布向量创建子模块,用于通过计算得到所述各待分类特征对应多个预设分类类别的比例,创建该待分类特征的特征分布向量。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
样本获取模块,用于获取样本历史数据;
样本特征提取模块,用于对所述样本历史数据进行特征提取,得到样本特征;
样本分布计算模块,用于通过预设特征构建算法,计算所述样本特征对应的样本特征分布向量;
样本贡献度计算模块,用于通过预设贡献度算法,计算所述样本特征的贡献度;
贡献度合并模块,用于将所述样本特征对应的样本特征分布向量和所述样本特征的贡献度进行合并,得到特征分布数据集;
模型训练模块,用于通过所述特征分布数据集对待训练的特征构建元模型进行训练,得到所述预先训练好的特征构建元模型。
11.根据权利要求10所述的装置,其特征在于,所述样本贡献度计算模块,包括:
第一准确率计算子模块,用于通过预设评估模型对所述样本历史数据进行分类,得到第一分类结果;根据所述第一分类结果进行分类准确率的计算,得到第一分类准确率;
第二准确率计算子模块,用于通过所述预设评估模型根据所述样本历史数据和所述样本历史数据对应的样本特征分布向量进行样本历史数据的分类,得到第二分类结果;根据所述第二分类结果进行分类准确率的计算,得到第二分类准确率;
准确率对比子模块,用于将所述第一分类准确率与所述第二分类准确率进行对比,得到所述样本特征分布向量对应的贡献度,其中,当所述第一分类准确率与所述第二分类准确率的差值大于预设差值阈值时对应的贡献度为第一数值,当所述第一分类准确率与所述第二分类准确率的差值小于等于预设差值阈值时对应的贡献度为第二数值。
12.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111423883.3A CN114239697A (zh) | 2021-11-26 | 2021-11-26 | 目标对象的分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111423883.3A CN114239697A (zh) | 2021-11-26 | 2021-11-26 | 目标对象的分类方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114239697A true CN114239697A (zh) | 2022-03-25 |
Family
ID=80751461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111423883.3A Pending CN114239697A (zh) | 2021-11-26 | 2021-11-26 | 目标对象的分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114239697A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943255A (zh) * | 2022-05-27 | 2022-08-26 | 中信建投证券股份有限公司 | 一种资产对象形态识别方法、装置、电子设备及存储介质 |
CN116664016A (zh) * | 2023-07-27 | 2023-08-29 | 北京中关村科金技术有限公司 | Esg子议题的筛选方法、装置、电子设备和可读存储介质 |
-
2021
- 2021-11-26 CN CN202111423883.3A patent/CN114239697A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943255A (zh) * | 2022-05-27 | 2022-08-26 | 中信建投证券股份有限公司 | 一种资产对象形态识别方法、装置、电子设备及存储介质 |
CN116664016A (zh) * | 2023-07-27 | 2023-08-29 | 北京中关村科金技术有限公司 | Esg子议题的筛选方法、装置、电子设备和可读存储介质 |
CN116664016B (zh) * | 2023-07-27 | 2023-09-26 | 北京中关村科金技术有限公司 | Esg子议题的筛选方法、装置、电子设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951925B (zh) | 数据处理方法、装置、服务器及系统 | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN110688553A (zh) | 基于数据分析的信息推送方法、装置、计算机设备及存储介质 | |
Li et al. | Rating engineering characteristics in open design using a probabilistic language method based on fuzzy QFD | |
CN109685537B (zh) | 用户行为的分析方法、装置、介质和电子设备 | |
US20140279583A1 (en) | Systems and Methods for Classifying Entities | |
CN107153656B (zh) | 一种信息搜索方法和装置 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN114239697A (zh) | 目标对象的分类方法、装置、电子设备及存储介质 | |
WO2018192348A1 (zh) | 数据处理方法、装置及服务器 | |
CN109241451B (zh) | 一种内容组合推荐方法、装置及可读存储介质 | |
CN110287409B (zh) | 一种网页类型识别方法及装置 | |
CN110647683B (zh) | 一种信息推荐方法、装置 | |
CN111652661B (zh) | 一种手机客户端用户流失预警处理方法 | |
CN111652735A (zh) | 基于用户行为标签特征及商品特征的保险产品推荐的方法 | |
CN110472742B (zh) | 一种模型变量确定方法、装置及设备 | |
CN111444424A (zh) | 一种信息推荐方法和信息推荐系统 | |
CN113112347A (zh) | 催收决策的确定方法、相关装置及计算机存储介质 | |
CN111062736A (zh) | 模型训练、线索排序方法、装置及设备 | |
Sellak et al. | Using rule-based classifiers in systematic reviews: a semantic class association rules approach | |
CN112801784A (zh) | 一种数字货币交易所的比特币地址挖掘方法及装置 | |
CN115794898B (zh) | 一种金融资讯推荐方法、装置、电子设备及存储介质 | |
CN116501979A (zh) | 信息推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN114841588A (zh) | 信息处理方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |