CN111666275B - 一种数据处理方法、装置、电子设备及存储介质 - Google Patents
一种数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111666275B CN111666275B CN202010527606.6A CN202010527606A CN111666275B CN 111666275 B CN111666275 B CN 111666275B CN 202010527606 A CN202010527606 A CN 202010527606A CN 111666275 B CN111666275 B CN 111666275B
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- feature selection
- features
- selection algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据处理方法、装置、电子设备及存储介质,属于数据处理技术领域。该方法包括:获取输入的与样本相关的原数据;根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法,其中,所述本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数;分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征;将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集。该方法通过从不同角度将重要的特征选择出来,这样可以保证在降维的同时,尽可能保证数据信息的完整性,降低了信息损失的概率。
Description
技术领域
本申请属于数据处理技术领域,具体涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
数据特征通常是原数据的属性或特性的汇总,包含原数据的大部分信息,因此数据特征的选取尤为重要。而现有的特征选择方法只有在数据质量足够好时,选出的特征才能代表原数据,包含原数据的大部分信息。但对于数据质量不够好的数据,尤其是维数特别高但质量却不高的数据,现有的特征选择方法便无法选出能够代表原数据的特征集合,会使得信息缺失。
发明内容
鉴于此,本申请的目的在于提供一种数据处理方法、装置、电子设备及存储介质,以改善现有特征选择方法针对高维原数据无法选出能够代表原数据的特征集合,使得信息缺失的问题。
本申请的实施例是这样实现的:第一方面,本申请实施例提供了一种数据处理方法,包括:获取输入的与样本相关的原数据;根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法,其中,所述本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数,所述任务类型表征提取出的数据特征的用途;分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征;将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集。本申请实施例中,将多种特征选择算法进行分类与封装,并且赋予每种特征选择算法一定的权重系数,使得在对原数据进行处理时,可以针对不同的任务选择对应的特征选择算法对特征的重要性进行评估,再结合权重系数将不同特征选择算法选取出的特征进行融合,进而选出能代表原数据的重要特征,通过从不同角度将重要的特征选择出来,这样可以保证在降维的同时,尽可能保证数据信息的完整性,降低了信息损失的概率。
结合第一方面实施例的一种可能的实施方式,在将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集之后,所述方法还包括:对所述数据特征集中的特征按重要性进行排序;根据排序结果从所述数据特征集中选取重要性靠前的预设数量的特征,组成新的数据特征集。本申请实施例中,在得到融合后的数据特征集之后,对数据特征集中的特征按重要性进行排序,再根据排序结果选取重要性靠前的预设数量的特征,组成新的数据特征集,在尽可能保证数据信息的完整性的前提下,对数据进一步降维度,以简化数据处理难度。
结合第一方面实施例的一种可能的实施方式,通过以下步骤确定每一种特征选择算法对应的权重系数:利用不同特征选择算法选取出的特征来单独训练与该任务类型对应的模型;根据不同特征选择算法选取出的特征各自训练出的模型的准确率来确定每一种特征选择算法对应的权重系数。本申请实施例中,通过利用不同特征选择算法选取出的特征来单独建模,根据不同特征选择算法选取出的特征各自训练出的模型的准确率来确定每一种特征选择算法对应的权重系数,使得最终赋予的每种特征选择算法的权重系数尽可能的准确合理,从而使得最终得到的数据特征集能最大限度的代表原数据。
结合第一方面实施例的一种可能的实施方式,所述任务类型为分类任务、或回归任务,相应地,所述本地数据库中预设有多种适用于分类任务的特征选择算法以及多种适用于回归任务的特征选择算法。本申请实施例中,将当前普遍涉及的适用于分类以及回归问题的特征选择算法预设在本地数据库中,从而增加了方案的实用性和普及性。
结合第一方面实施例的一种可能的实施方式,通过以下步骤来获取任务类型:从输入的与样本相关的原数据中获取任务标签;根据所述任务标签得到所述任务类型。本申请实施例中,通过对数据打标签的方式来获得任务类型,使得该方法可以适用于不同的应用场景,增加了方案的适用性与灵活性。
结合第一方面实施例的一种可能的实施方式,获取输入的与样本相关的原数据,包括:获取输入的多个商品各自的与商品属性相关的原数据,每个商品的原数据的维度相同,均包括:价格、是否产地直发、体积、销量、品质、购买群体。本申请实施例中,通过获取包含价格、是否产地直发、体积、销量、品质、购买群体在内的多种维度的原始数据,使得原始数据的维度尽可能的多,从而保证最终筛选出的数据特征集的可靠性和实用性,并且保证每个商品的原数据的维度相同,以消除维度差异带来的误差。
第二方面,本申请实施例还提供了一种数据处理装置,包括:获取模块、选择模块、提取模块以及融合模块;获取模块,用于获取输入的与样本相关的原数据;选择模块,用于根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法,其中,所述本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数,所述任务类型表征提取出的数据特征的用途;提取模块,用于分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征;融合模块,用于将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集。
结合第二方面实施例的一种可能的实施方式,所述装置还包括:排序模块以及筛选模块;排序模块,用于在所述融合模块将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集之后,对所述数据特征集中的特征按重要性进行排序;筛选模块,用于根据排序结果从所述数据特征集中选取重要性靠前的预设数量的特征,组成新的数据特征集。
第三方面,本申请实施例还提供了一种电子设备,包括:存储器和处理器,所述处理器与所述存储器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。
第四方面,本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1示出了本申请实施例提供的一种数据处理方法的流程示意图。
图2示出了本申请实施例提供的又一种数据处理方法的流程示意图。
图3示出了本申请实施例提供的一种数据处理装置的模块框图。
图4示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
本申请实施例提供了一种数据处理方法,该方法将多种特征选择算法进行分类与封装,并且赋予每种特征选择算法一定的权重系数,使得在对原数据进行处理时,可以针对不同的任务选择对应的特征选择算法对特征的重要性进行评估,再结合权重系数将不同特征选择算法选取出的特征进行融合,进而选出能代表原数据的重要特征。下面将结合图1,对本申请实施例提供的数据处理方法进行说明。
步骤S101:获取输入的与样本相关的原数据。
获取输入的与样本相关的原数据,其中,不同的样本对应的原数据不同,例如,样本为商品时,则一种实施方式下,获取输入的与样本相关的原数据可以是获取多个商品各自的与商品属性相关的原数据,每个商品的原数据的维度相同,均包括:价格、是否产地直发、体积、销量、品质、购买群体等维度的数据。又例如,样本为由用户和商品构成的样本集时,每个样本包含用户特征:年龄、性别、地区、购物时间段等,最近一周购买商品的特征:数量、价格、类别、产地、是否促销、颜色等,用户对待推荐商品的行为特征:近一个月(近一周、近一天等)点击量、收藏量、加购物车量、购买量、转发量等,由此构成非常高维的样本矩阵,可能包含上万维特征,但大量特征可能是无用的,稀疏的,由此需要采用有效的方法进行高维特征的筛选。
其中,需要说明的是,获取的原数据可以根据不同的需求,不同的应用场景进行调整,因此不能将上述示例的场景理解成是对本申请的限制。
步骤S102:根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法。
在获取到与样本相关的原数据后,根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法。其中,本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数,所述任务类型表征提取出的数据特征的用途。在此之前,需要将多种特征选择算法进行分类与封装,并为每种特征选择算法赋予一定的权重系数。例如,将适用于分类问题的特征选择算法进行封装,将适用于回归任务的特征选择算法进行封装。
其中,适用于分类问题的特征选择算法可以是f_classif算法、卡方检验算法、互信息算法、向前/向后特征选择算法、Lasso回归算法、树模型算法等。需要说明的是,本地数据库中预设的适用于分类问题的特征选择算法可以包含上述示例的多种特征选择算法中的几种,无需全部包含,也即可以是包含f_classif算法、卡方检验算法、互信息算法、向前/向后特征选择算法、Lasso回归算法、树模型算法中的至少两种。
其中,适用于回归问题的特征选择算法可以是皮尔森相关系数算法、f_regression算法、距离相关系数算法、向前/向后特征选择算法、Lasso回归算法、树模型算法(例如,随机森林、xgboost等树模型)。需要说明的是,本地数据库中预设的适用于回归问题的特征选择算法可以包含上述示例的多种特征选择算法中的几种,无需全部包含,也即可以是包含皮尔森相关系数算法、f_regression算法、距离相关系数算法、向前/向后特征选择算法、Lasso回归算法、树模型算法(例如,随机森林、xgboost等树模型)中的至少两种。
其中,上述的示例的算法均为常见的算法,已经为本领域所熟知,在此不再一一说明。
其中,每种特征选择算法对应的权重系数可以由用户进行设置,当然一种实施方式下,也可以是通过以下方式确定:利用不同特征选择算法选取出的特征来单独训练与该任务类型对应的模型;根据不同特征选择算法选取出的特征各自训练出的模型的准确率来确定每一种特征选择算法对应的权重系数。例如,在确定本地数据库中预设的适用于分类问题的多种特征选择算法中的每种特征选择算法的权重系数时,利用不同分类特征选择算法选取出的特征单独训练与适用于分类的模型,然后根据各自训练出的模型的准确率来确定每一种分类特征选择算法对应的权重系数。例如,利用A算法选择的800个特征单独建模(模型A),其模型准确率为50%,则对应的A算法的权重系数因为0.5;利用B算法选择的1200个特征单独建模(模型A),其模型准确率为30%,则对应的B算法的权重系数因为0.3。
需要说明的是,利用适用于同一种任务类型下的不同特征选择算法选取出的特征来单独训练模型时,不同特征选择算法选取的模型相同。
其中,上述的任务类型可以是通过以下方式获取,从输入的与样本相关的原数据中获取任务标签;根据所述任务标签得到所述任务类型。也即通过对原数据进行标记,根据标记的任务标签来获得任务类型。当然一种实施方式下,也可以是根据用户在人机交互界面上的配置操作来获得任务类型。其中,该任务类型表征提取出的数据特征的用途,例如,任务类型为分类任务时,最终提取出的数据特征用于模型分类,任务类型为回归任务时,最终提取出的数据特征用于模型回归。
步骤S103:分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征。
在根据任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法之后,分别利用每种特征选择算法对输入的原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征。其中,不同的特征选择算法在进行特征提取时,各自从不同角度将重要的特征选择出来,因此不同的特征选择算法提取出的数据特征的维度不同,例如,A算法选择出的特征有800个;B算法选择出的特征有1200个。本申请实施例中,通过多种特征选择算法来进行特征提取,从而能够从不同角度将重要的特征选择出来,这样可以保证在降维的同时,尽可能保证数据信息的完整性,降低了信息损失的概率。
步骤S104:将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集。
在得到每种特征选择算法提取出的多种数据特征之后,将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集,也即将不同特征选择算法提取出的多种数据特征结合其重要因子,进行特征融合,得到融合后的特征重要性排序。例如,A算法选择出的特征有800个,B算法选择出的特征有1200个,其中,两种算法都有的特征有600个,则进行加权融合后的特征有1400个。
其中,融合后的数据特征集可用于后续的建模以及作为预测模型的输入特征使用,例如,利用筛选出的数据特征集用于训练预测不同客户对不同商品的购买率的预测模型。
一种实施方式下,在得到数据特征集之后,还可以对该数据特征集中的特征按重要性进行排序;根据排序结果从所述数据特征集中选取重要性靠前的预设数量的特征,组成新的数据特征集,此时的方法流程图如图2所示。其中,在根据重要性大小选择特征个数时可由所选特征集合对原数据的代表程度来定。
为了便于理解上述的过程,下面将结合案例进行说明,在预测不同客户对不同商品的购买率,以便推荐其最感兴趣的TOPN商品时。由用户和商品构成样本集,其中,每个样本包含用户特征:年龄、性别、地区、购物时间段等,最近一周购买商品的特征:数量、价格、类别、产地、是否促销、颜色等,用户对待推荐商品的行为特征:近一个月(近一周、近一天等)点击量、收藏量、加购物车量、购买量、转发量等,由此构成非常高维的样本矩阵,可能包含上万维特征,但大量特征可能是无用的,稀疏的,由此要采用有效的方法进行高维特征的筛选。以本案例为例子,任务是分类(预测用户对不同商品的购买率进行排序推荐其最感兴趣的TOPN商品),采用适用于分类任务的多种特征选择算法,具体见上述所示的算法,每个特征选择算法选出一批重要特征,结合其权重系数进行特征融合,并对融合后的特征进行排序,再根据实际需要选择最终入模特征个数,比如由于计算资源原因,最终只能选择1000个输入到模型中特征,那么将排序结果前1000个选择出来,到此特征选择完毕。融合过程中,每类特征选择算法选择的特征在融合的时候都有自己的权重系数,比如A特征选择算法选择的特征有800个,对应的权重系数为0.5;B特征选择算法选择的特征有1200个,对应的权重系数系为0.3。其权重系数由不同特征选择算法选择的特征单独建模,由模型准确率进行确定,例如,利用A算法选择的800个特征单独建模(预测用户对不同商品的购买率模型A),其模型准确率为50%,则对应的A算法的权重系数因为0.5;利用B算法选择的1200个特征单独建模(预测用户对不同商品的购买率模型A),其模型准确率为30%,则对应的B算法的权重系数因为0.3。
本申请实施例还提供了一种数据处理装置100,如图3所示,该数据处理装置100包括:获取模块110、选择模块120、提取模块130、融合模块140。
获取模块110,用于获取输入的与样本相关的原数据。可选地,获取模块110,具体用于获取输入的多个商品各自的与商品属性相关的原数据,每个商品的原数据的维度相同,均包括:价格、是否产地直发、体积、销量、品质、购买群体。
选择模块120,用于根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法,其中,所述本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数其中,该任务类型表征提取出的数据特征的用途。
提取模块130,用于分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征。
融合模块140,用于将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集。
可选地,该数据处理装置100还包括:排序模块以及筛选模块。
其中,排序模块,用于在所述融合模块140将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集之后,对所述数据特征集中的特征按重要性进行排序。筛选模块,用于根据排序结果从所述数据特征集中选取重要性靠前的预设数量的特征,组成新的数据特征集。
本申请实施例所提供的数据处理装置100,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
如图4所示,图4示出了本申请实施例提供的一种电子设备200的结构框图。所述电子设备200包括:收发器210、存储器220、通讯总线230以及处理器240。
所述收发器210、所述存储器220、处理器240各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线230或信号线实现电性连接。其中,收发器210用于收发数据。存储器220用于存储计算机程序,如存储有图3所示的软件功能模块,即数据处理装置100。其中,数据处理装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器220中或固化在所述电子设备200的操作系统(operating system,OS)中的软件功能模块。所述处理器240,用于执行存储器220中存储的可执行模块,例如数据处理装置100包括的软件功能模块或计算机程序。例如,处理器240,用于获取输入的与样本相关的原数据;以及还用于根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法,其中,所述本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数;以及还用于分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征;以及还用于将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集。
其中,存储器220可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器240可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器240也可以是任何常规的处理器等。
其中,上述的电子设备200,包括但不限于网络服务器、数据服务器、云端服务器等设备。
本申请实施例还提供了一种非易失性计算机可读取存储介质(以下简称存储介质),该存储介质上存储有计算机程序,该计算机程序被计算机如上述的电子设备200运行时,执行上述所示的数据处理方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,或者电子设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取输入的与样本相关的原数据,其中,所述样本为商品时,与样本相关的原数据包括多个商品各自的与商品属性相关的原数据;所述样本为由用户和商品构成的样本集时,与样本相关的原数据包括用户特征、最近一周购买商品的特征、用户对待推荐商品的行为特征;
根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法,其中,所述任务类型为分类任务或回归任务;所述本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数,且每一种特征选择算法对应的权重系数,根据不同特征选择算法选取出的特征各自训练出的模型的准确率来确定,准确率越高对应的权重系数越大,所述任务类型表征提取出的数据特征的用途;
分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征;
将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集,所述数据特征集用于后续训练预测模型或作为预测模型的输入特征。
2.根据权利要求1所述的方法,其特征在于,在将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集之后,所述方法还包括:
对所述数据特征集中的特征按重要性进行排序;
根据排序结果从所述数据特征集中选取重要性靠前的预设数量的特征,组成新的数据特征集。
3.根据权利要求1所述的方法,其特征在于,通过以下步骤确定每一种特征选择算法对应的权重系数:
利用不同特征选择算法选取出的特征来单独训练与该任务类型对应的模型;
根据不同特征选择算法选取出的特征各自训练出的模型的准确率来确定每一种特征选择算法对应的权重系数。
4.根据权利要求1所述的方法,其特征在于,所述任务类型为分类任务、或回归任务,相应地,所述本地数据库中预设有多种适用于分类任务的特征选择算法以及多种适用于回归任务的特征选择算法。
5.根据权利要求1所述的方法,其特征在于,通过以下步骤来获取任务类型:
从输入的与样本相关的原数据中获取任务标签;
根据所述任务标签得到所述任务类型。
6.根据权利要求1-5中任一项所述的方法,其特征在于,若样本为商品时,每个商品的原数据的维度相同,均包括:价格、是否产地直发、体积、销量、品质、购买群体。
7.一种数据处理装置,其特征在于,包括:
获取模块,用于获取输入的与样本相关的原数据,其中,所述样本为商品时,与样本相关的原数据为多个商品各自的与商品属性相关的原数据;所述样本为由用户和商品构成的样本集时,与样本相关的原数据包括用户特征、最近一周购买商品的特征、用户对待推荐商品的行为特征;
选择模块,用于根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法,其中,所述任务类型为分类任务或回归任务;所述本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数,且每一种特征选择算法对应的权重系数,根据不同特征选择算法选取出的特征各自训练出的模型的准确率来确定,准确率越高对应的权重系数越大,所述任务类型表征提取出的数据特征的用途;
提取模块,用于分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征;
融合模块,用于将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集,所述数据特征集用于后续训练预测模型或作为预测模型的输入特征。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
排序模块,用于在所述融合模块将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集之后,对所述数据特征集中的特征按重要性进行排序;
筛选模块,用于根据排序结果从所述数据特征集中选取重要性靠前的预设数量的特征,组成新的数据特征集。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述处理器与所述存储器连接;
所述存储器,用于存储程序;
所述处理器,用于调用存储于所述存储器中的程序,以执行如权利要求1-6中任一项所述的方法。
10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器运行时,执行如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010527606.6A CN111666275B (zh) | 2020-06-10 | 2020-06-10 | 一种数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010527606.6A CN111666275B (zh) | 2020-06-10 | 2020-06-10 | 一种数据处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666275A CN111666275A (zh) | 2020-09-15 |
CN111666275B true CN111666275B (zh) | 2023-06-09 |
Family
ID=72387213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010527606.6A Active CN111666275B (zh) | 2020-06-10 | 2020-06-10 | 一种数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666275B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464977A (zh) * | 2020-10-15 | 2021-03-09 | 深圳先进技术研究院 | 一种物体分类方法、计算机设备及存储介质 |
CN114429166A (zh) * | 2020-10-29 | 2022-05-03 | 中移动信息技术有限公司 | 数据的高维特征获取方法、装置、设备及计算机存储介质 |
CN112686677A (zh) * | 2020-12-30 | 2021-04-20 | 平安普惠企业管理有限公司 | 基于组合特征与注意力机制的客户资质评估方法及装置 |
CN112950579B (zh) * | 2021-02-26 | 2024-05-31 | 北京金山云网络技术有限公司 | 图像质量评价方法、装置和电子设备 |
CN113703923B (zh) * | 2021-08-31 | 2024-05-28 | 深信服科技股份有限公司 | 一种业务问题的识别方法、装置、设备和介质 |
CN114119207A (zh) * | 2021-11-29 | 2022-03-01 | 中国工商银行股份有限公司 | 特征筛选方法、预警方法、装置、电子设备、介质和程序 |
CN114239823A (zh) * | 2021-12-17 | 2022-03-25 | 中国电信股份有限公司 | 号卡用户的行为预测模型的建模、使用方法及相关设备 |
CN114547017B (zh) * | 2022-04-27 | 2022-08-05 | 南京信息工程大学 | 一种基于深度学习的气象大数据融合方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203515A (zh) * | 2016-07-13 | 2016-12-07 | 西华大学 | 多准则融合应用于高维小样本数据特征选择的方法 |
CN109350032A (zh) * | 2018-10-16 | 2019-02-19 | 武汉中旗生物医疗电子有限公司 | 一种分类方法、系统、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8842883B2 (en) * | 2011-11-21 | 2014-09-23 | Seiko Epson Corporation | Global classifier with local adaption for objection detection |
-
2020
- 2020-06-10 CN CN202010527606.6A patent/CN111666275B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203515A (zh) * | 2016-07-13 | 2016-12-07 | 西华大学 | 多准则融合应用于高维小样本数据特征选择的方法 |
CN109350032A (zh) * | 2018-10-16 | 2019-02-19 | 武汉中旗生物医疗电子有限公司 | 一种分类方法、系统、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于多评价准则融合的特征选择方法;于宁宁等;《计算机工程与设计》;20180731;第39卷(第07期);第2075-2079页 * |
特征选择方法综述;李郅琴等;《计算机工程与应用》;20191231(第24期);第10-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111666275A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666275B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN111523976B (zh) | 商品推荐方法、装置、电子设备及存储介质 | |
CN107622427B (zh) | 深度学习的方法、装置及系统 | |
CN108665329B (zh) | 一种基于用户浏览行为的商品推荐方法 | |
CN110163705B (zh) | 用于推送信息的方法和装置 | |
US20230214895A1 (en) | Methods and systems for product discovery in user generated content | |
CN106708821A (zh) | 基于用户个性化购物行为进行商品推荐的方法 | |
US8793201B1 (en) | System and method for seeding rule-based machine learning models | |
US20200226168A1 (en) | Methods and systems for optimizing display of user content | |
CN112241495A (zh) | 页面更新方法 | |
CN110930221A (zh) | 异常订单处理方法、存储介质及计算机设备 | |
CN113032668A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
US20130304539A1 (en) | User recommendation method and device | |
CN110362702B (zh) | 图片管理方法及设备 | |
CN113837843B (zh) | 产品推荐方法、装置、介质及电子设备 | |
CN110704706A (zh) | 分类模型的训练方法、分类方法及相关设备、分类系统 | |
US20200226378A1 (en) | Methods and systems for tagged image generation | |
US8577814B1 (en) | System and method for genetic creation of a rule set for duplicate detection | |
CN116934418B (zh) | 一种异常订单的检测预警方法、系统、设备及存储介质 | |
CN116029794A (zh) | 商品价格确定方法、装置、电子设备及存储介质 | |
CN113077292B (zh) | 一种用户分类方法、装置、存储介质及电子设备 | |
CN114723536A (zh) | 基于图像大数据比对的电商平台廉价商品选取方法及系统 | |
CN114429384A (zh) | 基于电商平台的产品智能推荐方法及系统 | |
CN114358879A (zh) | 一种基于大数据的物价实时监测方法和系统 | |
CN110782287A (zh) | 实体相似度计算方法及装置、物品推荐系统、介质、设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |