CN111352926A - 数据处理的方法、装置、设备及可读存储介质 - Google Patents

数据处理的方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111352926A
CN111352926A CN201811559757.9A CN201811559757A CN111352926A CN 111352926 A CN111352926 A CN 111352926A CN 201811559757 A CN201811559757 A CN 201811559757A CN 111352926 A CN111352926 A CN 111352926A
Authority
CN
China
Prior art keywords
data
feature
test set
nonlinear
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811559757.9A
Other languages
English (en)
Other versions
CN111352926B (zh
Inventor
张路一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN201811559757.9A priority Critical patent/CN111352926B/zh
Publication of CN111352926A publication Critical patent/CN111352926A/zh
Application granted granted Critical
Publication of CN111352926B publication Critical patent/CN111352926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种数据处理的方法、装置、设备及可读存储介质。该方法包括:获取测试集中数据;采用训练后的改进随机森林算法获取测试集中数据的非线性特征数据;采用训练后的改进随机森林算法根据非线性特征数据对测试集中数据进行分类或预测,由于训练后的改进随机森林算法能够挖掘测试集数据中的非线性特征数据,而非只考虑原始特征数据,能够提高现有随机森林算法的模型效果,提高数据分类或预测的准确性,进而有效对数据进行分类或预测。

Description

数据处理的方法、装置、设备及可读存储介质
技术领域
本申请实施例涉及机器学习技术领域,尤其涉及一种数据处理的方法、装置、设备及可读存储介质。
背景技术
随着机器学习及大数据技术的不断发展,人类社会正处于火热的智能化革命之中,而在这场如火如荼的变革当中,算法无疑是其中最核心的环节之一。
目前,在众多算法中,基于套袋技术(英文名为Bagging)和分类回归树(简称:CART)的随机森林算法在多数分类和回归问题上取得了不错的效果,应用领域包括:金融风控领域,量化个人信用度领域,个性化定价领域,类别判定领域等。随机森林算法的基本原理是通过组合大量的弱分类器成为一个强分类器。首先,通过自展采样法(简称:Boostrap)获得多个数据集,由于Boostrap有放回采样的特性,确保了各个数据集之间的“随机性”;然后,利用CART对各个数据集进行训练生成对应的弱分类器,其中决策树每次分裂所采用的特征是从元特征中随机选择一小部分,保证了特征选择的“随机性”;最后,集成所有生成的决策树的判断结果进行模型的最终预测或分类。
虽然现有的随机森林算法被广泛应用于运用机器学习技术的各个领域,也取得了很好的算法指标,但是现有的随机森林只考虑原始特征,不能挖掘特征间的非线性关系,导致采用现有的随机森林算法进行分类或预测时,分类或预测的准确度较低,不能有效地对数据进行分类或预测。
发明内容
本申请实施例提供一种数据处理的方法、装置、设备及可读存储介质,解决了现有技术中的分类或预测的准确度较低,不能有效地对数据进行分类或预测的技术问题。
本申请实施例第一方面提供一种数据处理的方法,包括:获取测试集中数据;采用训练后的改进随机森林算法获取所述测试集中数据的非线性特征数据;采用训练后的改进随机森林算法根据所述非线性特征数据对所述测试集中数据进行分类或预测。
本申请实施例第二方面提供一种数据处理的装置,包括:测试集数据获取单元,用于获取测试集中数据;非线性特征数据获取单元,用于采用训练后的改进随机森林算法获取所述测试集中数据的非线性特征数据;数据分类预测单元,用于采用训练后的改进随机森林算法根据所述非线性特征数据对所述测试集中数据进行分类或预测。
本申请实施例第三方面提供一种电子设备,包括:存储器,处理器以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面任一项所述的方法。
本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行如上述第一方面所述的方法。
基于以上各方面,本申请实施例通过获取测试集中数据;采用训练后的改进随机森林算法获取测试集中数据的非线性特征数据;采用训练后的改进随机森林算法根据非线性特征数据对测试集中数据进行分类或预测,由于训练后的改进随机森林算法能够挖掘测试集数据中的非线性特征数据,而非只考虑原始特征数据,能够提高现有随机森林算法的模型效果,提高数据分类或预测的准确性,进而有效对数据进行分类或预测。
应当理解,上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。
附图说明
图1为本申请实施例一提供的数据处理的方法的流程图;
图2为本申请实施例二提供的数据处理的方法的流程图;
图3为本申请实施例二提供的数据处理的方法执行每个步骤后的结果示意图;
图4为本申请实施例二提供的数据处理的方法步骤205的流程图;
图5为本申请实施例二提供的数据处理的方法步骤205a的流程图;
图6为本申请实施例二提供的数据处理的方法步骤205b的流程图;
图7为本申请实施例二提供的数据处理的方法步骤206的流程图;
图8为本申请实施例二提供的数据处理的方法中训练集,非线性维度拓展,所选特征集及基模型的映射关系示意图;
图9为本申请实施例二提供的数据处理的方法步骤208的流程图;
图10为本申请实施例二提供的数据处理的方法步骤210的流程图;
图11为本申请实施例二提供的数据处理的方法步骤210b的流程图;
图12为本申请实施例二提供的数据处理的方法步骤210b1的流程图;
图13为本申请实施例二提供的数据处理的方法步骤210b2的流程图;
图14为本申请实施例二提供的数据处理的方法步骤211的流程图;
图15为本申请实施例二提供的数据处理的方法步骤211b的流程图;
图16为本申请实施例三提供的数据处理的装置的结构示意图;
图17为本申请实施例四提供的数据处理的装置的结构示意图;
图18为本申请实施例五提供的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对本申请实施例提供的数据处理的方法的应用场景进行介绍。本申请实施例提供的数据处理的方法采用训练后的改进随机森林算法对数据进行分类或预测,所以能够应用在分类和回归问题的场景中。如应用在金融风控领域,对金融风险进行预测,以控制风险。还可以应用在人工智能领域,如对机器人采集的点云数据进行分类,以识别障碍物种类。还可应用在对个人信用度的预测的场景中,对商品的个性化定价场景中等。本申请实施例对应用场景不作限定。
以下将参照附图来具体描述本申请的实施例。
实施例一
图1为本申请实施例一提供的数据处理的方法的流程图,如图1所示,本申请实施例的执行主体为数据处理的装置,该数据处理的装置可以集成在电子设备中。则本实施例提供的数据处理的方法包括以下几个步骤。
步骤101,获取测试集中数据。
本实施例中,测试集中的数据包括多个测试样本的数据。其中,测试样本根据应用场景的不同可以为文本类测试样本,图像类测试样本或视频帧类测试样本等,本实施例中对数据的类型不作限定。
具体地,本实施例中,可对数据集中的数据进行预处理后按照比例或时间先后划分为总训练集和测试集,以获取测试集中的数据。
其中,数据集中数据的预处理可以为ETL处理,在获取到的测试集的数据中,已对数据进行数据清洗,数据标准化,缺失值处理,异常值处理等ETL处理。
步骤102,采用训练后的改进随机森林算法获取测试集中数据的非线性特征数据。
其中,改进随机森林算法为原有的随机森林算法进行改进的算法,训练后的改进随机森林算法为对改进随机森林算法中的基模型进行训练后的随机森林算法。
具体地,本实施例中,采用训练后的改进随机森林算法获取测试集中数据的非线性特征数据是采用训练后的改进随机森林算法对测试集中的数据进行特征提取时,挖掘特征间的非线性关系,获得非线性特征数据。
步骤103,采用训练后的改进随机森林算法根据非线性特征数据对测试集中数据进行分类或预测。
具体地,本实施例中,采用训练后的改进随机森林算法根据非线性特征数据对测试集中数据进行分类或预测可以为:采用训练后的改进随机森林算法中的每个基模型对对应的非线性数据进行分类或预测,并根据非线性数据的分类或预测结果确定测试集中数据的分类或预测结果。
其中,本实施例中对训练后的改进随机森林算法中的每个基模型的类型不作限定。如可以为支持向量机模型,分类回归树模型,逻辑回归模型,神经网络模型,基于欧式距离模型等模型中的任意一种,也可以为任意多种,本实施例中对此不作限定。
本实施例提供的数据处理的方法,通过获取测试集中数据;采用训练后的改进随机森林算法获取测试集中数据的非线性特征数据;采用训练后的改进随机森林算法根据非线性特征数据对测试集中数据进行分类或预测,由于训练后的改进随机森林算法能够挖掘测试集数据中的非线性特征数据,而非只考虑原始特征数据,能够提高现有随机森林算法的模型效果,提高数据分类或预测的准确性,进而有效对数据进行分类或预测。
实施例二
图2为本申请实施例二提供的数据处理的方法的流程图,图3为本申请实施例二提供的数据处理的方法执行每个步骤后的结果示意图,如图2和图3所示,本实施例提供的数据处理的方法,是在本申请实施例一提供的数据处理的方法的基础上,对步骤101-步骤103的进一步细化,并且还包括了对改进随机森林算法进行训练的步骤。则本实施例提供的数据处理的方法包括以下步骤。
步骤201,对数据集中的数据进行预处理,形成预处理后的数据集。
本实施例中,在数据集中的数据为某一应用领域中的数据,如在人工智能领域,为机器人采集的所有点云数据。又如在信用量化领域,为所有个体的消费,理财,贷款等与信用相关的数据,或者其他应用领域的数据,本实施例中对此不作限定。
进一步地,本实施例中,对数据集中的数据进行预处理可以为ETL处理,包括数据的清洗,数据标准化,缺失值处理,异常值处理等处理,进行预处理后的数据形成预处理后的数据集。
步骤202,将预处理后的数据集分割为总训练集和测试集。
进一步地,本实施例中,可将预处理后的数据集按照预设比例分割为总训练集和测试集。其中,预设比例不作限定,如总训练集和测试集的分割比例为8:2,7:3等。
进一步地,本实施例中,也可将预处理后的数据集按照时间先后分割为总训练集和测试集。将先发生的数据分割到总训练集中,将后发生的数据分割到测试集中。如在昨天12点前发生的数据分割到总训练集中,将昨天12点发生的数据分割到测试集中。
其中,在总训练集中包括多个训练样本和验证样本,在测试集中包括多个测试样本。
步骤203,对总训练集多次采用自展采样法进行采样,以形成多组训练集合,每组训练集合包括对应的训练集和验证集。
其中,每组训练集合中的训练集用于对改进随机森林算法中的对应基模型进行训练。对应的验证集用于确定对应的训练后的基模型的评价指标。
具体地,本实施例中,采用自展采样法(简称:Boostrap)抽取多组训练集和验证集。假设总训练集中有n个样本,每组训练集和验证集的采样方法是有放回的抽取n次,将未采样到的样本作为验证集,将采样到的样本作为训练集。
由于采用Boostrap采样时,当有放回的从总训练集中采样等量的样本,有部分样本多次出现,也有一部分样本不会出现,于是样本在n次采样中始终不被抽到的概率时
Figure BDA0001912908590000061
当m取无穷大时,得到极限:
Figure BDA0001912908590000062
所以采用Boostrap采样形成多组训练集合,每组训练集合中的训练集和验证集的比例约为6.3:3.7。
其中,训练集的组数不作限定,如可以为100,或其他数值等。
本实施例中,训练集的组数与测试集中的特征数据的组数相同。训练集的组数和测试集中的特征数据的组数都与改进随机森林算法中的算法簇的基模型的个数相同。如图3所示,训练集的组数,验证集的组数和测试集中的特征数据的组数都为k。
其中,测试集中的特征数据的组数是对测试集中的数据分多次进行特征提取,形成测试集的特征数据的组数。
本实施例中,对总训练集多次采用自展采样法进行采样,以形成多组训练集合,每组训练集合包括对应的训练集和验证集,能够在总训练集中样本数量有限的情况下,仍然能够抽取足够组数的训练集和验证集,以保证分类或预测结果具有良好的统计性和鲁棒性。
步骤204,采用训练前的改进随机森林算法对每组训练集分别进行特征提取,形成每组训练集的特征数据。
进一步地,本实施例中,采用训练前的改进随机森林算法对每组训练集分别进行特征提取,每组训练集分别采用的特征提取算法可以相同也可以不同,本实施例中对此不作限定。在对每组训练集进行特征提取后,形成每组训练集的特征数据。
步骤205,采用训练前的改进随机森林算法计算每组训练集的特征数据对应的非线性特征数据,以形成每组训练集对应的特征集。
进一步,本实施例中,图4为本申请实施例二提供的数据处理的方法步骤205的流程图,如图4所示,本实施例中,步骤205包括以下步骤。
步骤205a,对每组训练集的特征数据进行对应的非线性维度拓展,形成每组训练集对应的拓展特征数据。
优选地,本实施例中,图5为本申请实施例二提供的数据处理的方法步骤205a的流程图,如图5所示,步骤205a包括以下步骤。
步骤205a1,对每组训练集的特征数据采用对应的笛卡尔积算法进行非线性维度拓展,以形成每组训练集对应的第一拓展特征数据。
其中,每组训练集特征数据对应的笛卡尔积算法中的参数取值不同。
进一步地,若某组训练集的特征数据的维数为m,则对该组训练集的特征数据采用对应的笛卡尔积算法进行非线性维度拓展后,形成的该组训练集对应的第一拓展特征数据的维度为md,在进行对应的笛卡尔积算法的非线性维度拓展后,拓展得到的第一拓展特征数据包括非线性特征数据。
由于每组训练集特征数据对应的笛卡尔积算法中的参数取值不同,所以每组采用对应的笛卡尔积算法进行非线性维度拓展后,得到的第一拓展特征数据的维度md的值不同。
步骤205a2,对每组训练集对应的第一拓展特征数据采用对应的词向量算法进行向量化处理,以形成每组训练集对应的第二拓展特征数据。
其中,每组训练集第一拓展特征数据对应的词向量算法中的参数取值不同。
进一步地,本实施例中,每组训练集的第一拓展特征数据都有一个对应的词向量算法(简称:word2vec算法),每个word2vec算法中包含的参数的取值不同,所以对每组训练集对应的第一拓展特征数据采用对应的词向量算法进行向量化处理后拓展出的第二拓展特征数据的维度不同,特征数据也不同。并且word2vec算法能够对第一拓展特征数据再次进行非线性拓展,能够进一步挖掘特征间的非线性特征,使第二拓展特征数据更能表现特征间的非线性关系。
其中,对第一拓展特征数据采用对应的词向量算法进行向量化处理后拓展出的第二拓展特征数据的维度可表示为mexp
步骤205b,按照特征选择策略从每组训练集对应的拓展特征数据中筛选出对应的非线性特征数据,以形成每组训练集对应的特征集。
如图3所示,特征集的个数为k个。
优选地,本实施例中,图6为本申请实施例二提供的数据处理的方法步骤205b的流程图,如图6所示,步骤205b包括以下步骤。
步骤205b1,根据每组训练集对应的第二拓展特征数据的维度确定对应的非线性特征数据的数量。
进一步地,本实施例中,根据每组训练集对应的第二拓展特征数据的维度确定对应的非线性特征数据的数量具体包括:
若某组训练集对应的第二拓展特征数据的维度大于等于预设维度值,则确定对应的非线性特征数据的数量为该组训练集的第二拓展特征数据的维度的平方根与该组训练集的第二拓展特征数据的维度的对数的和;若某组训练集对应的第二拓展特征数据的维度小于预设维度值,则确定对应的非线性特征数据的数量为该组训练集对应的第二拓展特征数据的维度的平方根与数值1的和。
其中,预设维度值可以为64,或其他数值。
若预设维度值为64,则具体可采用公式(1)根据每组训练集对应的第二拓展特征数据的维度确定对应的非线性特征数据的数量。
Figure BDA0001912908590000091
其中,select_feature_num为确定出的非线性特征数据的数量,mexp为对应的第二拓展特征数据的维度。
步骤205b2,从每组训练集对应的第二拓展特征数据中随机筛选出对应数量的非线性特征数据,以形成每组训练集对应的特征集。
进一步地,本实施例中,在根据公式(1)确定出每组训练集对应的需筛选出的非线性特征数据的数量后,从第二拓展特征数据中随机筛选出对应数量的非线性特征数据,由筛选出的非线性特征数据形成每组训练样本对应的特征集。
本实施例中,对每组训练集的特征数据进行对应的非线性维度拓展,形成每组训练集对应的拓展特征数据时,对每组训练集的特征数据采用对应的笛卡尔积算法进行非线性维度拓展,以形成每组训练集对应的第一拓展特征数据,对每组训练集对应的第一拓展特征数据采用对应的词向量算法进行向量化处理,以形成每组训练集对应的第二拓展特征数据,能够深入挖掘每组训练集的非线性特征,挖掘的特征更能体现特征间的非线性关系。
本实施例中,按照特征选择策略从每组训练集对应的拓展特征数据中筛选出对应的非线性特征数据,以形成每组训练集对应的特征集时,根据每组训练集对应的第二拓展特征数据的维度确定对应的非线性特征数据的数量,从每组训练集对应的第二拓展特征数据中随机筛选出对应数量的非线性特征数据,以形成每组训练集对应的特征集,能够根据每组训练集中的第二拓展特征数据的维度自适应地确定非线性特征数据的数量,并能够自适应地选择出每个训练集的特征集中的非线性特征数据。
步骤206,采用训练前的改进随机森林算法对每组训练集对应的特征集进行分类或预测,以获得训练后的改进随机森林算法。
进一步地,本实施例中,图7为本申请实施例二提供的数据处理的方法步骤206的流程图,如图7所示,本实施例中,步骤206包括以下步骤。
步骤206a,为训练前的改进随机森林算法中每组训练集对应的特征集配置对应的基模型及基模型的超参。
需要说明的是,现有技术的随机森林算法中采用同样的算法构建每一个基模型,如采用分类回归树构建每个及模型,可能会产生很多非常单一的基模型,并且在特征数据维度低的情况下很可能出现欠拟合的情况,造成分类或预测结果的偏差。
而在本实施例中,将现有技术中的随机森林算法中的同样的算法构建每一个基模型替换为一个算法簇,在算法簇中包括多种基模型,算法簇可以达到基模型的“随机性”,各基模型的超参可配置。如图3所示,配置的基模型的个数为k个。
其中,对各基模型的超参进行配置即对各基模型的参数初始值进行配置。
本实施例中,每个基模型有与每组训练集的特征集的对应关系。为训练前的改进随机森林算法中每组训练集对应的特征集配置对应的基模型及基模型的超参。
本实施例中,训练前的改进随机森林算法中的基模型包括以下任意多种基模型:
支持向量机模型,分类回归树模型,逻辑回归模型,神经网络模型,基于欧式距离模型。
优选地,本实施例中,若为训练前的改进随机森林算法中每组训练集对应的特征集配置对应的基模型中有相同的基模型,则该相同基模型配置的超参不同。
图8为本申请实施例二提供的数据处理的方法中训练集,非线性维度拓展,所选特征集及基模型的映射关系示意图。如图8所示,对步骤206a进行示例性说明为:训练集的特征集包括的组数为k组,可将前k1组特征集配置成CART模型,为中间的k2组特征集配置成逻辑回归模型,为后k3组特征集配置成支持向量机模型。其中,k=k1+k2+k3。
步骤206b,采用每个基模型对对应的训练集的特征集进行分类或预测,以对每个基模型进行训练,获得每个训练后的基模型。
进一步地,本实施例中,每个基模型在对对应的特征集进行分类或预测过程中对该基模型进行训练,得到训练后的基模型及训练后的基模型的参数值。
本实施例中,采用训练前的改进随机森林算法对每组训练集对应的特征集进行分类或预测,以获得训练后的改进随机森林算法时,为训练前的改进随机森林算法中每组训练集对应的特征集配置对应的基模型及基模型的超参,采用每个基模型对对应的训练集的特征集进行分类或预测,以对每个基模型进行训练,获得每个训练后的基模型,优化了随机森林算法的流程,整个流程能够对各个基模型进行统一配置。
步骤207,采用每组验证集对对应的训练后的基模型进行验证,获得每个训练后的基模型的评判指标。
进一步地,本实施例中,首先对每组验证集采用步骤205相似的方式获得每组验证集对应的非线性特征数据,以形成每组验证集对应的特征集。然后采用每组验证集对应的训练后的基模型对对应的特征集进行分类或预测,获得分类或预测的结果,根据分类或预测的结果获得每个训练后的基模型的评判指标。
其中,评判指标可以为分类或预测的准确率,或者ROC曲线下面积等,本实施例中对此不作限定。
步骤208,根据每个训练后的基模型的评判指标计算每个训练后的基模型的权重。
进一步地,图9为本申请实施例二提供的数据处理的方法步骤208的流程图,如图9所示,本实施例中,步骤208包括以下步骤。
步骤208a,计算每个训练后的基模型的评判指标的指数。
步骤208b,计算所有训练后的基模型的评判指标的指数的和。
步骤208c,计算每个训练后的基模型的评判指标的指数与所有训练后的基模型的评判指标的指数的和之间的商,以得到每个训练后的基模型对应的权重。
结合步骤208a-步骤208c进行说明,若评价指标为分类或预测的准确率,则步骤208a-步骤208c可表示为公式(2)。
Figure BDA0001912908590000111
其中,acci表示第i个训练后的基模型的分类或预测的准确率,wi表示第i个训练后的基模型对应的权重。
本实施例中,采用每组验证集对对应的训练后的基模型进行验证,获得每个训练后的基模型的评判指标,根据每个训练后的基模型的评判指标计算每个训练后的基模型的权重,使得在各个基模型的分类或预测结果进行集成时,区别对待每个基模型的分类或预测结果,若某基模型的分类或预测结果优秀,则对应的权重大,若某基模型的分类或预测结果较差,则对应的权重也较小,进而使改进的随机森林算法能够区分出优秀基模型,一般基模型,较差基模型的不同,使最终分类或预测结果更加准确和稳定。
步骤209,获取测试集中数据。
进一步地,本实施例中,从预处理的数据集中分割出总训练集和测试集,获取分割出的测试集。
其中,总训练集和测试集的分割方法可以按照预设比例分割,也可按照时间先后分割,本实施例中对此不作限定。
步骤210,采用训练后的改进随机森林算法获取测试集中数据的非线性特征数据。
进一步地,图10为本申请实施例二提供的数据处理的方法步骤210的流程图,如图10所示,步骤210包括以下步骤。
步骤210a,对测试集中的数据分多次进行特征提取,形成测试集的多组特征数据。
进一步地,本实施例中,对同一测试集分多次分别进行特征提取,每次进行的特征提取的特征提取算法与对应的训练集进行特征提取的算法相同。每次特征提取获得的特征数据形成对应的该组特征数据。
步骤210b,计算测试集的每组特征数据对应的非线性特征数据,以形成测试集对应的每个特征集。
进一步地,本实施例中,图11为本申请实施例二提供的数据处理的方法步骤210b的流程图,如图11所示,步骤210b包括以下步骤。
步骤210b1,对测试集的每组特征数据进行对应的非线性维度拓展,形成对应的拓展特征数据。
优选地,图12为本申请实施例二提供的数据处理的方法步骤210b1的流程图,如图12所示,步骤210b1包括以下步骤。
步骤210b11,对测试集的每组特征数据采用对应的笛卡尔积算法进行非线性维度拓展,以形成对应的第一拓展特征数据。
步骤210b12,对每组第一拓展特征数据采用对应的词向量算法进行向量化处理,以形成对应的第二拓展特征数据。
其中,每组特征数据对应的笛卡尔积算法中的参数取值不同,每组第一拓展特征数据对应的词向量算法中的参数取值不同。
本实施例中,步骤210b11-步骤210b12的实现方式与本申请实施例二中的步骤205a1-步骤205a2的实现方式相似,在此不再一一赘述。
可以理解的是,测试集中每组特征数据对应的笛卡尔积算法是与对应组的训练集中的特征数据对应的笛卡尔积算法的参数是相同的。同理,测试集中每组第一拓展特征数据对应的词向量算法中的参数是与对应组的训练集中的第一拓展特征数据对应的词向量算法中的参数是相同的。
步骤210b2,按照特征选择策略从每组拓展特征数据中筛选出对应的非线性特征数据,以形成测试集的每个特征集。
图13为本申请实施例二提供的数据处理的方法步骤210b2的流程图,如图13所示,步骤210b2包括以下步骤。
步骤210b21,根据每组第二拓展特征数据的维度确定对应的非线性特征数据的数量。
进一步地,根据每组第二拓展特征数据的维度确定对应的非线性特征数据的数量,具体包括:
若某组第二拓展特征数据的维度大于等于预设维度值,则确定对应的非线性特征数据的数量为该第二拓展特征数据的维度的平方根与该第二拓展特征数据的维度的对数的和;若某组第二拓展特征数据的维度小于预设维度值,则确定对应的非线性特征数据的数量为该第二拓展特征数据的维度的平方根与数值1的和。
本实施例中,根据每组第二拓展特征数据的维度确定对应的非线性特征数据的数量可通过公式(1)进行确定,在此不再一一赘述。
步骤210b22,从每组第二拓展特征数据中随机筛选出对应数量的非线性特征数据,以形成测试集的每个特征集。
本实施例中,步骤210b21-步骤210b22与本申请实施例二中的步骤205b1-步骤205b2的实现方式相似,在此不再一一赘述。
步骤211,采用训练后的改进随机森林算法根据非线性特征数据对测试集中数据进行分类或预测。
进一步地,本实施例中,训练后的改进随机森林算法中的训练后的基模型包括以下任意多种基模型:
支持向量机模型,分类回归树模型,逻辑回归模型,神经网络模型,基于欧式距离模型。
图14为本申请实施例二提供的数据处理的方法步骤211的流程图,如图14所示,步骤211包括以下步骤。
步骤211a,采用每个训练后的基模型对测试集中对应的特征集进行分类或预测。
步骤211b,根据每个训练后的基模型对应的分类或预测结果和对应的权重计算测试集中的数据分类或预测结果。
进一步地,图15为本申请实施例二提供的数据处理的方法步骤211b的流程图,如图15所示,步骤211b包括以下步骤。
步骤211b1,将每个训练后的基模型对应的分类或预测结果与对应的权重进行加权求和。
现有技术中,随机森林算法在根据每个基模型对应的分类或预测结果集成最终分类结果时,集成方法简单,分类问题采用的是多数投票法,回归问题则采用均值法,这样做的前提是所有基模型都是相对有效的,但在一些情况下,可能出现大量基模型不可信的情况,会对结果造成很大影响。
而本实施例中,采用公式(3)将每个训练后的基模型对应的分类或预测结果与对应的权重进行加权求和。
Figure BDA0001912908590000141
其中,scorei表示第i个训练后的基模型对应的分类或预测结果,wi表示第i个训练后的基模型对应的权重,prob_scorei表示加权求和后的结果。
()
步骤211b2,根据加权求和的结果确定测试集中的数据分类或预测结果。
进一步地,本实施例中,若是对测试集中的数据进行预测,则加权求和的结果确定为测试集中的数据的预测结果。若是对测试集中的数据进行分类,则根据加权求和的结果和预设分类值,确定测试集中的数据的分类结果。如预设分类值为0.6,加权求和结果大于0.6,则确定测试集中的数据的分类结果为正类,若加权求和结果小于或等于0.6,则确定测试集中的数据的分类结果为负类。
所以本实施例中,将每个训练后的基模型对应的分类或预测结果与对应的权重进行加权求和,根据加权求和的结果确定测试集中的数据分类或预测结果,使得在各个基模型的分类或预测结果进行集成时,区别对待每个基模型的分类或预测结果,若某基模型的分类或预测结果优秀,则对应的权重大,若某基模型的分类或预测结果较差,则对应的权重也较小,进而使改进的随机森林算法能够区分出优秀基模型,一般基模型,较差基模型的不同,使最终分类或预测结果更加准确和稳定。
本实施例提供的数据处理的方法,通过对数据集中的数据进行预处理,形成预处理后的数据集,将预处理后的数据集分割为总训练集和测试集,对总训练集多次采用自展采样法进行采样,以形成多组训练集合,每组训练集合包括对应的训练集和验证集,采用训练前的改进随机森林算法对每组训练集分别进行特征提取,形成每组训练集的特征数据,采用训练前的改进随机森林算法计算每组训练集的特征数据对应的非线性特征数据,以形成每组训练集对应的特征集,采用训练前的改进随机森林算法对每组训练集对应的特征集进行分类或预测,以获得训练后的改进随机森林算法,采用每组验证集对对应的训练后的基模型进行验证,获得每个训练后的基模型的评判指标,根据每个训练后的基模型的评判指标计算每个训练后的基模型的权重,获取测试集中数据,采用训练后的改进随机森林算法获取测试集中数据的非线性特征数据,采用训练后的改进随机森林算法根据非线性特征数据对测试集中数据进行分类或预测,能够在改进随机森林算法在数据随机性和特征随机性的基础上引入了算法随机性,引入了有效的非线性特征拓展和筛选,使其有较强的特征挖掘能力,并且,在进行基模型的集成时,通过验证集确定各个基模型的评价指标来计算各个基模型的权重,能够学习出优秀基模型、一般基模型、较差基模型的不同,进而使得最终的数据分类或预测结果更加的准确和稳定。
实施例三
图16为本申请实施例三提供的数据处理的装置的结构示意图,如图16所示,本实施例提供的数据处理的装置包括:测试集数据获取单元1601,非线性特征数据获取单元1602,数据分类预测单元1603。
其中,测试集数据获取单元1601,用于获取测试集中数据。非线性特征数据获取单元1602,用于采用训练后的改进随机森林算法获取测试集中数据的非线性特征数据。数据分类预测单元1603,用于采用训练后的改进随机森林算法根据非线性特征数据对测试集中数据进行分类或预测。
本实施例提供的数据处理的装置,测试集数据获取单元获取测试集中数据,非线性特征数据获取单元采用训练后的改进随机森林算法获取测试集中数据的非线性特征数据,数据分类预测单元采用训练后的改进随机森林算法根据非线性特征数据对测试集中数据进行分类或预测。由于训练后的改进随机森林算法能够挖掘测试集数据中的非线性特征数据,而非只考虑原始特征数据,能够提高现有随机森林算法的模型效果,提高数据分类或预测的准确性,进而有效对数据进行分类或预测。
本实施例提供的数据处理的装置可以执行图1所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
实施例四
图17为本申请实施例四提供的数据处理的装置的结构示意图,如图17所示,本实施例提供数据处理的装置在本申请实施例三提供的数据处理的装置的基础上,进一步地,还包括:数据集预处理单元1701,数据集分割单元1702,总训练集采样单元1703,特征提取单元1704,非线性特征数据计算单元1705,改进随机森林算法训练单元1706,基模型评判指标获取单元1707,基模型权重计算单元1708。
进一步地,非线性特征数据获取单元1602,具体包括:特征提取子单元1602a,非线性特征数据计算子单元1602b。
其中,特征提取子单元1602a,用于对测试集中的数据分多次进行特征提取,形成测试集的多组特征数据。非线性特征数据计算子单元1602b,用于计算测试集的每组特征数据对应的非线性特征数据,以形成测试集对应的每个特征集。
进一步地,非线性特征数据计算子单元1602b,包括:非线性维度扩展模块1602b1,非线性特征数据筛选模块1602b2。
其中,非线性维度扩展模块1602b1,用于对测试集的每组特征数据进行对应的非线性维度拓展,形成对应的拓展特征数据。非线性特征数据筛选模块1602b2,用于按照特征选择策略从每组拓展特征数据中筛选出对应的非线性特征数据,以形成测试集的每个特征集。
进一步地,非线性维度扩展模块1602b1,具体用于:对测试集的每组特征数据采用对应的笛卡尔积算法进行非线性维度拓展,以形成对应的第一拓展特征数据;对每组第一拓展特征数据采用对应的词向量算法进行向量化处理,以形成对应的第二拓展特征数据;其中,每组特征数据对应的笛卡尔积算法中的参数取值不同,每组第一拓展特征数据对应的词向量算法中的参数取值不同。
进一步地,非线性特征数据筛选模块1602b2,具体用于:根据每组第二拓展特征数据的维度确定对应的非线性特征数据的数量;从每组第二拓展特征数据中随机筛选出对应数量的非线性特征数据,以形成测试集的每个特征集。
进一步地,非线性特征数据筛选模块1602b2,具体用于:若某组第二拓展特征数据的维度大于等于预设维度值,则确定对应的非线性特征数据的数量为该第二拓展特征数据的维度的平方根与该第二拓展特征数据的维度的对数的和;若某组第二拓展特征数据的维度小于预设维度值,则确定对应的非线性特征数据的数量为该第二拓展特征数据的维度的平方根与数值1的和。
进一步地,数据分类预测单元1603,具体包括:基模型分类预测子单元1603a,分类预测结果计算子单元1603b。
其中,基模型分类预测子单元1603a,用于采用每个训练后的基模型对测试集中对应的特征集进行分类或预测。分类预测结果计算子单元1603b,用于根据每个训练后的基模型对应的分类或预测结果和对应的权重计算测试集中的数据分类或预测结果。
进一步地,本实施例中,训练后的改进随机森林算法中的训练后的基模型包括以下任意多种基模型:
支持向量机模型,分类回归树模型,逻辑回归模型,神经网络模型,基于欧式距离模型。
进一步地,分类预测结果计算子单元1603b,具体用于:将每个训练后的基模型对应的分类或预测结果与对应的权重进行加权求和;根据加权求和的结果确定测试集中的数据分类或预测结果。
进一步地,数据集预处理单元1701,用于对数据集中的数据进行预处理,形成预处理后的数据集。数据集分割单元1702,用于将预处理后的数据集分割为总训练集和测试集。
进一步地,总训练集采样单元1703,用于对总训练集多次采用自展采样法进行采样,以形成多组训练集合,每组训练集合包括对应的训练集和验证集;其中,训练集的组数与测试集中的特征数据的组数相同。特征提取单元1704,用于采用训练前的改进随机森林算法对每组训练集分别进行特征提取,形成每组训练集的特征数据。非线性特征数据计算单元1705,用于采用训练前的改进随机森林算法计算每组训练集的特征数据对应的非线性特征数据,以形成每组训练集对应的特征集。改进随机森林算法训练单元1706,用于采用训练前的改进随机森林算法对每组训练集对应的特征集进行分类或预测,以获得训练后的改进随机森林算法。
进一步地,改进随机森林算法训练单元1706包括:基模型配置子单元1706a,基模型训练子单元1706b。
基模型配置子单元1706a,用于为训练前的改进随机森林算法中每组训练集对应的特征集配置对应的基模型及基模型的超参。基模型训练子单元1706b,用于采用每个基模型对对应的训练集的特征集进行分类或预测,以对每个基模型进行训练,获得每个训练后的基模型。
进一步地,基模型评判指标获取单元1707,用于采用每组验证集对对应的训练后的基模型进行验证,获得每个训练后的基模型的评判指标。基模型权重计算单元1708,用于根据每个训练后的基模型的评判指标计算每个训练后的基模型的权重。
进一步地,基模型权重计算单元1708,具体用于:计算每个训练后的基模型的评判指标的指数;计算所有训练后的基模型的评判指标的指数的和;计算每个训练后的基模型的评判指标的指数与所有训练后的基模型的评判指标的指数的和之间的商,以得到每个训练后的基模型对应的权重。
本实施例提供的数据处理的装置可以执行图2-图15所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
实施例五
图18为本申请实施例五提供的电子设备的结构示意图,如图18所示,本实施例提供的电子设备包括:存储器1801,处理器1802以及计算机程序。
其中,计算机程序存储在存储器1801中,并被配置为由处理器1802执行以实现如本申请实施例一提供的数据的处理方法或本申请实施例二提供的数据处理的方法。
相关说明可以对应参见图1至图15所对应的相关描述和效果进行理解,此处不做过多赘述。
本实施例提供的电子设备,包括:存储器,处理器以及计算机程序;其中,计算机程序存储在存储器中,并被配置为由处理器执行以实现如本申请实施例一提供的数据的处理方法或本申请实施例二提供的数据处理的方法,由于训练后的改进随机森林算法能够挖掘测试集数据中的非线性特征数据,而非只考虑原始特征数据,能够提高现有随机森林算法的模型效果,提高数据分类或预测的准确性,进而有效对数据进行分类或预测。
实施例六
本申请实施例六提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现本申请实施例一提供的数据的处理方法或本申请实施例二提供的数据处理的方法。
本实施例提供的计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现本申请实施例一提供的数据的处理方法或本申请实施例二提供的数据处理的方法,由于训练后的改进随机森林算法能够挖掘测试集数据中的非线性特征数据,而非只考虑原始特征数据,能够提高现有随机森林算法的模型效果,提高数据分类或预测的准确性,进而有效对数据进行分类或预测。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (17)

1.一种数据处理的方法,其特征在于,包括:
获取测试集中数据;
采用训练后的改进随机森林算法获取所述测试集中数据的非线性特征数据;
采用训练后的改进随机森林算法根据所述非线性特征数据对所述测试集中数据进行分类或预测。
2.根据权利要求1所述的方法,其特征在于,所述采用训练后的改进随机森林算法获取所述测试集中数据的非线性特征数据,具体包括:
对所述测试集中的数据分多次进行特征提取,形成测试集的多组特征数据;
计算所述测试集的每组特征数据对应的非线性特征数据,以形成所述测试集对应的每个特征集。
3.根据权利要求2所述的方法,其特征在于,所述计算所述测试集的每组特征数据对应的非线性特征数据,以形成所述测试集对应的每个特征集,具体包括:
对所述测试集的每组特征数据进行对应的非线性维度拓展,形成对应的拓展特征数据;
按照特征选择策略从每组拓展特征数据中筛选出对应的非线性特征数据,以形成所述测试集的每个特征集。
4.根据权利要求3所述的方法,其特征在于,所述对所述测试集的每组特征数据进行对应的非线性维度拓展,形成对应的拓展特征数据,具体包括:
对所述测试集的每组特征数据采用对应的笛卡尔积算法进行非线性维度拓展,以形成对应的第一拓展特征数据;
对每组第一拓展特征数据采用对应的词向量算法进行向量化处理,以形成对应的第二拓展特征数据;
其中,每组特征数据对应的笛卡尔积算法中的参数取值不同,每组第一拓展特征数据对应的词向量算法中的参数取值不同。
5.根据权利要求3所述的方法,其特征在于,所述按照特征选择策略从每组拓展特征数据中筛选出对应的非线性特征数据,以形成所述测试集的每个特征集,具体包括:
根据每组第二拓展特征数据的维度确定对应的非线性特征数据的数量;
从每组第二拓展特征数据中随机筛选出对应数量的非线性特征数据,以形成所述测试集的每个特征集。
6.根据权利要求5所述的方法,其特征在于,所述根据每组第二拓展特征数据的维度确定对应的非线性特征数据的数量,具体包括:
若某组第二拓展特征数据的维度大于等于预设维度值,则确定对应的非线性特征数据的数量为该第二拓展特征数据的维度的平方根与该第二拓展特征数据的维度的对数的和;
若某组第二拓展特征数据的维度小于所述预设维度值,则确定对应的非线性特征数据的数量为该第二拓展特征数据的维度的平方根与数值1的和。
7.根据权利要求1所述的方法,其特征在于,所述采用训练后的改进随机森林算法根据所述非线性特征数据对所述测试集中数据进行分类或预测,具体包括:
采用每个训练后的基模型对所述测试集中对应的特征集进行分类或预测;
根据每个训练后的基模型对应的分类或预测结果和对应的权重计算测试集中的数据分类或预测结果。
8.根据权利要求7所述的方法,其特征在于,所述训练后的改进随机森林算法中的训练后的基模型包括以下任意多种基模型:
支持向量机模型,分类回归树模型,逻辑回归模型,神经网络模型,基于欧式距离模型。
9.根据权利要求8所述的方法,其特征在于,所述根据每个训练后的基模型对应的分类或预测结果和对应的权重计算测试集中的数据分类或预测结果,具体包括:
将每个训练后的基模型对应的分类或预测结果与对应的权重进行加权求和;
根据所述加权求和的结果确定测试集中的数据分类或预测结果。
10.根据权利要求1所述的方法,其特征在于,所述获取测试集中数据之前,还包括:
对数据集中的数据进行预处理,形成预处理后的数据集;
将预处理后的数据集分割为总训练集和测试集。
11.根据权利要求10所述的方法,其特征在于,所述将预处理后的数据集分割为总训练集和测试集之后,还包括:
对所述总训练集多次采用自展采样法进行采样,以形成多组训练集合,每组训练集合包括对应的训练集和验证集;其中,训练集的组数与所述测试集中的特征数据的组数相同;
采用训练前的改进随机森林算法对每组训练集分别进行特征提取,形成每组训练集的特征数据;
采用所述训练前的改进随机森林算法计算每组训练集的特征数据对应的非线性特征数据,以形成每组训练集对应的特征集;
采用所述训练前的改进随机森林算法对每组训练集对应的特征集进行分类或预测,以获得训练后的改进随机森林算法。
12.根据权利要求11所述的方法,其特征在于,所述采用所述训练前的改进随机森林算法对每组训练集对应的特征集进行分类或预测,以获得训练后的改进随机森林算法,具体包括:
为所述训练前的改进随机森林算法中每组训练集对应的特征集配置对应的基模型及基模型的超参;
采用每个基模型对对应的训练集的特征集进行分类或预测,以对每个基模型进行训练,获得每个训练后的基模型。
13.根据权利要求11所述的方法,其特征在于,所述采用每个基模型对对应的训练集的特征集进行分类或预测,以对每个基模型进行训练,获得每个训练后的基模型之后,还包括:
采用每组验证集对对应的训练后的基模型进行验证,获得每个训练后的基模型的评判指标;
根据每个训练后的基模型的评判指标计算每个训练后的基模型的权重。
14.根据权利要求13所述的方法,其特征在于,所述根据每个训练后的基模型的评判指标计算每个训练后的基模型的权重,具体包括:
计算每个训练后的基模型的评判指标的指数;
计算所有训练后的基模型的评判指标的指数的和;
计算每个训练后的基模型的评判指标的指数与所述所有训练后的基模型的评判指标的指数的和之间的商,以得到每个训练后的基模型对应的权重。
15.一种数据处理的装置,其特征在于,包括:
测试集数据获取单元,用于获取测试集中数据;
非线性特征数据获取单元,用于采用训练后的改进随机森林算法获取所述测试集中数据的非线性特征数据;
数据分类预测单元,用于采用训练后的改进随机森林算法根据所述非线性特征数据对所述测试集中数据进行分类或预测。
16.一种电子设备,其特征在于,包括:存储器,处理器以及计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-14中任一项所述的方法。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行如权利要求1-14中任一项所述的方法。
CN201811559757.9A 2018-12-20 2018-12-20 数据处理的方法、装置、设备及可读存储介质 Active CN111352926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811559757.9A CN111352926B (zh) 2018-12-20 2018-12-20 数据处理的方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811559757.9A CN111352926B (zh) 2018-12-20 2018-12-20 数据处理的方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111352926A true CN111352926A (zh) 2020-06-30
CN111352926B CN111352926B (zh) 2024-03-08

Family

ID=71196730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811559757.9A Active CN111352926B (zh) 2018-12-20 2018-12-20 数据处理的方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111352926B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329754A (zh) * 2021-01-07 2021-02-05 深圳市速腾聚创科技有限公司 障碍物识别模型训练方法、障碍物识别方法、装置及系统
CN113342648A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 基于机器学习的测试结果分析方法及装置
CN113468816A (zh) * 2021-07-13 2021-10-01 电力规划总院有限公司 铁塔钢材指标预测模型的训练方法、装置及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016025357A2 (en) * 2014-08-13 2016-02-18 Microsoft Technology Licensing, Llc Distributed stage-wise parallel machine learning
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN107766883A (zh) * 2017-10-13 2018-03-06 华中师范大学 一种基于加权决策树的优化随机森林分类方法及系统
CN108053071A (zh) * 2017-12-21 2018-05-18 宇星科技发展(深圳)有限公司 区域空气污染物浓度预测方法、终端及可读存储介质
CN108364016A (zh) * 2018-01-12 2018-08-03 华南理工大学 基于多分类器的渐进式半监督分类方法
CN108363716A (zh) * 2017-12-28 2018-08-03 广州索答信息科技有限公司 领域信息分类模型生成方法、分类方法、设备及存储介质
CN108415888A (zh) * 2018-02-12 2018-08-17 苏州思必驰信息科技有限公司 用于神经网络语言模型的压缩方法和系统
CN108805413A (zh) * 2018-05-21 2018-11-13 中国平安人寿保险股份有限公司 员工离职风险预测方法、装置、计算机设备以及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016025357A2 (en) * 2014-08-13 2016-02-18 Microsoft Technology Licensing, Llc Distributed stage-wise parallel machine learning
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN107766883A (zh) * 2017-10-13 2018-03-06 华中师范大学 一种基于加权决策树的优化随机森林分类方法及系统
CN108053071A (zh) * 2017-12-21 2018-05-18 宇星科技发展(深圳)有限公司 区域空气污染物浓度预测方法、终端及可读存储介质
CN108363716A (zh) * 2017-12-28 2018-08-03 广州索答信息科技有限公司 领域信息分类模型生成方法、分类方法、设备及存储介质
CN108364016A (zh) * 2018-01-12 2018-08-03 华南理工大学 基于多分类器的渐进式半监督分类方法
CN108415888A (zh) * 2018-02-12 2018-08-17 苏州思必驰信息科技有限公司 用于神经网络语言模型的压缩方法和系统
CN108805413A (zh) * 2018-05-21 2018-11-13 中国平安人寿保险股份有限公司 员工离职风险预测方法、装置、计算机设备以及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIDIA AURET 等: "Interpretation of nonlinear relationships between process variables by use of random forests", MINERALS ENGINEERING *
YASSINE AL AMRANI 等: "Random Forest and Support Vector Machine based Hybrid Approach to Sentiment Analysis", PROCEDIA COMPUTER SCIENCE *
李元杰;曹健;胡亮;: "基于自动语义标注和集成学习的Web服务分类", 小型微型计算机系统, no. 01 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329754A (zh) * 2021-01-07 2021-02-05 深圳市速腾聚创科技有限公司 障碍物识别模型训练方法、障碍物识别方法、装置及系统
CN112329754B (zh) * 2021-01-07 2021-05-14 深圳市速腾聚创科技有限公司 障碍物识别模型训练方法、障碍物识别方法、装置及系统
CN113342648A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 基于机器学习的测试结果分析方法及装置
CN113468816A (zh) * 2021-07-13 2021-10-01 电力规划总院有限公司 铁塔钢材指标预测模型的训练方法、装置及可读存储介质
CN113468816B (zh) * 2021-07-13 2023-05-26 电力规划总院有限公司 铁塔钢材指标预测模型的训练方法、装置及可读存储介质

Also Published As

Publication number Publication date
CN111352926B (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
CN112163465B (zh) 细粒度图像分类方法、系统、计算机设备及存储介质
CN111079639B (zh) 垃圾图像分类模型构建的方法、装置、设备及存储介质
CN111008640B (zh) 图像识别模型训练及图像识别方法、装置、终端及介质
CN106897738B (zh) 一种基于半监督学习的行人检测方法
CN111553399A (zh) 特征模型训练方法、装置、设备及存储介质
CN108345587B (zh) 一种评论的真实性检测方法与系统
CN108875522A (zh) 人脸聚类方法、装置和系统及存储介质
CN108875932A (zh) 图像识别方法、装置和系统及存储介质
CN111291809A (zh) 一种处理装置、方法及存储介质
CN106295613A (zh) 一种无人机目标定位方法及系统
CN111368926B (zh) 图像筛选方法、装置和计算机可读存储介质
CN111352926B (zh) 数据处理的方法、装置、设备及可读存储介质
CN106778910A (zh) 基于本地训练的深度学习系统和方法
CN111062444A (zh) 信用风险预测方法、系统、终端及存储介质
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
CN113641906A (zh) 基于资金交易关系数据实现相似目标人员识别处理的系统、方法、装置、处理器及其介质
CN107016359A (zh) 一种复杂环境下基于t分布的人脸快速识别方法
CN115238909A (zh) 一种基于联邦学习的数据价值评估方法及其相关设备
CN113111804B (zh) 一种人脸检测的方法、装置、电子设备及存储介质
Yang et al. Rapid image detection and recognition of rice false smut based on mobile smart devices with anti-light features from cloud database
US20060179021A1 (en) Using supervised classifiers with unsupervised data
CN117173697A (zh) 细胞团分类识别方法、装置、电子设备及存储介质
CN115713669A (zh) 一种基于类间关系的图像分类方法、装置、存储介质及终端
CN112052881B (zh) 基于多尺度近端特征拼接的高光谱图像分类模型的装置
CN114722941A (zh) 信贷违约识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant