CN110210506A - 基于大数据的特征处理方法、装置和计算机设备 - Google Patents

基于大数据的特征处理方法、装置和计算机设备 Download PDF

Info

Publication number
CN110210506A
CN110210506A CN201810301167.XA CN201810301167A CN110210506A CN 110210506 A CN110210506 A CN 110210506A CN 201810301167 A CN201810301167 A CN 201810301167A CN 110210506 A CN110210506 A CN 110210506A
Authority
CN
China
Prior art keywords
feature
characteristic
newly
configuration information
increased
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810301167.XA
Other languages
English (en)
Other versions
CN110210506B (zh
Inventor
卢欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810301167.XA priority Critical patent/CN110210506B/zh
Publication of CN110210506A publication Critical patent/CN110210506A/zh
Application granted granted Critical
Publication of CN110210506B publication Critical patent/CN110210506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于大数据的特征处理方法、装置、计算机设备和可读存储介质,所述方法包括:获取待处理的特征集和特征集中各特征的特征属性;接收对特征集进行处理的处理指令;根据处理指令获取与特征集中的各特征匹配的特征配置信息;根据各特征的特征属性和特征配置信息分别对各特征进行处理。本申请提供的方案能够根据特征与特征配置信息之间的对应关系灵活选择对应的处理模式,从而实现通过一个算法提供不同处理方式,提高了特征处理的灵活性。并且,基于该特征处理方法无需人工进行算法的选择与切换,进一步提高了特征处理的效率。

Description

基于大数据的特征处理方法、装置和计算机设备
技术领域
本申请涉及特征工程技术领域,特别是涉及一种基于大数据的特征处理方法、装置、计算机设备和可读存储介质。
背景技术
随着移动互联网和O2O模式的迅猛发展,网络信息数据大幅增加,如何利用这些庞大而杂乱的信息数据,从中挖据出有价值的信息成为了热点研究内容,特征工程也发挥着越来越重要的作用。而为应对大量数据的处理需求,各种大数据处理平台应运而生。
基于现有大数据处理平台进行特征处理时,单独特征处理算法仅能基于该算法唯一确定的功能对特征进行处理,当待处理的特征集包括需要进行不同处理的特征时,则需要人工选择对应的特征处理算法后,再执行不同的特征处理算法。比如,当特征集中既包括需要归一化处理的特征又包括需要标准化的特征时,在进行特征集预处理时,则需要利用归一化和标准化两个单独的算法才能完成。也即,基于大数据的现有特征处理方法存在处理灵活性低的问题。
发明内容
基于此,有必要针对基于大数据的现有特征处理方法存在处理灵活性低的技术问题,提供一种基于大数据的特征处理方法、装置、计算机设备和可读存储介质。
一种基于大数据的特征处理方法,所述方法包括:
获取待处理的特征集和所述特征集中各特征的特征属性;
接收对所述特征集进行处理的处理指令;
根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;
根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。
一种基于大数据的特征处理装置,所述装置包括:
特征获取模块,用于获取待处理的特征集和所述特征集中各特征的特征属性;
接收模块,用于接收对所述特征集进行处理的处理指令;
配置信息获取模块,用于根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;
特征处理模块,用于根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待处理的特征集和所述特征集中各特征的特征属性;
接收对所述特征集进行处理的处理指令;
根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;
根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步:
获取待处理的特征集和所述特征集中各特征的特征属性;
接收对所述特征集进行处理的处理指令;
根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;
根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。
上述基于大数据的特征处理方法、装置、计算机设备和可读存储介质,当需要进行特征处理时,获取与特征一一对应的特征配置信息,并根据待处理的特征集中各特征的特征属性和特征配置信息确定各特征的处理模式,使得各特征能够按照对应的处理模式进行特征处理。当待处理特征集包括需要采取不同方式进行处理的特征时,也能够根据特征与特征配置信息之间的对应关系灵活选择对应的处理模式,从而实现通过一个算法提供不同处理方式,提高了特征处理的灵活性。并且,基于该特征处理方法无需人工进行算法的选择与切换,进一步提高了特征处理的效率。
附图说明
图1为一个实施例中基于大数据的特征处理方法的应用环境图;
图2为一个实施例中基于大数据的特征处理方法的流程示意图;
图3为一个实施例中特征评估步骤的流程示意图;
图4为一个实施例中特征评估步骤的流程示意图;
图5为一个实施例中连续型特征评估步骤的流程示意图;
图6为一个实施例中离散型特征评估步骤的流程示意图;
图7为一个实施例中特征选择步骤的流程示意图;
图8为一个实施例中特征选择步骤的流程示意图;
图9为一个实施例中特征选择步骤的流程示意图;
图10为一个实施例中特征转换步骤的流程示意图;
图11为一个实施例中等值离散步骤的流程示意图;
图12为一个实施例中等频离散步骤的流程示意图;
图13为一个实施例中特征转换步骤的流程示意图;
图14为一个实施例中处理结果显示信息生成步骤的流程示意图;
图15为一个实施例中基于大数据的特征处理方法的流程示意图;
图16为一个实施例中基于大数据的特征处理装置的结构框图;
图17为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中基于大数据的特征处理方法的应用环境图。参照图1,该基于大数据的特征处理方法应用于如图1所示的特征处理系统。该基于大数据的特征处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现,基于服务器120可实现特征工程所涵盖的多种特征处理。其中,特征工程是将原始的数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能够在未知数据中获得更好的模型准确率。具体地,通过终端110获取处理任务(比如待处理的特征数据、相关参数和处理指令等),并发送至服务器120,再由服务器120根据接收到的任务执行特征处理。具体地,服务器可采用Spark计算框架、Tesla加速计算平台或其他大数据处理平台来实现本申请的特征处理方法。其中,Spark是专为大规模数据处理而设计的快速通用的计算引擎,可用来构建大型的、低延迟的数据分析应用程序。Tesla加速计算平台是加速大数据分析与科学计算的领先平台,提供大数据的加速计算处理。
以服务器120为服务器集群为例,该服务器集群由管理服务器121和至少两台执行服务器122组成。其中,管理服务器121用于负责接收和分配任务,执行服务器122用于接收并处理管理服务器121分配的任务,并将处理结果返回至管理服务器121,再由管理服务器121对各执行服务器122的处理结果进行归纳和汇总,得到最终结果。
如图2所示,在一个实施例中,提供了一种基于大数据的特征处理方法。在本实施例中,主要以该方法应用于上述图1中的服务器120来举例说明。参照图2,该基于大数据的特征处理方法具体包括如下步骤:
S210,获取待处理的特征集和特征集中各特征的特征属性。
其中,待处理的特征集是指在特征工程建设中需要进行处理的特征的集合。具体地,特征集是指在训练预测模型时,与该预测模型相关的样本数据中不同类别的数据的集合,同一类别的数据即为同一个特征。比如,在广告点击率预估模型中,样本数据中的用户年龄、性别、职业、广告文本、广告所属行业等不同类别的数据即指不同的特征,所有特征的集合即组成了特征集。每一个特征进一步又可包括不同的特征值,比如,性别特征进一步又包括男和女两个对应的特征值。特征属性是指可用于表征该特征或者该特征所具备的性质,比如特征标识、特征类别、特征值属性等,特征类别包括分类数据、数值型和顺序型,特征值属性包括离散型和连续型。在实际应用中,特征属性可根据特征处理需求进行配置。其中,待处理的特征集来源于大数据源,在本实施例中可实现对大数据中相关特征的处理。
具体地,可以基于用户的输入信息得到待处理的特征集和特征集中各特征的特征属性,也可以将经特征处理后得到的特征集作为下一特征处理的待处理的特征集。例如,基于用户的输入信息得到待处理的特征集,并对该特征集进行特征转换处理,并将特征转换后的特征集作为特征选择处理的输入数据,此时,特征转换后的特征集即为特征选择处理的待处理的特征集。
S230,接收对特征集进行处理的处理指令。
处理指令是指与特征集的待处理任务对应的指令,且处理指令与大数据处理平台中的算法一一对应。例如,处理指令包括特征转换指令、特征选择指令、特征评估指令和/或特征清洗等特征工程中涉及的处理指令,特征转换指令对应于特征转换算法、特征选择指令对应于特征选择算法。
具体地,可基于用户输入终端的处理需求信息生成对应的处理指令,并发送至服务器,服务器接收该处理指令。服务器通过解析该处理指令即可执行对应的处理程序。
S250,根据处理指令获取与特征集中的各特征匹配的特征配置信息。
其中,特征配置信息是指预先基于不同特征人工或自动配置的,并且与特征处理相关的参数和/或计算方式。具体地,特征配置信息与特征属性关联存储,且不同特征可以具有相同或者不同的特征配置信息。
具体地,根据处理指令确定特征处理算法,进而获取与该特征处理算法对应的特征配置信息。根据不同处理指令所获取的特征配置信息也不同,例如,特征转换指令对应获取的为特征转换算法的特征配置信息,特征选择指令对应获取的为特征选择算法的特征配置信息。
在一具体实施例中,可通过一个特征配置文件罗列每个特征的特征配置信息中,并且,具有相同特征配置信息的特征可在该特征配置文件中统一进行说明。其中,特征配置信息通过json(JavaScript Object Notation,JS对象标记)格式表示,形成json格式的特征配置文件,通过解析该json格式文件即可获得各特征的特征配置信息。
进一步地,根据处理指令获取与特征集中的各特征匹配的特征配置信息的步骤包括:根据处理指令确定特征处理算法,并获取与该特征处理算法对应的特征配置文件,解析该特征配置文件得到特征配置信息。
S270,根据各特征的特征属性和特征配置信息分别对各特征进行处理。
特征配置信息包括与特征处理相关的参数和/或计算方式,根据特征配置信息与特征之间的对应关系,即可获得当前待处理特征的特征配置信息,并按照该特征配置信息对特征执行对应的处理。
上述基于大数据的特征处理方法,当需要进行特征处理时,获取与特征一一对应的特征配置信息,并根据待处理的特征集中各特征的特征属性和特征配置信息确定各特征的处理模式,使得各特征能够按照对应的处理模式进行特征处理。当待处理特征集包括需要采取不同方式进行处理的特征时,也能够根据特征与特征配置信息之间的对应关系灵活选择对应的处理模式,从而实现通过一个算法提供不同处理方式,提高了特征处理的灵活性。并且,基于该特征处理方法无需人工进行算法的选择与切换,进一步提高了特征处理的效率。
在一实施例中,根据各特征的特征属性和特征配置信息分别对各特征进行处理,包括:根据各特征的特征属性和特征配置信息,得到与各特征对应的处理模式;分别按照与各特征对应的处理模式对各特征进行处理。
其中,处理模式是指在特征处理中所确定处理方法。换而言之,基于所确定处理模式即可执行后续的特征处理。具体地,处理模式可以包括处理参数和计算方式等。
具体地,根据获取的特征集中各特征的特征属性以及特征属性与特征配置信息之间的对应关系,得到当前待处理的特征的特征配置信息,进而根据对应的特征配置信息得到与各特征对应的处理模式,并分别对各特征进行处理。进一步地,对各特征的处理可采用分布式处理的方式,从而提高对海量数据进行特征处理的运算速度,有效提升基于大数据的特征处理效率。
在特征工程应用中,比如分类器训练过程中,对于已知样本数目,存在一个特征维数的最大值,在小于该最大值的维数范围内,随着特征维数的增加,分类器性能随着特征维数的增加而得到提升。然而,当特征维数超过该最大值时,随着特征维数继续增加,分类器的性能急剧下降,这是因为在高维空间中,样本分布越来越稀疏,于是导致在相似度度量、距离计算上都会出现很大的偏差,从而使得所采用的算法变得很低效,这种现象也就是维数灾难。因此,为避免造成维数灾难,在增加特征时,需要对新增特征的有效程度进行评估,以从新增特征中选取得到最优的特征组合,并避免重复特征的加入,降低特征维数。
在一实施例中,如3所示,为一种基于大数据的特征处理方法中特征评估的流程示意图,包括:
S310,获取待处理的特征集和特征集中各特征的特征属性。
具体地,可以基于用户的输入信息得到待处理的特征集和特征集中各特征的特征属性,也可以将经特征处理后得到的特征集作为下一特征处理的待处理的特征集。其中,待处理的特征集包括新增特征,新增特征是指新加入的且服务器120中未存储的特征。
S320,接收对特征集进行处理的处理指令。
具体地,可基于用户输入终端的处理需求信息生成对应的处理指令,并发送至服务器,服务器接收该处理指令。服务器通过解析该处理指令即可执行对应的处理程序。本实施例中,特征指令为特征评估,其对应的处理程序即为特征评估对应的程序。
S330,根据各所述特征的特征属性和所述特征配置信息,得到与各所述特征对应的处理模式。
具体地,根据获取的特征集中各特征的特征属性以及特征属性与特征配置信息之间的对应关系,得到当前待处理的特征的特征配置信息,进而根据对应的特征配置信息得到与各特征对应的处理模式。
S340,按照所述处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果。其中,历史特征是指已存储并指定了特征所处位置的特征。
具体地,当存在历史特征时,按照所述处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果;当不存在历史特征时,则按照所述处理模式分别计算各新增特征之间的关联度,得到关联度结果
S350,根据所述关联度结果获得待选择的新增特征。
在本实施中,当存在新加入的新增特征时,基于所确定的特征评估处理模式计算该新增特征与其他特征之间的关联度,进而根据关联度结果获得待选择的新增特征,以便将该待选择的新增特征加入至机器学习模型中进行学习。具体地,待选择的新增特征可以基于预先设置的选择规则进行确定,选择规则可以是按照关联度排序情况获得预设数量的新增特征作为待选择的新增特征,也可以是按照预设的关联度数值范围选择该范围内的新增特征作为待选择的新增特征,还可以是根据用户需求设置的选择规则,在此不做限定。
在本实施的特征评估中,不仅考虑的新增特征之间的关联度,还考虑了新增特征与历史特征之间的关联度,以保证各特征组合的最优性。通过上述特征评估方法不仅能够降低特征维数以简化特征训练的复杂度,而且获得精确的训练模型,提高预测结果的准确性。
在另一实施例中,如图4所示,为一种基于大数据的特征处理方法中特征评估的流程示意图,包括:
S410,获取待处理的特征集和特征集中各特征的特征属性。
其中,待处理的特征集包括新增特征,新增特征是指新加入的且服务器120中未存储的特征。
S420,接收对特征集进行处理的处理指令。
具体地,服务器通过解析该处理指令即可执行对应的处理程序。本实施例中,特征指令为特征评估,其对应的处理程序即为特征评估对应的程序。
S430,根据处理指令获取与特征集中的各特征匹配的特征配置信息。
具体地,根据处理指令确定当前需执行特征评估算法,进而获取与该特征处理算法对应的特征配置信息。
S440,识别各特征的特征属性,特征属性包括特征值属性。
S450,基于各新增特征的特征值属性分别得到与特征值属性对应的特征配置信息,根据特征配置信息确定各新增特征的处理模式。
在本实施例中,通过识别各特征的特征值属性,进而根据各特征的特征值属性选择各新增特征的处理模式,实现针对不同特征需求的灵活处理。
S460,按照处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果。
S470,根据关联度结果获得待选择的新增特征。
其中,历史特征是指服务器120中已存储的特征,进一步地,历史特征为经特征评估处理后保留并存储下来的特征。
在本实施中,当存在新加入的新增特征时,基于所确定的特征评估处理模式计算该新增特征与其他特征之间的关联度,进而根据关联度结果获得待选择的新增特征,以便将该待选择的新增特征加入至机器学习模型中进行学习。
在一个实施例中,特征值属性的类型包括连续型和离散型,按照处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果,进一步还包括:当新增特征的特征值属性为连续型时,分别计算各新增特征之间,和/或各新增特征与历史特征之间的相关性系数,根据相关性系数得到关联度结果;当新增特征的特征值属性为离散型时,计算各新增特征之间,和/或各新增特征与历史特征之间的互信息,根据互信息得到关联度结果。
在本实施例中,基于新增特征的特征值属性选取对应的处理模式,进而根据不同处理模式获得各特征之间的关联度。
具体地,如图5所示,当新增特征的特征值属性为连续型时,获取各新增特征以及历史特征的平均值和标准方差,根据获得的平均值和标准方差进行相关性计算。其中,相关性计算公式为:
其中,ρx,y表示特征X和特征Y之间的相关性系数,uX表示特征X的平均值,uY表示特征Y的平均值,σX表示特征X的标准方差,σY表示特征Y的标准方差。
进一步地,获取各新增特征以及历史特征的平均值和标准方差的步骤包括:统计各新增特征的平均值和标准方差,并获取已存储的历史特征的平均值和标准方差。此外,还可将统计获得的新增特征的平均值和标准方差进行存储,以便后续运算需要时可直接获取。
在一实施例中,如图6所示,当新增特征的特征值属性为连续型时,计算各新增特征之间,和/或各新增特征与历史特征之间的互信息。
其中,互信息是指一个特征中包含的关于另一个特征的信息量。特征之间的互信息可根据如下公式计算获得:
I(X,Y)=H(X)+H(Y)-H(X,Y)
其中,I(X,Y)表示特征X和特征Y之间的互信息,H(X)表示特征X的信息熵,H(Y)表示特征Y的信息熵,H(X,Y)表示特征X和特征Y的联合熵。
在本实施例中,特征评估融合了多种不同的处理模式,可实现对连续型特征和离散型特征进行特征评估。通过基于特征的特征值属性来确定特征评估的处理模式,使得不同特征可以按照与其适应的处理模式进行处理,提高了该特征处理方法的使用范围。
在一实施例中,处理指令包括特征选择。特征选择是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,也是提高学习算法性能的一个重要手段。特征选择与特征评估的区别在于,特征选择考虑的特征对于预测结果的影响程度,而特征评估考虑的特征之间的关联程度。
如图7所示,为一种基于大数据的特征处理方法中特征选择的流程示意图,包括:
S710,获取待处理的特征集和特征集中各特征的特征属性。
具体地,可以基于用户的输入信息得到待处理的特征集和特征集中各特征的特征属性,也可以将经特征处理后得到的特征集作为下一特征处理的待处理的特征集。
S720,接收对特征集进行处理的处理指令。
本实施例中,特征指令为特征选择,其对应的处理程序即为特征选择对应的程序。
S730,根据处理指令获取与特征集中的各特征匹配的特征配置信息。
具体地,根据处理指令确定当前需执行特征选择算法,进而获取与该特征处理算法对应的特征配置信息。
S740,根据各所述特征的特征属性和所述特征配置信息,得到与各所述特征对应的处理模式。
具体地,根据获取的特征集中各特征的特征属性以及特征属性与特征配置信息之间的对应关系,得到当前待处理的特征的特征配置信息,进而根据对应的特征配置信息得到与各特征对应的处理模式。在本实施例中,处理模式为与特征选择相关的处理模式。
S750,分别按照与各特征对应的处理模式计算各特征的重要度,得到重要度结果。
S760,根据重要度结果获得待选择的特征。
其中,重要度是指特征本身对于预测结果的影响程度,具体可以通过信息增益、基尼系数、信息增益率和/或对称不确定性等重要度的评价指标获得。其中,信息增益计算公式如下:
其中,E(v)表示特征v的信息增益;c表示目标总数;p(iv)表示特征v的分布概率;Δ1表示信息增益;k表示特征v的类别总数;j表示某一特征类别;N表示样本总数;N(Vj)表示特征v的类别j在样本中的个数;I(parent)=E(parent),表示样本整体的信息增益。
基尼系数计算公式如下:
其中,Gini(v)表示特征v的基尼指数;Δ2表示基尼系数;M(parent)=Gini(parent),表示样本整体的基尼指数;M(Vj)=Gini(Vj),表示特征v的类别j的基尼指数。
信息增益率计算公式如下:
其中,GainRatio表示信息增益率;Δinfo表示信息增益;P(vi)表示特征的概率;k表示特征类别总数。
对称不确定性计算公式如下:
其中,SU(X,Y)表示特征X和特征Y的对称不确定性;H(X)表示特征X的信息熵;H(Y)表示Y的信息熵;IG(X|Y)表示信息增益。
首先,特征选择算法中预先配置有特征配置文件,该特征配置文件包括评价指标的配置信息。当接收到特征选择处理指令时,解析特征配置文件得到与待处理的特征对应的评价指标,根据与待处理的特征对应评价指标,即可确定该待处理的特征的处理模式。例如,根据特征配置信息可以确定待处理的特征A的评价指标包括信息增益、基尼系数,进而可按照信息增益和基尼系数的处理模式对特征A进行处理。
进一步地,待选择的特征可以基于预先设置的选择规则进行确定,选择规则可以是按照重要度排序情况获得预设数量的特征作为待选择的特征,也可以是按照预设的重要度数值范围选择该范围内的特征作为待选择的特征,还可以是根据用户需求设置的选择规则,在此不做限定。
具体地,如图8所示,当需要计算评价指标信息增益、基尼系数、信息增益率和/或对称不确定性时,首先统计各特征在不同特征值下的正、负样本分布,将该正、负样本分布以分布式的方式放在内存中,具体可采用groupByKey的方式进行统计,进而根据该四个评价指标的计算方式并行进行计算,得到四个评价指标系数,基于获得的评价指标系数即可确定对应特征的重要度。
在另一实施例中,特征选择算法中还包括基于GBDT(Gradient Boosting DecisonTree,梯度提升决策树)的重要度的处理模式,其对应的评价指标包括特征在决策树中出现的总次数(weight)、特征对于模型的提升系数(gain)以及特征在决策树中平均覆盖的样本数(cover)。
如图9所示,基于GBDT的重要度的处理模式中,首先对待处理特征集进行训练,得到训练模型,该训练模型包括至少一棵梯度提升决策树。具体地,可采用XGBoost工具进行训练,并在训练前根据XGBoost的训练接口要求,将各特征转换成标准的libsvm格式。然后对训练模型进行解析,统计各特征在所有决策树中出现的总次数,作为weight指标;提取每棵树中的gain信息,将同一特征的gain信息进行累加并取其平均值作为该特征的gain指标;提取每棵树中的cover信息,将同一特征的cover信息进行累加并取其平均值作为特征的cover指标。
在上述特征选择方法中,基于特征配置文件确定待处理的特征的处理模式,进而根据所确定的处理模式计算特征的重要度评价指标,根据评价指标的计算结果即可得到特征的重要度。并且,采用分布式计算的方式分别对不同的评价指标进行计算,提升了特征选择的运算效率。
在另一实施例中,处理指令包括特征转换。如图10所示,为一种基于大数据的特征处理方法中特征转换的流程示意图,包括如下步骤:
S1010,获取待处理的特征集和特征集中各特征的特征属性。
具体地,可以基于用户的输入信息得到待处理的特征集和特征集中各特征的特征属性,也可以将经特征处理后得到的特征集作为下一特征处理的待处理的特征集。
S1020,接收对特征集进行处理的处理指令。
具体地,可基于用户输入终端的处理需求信息生成对应的处理指令,并发送至服务器,服务器接收该处理指令。服务器通过解析该处理指令即可执行对应的处理程序。
S1030,根据处理指令获取与特征集中的各特征匹配的特征配置信息。
具体地,根据处理指令确定特征处理算法,进而获取与该特征处理算法对应的特征配置信息。根据不同处理指令所获取的特征配置信息也不同,例如,特征转换指令对应获取的为特征转换算法的特征配置信息,特征选择指令对应获取的为特征选择算法的特征配置信息。
S1040,识别各特征的特征属性,特征属性包括特征标识。
特征标识是指可表征特征的有效信息,不同的特征具有不同的特征标识。具体地,特征标识可以是特征标签或者特征ID编号。在本实施例中,通过识别各特征的特征属性即可获得各特征的特征标识。
S1050,将各特征的特征标识和特征配置信息中的特征标识进行比对。
S1060,根据比对结果确定各特征的特征转换方法以及转换参数。
在本实施例中,在确定了特征转换方法以及转换参数也即得到了各特征对应的处理模式,从而按照对应处理模式分别对各特征进行处理。
S1070,分别按照与各特征对应的处理模式对各特征进行处理。
在特征转换算法中,预先配置有特征配置文件,该特征配置文件罗列了待处理特征集中所有特征的特征配置信息,各特征配置信息包括特征转换方法以及转换参数,并与特征标识关联,通过将待处理特征的特征标识与特征配置信息中的特征标识比对,即可得到与其对应的特征转换方法以及转换参数。
在具体实施例中,特征转换进一步又包括归一标准化、离散化和基于GBDT的特征转换等,对应地,特征转换算法也包括归一标准化算法、离散化算法和基于GBDT的特征转换算法等。
比如,在归一标准化处理中,有的特征需要进行归一化,而有的特征需要进行标准化,当接收到归一标准化的处理指令时,解析归一标准化算法的特征配置文件得到特征配置信息,将各特征的特征标识和特征配置信息中的特征标识进行比对,确定各特征的特征转换方法以及转换参数。其中,特征转换方法包括归一化和标准化,根据待处理特征对应的配置信息即可确定是进行归一化还是标准化。在归一化处理中,与其对应的转换参数包括待处理特征的最大值、最小值和归一化范围;在标准化处理中,与其对应的转换参数包括待处理特征的均值和方差。此后,根据待处理特征对应的特征转换方法以及转换参数即可进行对应的特征转换处理。
在一实施例中,归一化的计算公式为:
其中,A表示归一化后的特征值;x表示待处理特征的特征值;EMin表示待处理特征的最小值;EMax表示待处理特征的最大值;max表示归一化范围的最大值;min表示归一化范围的最小值。
在一实施例中,基于大数据的特征处理方法还包括:分别对各特征进行统计得到特征转换时各特征的转换参数;将各特征的转换参数与特征标识关联更新特征配置信息。
具体地,当特征转换算法中的特征配置文件未包括待处理特征的转换参数时,分别对各特征进行统计,以得到与所确定的特征转换方法对应的转换参数,并将该转换参数作为特征配置信息增加至与各特征对应的特征配置信息中,以便下次对该特征进行处理时,直接根据特征配置信息中的转换参数进行相应的处理,而无需再次进行统计。例如,对待处理特征进行统计,获得特征的最大值和最小值或者均值、方差,并保存到对应的特征配置信息中,当下次对该待处理特征进行转换时,直接获取特征配置信息中的最大值和最小值或者均值、方差使用即可。
以根据身高、体重和心率预测健康指数为例,为了防止直接对原始身高和体重数据进行优化算法时,最终解被数值大的特征所主导,需要对身高和体重两个特征进行归一化处理。同时,心率作为一个重要的特征,需要保留心率特征在各个维度上的分布,因此需要对心率这个特征进行标准化处理,不改变该特征原始数据的分布。因此,在对身高、体重和心率组成的特征集进行特征转换时,根据特征配置信息确定对身高和体重采用归一化转换方法,对心率采用标准化转换方法,根据样本数据分别统计身高和体重的最大值、最小值,统计心率的均值和方差,并将统计数据记录于对应的特征配置信息中,以便下次直接使用。根据各特征的转换方法和转换参数即可得到各特征的处理模式,按照确定的处理模式,分别对各特征进行相应的转换处理。
通过对特征的转换参数进行保存,不仅可简化下一次相同处理的处理过程,同时还能统一对同一特征的处理标准,保证训练结果的有效性。
在一实施例中,处理指令包括离散化,当接收到离散化的处理指令时,解析离散化算法的特征配置文件得到特征配置信息,将各特征的特征标识和特征配置信息中的特征标识进行比对,确定各特征的特征转换方法以及转换参数。其中,特征转换方法包括等频离散、等频离散和分位数离散化等离散方法,根据待处理特征对应的配置信息即可确定是进行等频离散还是等频离散。在离散化处理中,转换参数包括离散区间个数。
此后,根据待处理特征对应的特征转换方法以及转换参数即可进行对应的特征转换处理。比如,如图11所示,当进行等值离散处理时,统计各特征的最大值和最小值分别得到各特征的特征值范围,并将特征值范围平均划分成多个离散区间,其中,划分后的离散区间的个数即为转换参数中的离散区间个数,根据划分结果确定各特征的离散边界;如图12所示,当进行等频离散处理时,则根据离散区间个数和样本总个数确定每个离散区间个数中容纳的样本量,并将特征按照从小到大的顺序排列,根据样本量确定离散边界。当获得了所有特征的离散边界后,分布式的对各特征进行离散化处理。具体可通过二分查找法查找每个原始特征值对应的离散区间,以提高离散效率。
比如,对杂志订阅进行预测时,其样本特征包括客户年龄和订阅时间,将订阅时间配置为等频离散,而由于需要保持客户年龄这个特征的原有分布时,将客户年龄特征配置为等值离散。在确定处理模式后,首先,统计客户年龄的最大值和最小值,并根据配置的年龄离散区间个数将样本年龄范围平均划分成多个离散区间,假设客户年龄最大为60,最小为20,年龄离散区间个数为10,则可确定离散边界包括年龄30、40、50;根据订阅时间离散区间个数和样本总个数确定每个离散区间个数中容纳的样本量,假设样本总个数为40,订阅时间离散区间个数为5,将订阅时间样本按照从小到大的顺序排列,则离散边界为第8个样本、第16个样本、第24个样本和第32个样本,每个离散区间包括8个样本量。进而根据所有特征的离散边界后,分布式的对各特征进行离散化处理。
在一实施例中,如图13所示,处理指令包括基于GBDT的特征转换,当接收到基于GBDT的特征转换的处理指令时,首先利用XGBoost工具对特征集进行训练,得到包括至少一棵梯度提升决策树的训练模型,并以预测的方式判断每个样本属于每棵树的某个叶子节点,并用1表示样本落入该叶子节点,0表示未落入该叶子节点,根据样本在所有叶子节点的落入情况组合成该样本对应的特征,将原始特征转换为onehot格式。
在另一实施例中,如图14,基于大数据的特征处理方法还包括:
S1410,获取对各特征进行处理的处理结果,处理结果包括各特征的评价指标值。
评价指标值是指对特征重要度或者关联度进行计算时的对应评价指标的数值,例如,信息增益值、基尼系数等。
S1430,获取与各特征的评价指标值对应的显示颜色。
在本实施中,预先对不同的数值配置有对应的显示颜色。具体地,可根据数值大小以及颜色模型建立对应关系,数值越大,则对应的显示颜色的饱和度、亮度越高,数值越小,则对应的显示颜色的饱和度、亮度越低。
S1440,根据显示颜色和处理结果生成显示信息。
将显示颜色和处理结果生成显示信息,并发送至显示端进行显示。具体地,根据特征矩阵建立对应的处理结果矩阵,并在处理结果矩阵中将各处理结果分别显示于处理结果矩阵的对应位置,并处理结果对应的位置填充与其对应的显示颜色。通过将显示颜色和处理结果生成显示信息并进行显示,便于用户直观地了解各特征的评价指标的数值大小,当通过人工进行特征选择和特征评估时,能够快速得到特征选择结果。
上述基于大数据的特征处理方法,当待处理特征集包括需要采取不同方式进行处理的特征时,能够根据特征与特征配置信息之间的对应关系灵活选择对应的处理模式,从而实现通过一个算法提供不同处理方式,提高了特征处理的灵活性。并且,相比于Spark平台的现有特征处理方法,能够进一步实现等频、等值离散以及对离散型特征的特征评估,同时还能够基于同一算法同时实现归一化和标准化处理,无需人工进行算法的选择与切换,提高了特征处理的效率。
在另一实施例中,如图15所示,为一种基于大数据的特征处理方法的流程示意图,该方法包括:
S1501,获取待处理的特征集和特征集中各特征的特征属性。
具体地,可以基于用户的输入信息得到待处理的特征集和特征集中各特征的特征属性,也可以将经特征处理后得到的特征集作为下一特征处理的待处理的特征集。
S1502,接收对特征集进行处理的处理指令。
具体地,可基于用户输入终端的处理需求信息生成对应的处理指令,并发送至服务器,服务器接收该处理指令。服务器通过解析该处理指令即可执行对应的处理程序。
当处理指令为特征转换时,该方法进一步还包括步骤S803至步骤S807:
S1503,根据处理指令获取特征转换算法中与特征集中的各特征匹配的特征配置信息。
具体地,根据处理指令确定当前需要执行特征转换算法,进而获取与特征转换算法对应的特征配置信息。
S1504,识别各特征的特征属性,特征属性包括特征标识。
特征标识是指可表征特征的有效信息,不同的特征具有不同的特征标识。具体地,特征标识可以是特征标签或者特征ID编号。在本实施例中,通过识别各特征的特征属性即可获得各特征的特征标识。
S1505,将各特征的特征标识和特征配置信息中的特征标识进行比对。
S1506,根据比对结果确定各特征的特征转换方法以及转换参数。
在本实施例中,在确定了特征转换方法以及转换参数也即得到了各特征对应的处理模式,从而按照对应处理模式分别对各特征进行处理。
S1507,分别按照与各特征对应的处理模式对各特征进行特征转换。
在特征转换算法中,预先配置有特征配置文件,该特征配置文件罗列了待处理特征集中所有特征的特征配置信息,各特征配置信息包括特征转换方法以及转换参数,并与特征标识关联,通过将待处理特征的特征标识与特征配置信息中的特征标识比对,即可得到与其对应的特征转换方法以及转换参数,进而按照特征转换方法以及转换参数分别对各特征进行特征转换。
当处理指令为特征选择时,该方法进一步还包括步骤S1508至步骤S1511:
S1508,根据处理指令获取特征选择算法中与特征集中的各特征匹配的特征配置信息。
S1509,根据各特征的特征属性和特征配置信息,得到与各特征对应的处理模式。
具体地,解析特征配置文件得到与待处理的特征对应的评价指标,根据与待处理的特征对应评价指标,即可确定该待处理的特征的处理模式。
S1510,分别按照与各特征对应的处理模式计算各特征的重要度,得到重要度结果。
S1511,根据重要度结果获得待选择的特征。
当处理指令为特征评估时,该方法进一步还包括步骤S812至步骤S817:
S1512,根据处理指令获取特征评估算法中与特征集中的各特征匹配的特征配置信息。
具体地,根据处理指令确定当前所需进行的处理为特征评估,进而获取与特征评估算法对应的特征配置信息。
S1513,识别各特征的特征属性,特征属性包括特征值属性。
S1514,基于各新增特征的特征值属性分别得到与特征值属性对应的特征配置信息,根据特征配置信息确定各新增特征的处理模式。
在本实施例中,通过识别各特征的特征值属性,进而根据各特征的特征值属性选择各新增特征的处理模式,实现针对不同特征需求的灵活处理。其中,特征值属性的类型包括连续型和离散型。
S1515,当新增特征的特征值属性为连续型时,分别计算各新增特征之间,和/或各新增特征与历史特征之间的相关性系数,根据相关性系数得到关联度结果。
S1516,当新增特征的特征值属性为离散型时,计算各新增特征之间,和/或各新增特征与历史特征之间的互信息,根据互信息得到关联度结果。
S1517,根据关联度结果获得待选择的新增特征。
上述基于大数据的特征处理方法,当待处理特征集包括需要采取不同方式进行处理的特征时,能够根据特征与特征配置信息之间的对应关系灵活选择对应的处理模式,从而实现通过一个算法提供不同处理方式,提高了特征处理的灵活性和处理效率。
下面结合大数据处理平台对本申请的特征处理方法进行说明。具体地,以利用大数据处理平台进行金融业务的用户欺诈行为预测为例,对本申请的特征处理方法进行说明。
在金融业务的用户欺诈行为预测中,通常会选择LR(Logistic Regression,逻辑回归)或SVM(Support Vector Machine,支持向量机)等模型进行预测。由于这些模型属于数值敏感型,因此,为了减小数值对这类模型的影响,需要先对特征进行一次转换。也就是本申请中的特征转换过程。通过特征转换,可以去除特征的量纲,避免“极端值”对模型的影响,甚至还能自动发现有区分性的特征以及特征组合,从而能加快训练速度,提高模型的鲁棒性。
具体地,根据特征转换指令获取特征转换的特征配置信息,该特征配置信息为预先配置的,包括进行金融业务的用户欺诈行为预测时,所用到的特征对应的特征转换配置信息,将需要进行特征转换的特征的特征标识,与特征配置信息中的特征标识进行比对,确定待转换的特征的转换方法以及转换参数,进而分别根据对应的特征转换方法和转换参数对待转换的特征进行转换,以去除特征的量纲,便于模型训练。
当特征完成了转换后,可以直接带入模型中进行计算。但是为了避免维数灾难和提高模型的泛化能力,还需要判断哪些特征是与用户欺诈行为相关的,哪些是无关的,对于无关的特征进行剔除。这里就需要用到特征选择。在特征选择中,通过计算每个特征的特征重要度指标,就可以针对性的保留一些重要的特征,剔除一些没有太大作用的特征。
具体地,根据特征选择指令获取特征选择的特征配置信息,该特征配置信息为预先配置的,包括进行金融业务的用户欺诈行为预测时,所用到的特征对应的特征选择配置信息,根据该配置信息确定待处理特征的评价指标,进而分别按照对应评价指标的计算方法得到评价指标值,基于所获得的评价指标值得到该特征的重要度,以根据重要度剔除重要度不满足预设要求的特征。
另外,随着时间的累积,未来会收集到用户其他新的特征(也即新增特征),因此还需要判断这些新特征是否与之前的旧特征(也即历史特征)关联度较大,以及新特征之间的关联度是否较大,如果关联度较大,则存在特征重复的现象,因此没有必要将特征重复引入到模型中。这里就需要用到特征评估。通过特征评估,计算新特征两两之间以及每个新特征与每个旧特征之间的关联度系数,根据这些系数就可以对新特征进行筛选,从而避免维数灾难和提高计算效率。
具体地,识别新特征是连续型还是离散型。当新特征为连续型时,根据预先配置的连续型特征评价方法进行评价,比如计算新特征两两之间和/或新特征与旧特征之间的相关性系数,根据相关性系数得到关联度结果;当新特征为离散型时,根据预先配置的离散型特征评价方法进行评价,比如计算新特征两两之间和/或新特征与旧特征之间的互信息,根据互信息得到关联度结果。若新特征与旧特征之间的关联度较大,则不将该新特征加入到模型训练中,否则可将该新特征加入到模型训练中;此外,若两新特征之间的关联度较大,且该两新特征与旧特征关联度均较小,则可将其中一个新特征加入到模型训练中,而摒弃另一个新特征,从而避免引入重复特征造成维数灾难。
通过对特征进行转换、选择和评估后,将最终保留的特征输入用户欺诈行为预测的模型中,对模型进行训练,并最终获得一个可预测的模型。
图15为一个实施例中基于大数据的特征处理方法的流程示意图。应该理解的是,虽然图15的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图15中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图16所示,在一个实施例中,提供了一种基于大数据的特征处理装置,该装置包括:
特征获取模块161,用于获取待处理的特征集和特征集中各特征的特征属性。
具体地,特征获取模块161可以基于用户的输入信息得到待处理的特征集和特征集中各特征的特征属性,也可以将经特征处理后得到的特征集作为下一特征处理的待处理的特征集。例如,基于用户的输入信息得到待处理的特征集,并对该特征集进行特征转换处理,并将特征转换后的特征集作为特征选择处理的输入数据,此时,特征转换后的特征集即为特征选择处理的待处理的特征集。
接收模块163,用于接收对特征集进行处理的处理指令。
具体地,可基于用户输入终端的处理需求信息生成对应的处理指令,并发送至服务器,服务器接收该处理指令。服务器通过解析该处理指令即可执行对应的处理程序。
配置信息获取模块165,用于根据处理指令获取与特征集中的各特征匹配的特征配置信息。
具体地,根据处理指令确定特征处理算法,进而获取与该特征处理算法对应的特征配置信息。根据不同处理指令所获取的特征配置信息也不同,例如,特征转换指令对应获取的为特征转换算法的特征配置信息,特征选择指令对应获取的为特征选择算法的特征配置信息。
在一具体实施例中,可通过一个特征配置文件罗列每个特征的特征配置信息中,并且,具有相同特征配置信息的特征可在该特征配置文件中统一进行说明。其中,特征配置信息通过json(JavaScript Object Notation,JS对象标记)格式表示,形成json格式的特征配置文件,通过解析该json格式文件即可获得各特征的特征配置信息。
特征处理模块167,用于根据各特征的特征属性和特征配置信息分别对各特征进行处理。
上述基于大数据的特征处理装置,当需要进行特征处理时,获取与特征一一对应的特征配置信息,并根据待处理的特征集中各特征的特征属性和特征配置信息确定各特征的处理模式,使得各特征能够按照对应的处理模式进行特征处理。当待处理特征集包括需要采取不同方式进行处理的特征时,也能够根据特征与特征配置信息之间的对应关系灵活选择对应的处理模式,从而实现通过一个算法提供不同处理方式,提高了特征处理的灵活性。并且,基于该特征处理方法无需人工进行算法的选择与切换,进一步提高了特征处理的效率。
在一实施例中,特征处理模块包括模式确定模块和特征处理子模块。其中,模式确定模块用于根据各特征的特征属性和特征配置信息,得到与各特征对应的处理模式;特征处理子模块用于分别按照与各特征对应的处理模式对各特征进行处理。
在另一实施例中,模式确定模块还用于识别各特征的特征属性,特征属性包括特征值属性,基于各新增特征的特征值属性分别得到与特征值属性对应的特征配置信息,根据特征配置信息确定各新增特征的处理模式。
在本实施例中,通过识别各特征的特征值属性,进而根据各特征的特征值属性选择各新增特征的处理模式,实现针对不同特征需求的灵活处理。
进一步地,特征处理子模块包括特征评估模块和特征确定模块。其中,特征评估模块,用于按照处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果;特征确定模块,用于根据关联度结果获得待选择的新增特征。
在本实施中,当存在新加入的新增特征时,基于所确定的特征评估处理模式计算该新增特征与其他特征之间的关联度,进而根据关联度结果获得待选择的新增特征,以便将该待选择的新增特征加入至机器学习模型中进行学习。具体地,待选择的新增特征可以基于预先设置的选择规则进行确定,选择规则可以是按照关联度排序情况获得预设数量的新增特征作为待选择的新增特征,也可以是按照预设的关联度数值范围选择该范围内的新增特征作为待选择的新增特征,还可以是根据用户需求设置的选择规则,在此不做限定。
在本实施的特征评估中,不仅考虑的新增特征之间的关联度,还考虑了新增特征与历史特征之间的关联度,以保证各特征组合的最优性。通过上述特征评估方法不仅能够降低特征维数以简化特征训练的复杂度,而且获得精确的训练模型,提高预测结果的准确性。
特征评估模块,还用于当新增特征的特征值属性为连续型时,分别计算各新增特征之间,和/或各新增特征与历史特征之间的相关性系数,根据相关性系数得到关联度结果;当新增特征的特征值属性为离散型时,计算各新增特征之间,和/或各新增特征与历史特征之间的互信息,根据互信息得到关联度结果。
在一实施例中,当处理指令为特征选择时,特征处理子模块还用于分别按照与各特征对应的处理模式计算各特征的重要度,得到重要度结果;根据重要度结果获得待选择的特征。
首先,特征选择算法中预先配置有特征配置文件,该特征配置文件包括评价指标的配置信息。当接收到特征选择处理指令时,解析特征配置文件得到与待处理的特征对应的评价指标,根据与待处理的特征对应评价指标,即可确定该待处理的特征的处理模式。例如,根据特征配置信息可以确定待处理的特征A的评价指标包括信息增益、基尼系数,进而可按照信息增益和基尼系数的处理模式对特征A进行处理。
在上述特征选择中,基于特征配置文件确定待处理的特征的处理模式,进而根据所确定的处理模式计算特征的重要度评价指标,根据评价指标的计算结果即可得到特征的重要度。并且,采用分布式计算的方式分别对不同的评价指标进行计算,提升了特征选择的运算效率。
在另一实施例中,处理指令包括特征转换。模式确定模块还用于识别各特征的特征属性,特征属性包括特征标识;将各特征的特征标识和特征配置信息中的特征标识进行比对;根据比对结果确定各特征的特征转换方法以及转换参数。
在本实施例中,在确定了特征转换方法以及转换参数也即得到了各特征对应的处理模式,从而按照对应处理模式分别对各特征进行处理。
在另一实施例中,基于大数据的特征处理装置还包括:结果获取模块、颜色获取模块和显示模块。其中:
结果获取模块,用于获取对各特征进行处理的处理结果,处理结果包括各特征的评价指标值。
评价指标值是指对特征重要度或者关联度进行计算时的对应评价指标的数值,例如,信息增益值、基尼系数等。
颜色获取模块,用于获取与各特征的评价指标值对应的显示颜色。
在本实施中,预先对不同的数值配置有对应的显示颜色。具体地,可根据数值大小以及颜色模型建立对应关系,数值越大,则对应的显示颜色的饱和度、亮度越高,数值越小,则对应的显示颜色的饱和度、亮度越低。
显示模块,用于根据显示颜色和处理结果生成显示信息。
将显示颜色和处理结果生成显示信息,并发送至显示端进行显示。具体地,根据特征矩阵建立对应的处理结果矩阵,并在处理结果矩阵中将各处理结果分别显示于处理结果矩阵的对应位置,并处理结果对应的位置填充与其对应的显示颜色。通过将显示颜色和处理结果生成显示信息并进行显示,便于用户直观地了解各特征的评价指标的数值大小,当通过人工进行特征选择和特征评估时,能够快速得到特征选择结果。
上述基于大数据的特征处理装置,当待处理特征集包括需要采取不同方式进行处理的特征时,能够根据特征与特征配置信息之间的对应关系灵活选择对应的处理模式,从而实现通过一个算法提供不同处理方式,提高了特征处理的灵活性。并且,相比于现有大数据特征处理方法,能够进一步实现等频、等值离散以及对离散型特征的特征评估,同时还能够基于同一算法同时实现归一化和标准化处理,无需人工进行算法的选择与切换,提高了特征处理的效率。
图17示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图17所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现基于大数据的特征处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行基于大数据的特征处理方法。
本领域技术人员可以理解,图17中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的基于大数据的特征处理装置可以实现为一种计算机程序的形式,计算机程序可在如图17所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于大数据的特征处理装置的各个程序模块,比如,图16所示的特征获取模块、接收模块、配置信息获取模块和特征处理模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于大数据的特征处理方法中的步骤。
例如,图17所示的计算机设备可以通过如图16所示的基于大数据的特征处理装置中的特征获取模块获取待处理的特征集和所述特征集中各特征的特征属性。计算机设备可通过接收模块接收对所述特征集进行处理的处理指令。计算机设备可通过配置信息获取模块根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息。计算机设备可通过特征处理模块根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待处理的特征集和特征集中各特征的特征属性;
接收对特征集进行处理的处理指令;
根据处理指令获取与特征集中的各特征匹配的特征配置信息;
根据各特征的特征属性和特征配置信息分别对各特征进行处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据各特征的特征属性和特征配置信息,得到与各特征对应的处理模式;
分别按照与各特征对应的处理模式对各特征进行处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
按照处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果;
根据关联度结果获得待选择的新增特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
识别各特征的特征属性,特征属性包括特征值属性;
基于各新增特征的特征值属性分别得到与特征值属性对应的特征配置信息,根据特征配置信息确定各新增特征的处理模式。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
当新增特征的特征值属性为连续型时,分别计算各新增特征之间,和/或各新增特征与历史特征之间的相关性系数,根据相关性系数得到关联度结果;
当新增特征的特征值属性为离散型时,计算各新增特征之间,和/或各新增特征与历史特征之间的互信息,根据互信息得到关联度结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
分别按照与各特征对应的处理模式计算各特征的重要度,得到重要度结果;
根据重要度结果获得待选择的特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
识别各特征的特征属性,特征属性包括特征标识;
将各特征的特征标识和特征配置信息中的特征标识进行比对;
根据比对结果确定各特征的特征转换方法以及转换参数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
分别对各特征进行统计得到特征转换时各特征的转换参数;
将各特征的转换参数与特征标识关联并更新特征配置信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取对各特征进行处理的处理结果,处理结果包括各特征的评价指标值;
获取与各特征的评价指标值对应的显示颜色;
根据显示颜色和处理结果生成显示信息。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理的特征集和特征集中各特征的特征属性;
接收对特征集进行处理的处理指令;
根据处理指令获取与特征集中的各特征匹配的特征配置信息;
根据各特征的特征属性和特征配置信息分别对各特征进行处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据各特征的特征属性和特征配置信息,得到与各特征对应的处理模式;
分别按照与各特征对应的处理模式对各特征进行处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
按照处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果;
根据关联度结果获得待选择的新增特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
识别各特征的特征属性,特征属性包括特征值属性;
基于各新增特征的特征值属性分别得到与特征值属性对应的特征配置信息,根据特征配置信息确定各新增特征的处理模式。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
当新增特征的特征值属性为连续型时,分别计算各新增特征之间,和/或各新增特征与历史特征之间的相关性系数,根据相关性系数得到关联度结果;
当新增特征的特征值属性为离散型时,计算各新增特征之间,和/或各新增特征与历史特征之间的互信息,根据互信息得到关联度结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
分别按照与各特征对应的处理模式计算各特征的重要度,得到重要度结果;
根据重要度结果获得待选择的特征。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
识别各特征的特征属性,特征属性包括特征标识;
将各特征的特征标识和特征配置信息中的特征标识进行比对;
根据比对结果确定各特征的特征转换方法以及转换参数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
分别对各特征进行统计得到特征转换时各特征的转换参数;
将各特征的转换参数与特征标识关联并更新特征配置信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取对各特征进行处理的处理结果,处理结果包括各特征的评价指标值;
获取与各特征的评价指标值对应的显示颜色;
根据显示颜色和处理结果生成显示信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种基于大数据的特征处理方法,其特征在于,所述方法包括:
获取待处理的特征集和所述特征集中各特征的特征属性;
接收对所述特征集进行处理的处理指令;
根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;
根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。
2.根据权利要求1所述的方法,其特征在于,所述根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理,包括:
根据各所述特征的特征属性和所述特征配置信息,得到与各所述特征对应的处理模式;
分别按照与各所述特征对应的处理模式对各所述特征进行处理。
3.根据权利要求2所述的方法,其特征在于,所述处理指令包括特征评估,所述待处理的特征集包括新增特征,所述分别按照与各所述特征对应的处理模式对各所述特征进行处理,包括:
按照所述处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果;
根据所述关联度结果获得待选择的新增特征。
4.根据权利要求3所述的方法,其特征在于,所述根据各所述特征的特征属性和所述特征配置信息得到与各所述特征对应的处理模式,包括:
识别各所述特征的特征属性,所述特征属性包括特征值属性;
基于所述各新增特征的特征值属性分别得到与所述特征值属性对应的特征配置信息,根据所述特征配置信息确定所述各新增特征的处理模式。
5.根据权利要求4所述的方法,其特征在于,所述特征值属性的类型包括连续型和离散型,所述按照所述处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果,包括:
当所述新增特征的特征值属性为连续型时,分别计算各新增特征之间,和/或各新增特征与历史特征之间的相关性系数,根据所述相关性系数得到关联度结果;
当所述新增特征的特征值属性为离散型时,计算各新增特征之间,和/或各新增特征与历史特征之间的互信息,根据所述互信息得到关联度结果。
6.根据权利要求2所述的方法,其特征在于,所述处理指令包括特征选择,所述分别按照与各所述特征对应的处理模式对各所述特征进行处理,包括:
分别按照与各所述特征对应的处理模式计算各所述特征的重要度,得到重要度结果;
根据所述重要度结果获得待选择的特征。
7.根据权利要求2所述的方法,其特征在于,所述处理指令包括特征转换,所述根据各所述特征的特征属性和所述特征配置信息得到与各所述特征对应的处理模式,包括:
识别各所述特征的特征属性,所述特征属性包括特征标识;
将各所述特征的特征标识和所述特征配置信息中的特征标识进行比对;
根据比对结果确定各所述特征的特征转换方法以及转换参数。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
分别对各所述特征进行统计得到特征转换时各特征的转换参数;
将各所述特征的转换参数与所述特征标识关联并更新所述特征配置信息。
9.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
获取对各所述特征进行处理的处理结果,所述处理结果包括各所述特征的评价指标值;
获取与各所述特征的评价指标值对应的显示颜色;
根据所述显示颜色和所述处理结果生成显示信息。
10.一种基于大数据的特征处理装置,其特征在于,所述装置包括:
特征获取模块,用于获取待处理的特征集和所述特征集中各特征的特征属性;
接收模块,用于接收对所述特征集进行处理的处理指令;
配置信息获取模块,用于根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;
特征处理模块,用于根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。
11.根据权利要求10所述的装置,其特征在于,所述特征处理模块包括:
模式确定模块,用于根据各所述特征的特征属性和所述特征配置信息,得到与各所述特征对应的处理模式;
特征处理子模块,用于分别按照与各所述特征对应的处理模式对各所述特征进行处理。
12.根据权利要求11所述的装置,其特征在于,所述特征处理子模块包括:
特征评估模块,用于按照所述处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果;
特征确定模块,用于根据所述关联度结果确定待选择的新增特征。
13.根据权利要求10-12任一项所述的装置,其特征在于,所述装置还包括:
结果获取模块,用于获取对各所述特征进行处理的处理结果,所述处理结果包括各所述特征的评价指标值;
颜色获取模块,用于获取与各所述特征的评价指标值对应的显示颜色;
显示模块,用于根据所述显示颜色和所述处理结果生成显示信息。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。
CN201810301167.XA 2018-04-04 2018-04-04 基于大数据的特征处理方法、装置和计算机设备 Active CN110210506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810301167.XA CN110210506B (zh) 2018-04-04 2018-04-04 基于大数据的特征处理方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810301167.XA CN110210506B (zh) 2018-04-04 2018-04-04 基于大数据的特征处理方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN110210506A true CN110210506A (zh) 2019-09-06
CN110210506B CN110210506B (zh) 2023-10-20

Family

ID=67778958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810301167.XA Active CN110210506B (zh) 2018-04-04 2018-04-04 基于大数据的特征处理方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN110210506B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507731A (zh) * 2020-06-17 2020-08-07 银联数据服务有限公司 一种异常数据侦测的特征生成方法及装置
CN111581305A (zh) * 2020-05-18 2020-08-25 北京字节跳动网络技术有限公司 特征处理方法、装置、电子设备和介质
US20210042578A1 (en) * 2018-04-28 2021-02-11 Huawei Technologies Co., Ltd. Feature engineering orchestration method and apparatus
CN113487084A (zh) * 2021-07-06 2021-10-08 新智数字科技有限公司 一种设备使用寿命的预测方法、装置、计算机设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212691A1 (en) * 2002-05-10 2003-11-13 Pavani Kuntala Data mining model building using attribute importance
CN105577679A (zh) * 2016-01-14 2016-05-11 华东师范大学 一种基于特征选择与密度峰值聚类的异常流量检测方法
CN106021543A (zh) * 2016-05-26 2016-10-12 中国农业银行股份有限公司 一种数据预处理方法及装置
CN106980900A (zh) * 2016-01-18 2017-07-25 阿里巴巴集团控股有限公司 一种特征数据处理方法及设备
CN107729526A (zh) * 2017-10-30 2018-02-23 清华大学 一种文本结构化的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212691A1 (en) * 2002-05-10 2003-11-13 Pavani Kuntala Data mining model building using attribute importance
CN105577679A (zh) * 2016-01-14 2016-05-11 华东师范大学 一种基于特征选择与密度峰值聚类的异常流量检测方法
CN106980900A (zh) * 2016-01-18 2017-07-25 阿里巴巴集团控股有限公司 一种特征数据处理方法及设备
CN106021543A (zh) * 2016-05-26 2016-10-12 中国农业银行股份有限公司 一种数据预处理方法及装置
CN107729526A (zh) * 2017-10-30 2018-02-23 清华大学 一种文本结构化的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210042578A1 (en) * 2018-04-28 2021-02-11 Huawei Technologies Co., Ltd. Feature engineering orchestration method and apparatus
CN111581305A (zh) * 2020-05-18 2020-08-25 北京字节跳动网络技术有限公司 特征处理方法、装置、电子设备和介质
CN111581305B (zh) * 2020-05-18 2023-08-08 抖音视界有限公司 特征处理方法、装置、电子设备和介质
CN111507731A (zh) * 2020-06-17 2020-08-07 银联数据服务有限公司 一种异常数据侦测的特征生成方法及装置
CN111507731B (zh) * 2020-06-17 2020-10-20 银联数据服务有限公司 一种异常数据侦测的特征生成方法及装置
CN113487084A (zh) * 2021-07-06 2021-10-08 新智数字科技有限公司 一种设备使用寿命的预测方法、装置、计算机设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN110210506B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
Fong et al. Accelerated PSO swarm search feature selection for data stream mining big data
CN110210506A (zh) 基于大数据的特征处理方法、装置和计算机设备
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN107291847A (zh) 一种基于MapReduce的大规模数据分布式聚类处理方法
Herrera et al. Multi-agent adaptive boosting on semi-supervised water supply clusters
CN109547546B (zh) 一种请求任务的调度方法及调度中心服务器
He et al. Parallel implementation of classification algorithms based on MapReduce
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN112650923A (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
CN110880006B (zh) 用户分类方法、装置、计算机设备和存储介质
WO2016045567A1 (zh) 网页数据分析方法及装置
CN111914159B (zh) 一种信息推荐方法及终端
CN109977175B (zh) 数据配置查询方法和装置
CN103778206A (zh) 一种网络服务资源的提供方法
CN110297990A (zh) 众包营销微博与水军的联合检测方法及系统
Vo et al. Active learning strategies for weakly-supervised object detection
CA3033201A1 (en) Large scale social graph segmentation
CN106980639B (zh) 短文本数据聚合系统及方法
JP2017045291A (ja) 類似画像検索システム
US20170220665A1 (en) Systems and methods for merging electronic data collections
CN108228787B (zh) 按照多级类目处理信息的方法和装置
CN107341152B (zh) 一种参数输入的方法及装置
CN110209895B (zh) 向量检索方法、装置和设备
CN103136440A (zh) 数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant