CN112508119A - 特征挖掘组合方法、装置、设备及计算机可读存储介质 - Google Patents
特征挖掘组合方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112508119A CN112508119A CN202011490106.6A CN202011490106A CN112508119A CN 112508119 A CN112508119 A CN 112508119A CN 202011490106 A CN202011490106 A CN 202011490106A CN 112508119 A CN112508119 A CN 112508119A
- Authority
- CN
- China
- Prior art keywords
- feature
- combination
- target
- characteristic
- mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005065 mining Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 44
- 239000011159 matrix material Substances 0.000 claims abstract description 43
- 238000011156 evaluation Methods 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 15
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000004220 aggregation Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 16
- 238000010801 machine learning Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 8
- 230000004927 fusion Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 13
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008676 import Effects 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- RGCLLPNLLBQHPF-HJWRWDBZSA-N phosphamidon Chemical compound CCN(CC)C(=O)C(\Cl)=C(/C)OP(=O)(OC)OC RGCLLPNLLBQHPF-HJWRWDBZSA-N 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000576 supplementary effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及机器学习,提供一种特征挖掘组合方法、装置、设备及可读存储介质。本发明通过直接获取底层数据,并基于此进行一系列处理后最终得到目标模型组合,使得能够支持从底层数据开始进行特征挖掘;通过当前所确定的特征基元构造目标特征集合,再结合已有的特征集合构建并训练特征模型矩阵,使得原先独立的特征挖掘模块与模型训练模块能够联动执行,实现了特征挖掘模块与模型训练模块之间的融合;通过从训练得出的特征模型矩阵中确定出适配当前场景的目标模型组合,使得能够根据实际场景推荐最佳的模型组合。此外,本发明还涉及区块链技术,上述底层数据可存储于区块链中。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种特征挖掘组合方法、装置、设备及计算机可读存储介质。
背景技术
随着机器学习技术的快速发展,机器学习技术被广泛应用于各行业的数据分析过程中,为人们带来了极大的便利。目前人们通常会采用一些集成有数据特征处理相关功能的机器学习平台对传入的大量数据进行处理,以通过这些平台进行特征构造进而训练实际所需的特征模型。但在目前,这些产品往往还存在着:平台中的特征挖掘和模型训练模块相互独立,模型训练涉及的特征挖掘无法支持从底层数据开始进行特征挖掘,无法提供自动适配当前情境的特征组合等等问题。上述种种情况均反映出现有的特征挖掘平台存在较大的功能局限性的技术问题。
发明内容
本发明的主要目的在于提供一种特征挖掘组合方法、装置、设备及计算机可读存储介质,旨在解决现有的特征挖掘平台存在较大的功能局限性的技术问题。
为实现上述目的,本发明提供一种特征挖掘组合方法,所述特征挖掘组合方法包括:
获取底层数据,并根据所述底层数据生成若干标准数据表;
基于若干所述标准数据表确定特征基元,并根据所述特征基元构造若干所述标准数据表的目标特征集合;
基于所述目标特征集合与预设已有特征集合构建并训练特征模型矩阵,以从所述特征模型矩阵中确定出适配于当前场景的目标模型组合。
可选地,所述特征基元包括第一特征基元与第二特征基元,
所述基于若干所述标准数据表确定特征基元,并根据所述特征基元构造若干所述标准数据表的目标特征集合包括:
获取第一特征基元,并利用所述第一特征基元构造若干所述标准数据表的初始特征;
识别所述初始特征的特征类型,并根据所述特征类型确定第二特征基元,以利用所述第二特征基元对所述初始特征进行特征衍生得到衍生特征;
结合所述初始特征与所述衍生特征,得到若干所述标准数据表的目标特征集合。
可选地,所述获取第一特征基元,并利用所述第一特征基元构造若干所述标准数据表的初始特征包括:
获取自定义特征基元,并将所述自定义特征基元与包含有转换函数和/或聚合函数的预设特征基元作为所述第一特征基元;
将若干所述标准数据表整合为包含有所述标准数据表以及表间相互关系的实体集,利用所述第一特征基元在所述实体集上进行初始特征构造,得到所述初始特征。
可选地,所述基于所述目标特征集合与预设已有特征集合构建并训练特征模型矩阵,以从所述特征模型矩阵中确定出适配于当前场景的目标模型组合包括:
将所述目标特征集合与所述已有特征集合和划分为训练集与测试集,基于所述训练集与测试集构建并训练多个特征模型,将多个所述特征模型列为所述特征模型矩阵;
获取当前场景的场景评估指标,按照所述场景评估指标对所述特征模型矩阵中的各个所述特征模型进行评估,以确定出所述目标模型组合。
可选地,所述基于若干所述标准数据表确定特征基元,并根据所述特征基元构造若干所述标准数据表的目标特征集合之后,还包括:
基于预设评价指标对所述目标特征集合中的各个特征进行特征效果评估,并生成评估结果;
根据预设规则算法在所述目标特征集合中确定出最优特征组合;
将所述评估结果与所述最优特征组合进行可视化展示。
可选地,所述获取底层数据,并根据所述底层数据生成若干标准数据表包括:
获取由用户系统传入的底层数据,在对所述底层数据进行导入、存储、修改和/或补充说明时添加相应描述记录,得到待处理数据,其中,所述待处理数据存储于区块链中;
对所述待处理数据进行自动化清洗、过滤和降维处理,得到若干所述标准数据表。
可选地,所述基于所述目标特征集合与预设已有特征集合构建并训练特征模型矩阵,以从所述特征模型矩阵中确定出适配于当前场景的目标模型组合之后,还包括:
按照预设时间间隔获取更新特征数据和/或更新特征挖掘算法,以根据所述更新特征数据和/或更新特征挖掘算法对所述目标模型组合进行迭代更新。
此外,为实现上述目的,本发明还提供一种特征挖掘组合装置,所述特征挖掘组合装置包括:
标准数据生成模块,用于获取底层数据,并根据所述底层数据生成若干标准数据表;
特征集合构造模块,用于基于若干所述标准数据表确定特征基元,并根据所述特征基元构造若干所述标准数据表的目标特征集合;
模型组合确定模块,用于基于所述目标特征集合与预设已有特征集合构建并训练特征模型矩阵,以从所述特征模型矩阵中确定出适配于当前场景的目标模型组合。
可选地,所述特征基元包括第一特征基元与第二特征基元,
所述特征集合构造模块包括:
初始特征构造单元,用于获取第一特征基元,并利用所述第一特征基元构造若干所述标准数据表的初始特征;
衍生特征构造单元,用于识别所述初始特征的特征类型,并根据所述特征类型确定第二特征基元,以利用所述第二特征基元对所述初始特征进行特征衍生得到衍生特征;
特征集合获取单元,用于结合所述初始特征与所述衍生特征,得到若干所述标准数据表的目标特征集合。
可选地,所述初始特征构造单元还用于:
获取自定义特征基元,并将所述自定义特征基元与包含有转换函数和/或聚合函数的预设特征基元作为所述第一特征基元;
将若干所述标准数据表整合为包含有所述标准数据表以及表间相互关系的实体集,利用所述第一特征基元在所述实体集上进行初始特征构造,得到所述初始特征。
可选地,所述模型组合确定模块包括;
模型矩阵生成单元,用于将所述目标特征集合与所述已有特征集合和划分为训练集与测试集,基于所述训练集与测试集构建并训练多个特征模型,将多个所述特征模型列为所述特征模型矩阵;
模型组合确定单元,用于获取当前场景的场景评估指标,按照所述场景评估指标对所述特征模型矩阵中的各个所述特征模型进行评估,以确定出所述目标模型组合.
可选地,所述特征挖掘组合装置还包括:
特征评估模块,用于基于预设评价指标对所述目标特征集合中的各个特征进行特征效果评估,并生成评估结果;
最优确定模块,用于根据预设规则算法在所述目标特征集合中确定出最优特征组合;
结果展示模块,用于将所述评估结果与所述最优特征组合进行可视化展示。
可选地,所述标准数据生成模块包括:
记录添加单元,用于获取由用户系统传入的底层数据,在对所述底层数据进行导入、存储、修改和/或补充说明时添加相应描述记录,得到待处理数据,其中,所述待处理数据存储于区块链中;
数据处理单元,用于对所述待处理数据进行自动化清洗、过滤和降维处理,得到若干所述标准数据表。
可选地,所述特征挖掘组合装置还包括:
迭代更新模块,用于按照预设时间间隔获取更新特征数据和/或更新特征挖掘算法,以根据所述更新特征数据和/或更新特征挖掘算法对所述目标模型组合进行迭代更新。
此外,为实现上述目的,本发明还提供一种特征挖掘组合设备,所述特征挖掘组合设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的特征挖掘组合程序,其中所述特征挖掘组合程序被所述处理器执行时,实现如上述的特征挖掘组合方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有特征挖掘组合程序,其中所述特征挖掘组合程序被处理器执行时,实现如上述的特征挖掘组合方法的步骤。
本发明提供一种特征挖掘组合方法、装置、设备及计算机可读存储介质,所述特征挖掘组合方法通过直接获取底层数据,并基于此进行一系列处理后最终得到目标模型组合,使得能够支持从底层数据开始进行特征挖掘;通过当前所确定的特征基元构造目标特征集合,再结合已有的特征集合构建并训练特征模型矩阵,使得原先独立的特征挖掘模块与模型训练模块能够联动执行,实现了特征挖掘模块与模型训练模块之间融合;通过从训练得出的特征模型矩阵中确定出适配当前场景的目标模型组合,使得能够根据实际场景推荐最为合适的模型组合,从而解决了现有的特征挖掘平台存在较大的功能局限性的技术问题。
附图说明
图1为本发明实施例方案中涉及的特征挖掘组合设备的硬件结构示意图;
图2为本发明特征挖掘组合方法第一实施例的流程示意图;
图3为本发明特征挖掘组合装置的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的特征挖掘组合方法主要应用于特征挖掘组合设备,该特征挖掘组合设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的特征挖掘组合设备的硬件结构示意图。本发明实施例中,特征挖掘组合设备可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的硬件结构并不构成对特征挖掘组合设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及特征挖掘组合程序。
在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的特征挖掘组合程序,并执行本发明实施例提供的特征挖掘组合方法。
基于上述硬件结构,提出本发明特征挖掘组合方法的各个实施例。
随着机器学习技术的快速发展,机器学习技术被广泛应用于各行业的数据分析过程中,为人们带来了极大的便利。目前人们通常会采用一些集成有数据特征处理相关功能的机器学习平台对传入的大量数据进行处理,以通过这些平台进行特征构造进而训练实际所需的特征模型。但在目前,这些产品往往还存在着:平台中的特征挖掘和模型训练模块相互独立,模型训练涉及的特征挖掘无法支持从底层数据开始进行特征挖掘,无法提供自动适配当前情境的特征组合等等问题。上述种种情况均反映出现有的特征挖掘平台存在较大的功能局限性的技术问题。
为解决上述问题,本发明提供一种特征挖掘组合方法,即通过直接获取底层数据,并基于此进行一系列处理后最终得到目标模型组合,使得能够支持从底层数据开始进行特征挖掘;通过当前所确定的特征基元构造目标特征集合,再结合已有的特征集合构建并训练特征模型矩阵,使得原先独立的特征挖掘模块与模型训练模块能够联动执行,实现了特征挖掘模块与模型训练模块之间融合;通过从训练得出的特征模型矩阵中确定出适配当前场景的目标模型组合,使得能够根据实际场景推荐最为合适的模型组合,从而解决了现有的特征挖掘平台存在较大的功能局限性的技术问题。
参照图2,图2为本发明特征挖掘组合方法第一实施例的流程示意图。
本发明第一实施例提供一种特征挖掘组合方法,所述特征挖掘组合方法包括以下步骤:
步骤S10,获取底层数据,并根据所述底层数据生成若干标准数据表;
在本实施例中,本方法应用于终端。底层数据为预先未经处理的用户底层数据,具体可从数据前端(移动终端、PC端获取),也可从外部存储器获取。标准数据表为对底层数据进行数据预处理并整合后的统一格式的数据记录表格。由于底层数据的格式内容参差不齐,例如包含有时间、金额等多项的流水表格数据,故终端在对其进行特征挖掘之前,还需要先对其进行清洗、过滤、降维等处理,将表格进行拆分、合并。具体的处理方式可包括数据合并、异常值检验、缺失值处理等操作的一项或是多项。常用的异常值检验,有格拉布斯(Grubbs)检验和迪克逊(Dixon)检验。对于缺失值一般采用替换或是删除方式进行处理。具体地,终端接收从用户生产系统传入的用户底层数据,这些用户底层数据由多张包含有时间、金额等信息的流水二维表格数据组成。终端对这些数据二维表进行拆分、合并、清洗、降维等处理,将其转化为多张格式统一的标准数据表。
步骤S20,基于若干所述标准数据表确定特征基元,并根据所述特征基元构造若干所述标准数据表的目标特征集合;
在本实施例中,特征基元相当于构造新特征的方法,通常包括聚合与转换两类。聚合与转换具体可包括特征标准化(Std,StandardScaler)、独热编码(OneHotEncoding)、证据权重(WOE,Weight of Evidence)等。特征标准化指的是将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。独热编码即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。WOE是对原始自变量的一种编码形式。目标特征集合为包含有由特征基元所构造的特征的集合。目标特征集合中的特征即可以包括仅有聚合基元与转换基元所构造出的特征,也可包括在此基础上进一步构造出的特征,还可包括由用户自定义的特征基元所构造出的特征,还可以是这些特征的任意组合,将特征组合直接作为一个特征。
具体地,终端根据标准数据表的数据量选择一定种类的转换基元与聚合基元,并使用这些特征基元构造出标准数据表的相应特征。需要说明的是,终端可直接使用这些特征基元,也可将这些特征基元进行多重叠加后再使用。终端在得到构造出的特征后,将其进行特意组合,并将组合前的特征与特征组合一并列入目标特征集合。
步骤S30,基于所述目标特征集合与预设已有特征集合构建并训练特征模型矩阵,以从所述特征模型矩阵中确定出适配于当前场景的目标模型组合。
在本实施例中,特征模型矩阵为不同算法或者相同或不同参数建立而得到的多个模型。模型组合为在同一场景下,不一定只有一个模型,通过客群划分,本身就会导致有同一个应用场景下有多个模型,合在一起即为一个模型组合。目标模型组合为适用于当前场景的模型组合。
终端除了当前挖掘所得的特征之外,还可从数据库中获取已有的特征数据,结合两类特指数据构建训练集与测试集。终端通过多种不同算法和算法融合技术,例如梯度提升树算法(GBM,gradient boosting machine)、多元自适应回归样条算法(MARS,Multivariate Adaptive Regression Splines)、XGboost算法等,基于训练集与测试集构建若干特征模型以形成特征矩阵。终端通过训练集、测试集上的模型效果、模型稳定性等多种指标评估出最适配当前情景的模型组合。系统将上述模型组合进行部分测试且与当前用户生产系统的模型组合进行比较,若前者的精准度优于后者,则将前者一键发布至用户生产环境。
在本实施例中,本发明通过获取底层数据,并根据所述底层数据生成若干标准数据表;基于若干所述标准数据表确定特征基元,并根据所述特征基元构造若干所述标准数据表的目标特征集合;基于所述目标特征集合与预设已有特征集合构建并训练特征模型矩阵,以从所述特征模型矩阵中确定出适配于当前场景的目标模型组合。通过上述方式,本发明通过直接获取底层数据,并基于此进行一系列处理后最终得到目标模型组合,使得能够支持从底层数据开始进行特征挖掘;通过当前所确定的特征基元构造目标特征集合,再结合已有的特征集合构建并训练特征模型矩阵,使得原先独立的特征挖掘模块与模型训练模块能够联动执行,实现了特征挖掘模块与模型训练模块之间的融合;通过从训练得出的特征模型矩阵中确定出适配当前场景的目标模型组合,使得能够根据实际场景推荐最为合适的模型组合,从而解决了现有的特征挖掘平台存在较大的功能局限性的技术问题。
进一步地,基于上述图2所示的第一实施例,提出本发明特征挖掘组合方法的第二实施例。本实施例中,所述特征基元包括第一特征基元与第二特征基元,步骤S20包括:
步骤S21,获取第一特征基元,并利用所述第一特征基元构造若干所述标准数据表的初始特征;
步骤S22,识别所述初始特征的特征类型,并根据所述特征类型确定第二特征基元,以利用所述第二特征基元对所述初始特征进行特征衍生得到衍生特征;
步骤S23,结合所述初始特征与所述衍生特征,得到若干所述标准数据表的目标特征集合。
在本实施例中,特征基元相当于构造新特征的方法。第一特征基元为用于构造初始特征的特征基元,即可以直接使用预设的转换特征基元与聚合特征基元作为第一特征基元,也可根据实际需求添加自定义的特征基元,且对其个数不作限定。第二特征基元为用于在初始特征的基础上构造衍生特征的特征基元,由初始特征的特征类型在已有的特征基元中确定,可以是第一特征基元的叠加。初始特征为根据第一特征基元所构造出的标准数据表的特征。衍生特征为根据第二特征基元在初始特征的基础上衍生出来的标准数据包的特征。特征类型指的是特征的数据类型,具体可包括字符类型、分类类型、数值类型等。
具体地,终端获取现有的转换特征基元与聚合特征基元,并通过相互叠加(可为多重叠加)得到第一特征基元。终端利用第一特征基元对标准数据表中的表中的行数据、列数据以及各表间的行数据与列数据进行转换与聚合操作。聚合操作指的是:基于父表与子表的关联(一对多)完成的系列操作,即根据父表对子表进行分组并计算其统计量。例如,根据用户ID对贷款数额表进行分组,并找到每位客户最大的贷款数额;转换操作指的是:对一张表中一列或多列进行的操作。例如,计算一张表中两列的差值或计算一列的绝对值。终端通过转换聚合操作得到初始特征之后,就可对初始特征的特征类型进行识别,识别方式可为现有的识别方式。终端依据初始特征的特征类型来确定第二特征基元,例如,对于字符类型的初始特征,终端可采用可对字符进行分类与切分功能的特征基元作为第二特征基元;对于数值类型的初始特征,终端可采用可对数值进行离散化、缺失值修正的特征基元作为第二特征基元;对于分类类型的初始特征,终端可采用可对其进行合并、编码的特征基元作为第二特征基元。终端利用第二特征基元对初始特征进行相应操作,以衍生得到更为深度的衍生特征。最后,终端可直接将初始特征与衍生特征汇总,也可将其进行任意组合作为上述目标特征集合。
进一步地,步骤S21包括:
步骤S211,获取自定义特征基元,并将所述自定义特征基元与包含有转换函数和/或聚合函数的预设特征基元作为所述第一特征基元;
步骤S212,将若干所述标准数据表整合为包含有所述标准数据表以及表间相互关系的实体集,利用所述第一特征基元在所述实体集上进行初始特征构造,得到所述初始特征。
在本实施例中,自定义特征基元为用户根据当前的实际情况所设计或从现有特征基元中选中的特征基元。转换函数与聚合函数具体可包括特征标准化、独热编码、证据权重等。
终端可将目标特征集合进行显示,用户根据目标特征集合的实际情况,自行设置或选择现有的特征基元作为自定义特征基元。终端在接收到用户当前所输入或选中的自定义特征基元时,将其与预设特征基元一起作为第一特征基元。关于实体集的获取方式可直接采用现有的方式。终端将标准数据表整合为实体集后,利用第一特征基元进行特征构建,并将由第一特征基元构建得到的特征作为初始特征。
进一步地,步骤S30包括:
步骤S31,将所述目标特征集合与所述已有特征集合和划分为训练集与测试集,基于所述训练集与测试集构建并训练多个特征模型,将多个所述特征模型列为所述特征模型矩阵;
步骤S32,获取当前场景的场景评估指标,按照所述场景评估指标对所述特征模型矩阵中的各个所述特征模型进行评估,以确定出所述目标模型组合。
在本实施例中,终端可按照一定比例将目标特征集合中的特征数据与已有特征集合中的特征数据划分为训练集与测试集,例如将80%的特征数据作为第二训练集,20%的特征数据作为第二测试集,重复多次交叉验证,以构建特征模型,并对其进行机器学习训练,将训练后的多个特征模型列为特征模型矩阵。场景评估指标可预先设定,也可在模型训练后再由用户设置。
具体地,终端在获取到特征模型矩阵后,生成多指标设置界面以供用户选择。若当前场景为寻找优质客户,则可将场景评估指标设置为还款期限、信用等级、资产数额等,并设置相应阈值。终端根据场景评估指标,采用枚举方式将特征模型进行组合,分别评估组合后的模型效果,以评估出最适配当前场景的模型组合,并将其进行部分测试以与现有的以上线的模型组合进行比较。若前者的精准度优于后者,则将前者作为目标模型组合,并可将前者代替后者在生产系统中进行更新发布,使得自动适配当前最佳模型组合,有效避免因情境变化导致的模型失效;若前者的精准度低于后者,则不对现有的模型组合进行更新。
进一步地,通过进行多次特征构造,使得能够得到更为深层的特征数据;通过预设的转换函数与聚合函数进行特征构造,使得特征构造过程更加简便易行;通过结合当前场景的场景评估指标进行模型评估,使得最终得到的模型组合适配于当前场景。
进一步地,基于上述图2所示的第一实施例,提出本发明特征挖掘组合方法的第三实施例。本实施例中,步骤S20之后,还包括:
步骤S201,基于预设评价指标对所述目标特征集合中的各个特征进行特征效果评估,并生成评估结果;
步骤S202,根据预设规则算法在所述目标特征集合中确定出最优特征组合;
步骤S203,将所述评估结果与所述最优特征组合进行可视化展示。
在本实施例中,预设规则算法具体可为基于XGboost设计的规则提取的算法。XGBoost是“极端梯度提升”(eXtreme Gradient Boosting)的简称,是一个高效的梯度提升树的实现框架。XGBoost提出了一个理论上合理的加权分位数略图来计算候选集,引入了一种新颖的稀疏感知算法用于并行树学习,令缺失值有默认方向,提出了一个有效的用于核外树形学习的缓存感知块结构,用缓存加速寻找排序后被打乱的索引的列数据的过程。终端基于XGBoost算法,将特征进行组合,并对组合进行评分,得到评分最高的特征组合即为上述最优特征组合。终端可将最优特征组合进行显示以便查看。另外,终端在寻找最优特征组合时,着重关注的是单独来看对最终结果的评定影响并不十分明显的弱数据。较弱的特征数据与其他特征数据结合后,可能会产生强烈的效果,对于后续的数据分析更有价值。
预设评价指标具体可为IV、PSI或是其他相关系数。IV就是information value,也就是信息量;PSI为群体稳定性指标(opulation Stability Index)。终端按照预设的特征评价指标获取各个特征多维度的特征效果,并将其进行对比与展示,以便数据分析师进行查阅,为数据分析师推荐最优的特征组合方案,并生成特征逻辑,以便后续上线应用。
进一步地,步骤S10包括:
步骤S11,获取由用户系统传入的底层数据,在对所述底层数据进行导入、存储、修改和/或补充说明时添加相应描述记录,得到待处理数据,其中,所述待处理数据存储于区块链中;
步骤S12,对所述待处理数据进行自动化清洗、过滤和降维处理,得到若干所述标准数据表。
在本实施例中,终端从用户生产系统中获取大量的用户底层数据。该系统可对用户数据进行集中化、归一化管理,分数据源与数据集这两个层级对数据集的存储、导入、修改、补充说明等进行多维度的描述与记录。例如,对于存储过程,可添加原存储地址、现存储地址与存储时间等记录;对于导入过程,可添加导入方式、导入时间、导入源地址等记录;对于修改过程,可添加修改前、修改后数据以及修改时间、修改原因等记录;对于补充说明,可添加数据所属的类型信息等。由于底层数据的格式内容参差不齐,例如包含有时间、金额等多项的流水表格数据,故终端在对其进行特征挖掘之前,还需要先对其进行清洗、过滤、降维等处理,将表格进行拆分、合并,具体的处理方式可包括数据合并、异常值检验、缺失值处理等操作的一项或是多项。异常值或离群值,是观测或试验过程中由于过失误差破坏了原有统计规律性而产生的观测值。异常值一般明显大于或小于其他观测值,故不难发现或剔除。常用的异常值检验,有格拉布斯(Grubbs)检验和迪克逊(Dixon)检验。对于缺失值一般采用替换或是删除方式进行处理。
需要强调的是,为进一步保证上述待处理数据的私密和安全性,上述待处理数据还可以存储于一区块链的节点中。
进一步地,步骤S30之后,还包括:
步骤S40,按照预设时间间隔获取更新特征数据和/或更新特征挖掘算法,以根据所述更新特征数据和/或更新特征挖掘算法对所述目标模型组合进行迭代更新。
在本实施例中,终端还可定时获取新的特征数据或是更优化的特征挖掘算法,来对模型进行迭代更新,使得上线于用户生产系统的模型组合能够持续适配于当前最新的应用场景。预设时间间隔为模型更新的时间间隔,可根据实际需求灵活设置。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
进一步地,通过生成并展示特征效果与最优特征组合,使得用户能够得到直观的特征评估结果;通过对底层数据添加相应描述记录,使得底层数据的信息更加全面;通过定时对目标模型组合进行迭代更新,避免了模型失效而导致的负面影响,持续保持了目标模型组合的有效性。
此外,如图3所示,为实现上述目的,本发明还提供一种特征挖掘组合装置,所述特征挖掘组合装置包括:
标准数据生成模块10,用于获取底层数据,并根据所述底层数据生成若干标准数据表;
特征集合构造模块20,用于基于若干所述标准数据表确定特征基元,并根据所述特征基元构造若干所述标准数据表的目标特征集合;
模型组合确定模块30,用于基于所述目标特征集合与预设已有特征集合构建并训练特征模型矩阵,以从所述特征模型矩阵中确定出适配于当前场景的目标模型组合。
本发明还提供一种特征挖掘组合设备。
所述特征挖掘组合设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的特征挖掘组合程序,其中所述特征挖掘组合程序被所述处理器执行时,实现如上所述的特征挖掘组合方法的步骤。
其中,所述特征挖掘组合程序被执行时所实现的方法可参照本发明特征挖掘组合方法的各个实施例,此处不再赘述。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有特征挖掘组合程序,其中所述特征挖掘组合程序被处理器执行时,实现如上述的特征挖掘组合方法的步骤。
其中,特征挖掘组合程序被执行时所实现的方法可参照本发明特征挖掘组合方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种特征挖掘组合方法,其特征在于,所述特征挖掘组合方法包括:
获取底层数据,并根据所述底层数据生成若干标准数据表;
基于若干所述标准数据表确定特征基元,并根据所述特征基元构造若干所述标准数据表的目标特征集合;
基于所述目标特征集合与预设已有特征集合构建并训练特征模型矩阵,以从所述特征模型矩阵中确定出适配于当前场景的目标模型组合。
2.如权利要求1所述的特征挖掘组合方法,其特征在于,所述特征基元包括第一特征基元与第二特征基元,
所述基于若干所述标准数据表确定特征基元,并根据所述特征基元构造若干所述标准数据表的目标特征集合包括:
获取第一特征基元,并利用所述第一特征基元构造若干所述标准数据表的初始特征;
识别所述初始特征的特征类型,并根据所述特征类型确定第二特征基元,以利用所述第二特征基元对所述初始特征进行特征衍生得到衍生特征;
结合所述初始特征与所述衍生特征,得到若干所述标准数据表的目标特征集合。
3.如权利要求2所述的特征挖掘组合方法,其特征在于,所述获取第一特征基元,并利用所述第一特征基元构造若干所述标准数据表的初始特征包括:
获取自定义特征基元,并将所述自定义特征基元与包含有转换函数和/或聚合函数的预设特征基元作为所述第一特征基元;
将若干所述标准数据表整合为包含有所述标准数据表以及表间相互关系的实体集,利用所述第一特征基元在所述实体集上进行初始特征构造,得到所述初始特征。
4.如权利要求1所述的特征挖掘组合方法,其特征在于,所述基于所述目标特征集合与预设已有特征集合构建并训练特征模型矩阵,以从所述特征模型矩阵中确定出适配于当前场景的目标模型组合包括:
将所述目标特征集合与所述已有特征集合和划分为训练集与测试集,基于所述训练集与测试集构建并训练多个特征模型,将多个所述特征模型列为所述特征模型矩阵;
获取当前场景的场景评估指标,按照所述场景评估指标对所述特征模型矩阵中的各个所述特征模型进行评估,以确定出所述目标模型组合。
5.如权利要求1所述的特征挖掘组合方法,其特征在于,所述基于若干所述标准数据表确定特征基元,并根据所述特征基元构造若干所述标准数据表的目标特征集合之后,还包括:
基于预设评价指标对所述目标特征集合中的各个特征进行特征效果评估,并生成评估结果;
根据预设规则算法在所述目标特征集合中确定出最优特征组合;
将所述评估结果与所述最优特征组合进行可视化展示。
6.如权利要求1所述的特征挖掘组合方法,其特征在于,所述获取底层数据,并根据所述底层数据生成若干标准数据表包括:
获取由用户系统传入的底层数据,在对所述底层数据进行导入、存储、修改和/或补充说明时添加相应描述记录,得到待处理数据,其中,所述待处理数据存储于区块链中;
对所述待处理数据进行自动化清洗、过滤和降维处理,得到若干所述标准数据表。
7.如权利要求1-6中任一项所述的特征挖掘组合方法,其特征在于,所述基于所述目标特征集合与预设已有特征集合构建并训练特征模型矩阵,以从所述特征模型矩阵中确定出适配于当前场景的目标模型组合之后,还包括:
按照预设时间间隔获取更新特征数据和/或更新特征挖掘算法,以根据所述更新特征数据和/或更新特征挖掘算法对所述目标模型组合进行迭代更新。
8.一种特征挖掘组合装置,其特征在于,所述特征挖掘组合装置包括:
标准数据生成模块,用于获取底层数据,并根据所述底层数据生成若干标准数据表;
特征集合构造模块,用于基于若干所述标准数据表确定特征基元,并根据所述特征基元构造若干所述标准数据表的目标特征集合;
模型组合确定模块,用于基于所述目标特征集合与预设已有特征集合构建并训练特征模型矩阵,以从所述特征模型矩阵中确定出适配于当前场景的目标模型组合。
9.一种特征挖掘组合设备,其特征在于,所述特征挖掘组合设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的特征挖掘组合程序,其中所述特征挖掘组合程序被所述处理器执行时,实现如权利要求1至7中任一项所述的特征挖掘组合方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有特征挖掘组合程序,其中所述特征挖掘组合程序被处理器执行时,实现如权利要求1至7中任一项所述的特征挖掘组合方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011490106.6A CN112508119B (zh) | 2020-12-16 | 2020-12-16 | 特征挖掘组合方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011490106.6A CN112508119B (zh) | 2020-12-16 | 2020-12-16 | 特征挖掘组合方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112508119A true CN112508119A (zh) | 2021-03-16 |
CN112508119B CN112508119B (zh) | 2024-04-05 |
Family
ID=74972958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011490106.6A Active CN112508119B (zh) | 2020-12-16 | 2020-12-16 | 特征挖掘组合方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508119B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961774A (zh) * | 2021-12-22 | 2022-01-21 | 四川新网银行股份有限公司 | 一种多特征组合策略的推荐方法 |
CN115438101A (zh) * | 2022-10-13 | 2022-12-06 | 中国兵器工业计算机应用技术研究所 | 一种基于特征形态和数据关系的数据特征构建系统和方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130251248A1 (en) * | 2008-08-08 | 2013-09-26 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
CN108268645A (zh) * | 2018-01-23 | 2018-07-10 | 广州南方人才资讯科技有限公司 | 大数据处理方法与系统 |
CN109523316A (zh) * | 2018-11-16 | 2019-03-26 | 杭州珞珈数据科技有限公司 | 商业服务模型的自动化建模方法 |
-
2020
- 2020-12-16 CN CN202011490106.6A patent/CN112508119B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130251248A1 (en) * | 2008-08-08 | 2013-09-26 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
CN108268645A (zh) * | 2018-01-23 | 2018-07-10 | 广州南方人才资讯科技有限公司 | 大数据处理方法与系统 |
CN109523316A (zh) * | 2018-11-16 | 2019-03-26 | 杭州珞珈数据科技有限公司 | 商业服务模型的自动化建模方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961774A (zh) * | 2021-12-22 | 2022-01-21 | 四川新网银行股份有限公司 | 一种多特征组合策略的推荐方法 |
CN115438101A (zh) * | 2022-10-13 | 2022-12-06 | 中国兵器工业计算机应用技术研究所 | 一种基于特征形态和数据关系的数据特征构建系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112508119B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8983914B2 (en) | Evaluating a trust value of a data report from a data processing tool | |
US9774681B2 (en) | Cloud process for rapid data investigation and data integrity analysis | |
US11868411B1 (en) | Techniques for compiling and presenting query results | |
CN107016001A (zh) | 一种数据查询方法及装置 | |
CN107729519B (zh) | 基于多源多维数据的评估方法及装置、终端 | |
CN111178005B (zh) | 数据处理系统、方法及存储介质 | |
CN110795524B (zh) | 主数据映射处理方法、装置、计算机设备及存储介质 | |
CN112508119A (zh) | 特征挖掘组合方法、装置、设备及计算机可读存储介质 | |
US8280896B2 (en) | Reporting row structure for generating reports using focus areas | |
CN111414740A (zh) | 一种电子实验记录本报告生成系统 | |
CN116414815A (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN113344673A (zh) | 产品推送方法、装置、电子设备及存储介质 | |
US20130124484A1 (en) | Persistent flow apparatus to transform metrics packages received from wireless devices into a data store suitable for mobile communication network analysis by visualization | |
CN114722789B (zh) | 数据报表集成方法、装置、电子设备及存储介质 | |
US11568177B2 (en) | Sequential data analysis apparatus and program | |
CN111324594A (zh) | 用于粮食加工业的数据融合方法、装置、设备及存储介质 | |
CN116304251A (zh) | 标签处理方法、装置、计算机设备和存储介质 | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 | |
CN115545791A (zh) | 一种客群画像生成方法、装置、电子设备及存储介质 | |
CN114860819A (zh) | 商业智能系统的构建方法、装置、设备和存储介质 | |
CN104636422A (zh) | 用于挖掘数据集中的模式的方法和系统 | |
CN113934729A (zh) | 一种基于知识图谱的数据管理方法、相关设备及介质 | |
US9489438B2 (en) | Systems and methods for visualizing master data services information | |
CN116931889B (zh) | 一种基于对象树的软件建模方法及系统 | |
WO2021024966A1 (ja) | 企業類似度算出サーバ及び企業類似度算出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |