CN112613983A - 一种机器建模过程中的特征筛选方法、装置及电子设备 - Google Patents
一种机器建模过程中的特征筛选方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112613983A CN112613983A CN202011566617.1A CN202011566617A CN112613983A CN 112613983 A CN112613983 A CN 112613983A CN 202011566617 A CN202011566617 A CN 202011566617A CN 112613983 A CN112613983 A CN 112613983A
- Authority
- CN
- China
- Prior art keywords
- feature
- dimension
- screening
- training
- dimensions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 177
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000008569 process Effects 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 88
- 238000013210 evaluation model Methods 0.000 claims abstract description 20
- 238000010276 construction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims 6
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101150071577 chi2 gene Proteins 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Medical Informatics (AREA)
- Educational Administration (AREA)
- Computing Systems (AREA)
- Technology Law (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种机器建模过程中的特征筛选方法、装置及电子设备,所述方法包括:获取每个样本用户在每个特征维度下的待构建用户特征;通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度;将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度;基于各个目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集。这样,本申请通过采用不同的特征筛选方式对多个待构建用户特征进行筛选,确定出更加适合用于训练评估用户可信度模型的训练特征集,间接可以使得使用该训练特征集训练得到的模型可以更加准确的评估用户的可信度。
Description
技术领域
本申请涉及大数据处理技术领域,尤其是涉及一种机器建模过程中的特征筛选方法、装置及电子设备。
背景技术
金融的核心竞争力是风控,而风控的关键在于风险定价能力,这主要集中在贷前的客户选择上,因此如何将客户逾期风险控制在一个最优区间是非常重要的。通常利用用户过往的行为特征数据,应用机器学习技术建立模型预测客户在不同场景下未来的风险是实施风险控制的主要手段之一。
但获取用户过往的行为数据的过程中,会产生一些冗余的数据,这些数据对于我们想构建的最优模型没有太多价值,甚至可能会产生副作用。因此在构建模型过程中就需要不断的进行试验和筛选,最后才能构建一个最优模型。但是在这个过程中,通过人为筛选的方式进行,会非常耗费人力,并且还会拖慢模型构建的速度。因此就需要提供一种根据数据的特征自动进行数据筛选的方式,以能够筛选出更准确的数据。
发明内容
有鉴于此,本申请的目的在于提供一种机器建模过程中的特征筛选方法、装置及电子设备,通过采用不同的特征筛选方式对多个待构建用户特征进行筛选,确定出更加适合用于训练评估用户可信度模型的训练特征集,间接可以使得使用该训练特征集训练得到的模型可以更加准确的评估用户的可信度。
本申请实施例提供了一种机器建模过程中的特征筛选方法,所述特征筛选方法包括:
获取每个样本用户在每个特征维度下的待构建用户特征;
通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度;
将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度;
基于各个目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集。
进一步的,所述通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度,包括:
针对于每种特征筛选方式,确定每个特征维度在所述特征筛选方式下的重要性系数;
按照每个特征维度在所述特征筛选方式下的重要性系数,降序排列所述多个特征维度;
将位于前预设位数的特征维度确定为在所述特征筛选方式下的候选维度。
进一步的,所述将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度,包括:
统计每个候选维度被用于构建训练特征集的构建次数;
针对于每个候选维度,当所述候选维度的构建次数等于特征筛选方式的数量时,将所述候选维度确定为目标特征维度。
进一步的,所述特征筛选方式包括信息值筛选方式、基尼系数筛选方式、熵筛选方式、熵率筛选方式以及卡方筛选方式中的多种。
本申请实施例还提供了一种机器建模过程中的特征筛选装置,所述特征筛选装置包括:
获取模块,用于获取每个样本用户在每个特征维度下的待构建用户特征;
第一确定模块,用于通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度;
第二确定模块,用于将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度;
构建模块,用于基于各个目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集。
进一步的,所述第一确定模块包括:
系数确定单元,用于针对于每种特征筛选方式,确定每个特征维度在所述特征筛选方式下的重要性系数;
排序单元,用于按照每个特征维度在所述特征筛选方式下的重要性系数,降序排列所述多个特征维度;
维度确定单元,用于将位于前预设位数的特征维度确定为在所述特征筛选方式下的候选维度。
进一步的,所述第二确定模块在用于将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度时,所述第二确定模块用于:
统计每个候选维度被用于构建训练特征集的构建次数;
针对于每个候选维度,当所述候选维度的构建次数等于特征筛选方式的数量时,将所述候选维度确定为目标特征维度。
进一步的,所述特征筛选方式包括信息值筛选方式、基尼系数筛选方式、熵筛选方式、熵率筛选方式以及卡方筛选方式中的多种。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的机器建模过程中的特征筛选方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的机器建模过程中的特征筛选方法的步骤。
本申请实施例提供的机器建模过程中的特征筛选方法、装置及电子设备,获取每个样本用户在每个特征维度下的待构建用户特征;通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度;将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度;基于各个目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集。
这样,本申请通过采用不同的特征筛选方式对多个待构建用户特征进行筛选,确定出更加适合用于训练评估用户可信度模型的训练特征集,间接可以使得使用该训练特征集训练得到的模型可以更加准确的评估用户的可信度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种机器建模过程中的特征筛选方法的流程图;
图2为本申请实施例所提供的一种机器建模过程中的特征筛选装置的结构示意图;
图3为图2中所示的第一确定模块的结构示意图;
图4为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于训练用户可信度评估模型过程中的特征选择阶段。机器学习建模流程一般包括以下流程:数据获取、数据清洗、数据分析、数据规约、特征选择以及模型训练阶段。因此,本申请除了应用于可信度评估模型过程中的特征选择阶段,也适用于其他类型模型的特征选择阶段,即可以用于机器学习建模过程中的特征选择阶段。
经研究发现,在机器学习建模过程中,使用的有些特征对于最优模型没有太多价值,甚至可能会产生副作用,因此在构建模型过程中就需要不断的进行试验和筛选,最后才能构建一个最优模型。但是在这个过程中,通过人为筛选的方式进行,会非常耗费人力,并且还会拖慢模型构建的速度。
基于此,本申请实施例提供了一种机器建模过程中的特征筛选方法,通过采用不同的特征筛选方式对多个待构建用户特征进行筛选,确定出更加适合用于训练评估用户可信度模型的训练特征集,间接可以使得使用该训练特征集训练得到的模型可以更加准确的评估用户的可信度。
请参阅图1,图1为本申请实施例所提供的一种机器建模过程中的特征筛选方法的流程图。如图1中所示,本申请实施例提供的机器建模过程中的特征筛选方法,包括:
S101、获取每个样本用户在每个特征维度下的待构建用户特征。
该步骤中,获取的每个样本用户在每个特征维度下的待构建用户特征,所述待构建用户特征用于构建训练特征集。
其中,特征维度指样本用户的属性,示例的可以包括:姓名、年龄、职业、收入以及消费能力等。用户特征指特征维度下的具体数据,对应上述特征维度,示例的包括:张三、30、快递员、8k/月以及3.5k/月。其中,每个样本用户的用户特征基本都不相同。
S102、通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度。
该步骤中,选取多种能确定出特征维度对于最终构建最优模型贡献力度大小的特征筛选方式,然后对于每一种特征筛选方式,从所有特征维度中,选择一定量的特征维度,作为由该特征筛选方式选择出的用于构建训练特征集的候选维度。
进一步的,所述特征筛选方式包括信息值筛选方式、基尼系数筛选方式、熵筛选方式、熵率筛选方式以及卡方筛选方式中的多种。
所述信息值筛选方式用IV值表示,IV值衡量的是某一个变量的信息量,主要用来对输入变量进行编码和预测能力评估;所述基尼系数筛选方式用GINI表示,GINI用作特征选择时,可用于评估数据的纯度;所述熵筛选方式用Entropy表示,其物理意义是体系混乱程度的度量;熵率筛选方式用EntropyRate表示,在统计学中用它作为随机事件不确定程度的一种度量,描述给定长度为n的随机变量序列的熵随n的增长情况;卡方筛选方式用Chi2表示,可用来统计样本的实际观测值与理论推断值之间的偏离程度。
这里,虽然在本步骤中仅列举出5种筛选方式,但是不应将本申请中的筛选方式局限于5种,任何一种筛选方式能确定特征维度对构建最优模型的贡献力度大小,都可以作为本申请的筛选方式。
进一步的,所述通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度,包括:针对于每种特征筛选方式,确定每个特征维度在所述特征筛选方式下的重要性系数;按照每个特征维度在所述特征筛选方式下的重要性系数,降序排列所述多个特征维度;将位于前预设位数的特征维度确定为在所述特征筛选方式下的候选维度。
该步骤中,针对于每种特征筛选方式,首先,根据该特征筛选方式对应的计算公式,计算所有特征维度在该筛选方式下的重要性系数,这里,对于每个特征维度来说,需要计算其在每种特征筛选方式下的重要性系数,由于每种特征筛选方式所考虑的角度不同,因此,每种特征维度在不同的特征筛选方式下,对应的重要性系数也会有所差异;然后,针对于每种特征筛选方式,统计在每种筛选方式下的所有特征维度以及其对应的重要性系数,根据重要性系数的大小,将所有特征维度从大到小依次排序;最后,在每种特征筛选方式下,都选取前预设位数的特征维度作为特征筛选方式下的候选维度,这里,前预设位数的特征维度指重要性系数大的特征维度。
这里,本申请中前预设位数,可以是技术人员根据经验预先设计好的,例如,选取前80%的特征维度作为候选维度,或者是选取前10个特征维度作为候选维度等。前预设位数可以根据特征筛选方式的不同或者是实际情况的需求进行调整,在本申请中不作具体限制。
S103、将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度。
该步骤中,针对每种特征筛选方式,统计在每种筛选方式下都存在的候选维度,将这些候选维度提取出来,作为用于构建模型的目标特征维度。
这里,可以将每种筛选方式下的候选特征维度作为一个集合,然后求各个集合的交集,将得到的交集中的特征维度目标特征维度。
进一步的,所述将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度,包括:统计每个候选维度被用于构建训练特征集的构建次数;针对于每个候选维度,当所述候选维度的构建次数等于特征筛选方式的数量时,将所述候选维度确定为目标特征维度。
该步骤中,针对每个用于构建训练特征集的候选维度,统计该候选维度被用于构建训练特征集构建次数,将构建次数与特征筛选方式数量相同的候选维度提取出来,将提取出的特征维度作为构建用户可信度评估模型的目标特征维度。
S104、基于各个目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集。
该步骤中,根据筛选方式选出的多个目标特征维度,统计每个维度下包含的用户特征,构成用于训练用户可信度评估模型的训练特征集,从而可以使用训练特征集对构建用户可信度评估模型。
示例的,以10个特征维度对本发明的特征筛选方法进行说明:
假设现在有10个特征维度为F1、F2、F3……F10和1个目标变量。数据格式如表1所示:
表1:数据格式类型
ID | F1 | F2 | …… | F10 | 目标变量 |
1 | xxxx | xxxx | …… | xxxx | 1 |
2 | xxxx | xxxx | …… | xxxx | 0 |
3 | xxxx | xxxx | …… | xxxx | 1 |
…… | …… | …… | …… | …… | …… |
10000 | xxxx | xxxx | …… | xxxx | 0 |
选取三种筛选方式,分别为信息值(IV)、基尼系数(GINI)以及熵(Entropy)筛选方式,计算10个特征维度分别在三种筛选方式下的重要性系数,并按照重要性系数由大到小对特征维度进行排序,如表2、表3、表4所示。
表2:使用基尼系数(GINI)筛选方式,并对特征维度按重要性系数排序,排序结果如下:
特征维度 | 重要性系数 |
F10 | 0.8 |
F9 | 0.7 |
F6 | 0.65 |
F8 | 0.62 |
F5 | 0.56 |
F7 | 0.53 |
F2 | 0.42 |
F1 | 0.34 |
F3 | 0.31 |
F4 | 0.22 |
表3:使用信息值(IV)筛选方式,并对特征维度按重要性系数排序,排序结果如下:
表4:使用熵(Entropy)筛选方式,并对特征维度按重要性系数排序,排序结果如下:
特征维度 | 重要性系数 |
F6 | 0.84 |
F5 | 0.76 |
F10 | 0.63 |
F9 | 0.61 |
F1 | 0.58 |
F3 | 0.49 |
F7 | 0.41 |
F8 | 0.33 |
F2 | 0.24 |
F4 | 0.19 |
取信息值(IV)筛选方式时前80%的特征维度为:F10,F9,F6,F8,F5,F7,F2,F1。
取基尼系数(GINI)筛选方式时前80%的特征维度为:F9,F8,F7,F10,F6,F5,F2,F1。
取熵(Entropy)筛选方式时前80%的特征维度为:F6,F5,F10,F9,F1,F3,F7,F8。
然后,融合以上三种筛选方式,求三种筛选方式下的交集,得到目标特征维度,计算方式如下所示:
(F10,F9,F6,F8,F5,F7,F2,F1)∩(F9,F8,F7,F10,F6,F5,F2,F1)∩(F6,F5,F10,F9,F1,F3,F7,F8)=(F1,F5,F6,F7,F8,F9)
最终,求取的目标特征维度为F1,F5,F6,F7,F8,F9,使用目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集,然后将特征集输入模型进行建模。
本申请实施例提供的机器建模过程中的特征筛选方法,获取每个样本用户在每个特征维度下的待构建用户特征;通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度;将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度;基于各个目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集。
这样,本申请通过采用不同的特征筛选方式对多个待构建用户特征进行筛选,确定出更加适合用于训练评估用户可信度模型的训练特征集,间接可以使得使用该训练特征集训练得到的模型可以更加准确的评估用户的可信度。
请参阅图2、图3,图2为本申请实施例所提供的一种机器建模过程中的特征筛选装置的结构示意图,图3为图2中所示的第一确定模块的结构示意图。如图2中所示,所述特征筛选装置200包括:
获取模块210,用于获取每个样本用户在每个特征维度下的待构建用户特征;
第一确定模块220,用于通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度;
第二确定模块230,用于将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度;
构建模块240,用于基于各个目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集。
进一步的,所述第一确定模块220包括:
系数确定单元221,用于针对于每种特征筛选方式,确定每个特征维度在所述特征筛选方式下的重要性系数;
排序单元222,用于按照每个特征维度在所述特征筛选方式下的重要性系数,降序排列所述多个特征维度;
维度确定单元223,用于将位于前预设位数的特征维度确定为在所述特征筛选方式下的候选维度。
进一步的,所述第二确定模块230在用于将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度时,所述第二确定模块230用于:
统计每个候选维度被用于构建训练特征集的构建次数;
针对于每个候选维度,当所述候选维度的构建次数等于特征筛选方式的数量时,将所述候选维度确定为目标特征维度。
进一步的,所述特征筛选方式包括信息值筛选方式、基尼系数筛选方式、熵筛选方式、熵率筛选方式以及卡方筛选方式中的多种。
本申请实施例提供的机器建模过程中的特征筛选装置,获取每个样本用户在每个特征维度下的待构建用户特征;通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度;将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度;基于各个目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集。
这样,本申请通过采用不同的特征筛选方式对多个待构建用户特征进行筛选,确定出更加适合用于训练评估用户可信度模型的训练特征集,间接可以使得使用该训练特征集训练得到的模型可以更加准确的评估用户的可信度。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1所示方法实施例中的机器建模过程中的特征筛选方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的机器建模过程中的特征筛选方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种机器建模过程中的特征筛选方法,其特征在于,所述特征筛选方法包括:
获取每个样本用户在每个特征维度下的待构建用户特征;
通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度;
将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度;
基于各个目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集。
2.根据权利要求1中所述的特征筛选方法,其特征在于,所述通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度,包括:
针对于每种特征筛选方式,确定每个特征维度在所述特征筛选方式下的重要性系数;
按照每个特征维度在所述特征筛选方式下的重要性系数,降序排列所述多个特征维度;
将位于前预设位数的特征维度确定为在所述特征筛选方式下的候选维度。
3.根据权利要求1中所述的特征筛选方法,其特征在于,所述将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度,包括:
统计每个候选维度被用于构建训练特征集的构建次数;
针对于每个候选维度,当所述候选维度的构建次数等于特征筛选方式的数量时,将所述候选维度确定为目标特征维度。
4.根据权利要求1中所述的特征筛选方法,其特征在于,所述特征筛选方式包括信息值筛选方式、基尼系数筛选方式、熵筛选方式、熵率筛选方式以及卡方筛选方式中的多种。
5.一种机器建模过程中的特征筛选装置,其特征在于,所述特征筛选装置包括:
获取模块,用于获取每个样本用户在每个特征维度下的待构建用户特征;
第一确定模块,用于通过不同的特征筛选方式,从获取到的多个特征维度中确定出在每种特征筛选方式下用于构建训练特征集的候选维度;
第二确定模块,用于将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度;
构建模块,用于基于各个目标特征维度下的待构建用户特征,构建用于训练用户可信度评估模型的训练特征集。
6.根据权利要求5中所述的特征筛选装置,其特征在于,所述第一确定模块包括:
系数确定单元,用于针对于每种特征筛选方式,确定每个特征维度在所述特征筛选方式下的重要性系数;
排序单元,用于按照每个特征维度在所述特征筛选方式下的重要性系数,降序排列所述多个特征维度;
维度确定单元,用于将位于前预设位数的特征维度确定为在所述特征筛选方式下的候选维度。
7.根据权利要求5中所述的特征筛选装置,其特征在于,所述第二确定模块在用于将在各种特征筛选方式下均用于构建训练特征集的候选维度,确定为目标特征维度时,所述第二确定模块用于:
统计每个候选维度被用于构建训练特征集的构建次数;
针对于每个候选维度,当所述候选维度的构建次数等于特征筛选方式的数量时,将所述候选维度确定为目标特征维度。
8.根据权利要求5中所述的特征筛选装置,其特征在于,所述特征筛选方式包括信息值筛选方式、基尼系数筛选方式、熵筛选方式、熵率筛选方式以及卡方筛选方式中的多种。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至4中任一所述的机器建模过程中的特征筛选的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至4中任一所述的机器建模过程中的特征筛选的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011566617.1A CN112613983B (zh) | 2020-12-25 | 2020-12-25 | 一种机器建模过程中的特征筛选方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011566617.1A CN112613983B (zh) | 2020-12-25 | 2020-12-25 | 一种机器建模过程中的特征筛选方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112613983A true CN112613983A (zh) | 2021-04-06 |
CN112613983B CN112613983B (zh) | 2023-11-21 |
Family
ID=75247911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011566617.1A Active CN112613983B (zh) | 2020-12-25 | 2020-12-25 | 一种机器建模过程中的特征筛选方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613983B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297337A (zh) * | 2021-07-27 | 2021-08-24 | 成方金融科技有限公司 | 一种特征维度的选择方法、装置、介质及电子设备 |
CN114676167A (zh) * | 2022-05-27 | 2022-06-28 | 太平金融科技服务(上海)有限公司深圳分公司 | 用户存留模型的训练方法、用户存留预测方法和装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019019255A1 (zh) * | 2017-07-25 | 2019-01-31 | 平安科技(深圳)有限公司 | 建立预测模型的装置、方法、预测模型建立程序及计算机可读存储介质 |
CN109460825A (zh) * | 2018-10-24 | 2019-03-12 | 阿里巴巴集团控股有限公司 | 用于构建机器学习模型的特征选取方法、装置以及设备 |
WO2019047790A1 (zh) * | 2017-09-08 | 2019-03-14 | 第四范式(北京)技术有限公司 | 生成机器学习样本的组合特征的方法及系统 |
CN109858532A (zh) * | 2019-01-16 | 2019-06-07 | 平安科技(深圳)有限公司 | 一种用户画像方法、装置、可读存储介质及终端设备 |
WO2019129060A1 (zh) * | 2017-12-27 | 2019-07-04 | 第四范式(北京)技术有限公司 | 自动生成机器学习样本的特征的方法及系统 |
CN110019990A (zh) * | 2017-07-14 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 样本筛选的方法和装置、业务对象数据搜索的方法和装置 |
CN110222710A (zh) * | 2019-04-30 | 2019-09-10 | 北京深演智能科技股份有限公司 | 数据处理方法、装置及存储介质 |
CN110348722A (zh) * | 2019-07-01 | 2019-10-18 | 百维金科(上海)信息科技有限公司 | 一种基于XGBoost的互联网金融风控模型 |
CN110390393A (zh) * | 2019-07-02 | 2019-10-29 | 上海上湖信息技术有限公司 | 模型特征筛选方法及装置、可读存储介质 |
CN110544166A (zh) * | 2019-09-05 | 2019-12-06 | 北京三快在线科技有限公司 | 样本生成方法、装置及存储介质 |
CN110991474A (zh) * | 2019-10-12 | 2020-04-10 | 未鲲(上海)科技服务有限公司 | 一种机器学习建模平台 |
CN111784508A (zh) * | 2020-07-01 | 2020-10-16 | 北京知因智慧科技有限公司 | 企业风险评估方法、装置及电子设备 |
CN111783999A (zh) * | 2020-07-01 | 2020-10-16 | 北京知因智慧科技有限公司 | 数据处理方法及装置 |
CN111931848A (zh) * | 2020-08-10 | 2020-11-13 | 中国平安人寿保险股份有限公司 | 数据的特征提取方法、装置、计算机设备及存储介质 |
-
2020
- 2020-12-25 CN CN202011566617.1A patent/CN112613983B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019990A (zh) * | 2017-07-14 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 样本筛选的方法和装置、业务对象数据搜索的方法和装置 |
WO2019019255A1 (zh) * | 2017-07-25 | 2019-01-31 | 平安科技(深圳)有限公司 | 建立预测模型的装置、方法、预测模型建立程序及计算机可读存储介质 |
WO2019047790A1 (zh) * | 2017-09-08 | 2019-03-14 | 第四范式(北京)技术有限公司 | 生成机器学习样本的组合特征的方法及系统 |
WO2019129060A1 (zh) * | 2017-12-27 | 2019-07-04 | 第四范式(北京)技术有限公司 | 自动生成机器学习样本的特征的方法及系统 |
WO2020082865A1 (zh) * | 2018-10-24 | 2020-04-30 | 阿里巴巴集团控股有限公司 | 用于构建机器学习模型的特征选取方法、装置以及设备 |
CN109460825A (zh) * | 2018-10-24 | 2019-03-12 | 阿里巴巴集团控股有限公司 | 用于构建机器学习模型的特征选取方法、装置以及设备 |
CN109858532A (zh) * | 2019-01-16 | 2019-06-07 | 平安科技(深圳)有限公司 | 一种用户画像方法、装置、可读存储介质及终端设备 |
CN110222710A (zh) * | 2019-04-30 | 2019-09-10 | 北京深演智能科技股份有限公司 | 数据处理方法、装置及存储介质 |
CN110348722A (zh) * | 2019-07-01 | 2019-10-18 | 百维金科(上海)信息科技有限公司 | 一种基于XGBoost的互联网金融风控模型 |
CN110390393A (zh) * | 2019-07-02 | 2019-10-29 | 上海上湖信息技术有限公司 | 模型特征筛选方法及装置、可读存储介质 |
CN110544166A (zh) * | 2019-09-05 | 2019-12-06 | 北京三快在线科技有限公司 | 样本生成方法、装置及存储介质 |
CN110991474A (zh) * | 2019-10-12 | 2020-04-10 | 未鲲(上海)科技服务有限公司 | 一种机器学习建模平台 |
CN111784508A (zh) * | 2020-07-01 | 2020-10-16 | 北京知因智慧科技有限公司 | 企业风险评估方法、装置及电子设备 |
CN111783999A (zh) * | 2020-07-01 | 2020-10-16 | 北京知因智慧科技有限公司 | 数据处理方法及装置 |
CN111931848A (zh) * | 2020-08-10 | 2020-11-13 | 中国平安人寿保险股份有限公司 | 数据的特征提取方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
操玮;李灿;贺婷婷;朱卫东;: "基于集成学习的中国P2P网络借贷信用风险预警模型的对比研究", 数据分析与知识发现, no. 10, pages 69 - 80 * |
王丽婷: "基于主题模型的微博热点话题发现", 万方知识平台 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297337A (zh) * | 2021-07-27 | 2021-08-24 | 成方金融科技有限公司 | 一种特征维度的选择方法、装置、介质及电子设备 |
CN113297337B (zh) * | 2021-07-27 | 2021-11-12 | 成方金融科技有限公司 | 一种特征维度的选择方法、装置、介质及电子设备 |
CN114676167A (zh) * | 2022-05-27 | 2022-06-28 | 太平金融科技服务(上海)有限公司深圳分公司 | 用户存留模型的训练方法、用户存留预测方法和装置 |
CN114676167B (zh) * | 2022-05-27 | 2022-08-30 | 太平金融科技服务(上海)有限公司深圳分公司 | 用户存留模型的训练方法、用户存留预测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112613983B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8954910B1 (en) | Device mismatch contribution computation with nonlinear effects | |
CN111144941A (zh) | 商户评分的生成方法、装置、设备及可读存储介质 | |
CN112613983B (zh) | 一种机器建模过程中的特征筛选方法、装置及电子设备 | |
CN109711424A (zh) | 一种基于决策树的行为规则获取方法、装置及设备 | |
CN109543940B (zh) | 活动评估方法、装置、电子设备及存储介质 | |
Luchman | Determining subgroup difference importance with complex survey designs: An application of weighted dominance analysis | |
CN112686312A (zh) | 一种数据分类方法、装置及系统 | |
CN111861521A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN112328869A (zh) | 一种用户贷款意愿的预测方法、装置及计算机系统 | |
CN107885754B (zh) | 基于lda模型从交易数据中提取信用变量的方法和装置 | |
US9928516B2 (en) | System and method for automated analysis of data to populate natural language description of data relationships | |
CN111861667A (zh) | 车辆推荐方法及装置、电子设备、存储介质 | |
CN111858245A (zh) | 一种异常数据的分析方法、装置、电子设备及存储介质 | |
CN111291567A (zh) | 人工标注质量的评估方法、装置、电子设备及存储介质 | |
CN114004691A (zh) | 基于融合算法的额度评分方法、装置、设备及存储介质 | |
CN110955774B (zh) | 基于词频分布的文字分类方法、装置、设备及介质 | |
CN111833080B (zh) | 信息推送的方法、装置、电子设备和计算机可读存储介质 | |
CN112184415A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN107832578A (zh) | 基于态势变化模型的数据处理方法及装置 | |
CN109190013B (zh) | 用户偏好的确定方法、系统、可读存储介质及电子设备 | |
CN111340540A (zh) | 广告推荐模型的监控方法、推荐方法及装置 | |
CN110717787A (zh) | 一种用户的分类方法及装置 | |
CN111090805A (zh) | 推荐指数归因方法、装置及电子设备 | |
CN113934751B (zh) | 指标价值衡量方法、设备及计算机可读存储介质 | |
CN110245775B (zh) | 用户收支数据的分析方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |