CN114240149A - 用户特征项筛选方法、装置及电子设备 - Google Patents
用户特征项筛选方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114240149A CN114240149A CN202111547547.XA CN202111547547A CN114240149A CN 114240149 A CN114240149 A CN 114240149A CN 202111547547 A CN202111547547 A CN 202111547547A CN 114240149 A CN114240149 A CN 114240149A
- Authority
- CN
- China
- Prior art keywords
- user
- item
- feature
- items
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Technology Law (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种用户特征项筛选方法、装置及电子设备,利用特征项的信息值、方差膨胀系数、假设检验机率值、相关系数等指标综合进行特征筛选,且筛选过程不是简单的对单维度筛选结果求交集,而是将多维度条件融合起来进行特征筛选,保证特征筛选的结果对模型效果贡献更大且筛选过程耗时更短。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种用户特征项筛选方法、装置及电子设备。
背景技术
随着大数据分析技术的发展,大数据分析被广泛地应用在各行各业。例如,在金融领域的一些场景中需要根据用户的各种用户特征数据(如,用户的年龄、工作类型、收入、历史借贷情况等)进行大数据分析,以预测用户是否存在还贷风险。但是,在分析过程中,不同用户特征项目之间可能存在冗余或不具有分析意义的特征项,为了提高数据分析效率,减少不必要运算资源浪费,通常需要筛选有意义的用户特征进行建模分析。在一些现有实现方式包括前序、后序遍历,但是前序、后序遍历循环获得新特征组合并依次建模作比较时间开销大。或者采用信息值(Information Value,IV)、方差膨胀系数(variance inflationfactor,VIF)、假设检验机率值(p-value)、相关系数(Correlation coefficient)等来对特征进行独立地筛选,但在综合多个指标对结果求交集时,可能损失一些对目标函数有用的特征。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种用户特征项筛选方法,所述方法包括:
获取多个用户样本,所述用户样本包括样本标签及多个用户特征项,所述样本标签用于指示对应的用户为风险用户或非风险用户;
获得每个所述用户特征项对应的信息值,并对各个所述信息值进行归一化;
计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数;
获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项;
从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项;其中,所述剔除特征项为在去掉该用户特征项后,可以使所述第一目标用户特征项的第一方差膨胀系数小于所述第一阈值的用户特征项中,特征表现能力最差的用户特征项;
将所述剔除特征项从所述特征项序列中删除,获得新的特征项序列,并返回执行计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数的步骤,直至所述特征项序列中的所有用户特征项对应的第一方差膨胀系数都小于所述第一阈值;
若所述特征项序列中剩余的用户特征项个数大于第二阈值,则计算所述特征项序列中各所述用户特征项对应的假设检验机率值,并将所述假设检验机率值最大的第二阈值个用户特征项确定有效用户特征项;
若所述特征项序列中剩余的用户特征项个数不大于第二阈值,则将所述特征项序列中的用户特征项确定有效用户特征项;
使用各所述用户样本中所述有效用户特征项的数据对所述用户分类模型进行训练。
在一种可能的实现方式中,所述获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项的步骤,包括:
按照所述相关系数从大到小的顺序对所述多个用户特征项进行排序,获得特征项序列;
将所述相关系数最大的用户特征项作为第一目标用户特征项;
检测所述第一目标用户特征项对应的第一方差膨胀系数是否大于第一阈值;
若不大于,选取所述特征项序列中所述第一目标用户特征项的下一个用户特征项作为新的第一目标用户特征项;
若大于,则保持所述第一目标用户特征项。
在一种可能的实现方式中,所述从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项的步骤,包括:
将所述特征项序列的最后一个用户特征项作为第二目标用户特征项;
若所述第二目标用户特征项不为所述第一目标用户特征项,则检测所述第二目标用户特征项的第一方差膨胀系数是否大于所述第一阈值;
若不大于,选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;
若大于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,计算所述第一目标用户特征项的第二方差膨胀系数,并检查所述第二方差膨胀系数是否小于所述第一阈值;
若不小于,则选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;
若小于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,对所述用户分类模型进行训练,获取并记录所述用户分类模型的目标函数结果,然后选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;
若所述第二目标用户特征项为所述第一目标用户特征项,则获取得出的多个所述目标函数结果,根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项。
在一种可能的实现方式中,所述根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项的步骤,包括:
根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,按照的预设判定优先级确定出特征表现最差的一个用户特征项作为剔除特征项,所述判定优先级从高到低的顺序为目标函数结果更大、信息值更小、假设检验机率值更大。
本申请的另一目的在于提供一种用户特征项筛选装置,所述用户特征项筛选装置包括:
数据获取模块,用于获取多个用户样本,所述用户样本包括样本标签及多个用户特征项,所述样本标签用于指示对应的用户为风险用户或非风险用户;
第一数据处理模块,用于获得每个所述用户特征项对应的信息值,并对各个所述信息值进行归一化;
第二数据处理模块,用于计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数;
第三数据处理模块,用于获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项;
第四数据处理模块,用于从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项;其中,所述剔除特征项为在去掉该用户特征项后,可以使所述第一目标用户特征项的第一方差膨胀系数小于所述第一阈值的用户特征项中,特征表现能力最差的用户特征项;
第五数据处理模块,用于将所述剔除特征项从所述特征项序列中删除,获得新的特征项序列,并返回执行计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数的步骤,直至所述特征项序列中的所有用户特征项对应的第一方差膨胀系数都小于所述第一阈值;
第六数据处理模块,用于若所述特征项序列中剩余的用户特征项个数大于第二阈值,则计算所述特征项序列中各所述用户特征项对应的假设检验机率值,并将所述假设检验机率值最大的第二阈值个用户特征项确定有效用户特征项;
第七数据处理模块,用于若所述特征项序列中剩余的用户特征项个数不大于第二阈值,则将所述特征项序列中的用户特征项确定有效用户特征项;
模型训练模块,用于使用各所述用户样本中所述有效用户特征项的数据对所述用户分类模型进行训练。
在一种可能的实现方式中,所述第三数据处理模块具体用于按照所述相关系数从大到小的顺序对所述多个用户特征项进行排序,获得特征项序列;将所述相关系数最大的用户特征项作为第一目标用户特征项;检测所述第一目标用户特征项对应的第一方差膨胀系数是否大于第一阈值;若不大于,选取所述特征项序列中所述第一目标用户特征项的下一个用户特征项作为新的第一目标用户特征项;若大于,则保持所述第一目标用户特征项。
在一种可能的实现方式中,所述第四数据处理模块具体用于将所述特征项序列的最后一个用户特征项作为第二目标用户特征项;若所述第二目标用户特征项不为所述第一目标用户特征项,则检测所述第二目标用户特征项的第一方差膨胀系数是否大于所述第一阈值;若不大于,选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;若大于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,计算所述第一目标用户特征项的第二方差膨胀系数,并检查所述第二方差膨胀系数是否小于所述第一阈值;若不小于,则选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;若小于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,对所述用户分类模型进行训练,获取并记录所述用户分类模型的目标函数结果,然后选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;若所述第二目标用户特征项为所述第一目标用户特征项,则获取得出的多个所述目标函数结果,根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项。
在一种可能的实现方式中,所述第四数据处理模块在根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项时,根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,按照的预设判定优先级确定出特征表现最差的一个用户特征项作为剔除特征项,所述判定优先级从高到低的顺序为目标函数结果更大、信息值更小、假设检验机率值更大。
本申请的另一目的在于提供一种电子设备,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本申请提供的用户特征项筛选方法。
本申请的另一目的在于提供一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个或多个处理器执行时,实现本申请提供的用户特征项筛选方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请提供的用户特征项筛选方法、装置及电子设备,利用特征项的信息值、方差膨胀系数、假设检验机率值、相关系数等指标综合进行特征筛选,且筛选过程不是简单的对单维度筛选结果求交集,而是将多维度条件融合起来进行特征筛选,保证特征筛选的结果对模型效果贡献更大且筛选过程耗时更短。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的示意图;
图2为本申请实施例提供的用户特征项筛选方法的流程示意图;
图3为本申请实施例提供的用户特征项筛选装置的功能模块示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
请参照图1,图1是本申请较佳实施例提供的电子设备100,所述电子设备100可以是,但不限于,服务器、台式个人电脑、笔记本电脑、工作站等具有数字处理能力的设备。所述电子设备100包括用户特征项筛选装置110、机器可读存储介质120及处理器130。
所述机器可读存储介质120、处理器130以及通信单元140各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述用户特征项筛选装置110包括至少一个可以软件或固件(firmware)的形式存储于所述机器可读存储介质120中或固化在所述电子设备100的操作系统(operating system,OS)中的软件功能模块。所述处理器130用于执行所述机器可读存储介质120中存储的可执行模块,例如所述用户特征项筛选装置110所包括的软件功能模块及计算机程序等。
其中,所述机器可读存储介质120可以是,但不限于,随机存取存储器(RandomAccess Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。其中,机器可读存储介质120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参照图2,图2为应用于图1所示的电子设备100的一种用户特征项筛选方法的流程图,以下将对所述方法包括各个步骤进行详细阐述。
步骤S110,获取多个用户样本,所述用户样本包括样本标签及多个用户特征项,所述样本标签用于指示对应的用户为风险用户或非风险用户。
在本实施例中,所述用户特征项可以包括用户的年龄、工作类型、个人收入、学历、历史借贷情况、家庭收入、房产情况、社交网络等数据。所述风险用户为被标识为可能存在还贷风险的用户,所述非风险用户为被标识为可能不存在还贷风险的用户。
步骤S120获得每个所述用户特征项对应的信息值,并对各个所述信息值进行归一化。
在本实施例中,为了方便信息值(IV)的比对处理,可以对各个所述用户特征项的信息值进行归一化处理,转换至相同的数据区间。
步骤S130,计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数。
在本实施例中,开可以根据当前的多个用户特征项,分别计算每个所述用户特征项的第一方差膨胀系数。然后通过所述用户分类模型处理个用户样本,并获得各个用户特征项对应的假设检验机率值(p-value)及相关系数。
步骤S140,获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项。
具体地,在本实施例中,按照所述相关系数从大到小的顺序对所述多个用户特征项进行排序,获得特征项序列。然后将所述相关系数最大的用户特征项作为第一目标用户特征项,并检测所述第一目标用户特征项对应的第一方差膨胀系数是否大于第一阈值。
若不大于,选取所述特征项序列中所述第一目标用户特征项的下一个用户特征项作为新的第一目标用户特征项。
若大于,则保持所述第一目标用户特征项。
步骤S150,从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项。其中,所述剔除特征项为在去掉该用户特征项后,可以使所述第一目标用户特征项的第一方差膨胀系数小于所述第一阈值的用户特征项中,特征表现能力最差的用户特征项。
具体地,在本实施例中,步骤S150可以包括以下子步骤。
步骤S151,将所述特征项序列的最后一个用户特征项作为第二目标用户特征项;
步骤S152,若所述第二目标用户特征项不为所述第一目标用户特征项,则检测所述第二目标用户特征项的第一方差膨胀系数是否大于所述第一阈值;
步骤S153,若不大于,选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;
步骤S154,若大于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,计算所述第一目标用户特征项的第二方差膨胀系数,并检查所述第二方差膨胀系数是否小于所述第一阈值;
步骤S155,若不小于,则选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;
步骤S156,若小于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,对所述用户分类模型进行训练,获取并记录所述用户分类模型的目标函数结果,然后选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;
步骤S157,若所述第二目标用户特征项为所述第一目标用户特征项,则获取得出的多个所述目标函数结果,根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项。
其中,可以根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,按照的预设判定优先级确定出特征表现最差的一个用户特征项作为剔除特征项,所述判定优先级从高到低的顺序为目标函数结果更大、信息值更小、假设检验机率值更大。
例如,可以从多个所述目标函数结果中选择目标函数结果最大用户特征项,如果几个目标函数结果的相差不大时(如差值在设定范围阈值内),则可以选择信息值相对更小的与用户特征项。若对应的信息值也相差不大,则可以选择假设检验几率值最大的特征项作为所述剔除特征项。
步骤S160,将所述剔除特征项从所述特征项序列中删除,获得新的特征项序列,并返回执行计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数的步骤,直至所述特征项序列中的所有用户特征项对应的第一方差膨胀系数都小于所述第一阈值。
步骤S170,若所述特征项序列中剩余的用户特征项个数大于第二阈值,则计算所述特征项序列中各所述用户特征项对应的假设检验机率值,并将所述假设检验机率值最大的第二阈值个用户特征项确定有效用户特征项。
步骤S180,若所述特征项序列中剩余的用户特征项个数不大于第二阈值,则将所述特征项序列中的用户特征项确定有效用户特征项。
步骤S190,使用各所述用户样本中所述有效用户特征项的数据对所述用户分类模型进行训练。
请参照图3,本实施例还提供一种用户特征项筛选装置110,用户特征项筛选装置110包括至少一个可以软件形式存储于机器可读存储介质120中的功能模块。从功能上划分,用户特征项筛选装置110可以包括数据获取模块111、第一数据处理模块112、第二数据处理模块113、第三数据处理模块114、第四数据处理模块115、第五数据处理模块116、第六数据处理模块117、第七数据处理模块118及模型训练模块119。
所述数据获取模块111用于获取多个用户样本,所述用户样本包括样本标签及多个用户特征项,所述样本标签用于指示对应的用户为风险用户或非风险用户。
本实施例中,所述数据获取模块111可用于执行图1所示的步骤S110,关于所述数据获取模块111的具体描述可参对所述步骤S110的描述。
所述第一数据处理模块112用于获得每个所述用户特征项对应的信息值,并对各个所述信息值进行归一化。
本实施例中,所述第一数据处理模块112可用于执行图1所示的步骤S120,关于所述第一数据处理模块112的具体描述可参对所述步骤S120的描述。
所述第二数据处理模块113用于计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数。
本实施例中,所述第二数据处理模块113可用于执行图1所示的步骤S130,关于所述第二数据处理模块113的具体描述可参对所述步骤S130的描述。
所述第三数据处理模块114用于获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项。
本实施例中,所述第三数据处理模块114可用于执行图1所示的步骤S140,关于所述第三数据处理模块114的具体描述可参对所述步骤S140的描述。
所述第四数据处理模块115用于从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项。其中,所述剔除特征项为在去掉该用户特征项后,可以使所述第一目标用户特征项的第一方差膨胀系数小于所述第一阈值的用户特征项中,特征表现能力最差的用户特征项。
本实施例中,所述第四数据处理模块115可用于执行图1所示的步骤S150,关于所述第四数据处理模块115的具体描述可参对所述步骤S150的描述。
所述第五数据处理模块116用于将所述剔除特征项从所述特征项序列中删除,获得新的特征项序列,并返回执行计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数的步骤,直至所述特征项序列中的所有用户特征项对应的第一方差膨胀系数都小于所述第一阈值。
本实施例中,所述第五数据处理模块116可用于执行图1所示的步骤S160,关于所述第五数据处理模块116的具体描述可参对所述步骤S160的描述。
所述第六数据处理模块117用于若所述特征项序列中剩余的用户特征项个数大于第二阈值,则计算所述特征项序列中各所述用户特征项对应的假设检验机率值,并将所述假设检验机率值最大的第二阈值个用户特征项确定有效用户特征项。
本实施例中,所述第六数据处理模块117可用于执行图1所示的步骤S170,关于所述第六数据处理模块117的具体描述可参对所述步骤S170的描述。
所述第七数据处理模块118用于若所述特征项序列中剩余的用户特征项个数不大于第二阈值,则将所述特征项序列中的用户特征项确定有效用户特征项。
本实施例中,所述第七数据处理模块118可用于执行图1所示的步骤S180,关于所述第七数据处理模块118的具体描述可参对所述步骤S180的描述。
所述模型训练模块119用于使用各所述用户样本中所述有效用户特征项的数据对所述用户分类模型进行训练。
本实施例中,所述模型训练模块119可用于执行图1所示的步骤S190,关于所述模型训练模块119的具体描述可参对所述步骤S190的描述。
在一种可能的实现方式中,所述第三数据处理模块114具体用于按照所述相关系数从大到小的顺序对所述多个用户特征项进行排序,获得特征项序列。将所述相关系数最大的用户特征项作为第一目标用户特征项。检测所述第一目标用户特征项对应的第一方差膨胀系数是否大于第一阈值。若不大于,选取所述特征项序列中所述第一目标用户特征项的下一个用户特征项作为新的第一目标用户特征项。若大于,则保持所述第一目标用户特征项。
在一种可能的实现方式中所述第四数据处理模块115具体用于将所述特征项序列的最后一个用户特征项作为第二目标用户特征项。若所述第二目标用户特征项不为所述第一目标用户特征项,则检测所述第二目标用户特征项的第一方差膨胀系数是否大于所述第一阈值。若不大于,选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项。若大于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,计算所述第一目标用户特征项的第二方差膨胀系数,并检查所述第二方差膨胀系数是否小于所述第一阈值。若不小于,则选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项。若小于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,对所述用户分类模型进行训练,获取并记录所述用户分类模型的目标函数结果,然后选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项。若所述第二目标用户特征项为所述第一目标用户特征项,则获取得出的多个所述目标函数结果,根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项。
在一种可能的实现方式中所述第四数据处理模块115在根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项时,根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,按照的预设判定优先级确定出特征表现最差的一个用户特征项作为剔除特征项,所述判定优先级从高到低的顺序为目标函数结果更大、信息值更小、假设检验机率值更大。
综上所述,本申请提供的用户特征项筛选方法、装置及电子设备,利用特征项的信息值、方差膨胀系数、假设检验机率值、相关系数等指标综合进行特征筛选,且筛选过程不是简单的对单维度筛选结果求交集,而是将多维度条件融合起来进行特征筛选,保证特征筛选的结果对模型效果贡献更大且筛选过程耗时更短。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种用户特征项筛选方法,其特征在于,所述方法包括:
获取多个用户样本,所述用户样本包括样本标签及多个用户特征项,所述样本标签用于指示对应的用户为风险用户或非风险用户;
获得每个所述用户特征项对应的信息值,并对各个所述信息值进行归一化;
计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数;
获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项;
从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项;其中,所述剔除特征项为在去掉该用户特征项后,可以使所述第一目标用户特征项的第一方差膨胀系数小于所述第一阈值的用户特征项中,特征表现能力最差的用户特征项;
将所述剔除特征项从所述特征项序列中删除,获得新的特征项序列,并返回执行计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数的步骤,直至所述特征项序列中的所有用户特征项对应的第一方差膨胀系数都小于所述第一阈值;
若所述特征项序列中剩余的用户特征项个数大于第二阈值,则计算所述特征项序列中各所述用户特征项对应的假设检验机率值,并将所述假设检验机率值最大的第二阈值个用户特征项确定有效用户特征项;
若所述特征项序列中剩余的用户特征项个数不大于第二阈值,则将所述特征项序列中的用户特征项确定有效用户特征项;
使用各所述用户样本中所述有效用户特征项的数据对所述用户分类模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项的步骤,包括:
按照所述相关系数从大到小的顺序对所述多个用户特征项进行排序,获得特征项序列;
将所述相关系数最大的用户特征项作为第一目标用户特征项;
检测所述第一目标用户特征项对应的第一方差膨胀系数是否大于第一阈值;
若不大于,选取所述特征项序列中所述第一目标用户特征项的下一个用户特征项作为新的第一目标用户特征项;
若大于,则保持所述第一目标用户特征项。
3.根据权利要求2所述的方法,其特征在于,所述从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项的步骤,包括:
将所述特征项序列的最后一个用户特征项作为第二目标用户特征项;
若所述第二目标用户特征项不为所述第一目标用户特征项,则检测所述第二目标用户特征项的第一方差膨胀系数是否大于所述第一阈值;
若不大于,选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;
若大于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,计算所述第一目标用户特征项的第二方差膨胀系数,并检查所述第二方差膨胀系数是否小于所述第一阈值;
若不小于,则选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;
若小于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,对所述用户分类模型进行训练,获取并记录所述用户分类模型的目标函数结果,然后选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;
若所述第二目标用户特征项为所述第一目标用户特征项,则获取得出的多个所述目标函数结果,根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项。
4.根据权利要求3所述的方法,其特征在于,所述根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项的步骤,包括:
根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,按照的预设判定优先级确定出特征表现最差的一个用户特征项作为剔除特征项,所述判定优先级从高到低的顺序为目标函数结果更大、信息值更小、假设检验机率值更大。
5.一种用户特征项筛选装置,其特征在于,所述用户特征项筛选装置包括:
数据获取模块,用于获取多个用户样本,所述用户样本包括样本标签及多个用户特征项,所述样本标签用于指示对应的用户为风险用户或非风险用户;
第一数据处理模块,用于获得每个所述用户特征项对应的信息值,并对各个所述信息值进行归一化;
第二数据处理模块,用于计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数;
第三数据处理模块,用于获得由各所述用户特征项组成的特征项序列,将所述第一方差膨胀系数大于第一阈值的用户特征项中,相关系数最大的用户特征项确定为第一目标用户特征项;
第四数据处理模块,用于从除所述第一目标用户特征项以外的其他用户特征项中,确定出剔除特征项;其中,所述剔除特征项为在去掉该用户特征项后,可以使所述第一目标用户特征项的第一方差膨胀系数小于所述第一阈值的用户特征项中,特征表现能力最差的用户特征项;
第五数据处理模块,用于将所述剔除特征项从所述特征项序列中删除,获得新的特征项序列,并返回执行计算各所述用户特征项对应的第一方差膨胀系数,并将各所述用户样本输入用户分类模型进行处理,获得各所述用户特征项的假设检验机率值及相关系数的步骤,直至所述特征项序列中的所有用户特征项对应的第一方差膨胀系数都小于所述第一阈值;
第六数据处理模块,用于若所述特征项序列中剩余的用户特征项个数大于第二阈值,则计算所述特征项序列中各所述用户特征项对应的假设检验机率值,并将所述假设检验机率值最大的第二阈值个用户特征项确定有效用户特征项;
第七数据处理模块,用于若所述特征项序列中剩余的用户特征项个数不大于第二阈值,则将所述特征项序列中的用户特征项确定有效用户特征项;
模型训练模块,用于使用各所述用户样本中所述有效用户特征项的数据对所述用户分类模型进行训练。
6.根据权利要求5所述的装置,其特征在于,所述第三数据处理模块具体用于按照所述相关系数从大到小的顺序对所述多个用户特征项进行排序,获得特征项序列;将所述相关系数最大的用户特征项作为第一目标用户特征项;检测所述第一目标用户特征项对应的第一方差膨胀系数是否大于第一阈值;若不大于,选取所述特征项序列中所述第一目标用户特征项的下一个用户特征项作为新的第一目标用户特征项;若大于,则保持所述第一目标用户特征项。
7.根据权利要求6所述的装置,其特征在于,所述第四数据处理模块具体用于将所述特征项序列的最后一个用户特征项作为第二目标用户特征项;若所述第二目标用户特征项不为所述第一目标用户特征项,则检测所述第二目标用户特征项的第一方差膨胀系数是否大于所述第一阈值;若不大于,选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;若大于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,计算所述第一目标用户特征项的第二方差膨胀系数,并检查所述第二方差膨胀系数是否小于所述第一阈值;若不小于,则选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;若小于,则根据除所述第二目标用户特征项以外的所述特征项序列中其他的所有用户特征项,对所述用户分类模型进行训练,获取并记录所述用户分类模型的目标函数结果,然后选取所述特征项序列中所述第二目标用户特征项的上一个用户特征项作为新的第二目标用户特征项;若所述第二目标用户特征项为所述第一目标用户特征项,则获取得出的多个所述目标函数结果,根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项。
8.根据权利要求7所述的装置,其特征在于,所述第四数据处理模块在根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,确定特征表现最差的一个用户特征项作为剔除特征项时,根据多个所述目标函数结果以及各所述目标函数结果对应的用户特征项的信息值、假设检验机率值,按照的预设判定优先级确定出特征表现最差的一个用户特征项作为剔除特征项,所述判定优先级从高到低的顺序为目标函数结果更大、信息值更小、假设检验机率值更大。
9.一种电子设备,其特征在于,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现权利要求1-4任意一项所述的方法。
10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个或多个处理器执行时,实现权利要求1-4任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111547547.XA CN114240149A (zh) | 2021-12-16 | 2021-12-16 | 用户特征项筛选方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111547547.XA CN114240149A (zh) | 2021-12-16 | 2021-12-16 | 用户特征项筛选方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114240149A true CN114240149A (zh) | 2022-03-25 |
Family
ID=80757532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111547547.XA Pending CN114240149A (zh) | 2021-12-16 | 2021-12-16 | 用户特征项筛选方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114240149A (zh) |
-
2021
- 2021-12-16 CN CN202111547547.XA patent/CN114240149A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633265B (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
US10789225B2 (en) | Column weight calculation for data deduplication | |
US20220180369A1 (en) | Fraud detection device, fraud detection method, and fraud detection program | |
CN113852603A (zh) | 网络流量的异常检测方法、装置、电子设备和可读介质 | |
CN110688536A (zh) | 一种标签预测方法、装置、设备和存储介质 | |
CN108399115B (zh) | 一种运维操作检测方法、装置及电子设备 | |
CN111062642A (zh) | 对象的行业风险程度识别方法、装置以及电子设备 | |
CN115422028A (zh) | 标签画像体系的可信度评估方法、装置、电子设备及介质 | |
US8543552B2 (en) | Detecting statistical variation from unclassified process log | |
Canbek | Gaining insights in datasets in the shade of “garbage in, garbage out” rationale: Feature space distribution fitting | |
CN117593115A (zh) | 信贷风险评估模型的特征值确定方法、装置、设备和介质 | |
JP2013182468A (ja) | パラメータ値設定誤り検出システム、パラメータ値設定誤り検出方法およびパラメータ値設定誤り検出プログラム | |
CN109409091B (zh) | 检测Web页面的方法、装置、设备以及计算机存储介质 | |
CN112395179B (zh) | 一种模型训练方法、磁盘预测方法、装置及电子设备 | |
CN111783883A (zh) | 一种异常数据的检测方法及装置 | |
CN114240149A (zh) | 用户特征项筛选方法、装置及电子设备 | |
CN115470034A (zh) | 一种日志分析方法、设备及存储介质 | |
CN111382052A (zh) | 代码质量评价方法、装置及电子设备 | |
CN115509853A (zh) | 一种集群数据异常检测方法及电子设备 | |
CN115329872A (zh) | 一种基于对比学习的敏感属性识别方法及装置 | |
CN114116688A (zh) | 数据处理与数据质检方法、装置及可读存储介质 | |
EP3163463A1 (en) | A correlation estimating device and the related method | |
CN115576850B (zh) | 数据指标测试方法、装置、电子设备及存储介质 | |
Yu et al. | Performance of the Shiryaev‐Roberts‐type scheme in comparison to the CUSUM and EWMA schemes in monitoring weibull scale parameter based on Type I censored data | |
CN114444601A (zh) | 特征数据项筛选方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |