CN111291816B - 针对用户分类模型进行特征处理的方法及装置 - Google Patents
针对用户分类模型进行特征处理的方法及装置 Download PDFInfo
- Publication number
- CN111291816B CN111291816B CN202010097814.7A CN202010097814A CN111291816B CN 111291816 B CN111291816 B CN 111291816B CN 202010097814 A CN202010097814 A CN 202010097814A CN 111291816 B CN111291816 B CN 111291816B
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- node
- user
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种针对用户分类模型进行特征处理的方法和装置。方法包括,首先获取标签数据表和第一特征表,每个第一特征表记录用户的若干项特征。针对各个第一特征表中的各项特征,计算特征IV值,并基于IV值对特征进行第一筛选操作,得到对应的第二特征表。然后,将第二特征表和其中的特征分别作为第一类节点和第二类节点,构建二部图,在该二部图中确定出,连接到所有第二类节点的最小数目的第一类节点,进而得到对应的M个第二特征表。接着,合并该M个第二特征表,得到综合特征表,并基于该综合特征表,计算特征之间的相关系数;基于相关系数,对特征进行第二筛选操作,得到多项选中特征,用于训练用户分类模型。
Description
技术领域
本说明书一个或多个实施例涉及机器学习领域,尤其涉及针对用户分类模型进行特征处理的方法和装置。
背景技术
随着人工智能和机器学习的快速发展,在多种业务场景中开始使用机器学习的模型进行业务分析。例如,在许多应用场景中,需要对用户进行分类识别,例如,识别用户的风险等级,区分用户所属的人群,等等。为此,常常需要训练用户分类模型,来进行与业务相关的用户识别和用户分类。
特征的选择和处理是模型训练的基础。对于用户分类模型来说,为了训练出性能优异,预测准确的模型,就需要从大量用户特征中选择出与预测目标更为相关、更能反映用户特点的特征,来进行模型训练。
在实际场景中,备选的大量用户特征往往分布于许多不同的数据表中,而数据表之间的关联综合需要极大的计算开销,这为特征的快速统一分析带来很大困难。此外,在一些情况下需要针对多个不同主体,针对性训练多个用户分类模型。例如,支付平台可能需要针对不同的大型支付主体(例如不同银行),定制用户风险识别模型;购物平台可能需要针对不同的商户,定制用户价值分类模型。面对数量较多的同类型定制模型,如何快速地进行特征选择和处理,成为特征工程的另一项挑战。
因此,希望能有改进的方案,可以更为高效地针对用户分类模型进行特征选择和处理,从而实现快速的自动化建模。
发明内容
本说明书一个或多个实施例描述了一种针对用户分类模型进行特征处理的方法和装置,解决现有特征工程中特征选择效率不足的问题,高效地针对用户分类模型进行特征选择和处理,从而实现快速的自动化建模。
根据第一方面,提供了一种针对用户分类模型进行特征处理的方法,包括:
获取标签数据表以及获取N个第一特征表,所述标签数据表中包括用户的类别标签,每个所述第一特征表记录用户的若干项特征;
针对每个第一特征表,结合所述标签数据表确定各项特征的信息价值IV,基于所述信息价值IV对特征进行第一筛选操作,得到对应的第二特征表;
以各个第二特征表为第一类节点,以所述第二特征表中包含的特征为第二类节点,以第二特征表与特征的包含关系为连接边,构建二部图;
在所述二部图中确定出第一节点集合,其中包含连接到所有第二类节点的最小数目的第一类节点,从而得到与该第一节点集合中的第一类节点对应的M个第二特征表;
合并所述M个第二特征表,得到综合特征表,并基于该综合特征表,计算特征之间的相关系数;
基于所述相关系数,对特征进行第二筛选操作,得到多项选中特征,用于训练所述用户分类模型。
在一个实施例中,上述N个第一特征表可以包括,从多个数据平台获取的各自统计的用户特征表。
在另一实施例中,所述标签数据表中还包括用户的至少一项特征;在这样的情况下,N个第一特征表可以包括,基于该至少一项特征,生成的第一特征表。
在不同实施例中,用户的类别标签可以包括以下之一:用户的风险等级标签,用户所属的营销人群标签,用户的信用等级标签。
根据一种实施方式,在结合所述标签数据表确定各项特征的信息价值IV之前,还包括对各个第一特征表进行预处理,所述预处理包括:统计各项特征的特征值缺失率,将缺失率大于预定缺失阈值的特征剔除;对于各个第一特征表中保留的特征,用统一的缺省值替代缺失的特征值。
根据一个实施例,第一特征表和标签数据表均以用户标识信息为主键,所述用户标识信息包括以下之一:账户ID,手机号,邮箱地址。
在一个实施例中,结合所述标签数据表确定各项特征的信息价值IV具体可以包括以下步骤:从任意一个第一特征表中获取各个用户针对任意的第一特征的第一特征值,将各个第一特征值排序形成第一特征值序列;利用用户标识信息关联标签数据表和该第一特征表,得到标签值序列,该标签值序列与第一特征值序列关于用户顺序相对齐;根据所述第一特征值序列对用户进行分箱;基于所述标签值序列,统计各个分箱中所述类别标签的标签值分布情况;根据各个分箱的标签值分布情况,确定所述第一特征的信息价值IV。
进一步地,在一个实施例中,标签数据表还包括,所述类别标签的标注时间;所述第一特征表包括,用户针对所述第一特征在不同采集时间采集的多个特征值,以及该多个特征值对应的采集时间戳;在这样的情况下,第一特征值通过以下方式获取:对于每个用户,在针对第一特征采集的多个特征值中,确定采集时间戳早于所述标注时间,且距离所述标注时间最近的特征值,作为该用户针对第一特征的特征值。
根据一个实施例,在所述二部图中确定出第一节点集合的过程具体包括:在当前二部图包含的第一类节点中,确定出连接边数目最大的节点作为选中节点,将该选中节点添加到选中节点集合;更新当前二部图,包括,删除该选中节点以及与该选中节点相连接的第二类节点;根据删除后的第二类节点,更新其余第一类节点的连接边,并删除不再具有连接边的第一类节点;重复执行以上步骤,直到更新后的二部图不包含任何节点,将此时的选中节点集合作为所述第一节点集合。
在以上实施例的一个例子中,如果存在多个第一类节点具有相同的最大连接边数目,则分别确定该多个第一类节点中各第一类节点所连接的非重复节点的数目,所述非重复节点为,仅有一条连接边的第二类节点;将所连接的非重复节点的数目最大的第一类节点,确定为所述选中节点。
更进一步的,如果存在多于一个第一类节点连接到相同的最大数目的非重复节点,则从该多于一个第一类节点中随机选择一个作为所述选中节点。
根据一种实施方式,第二筛选操作通过以下方式执行:对于所述综合特征表中每一项特征,如果该特征与任何其他特征之间的相关系数高于预定相关性阈值,则剔除该项特征,由此得到保留特征集合;基于该保留特征集合,确定所述多项选中特征。
进一步地,在一个实施例中,可以将所述保留特征集合中的各项特征按照信息价值IV的大小排序,选取IV值较大的预定数目的特征,作为所述多项选中特征。
根据另一种实施方式,可以通过以下方式执行第二筛选操作:对于所述综合特征表中每一项特征,计算该特征与其他各项特征之间的相关系数的均值;将所述综合特征表中的各项特征,按照相关系数的均值大小进行排序,选取均值较小的预定数目的特征作为所述多项选中特征。
根据一种实施方式,在所述得到多项选中特征之后,基于所述多项选中特征,以及所述标签数据表,训练所述用户分类模型,并评估其性能;在所述用户分类模型的性能评估满足预设要求的情况下,在特征池中添加所述多项选中特征的特征信息,以供其他预测模型选择。
在一个具体例子中,所述多项选中特征的特征信息包括,各项选中特征的特征名,该特征所来自的第一特征表的表名,该特征被模型使用的使用信息。
在一个实施例中,在训练的用户分类模型的性能评估不满足预设要求的情况下,使用若干特征衍生工具,生成若干衍生特征,形成衍生特征表;将所述衍生特征表合并到所述综合特征表中,得到更新的综合特征表;并基于该更新的综合特征表,计算特征之间的相关系数;基于所述相关系数,再次对特征进行第二筛选操作,得到扩展的选中特征,用于再次训练所述用户分类模型。
在具体例子中,所述若干衍生特征包括以下中的一项或多项:基于基础特征的累积特征,基于基础特征的组合特征,序列特征,与用户关系网络相关的图特征。
根据第二方面,提供了一种针对用户分类模型进行特征处理的装置,包括:
第一获取单元,配置为获取标签数据表以及获取N个第一特征表,所述标签数据表中包括用户的类别标签,每个所述第一特征表记录用户的若干项特征;
第一筛选单元,配置为针对每个第一特征表,结合所述标签数据表确定各项特征的信息价值IV,基于所述信息价值IV对特征进行第一筛选操作,得到对应的第二特征表;
二部图构建单元,配置为以各个第二特征表为第一类节点,以所述第二特征表中包含的特征为第二类节点,以第二特征表与特征的包含关系为连接边,构建二部图;
节点集确定单元,配置为在所述二部图中确定出第一节点集合,其中包含连接到所有第二类节点的最小数目的第一类节点,从而得到与该第一节点集合中的第一类节点对应的M个第二特征表;
相关性计算单元,配置为合并所述M个第二特征表,得到综合特征表,并基于该综合特征表,计算特征之间的相关系数;
第二筛选单元,配置为基于所述相关系数,对特征进行第二筛选操作,得到多项选中特征,用于训练所述用户分类模型。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
根据本说明书实施例提供的针对用户分类模型的特征处理方案,总体上通过两阶段的特征筛选进行,其中在第二阶段基于特征间相关系数的筛选之前,通过二部图中的最少点覆盖原则,对特征表数目进行精简,从而极大地加快特征间相关系数的计算过程,进而加快特征筛选过程。进一步地,通过将选中的特征的相关信息添加到特征池中,来加速同类型的其他模型的特征选择过程,由此实现多个模型的快速建模。更进一步地,还可以通过特征衍生的方式,进一步对特征进行丰富和扩展,从而更有利于自动建模的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的特征处理过程的示意图;
图2为根据一个实施例的针对用户分类模型进行特征处理的方法流程图;
图3示出在一个实施例中,确定各项特征的IV值的步骤;
图4示出根据一个实施例基于特征表-特征构建的二部图的示意图;
图5示出反复迭代的过程;
图6示出针对图4的二部图确定其第一节点集合的过程;
图7示出根据一个实施例的特征处理装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
为了更高效地实现用户分类模型的建模和训练,在本说明书的一个实施例中,提供一种端到端的特征处理方案,该方案可以基于多个原始特征表中的大量用户特征,快速地进行特征分析和选择,从而高效确定出适合建模的特征,输出给建模工具进行建模。进一步地,可以将选择出的特征信息以及模型对特征的使用状况记录在特征池中,从而便于同类型的其他模型进行选择和训练。
图1为本说明书披露的一个实施例的特征处理过程的示意图。如图1所示,特征处理过程包含两阶段的特征筛选,这两个阶段的特征筛选分别基于特征的信息价值IV和特征之间的相关系数进行。
具体地,如图1所示,原始特征集中包含大量的用户特征,每项用户特征示例性用一个椭圆圈表示。这些用户特征可以来自于多个原始特征表,并且不同的原始特征表中可能存在重复记录的特征。
在第一阶段筛选中,针对各项特征,基于原始特征表和标签数据表的关联,确定特征的信息价值IV(InformationValue),下文中简称为IV值。然后基于特征的IV值,对原始特征集中的特征进行初步筛选,例如,剔除IV值低于一定阈值的特征,由此得到初步筛选的特征。初步筛选的特征仍然分布于多个不同的特征表中。
第二阶段的筛选基于两两特征之间的相关系数进行。如果要计算来自两个不同特征表的两项特征之间的相关系数,就需要对这两个特征表进行数据表关联运算。因此,特征间相关系数的计算,涉及大量的数据表关联运算,而这部分运算非常消耗计算资源和计算时间,特别是在各个特征表的数据量都比较大时。考虑到特征表中有可能存在重复特征,因此,在开始第二阶段的筛选之前,创新性地对特征表进行“精简”,以期减少后续有待关联的特征表的数目。
特征表的精简基于二部图的最少点覆盖原则来进行。也就是,将特征表作为第一类节点,将表中的各项特征作为第二类节点,构建成二部图。然后在该二部图中找到,能够连接到全部第二类节点的最小数目的第一类节点,也就找到了,能够覆盖所有特征项的最少数目的特征表。
然后,将以上得到的最少数目的特征表合并成一个综合表,基于该综合表,计算特征间的相关系数。于是,可以执行第二阶段的筛选,基于特征间的相关系数,再剔除一些特征,最终得到一些选中特征。
上述选中特征于是可以输出给建模工具,进行用户分类模型的训练以及性能评估。在性能满足要求的情况下,确定上述选中特征为针对用户分类模型适用的特征,将这些特征的相关信息,例如对应的特征表名,模型对该特征的使用状况等,添加到特征池中。于是,后续在训练同类型的用户分类模型时,可以直接根据特征池中所记录的特征相关信息,进行特征的选择,而不必从零开始重新进行特征的处理和选择。
因此,以上的方案总体上通过两阶段的特征筛选进行特征选择,其中在第二阶段筛选之前,通过二部图中的最少点覆盖原则,对特征表数目进行精简,从而极大地加快特征间相关系数的计算过程,进而加快特征筛选过程。进一步地,通过将选中的特征的相关信息添加到特征池中,来加速同类型的其他模型的特征选择过程,由此实现多个模型的快速建模。
下面描述以上方案的具体步骤和执行方式。
图2示出根据一个实施例的针对用户分类模型进行特征处理的方法流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示,该特征处理方法至少包括以下步骤。
在步骤21,获取标签数据表以及获取N个特征表。
可以理解,标签数据表中包括用户的类别标签,这些类别标签用作训练用户分类模型的标注数据。取决于用户分类模型的具体分类目标,类别标签也相应的不同。例如,在一个例子中,用户分类模型用于预测用户的风险类别,例如,普通用户或是高风险用户(涉嫌欺诈、盗号的账户);相应的,标签数据表中的用户类别标签可以是,示出用户真实的风险状况的风险等级标签。在另一例子中,用户分类模型用于预测用户所属的营销人群,例如,营销敏感用户/营销不敏感用户,或者,预测用户的营销价值等级;相应的,用户类别标签可以是,用户所属的营销人群标签。在又一例子中,用户分类模型用于借贷平台对用户信用状况的评估;在这样的情况下,用户类别标签可以为,用户的信用等级标签。在更多其他例子中,根据用户分类模型的分类目标和使用场景,用户类别标签可以具有更多种含义。
标签数据表通常以用户标识信息为主键,其中用户标识信息用于唯一地标识出不同用户。具体的,用户标识信息可以采用账户ID,手机号,邮箱地址等形式。
为了进行用户分类模型的训练,除了获取用户类别标签,还要获取用户的特征数据。特征数据往往分布记录在多个特征表中,因此在步骤21中,获取N个特征表,每个特征表记录用户的若干项特征。
用户的特征具体可以包括,用户的静态画像方面的特征,例如性别,年龄,职业,收入,教育程度等;用户的操作行为方面的特征,例如最近一次操作的类型,操作的页面,停留的时间等等;用户的金融资产方面的特征,例如余额宝余额,近期消费次数,消费金额等等;用户的信用记录方面的特征,例如借款次数,借款金额,还款金额等等;用户的社交方面的特征,例如好友数目,与好友的沟通频次,沟通类别等等;以及用户的其他方面的特征,此处不一一进行枚举。
在一个实施例中,上述N个特征表可以是实施图2方法的计算平台(例如支付宝)通过对多个方面的用户特征进行记录而得到的。在另一实施例中,上述N个特征表可以来自多个不同的数据平台,实施图2方法的计算平台从该多个不同的数据平台获取到各个数据表。例如,计算平台可以从银行机构获得与借贷信用记录相关的特征表,从购物平台(例如淘宝)获取与金融消费相关的特征表,从社交平台(例如钉钉)获取与社交相关的特征表。在又一实施例中,上述标签数据表中也包括少量用户特征,例如每行记录有(账户ID,年龄,类别标签),其中年龄为用户特征。此时,可以基于标签数据表中的特征,生成特征表,包含在上述N个特征表中。
以上获取的N个特征表均以相同类型的用户标识信息为主键。
下面的表1示例性示出一个记录用户静态画像特征的特征表,表2示例性示出一个记录用户金融和信用方面特征的特征表。
表1:
账户ID | 性别 | 年龄 | 教育程度 | 注册时长 |
Lucy | F | 30 | BA | 5y |
Lily | F | 28 | MA | 6y |
Lilei | M | -- | Under | 1y |
Xuxu | M | 35 | Phd | 8y |
…… | …… | …… | …… | …… |
表2:
账户ID | 年龄 | 余额宝余额 | 芝麻分 |
Xuxu | 30 | 30k | -00000 |
Coco | 22 | 5k | 610 |
Peny123 | 26 | 50k | 680 |
Lily | 28 | 55k | -00000 |
…… | …… | …… | …… |
可以看到,表1和表2均采用账户ID作为用户标识信息,并以此作为表的主键。并且,表1和表2中都记录有用户年龄这一特征。
通过以上具体例子中可以看到,所获取的N个特征表中,可以有特征的重复记录,并且不同表之间,用户记录的顺序通常是不同的。为了区别于后续经过筛选操作后的特征表,方便描述,将步骤21获取的特征表称为第一特征表。
在一个实施例中,可选地,在获取到上述N个第一特征表后,进行基于IV值的筛选之前,先对这些特征表进行一些预处理,该预处理可以包括,针对特征缺失值的预处理。
具体的,针对各个第一特征表中的各项特征,可以统计该项特征的特征值缺失率,将缺失率大于一定阈值的特征剔除。例如,在表1中,年龄这一特征下,用户Lilei的特征值缺失;在表2中,芝麻分这一特征下,至少两个用户(Xuxu和Lily)的特征值缺失。如果某项特征的特征值缺失率大于一定阈值,例如30%,则说明该项特征不足以提供足够多的信息量,可以将其剔除,以简化后续操作的计算量。
如以上表1和表2所示,由于第一特征表的来源可能不同,记录的特征项不同,不同的第一特征表中常常会采用不同的方式记录特征的缺失项。例如,表1中对于年龄值的缺失记录为“--”,而表2中对于芝麻分的缺失记录为“-00000”。为便于后续各个特征表的统一分析,可以在预处理阶段,对于以上剔除之后保留的特征,用统一的缺省值替代缺失的特征值,这可以称为缺失特征的归一化。
还可以对各个第一特征表进行其他方面的预处理,以便于后续的计算。
接着,在步骤22,针对每个第一特征表,结合标签数据表确定各项特征的信息价值IV,基于IV值对特征进行第一筛选操作,得到对应的第二特征表。
图3示出在一个实施例中,确定各项特征的IV值的步骤。如图3所示,在步骤31,从任意的第一特征表中获取各个用户针对任意的第一特征的第一特征值,将各个第一特征值排序形成第一特征值序列。
在一个实施例中,第一特征为静态特征,例如表1中的性别,教育程度等。此时,可以直接从第一特征表中读取各个用户针对该第一特征的特征值。
第一特征表中还可能会包含随时间变化的动态特征,例如,表2中的余额宝金额,芝麻分等。在这样的情况下,第一特征表通常会记录针对动态特征在不同采集时间采集的多个特征值,以及该多个特征值对应的采集时间戳。例如,表3示出在表2的基础上包含时间戳的第一特征表。
表3:
账户ID | 年龄 | 余额宝余额 | 芝麻分 | 时间戳 |
Xuxu | 30 | 30k | -00000 | 2月1日 |
Xuxu | 30 | 30k | -00000 | 2月2日 |
Xuxu | 30 | 35k | 665 | 2月3日 |
…… | …… | …… | …… | …… |
Coco | 22 | 5k | 610 | 2月1日 |
Coco | 22 | 6k | 615 | 2月2日 |
Coco | 22 | 5k | 615 | 2月3日 |
…… | …… | …… | …… | …… |
Peny123 | 26 | 50k | 680 | 2月1日 |
…… | …… | …… | …… | …… |
相应的,标签数据表也会包括,用户的类别标签的标注时间,各个用户的标注时间可以相同,也可以不同。在这样的情况下,获取各个用户的第一特征值的过程可以包括,对于每个用户,在针对第一特征采集的多个特征值中,确定采集时间戳早于该用户对应的类别标签的标注时间,且距离该标注时间最近的特征值,作为该用户对应的第一特征值。例如,假定第一特征为表3中的余额宝余额。对于表3中的用户Xuxu,如果标签数据表中该用户的标签标注时间为2月4日,那么从表3中用户Xuxu的多个余额值中选取2月3日的余额值35k,作为其第一特征值。如此,获取到各个用户的第一特征值。
然后,将得到的各个第一特征值进行排序,形成第一特征值序列(x1,x2,…xn),其中xi为用户i针对第一特征X的第一特征值。如果第一特征X对应的特征值为数值,则可以直接进行排序。排序可以是从大到小排序,或者从小到大排序。如果第一特征X对应的特征值不是数值,例如教育程度,性别之类的特征,可以按照预定映射关系,将其映射为数值,然后进行排序。接着在步骤32,利用用户标识信息关联标签数据表和该第一特征表,得到标签值序列(L1,L2,…Ln),该标签值序列(L1,L2,…Ln)与第一特征值序列(x1,x2,…xn)关于用户顺序相对齐。具体的,对于第一特征值序列(x1,x2,…xn)中第i个第一特征值,在步骤31中已知其对应于用户i,然后利用该用户i的用户标识信息,例如账户ID,关联到标签数据表,获取到该用户i的类别标签的标签值Li。如此得到标签值序列(L1,L2,…Ln)。
接下来,在步骤33,根据第一特征值序列(x1,x2,…xn)对用户进行分箱。在一个实施例中,根据第一特征值序列中最大值和最小值所限定的取值范围,进行均匀分箱。在另一实施例中,根据第一特征值序列所体现的数据分布,进行自动分箱。在这样的情况下,可以使用另一批用户作为验证集,验证上述第一特征值的数据分布的稳定性。如果该另一批用户的第一特征的特征值也反映出类似的数据分布,则表明该数据分布是稳定的,可以基于该数据分布进行非均匀的自动分箱。
如此,各个用户被划分到各个分箱中。于是,在步骤34,基于标签值序列,统计各个分箱中用户的标签值分布情况;在步骤35,根据各个分箱的标签值分布情况,确定第一特征的信息价值IV。
以用户分类模型为二分类模型,类别标签具有二值化的情况为例,根据标签值为0还是1,可以将用户划分为正样本和负样本。在步骤34,统计分箱i中正样本个数posi,负样本个数negi;在步骤35,可以计算分箱i对应的证据权重WOE值:
进而,可以得到第一特征的IV值:
通过以上方式,针对每个第一特征表中的每项特征,可以确定出其IV值。对于其他的标签值情况,可以通过已有的相应计算方式,根据各个分箱中标签值的分布,确定出特征的IV值。
回到图2的步骤22,于是可以基于各项特征的IV值,对特征进行第一筛选操作,得到对应的第二特征表。具体的,可以将各项特征的IV值与一阈值比较,将IV值低于该阈值的特征剔除,保留IV值高于该阈值的特征。实际操作中,可以将该阈值设置为例如0.5。当然也可以根据筛选目标调整该阈值。在此,将第一特征表中基于IV值进行特征剔除之后的特征表,称为第二特征表。如此,得到了N’个第二特征表。由于有可能存在某个第一特征表中所有特征均被剔除的情况,第二特征表的数目N’小于或等于N。
在许多情况下,在以上执行基于IV值的第一阶段筛选之后,保留的特征仍然比较多,第二特征表的数目N’仍然比较大。如前所述,在第一阶段筛选之后,后续将要进行第二阶段的筛选,其中基于特征之间的相关系数进行筛选。需要理解,在计算两项特征,例如第一特征X和第二特征Y之间的相关系数的过程中,需要将该两项特征的特征值序列关于用户进行对齐。在第一特征X和第二特征Y来自于不同的特征表时,上述关于用户的对齐操作即为数据表的关联操作。在关联操作的基本算法中,每对齐一个用户的特征值,就需要遍历特征表的所有表项。在实际场景中,每个特征表包含的用户数目常常在几十万,百万甚至更多的量级,因此,特征表的关联操作需要极大的计算量。如果针对大量的第二特征表中的大量特征项,计算两两特征之间的相关系数,则需要进行大量的表关联操作,会极大地消耗计算资源和计算时间。
考虑到N’个第二特征表中仍然可能存在重复特征,根据本说明书的一个实施例,创新性采用二部图的最少点覆盖思路,从上述N’个第二特征表中,确定出能覆盖所有特征的最少数目的第二特征表,从而对特征表数目进行精简。
具体的,在步骤23,以各个第二特征表为第一类节点,以第二特征表中包含的特征为第二类节点,以第二特征表与特征的包含关系为连接边,构建二部图。
图4示出根据一个实施例基于特征表-特征构建的二部图的示意图。图4左侧一列的节点为第一类节点,每个第一类节点对应一个特征表。右侧一列的节点为第二类节点,每个第二类节点对应一项特征。如果特征表i中包含特征j,则在对应于特征表i的第一类节点i,和对应于特征j的第二类节点j之间构建连接边。可以看到,图4的示意性二部图基于5个特征表以及这5个特征表包括的共计12项特征而建立,因此,共具有5个第一类节点和12个第二类节点。
如前所述,不同特征表有可能重复性记录同一特征,反应在二部图中,表现为,存在多个第一类节点连接到同一个第二类节点,于是,该第二类节点的连接边的数目大于1。为了便于描述,将这样的第二类节点称为重复节点。相应的,将仅有一条连接边的第二类节点称为非重复节点。在图4中,序号为1,5,8,12的第二类节点为重复节点,用深色圆圈表示;其他第二类节点为非重复节点。
接着,在步骤24,在上述二部图中确定出第一节点集合,其中包含连接到所有第二类节点的最小数目的第一类节点。于是,该第一节点集合中包含的第一类节点,即对应于精简后的第二特征表。
确定上述第一节点集合,也就是解决二部图中的最少点覆盖问题,可以通过以下图5所示的反复迭代过程实现。如图5所示,在每次迭代过程,首先在步骤51,在当前二部图包含的第一类节点中,确定出连接边数目最大的节点作为选中节点,将该选中节点添加到选中节点集合。
当前二部图中具有最大连接边数目的第一类节点有可能不止一个。在这样的情况下,在一个例子中,可以从中随机选择一个作为选中节点。不过优选的,在另一例子中,如果存在多个第一类节点具有相同的最大连接边数目,则分别确定该多个第一类节点中各第一类节点所连接的非重复节点的数目,将所连接的非重复节点的数目最大的第一类节点,确定为选中节点。
进一步地,如果仍然存在多于一个第一类节点连接到相同的最大数目的非重复节点,则从该多于一个第一类节点中随机选择一个作为选中节点。
在确定出本轮的选中节点后,在步骤52,从二部图中删除该选中节点以及与该选中节点相连接的第二类节点。在步骤53,根据删除后的第二类节点,更新其余第一类节点的连接边,并删除不再具有连接边的第一类节点。即通过步骤52和53对二部图进行更新。
然后在步骤54,判断更新后的二部图中是否仍然存在节点;如果有,则返回到步骤51,以更新后的二部图作为当前二部图,再次进行循环迭代。直到在某次循环后,在步骤54判断出更新后的二部图中不包含节点,在这样的情况下,在步骤55,将此时的选中节点集合作为上述第一节点集合。
图6示出针对图4的二部图确定其第一节点集合的过程。
初始的二部图如图4和图6最左侧A部分所示,基于该初始二部图统计各个第一类节点的连接边信息。在一个例子中,将各个第一类节点的连接边信息表示为[a,b],其中a为第一类节点所连接到的第二类节点的数目,即连接边数目,b为所连接到的非重复节点的数目。如此可以看到,初始二部图中,第一类节点(1)的连接边信息为[3,2],表示该节点连接到3个第二类节点,其中2个是非重复节点。类似的,节点(2)的连接边信息为[4,2],节点(3)的连接边信息为[4,2],节点(4)的连接边信息为[3,0],节点(5)的连接边信息为[4,2]。通过各个第一类节点的连接边信息可以看到,节点(2),(4),(5)均具有最大的连接边数目4,于是进一步判断其中非重复节点的数目。可以看到,这3个节点所连接到的非重复节点的数目也是相同的,均为2,于是,可以从这3个节点中随机选择一个,作为选中节点。假定,在第一轮迭代中,选择了节点(2),并将其添加到选中节点集合。于是此时,选中节点集合中仅包含节点(2),可以表示为{(2)}。
接着,如图5的步骤52所示,在二部图中删除该第一类节点(2),同时删除该节点(2)所连接到的4个第二类节点。相应地,在步骤53,更新其余第一类节点的连接边。也就是,将其余第一类节点原本连接到被删除的4个第二类节点的连接边,都相应删除。于是对二部图进行了一次更新,得到B部分所示的二部图作为当前二部图。此时,所有剩余第一类节点仍然具有连接边。
对于B部分所示的二部图,更新各个第一类节点的连接边信息,于是得到:节点(1)为[2,2],节点(3)为[3,2],节点(4)为[2,0],节点(5)为[4,2]。显然,节点(5)的连接边数目最大,因此,在该轮迭代中,将节点(5)作为选中节点,添加到选中节点集合中。此时,选中节点集合为{(2),(5)}。
然后,删除节点(5),以及其连接的所有4个第二类节点(序号为8,10,11,12的第二类节点)。相应的,更新其余第一类节点的连接边,也就是,将其余第一类节点原本连接到8,10,11,12号第二类节点的连接边都相应删除。可以看到,第一类节点(4)原本连接到8和12号第二类节点,随着这两个第二类节点的删除以及连接边的更新,该第一类节点(4)不再具有任何连接边。于是,将该第一类节点(4)也删除。于是,得到C部分所示的二部图作为当前二部图。
对于C部分所示的二部图,将各个第一类节点的连接边信息更新为:节点(1)为[2,2],节点(3)为[2,2]。这两个节点的连接边信息完全相同,从中随机选择一个作为选中节点。假定本轮选择了节点(1)。那么此时选中节点集合为{(2),(5),(1)}。
然后,删除节点(1)及其连接节点,对二部图进行更新,得到D部分所示的二部图。接下来选择节点(3),添加到选中节点集合。然后,在删除节点(3)及其连接节点后,二部图中不再包含任何节点,于是循环迭代结束。此时的选中节点集合为{(2),(5),(1),(3)},就可以作为最少点覆盖的第一节点集合。
可以看到,如此得到的第一节点集合仅包含了4个第一类节点,少于原始的第一类节点数目,但是这4个第一类节点能够覆盖所有12个第二类节点。对应于节点的含义,即意味着,第一节点集合中的第一类节点所表示的第二特征表,能够涵盖备选的所有特征项。于是,通过这样的方式,实现了第二特征表数目的精简,同时不损失任何特征项。
在其他实施例中,也可以通过其他方式实现二部图的最少点覆盖。例如,在每次迭代中,找到其所有连接节点均为重复节点的第一类节点,然后删除这样的第一类节点及其连接边,直到不存在这样的第一类节点。将剩下的节点作为第一节点集合。
简单清楚起见,将根据第一节点集合得到的第二特征表数目记为M。原则上,M小于或等于执行步骤23之前的第二特征表的数目N’。实际操作中,由于特征表中常常会有重复记录的特征项,因此,M相对于N’往往有明显的减小。
在如此得到M个第二特征表的基础上,在步骤25,合并该M个第二特征表,得到综合特征表,并基于该综合特征表,计算特征之间的相关系数。
可以理解,将M个第二特征表合并为综合特征表的过程,即通过数据表的关联操作,将各个第二特征表关联到综合特征表的过程。由于此处M个第二特征表已经经过精简,相对于基于原始的特征表进行关联和合并,可以极大减小计算量。
在得到的综合特征表中,各个特征已经按照用户进行对齐。因此,可以采用各种已有的方式,计算两两特征之间的相关系数。相关系数通常采用Pearson相关系数,可以根据已知的算法来计算。也可以采用其他计算方式,例如Spearman秩相关系数等。
接着,在步骤26,基于上述相关系数,对特征进行第二筛选操作,得到多项选中特征。具体的,第二筛选操作可以通过方式执行。
在一个实施例中,对于综合特征表中每一项特征,如果该特征与任何其他特征之间的相关系数高于预定相关性阈值,例如0.8,则剔除该项特征,如果与所有其他特征之间的相关系数均低于该阈值,则保留该特征。由此进行二次剔除,得到保留特征集合。可以将该保留特征集合中的特征作为选中特征。
在另一实施例中,基于以上的保留特征集合,结合之前确定的特征的IV值,再次进行筛选。具体的,可以将保留特征集合中的各项特征,按照信息价值IV的大小排序,选取IV值较大的预定数目的特征,作为选中特征。
在又一实施例中,对于综合特征表中的每一项特征,可以计算该特征与其他各项特征之间的相关系数的均值。然后,将综合特征表中的各项特征,按照相关系数的均值大小进行排序,选取均值较小的预定数目的特征作为选中特征。当然还可以进一步结合IV值,再次筛选。
如此,通过多种方式,基于特征之间的相关系数,进行第二阶段的筛选,得到多个选中特征。这多个选中特征于是可以用于用户分类模型的训练。如此,通过图2的方法步骤,针对用户分类模型,进行特征的处理和选择。
进一步地,在这之后,就可以将这些选中特征,输出给用户分类模型进行建模。具体的,可以基于上述多项选中特征,以及标签数据表中的用户标签数据,训练用户分类模型。该用户分类模型具体可以采用树模型,深度神经网络DNN等各种形式实现,树模型又具体包括,例如PS-Smart树模型,GBDT树等。
在利用训练集对用户分类模型进行训练后,可以利用测试集,评估该模型的性能。性能评估可以包括多种评估指标,例如预测准确率,召回率,ROC曲线等等。在性能评估满足预设要求的情况下,例如准确率和召回率均高于70%,则认为模型性能满足要求,进而说明,所选的特征适用于该用户分类模型,于是,在特征池中添加前述选中特征的特征信息,以供其他模型选择。
具体的,在特征池中记录的特征信息可以包括,各项选中特征的特征名,该特征所来自的第一特征表的表名,该特征被模型使用的使用信息。使用信息具体可以是,被各个模型使用的次数。在一个例子中,使用信息还可以包括,使用该特征的模型的描述。
于是,在后续需要训练同类型的模型时,例如针对不同主体,基于不同用户样本集定制多个用户分类模型,而这些用户分类模型均用于预测相同的用户分类,例如均用于预测用户风险,此时,就可以参照特征池中记录的特征信息,进行特征选择。例如,可以根据特征被各个同类模型使用的次数,确定出高频使用特征,根据该特征所来自的第一特征表的表名,直接从中获取所需的特征值数据进行模型训练。如此,同类型的其他模型可以不必从零开始重新进行特征处理,而是基于特征池中记录的信息,快速进行特征的选择。
在一种情况下,在利用图2方式得到的选中特征进行用户分类模型的训练后,评估结果不够理想。此时,可以采用增强方式,进一步扩展特征。
具体的,如果前述训练得到的用户分类模型的性能评估不满足预设要求,则可以使用若干特征衍生工具,生成若干衍生特征,形成衍生特征表。这些衍生特征可以包括,基于基础特征的累积特征(例如基于单笔消费特征得到的一段时间内的累积消费次数,累积消费金额等),基于基础特征的组合特征(例如对多个不同的特征项进行组合运算),序列特征(例如基于多次操作形成的操作序列特征),与用户关系网络相关的图特征,等等。这些衍生特征可以具有更复杂的形式(例如序列向量形式),更抽象的含义(例如进行图嵌入后得到的特征),用于对原始的特征进行扩展和补充。
于是,可以将该衍生特征表合并到前述综合特征表中,得到更新的综合特征表。该更新的综合特征表中包含原有特征和上述衍生特征。然后基于该更新的综合特征表,计算特征之间的相关系数;并基于相关系数,再次对特征进行第二筛选操作,得到扩展的选中特征。利用这些扩展的选中特征,再次训练用户分类模型。
如果再次训练的用户分类模型的性能评估结果满足要求,则将上述扩展的选中特征的特征信息记录在前述特征池中。如果再次训练的用户分类模型的性能仍然没有达到性能要求,则判断再次训练的用户分类模型相对于前次训练的用户分类模型,性能的提升量,例如预测准确率的提升值。如果提升量高于一定阈值,则将扩展的选中特征的特征信息记录到特征池中;如果提升量不高于上述阈值,则仍然将之前步骤26得到的选中特征的特征信息记录到特征池中。如此,采用特征衍生的增强方式,进一步扩展特征,优化特征池中的特征信息的有效性。
回顾以上过程,针对用户分类模型的特征处理方案,总体上通过两阶段的特征筛选进行,其中在第二阶段基于特征间相关系数的筛选之前,通过二部图中的最少点覆盖原则,对特征表数目进行精简,从而极大地加快特征间相关系数的计算过程,进而加快特征筛选过程。进一步地,通过将选中的特征的相关信息添加到特征池中,来加速同类型的其他模型的特征选择过程,由此实现多个模型的快速建模。更进一步地,还可以通过特征衍生的方式,进一步对特征进行丰富和扩展,从而更有利于自动建模的效果。
根据另一方面的实施例,提供了一种针对用户分类模型进行特征处理的装置,该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。图7示出根据一个实施例的特征处理装置的示意性框图。如图7所示,该装置700包括:
第一获取单元71,配置为获取标签数据表以及获取N个第一特征表,所述标签数据表中包括用户的类别标签,每个所述第一特征表记录用户的若干项特征;
第一筛选单元72,配置为针对每个第一特征表,结合所述标签数据表确定各项特征的信息价值IV,基于所述信息价值IV对特征进行第一筛选操作,得到对应的第二特征表;
二部图构建单元73,配置为以各个第二特征表为第一类节点,以所述第二特征表中包含的特征为第二类节点,以第二特征表与特征的包含关系为连接边,构建二部图;
节点集确定单元74,配置为在所述二部图中确定出第一节点集合,其中包含连接到所有第二类节点的最小数目的第一类节点,从而得到与该第一节点集合中的第一类节点对应的M个第二特征表;
相关性计算单元75,配置为合并所述M个第二特征表,得到综合特征表,并基于该综合特征表,计算特征之间的相关系数;
第二筛选单元76,配置为基于所述相关系数,对特征进行第二筛选操作,得到多项选中特征,用于训练所述用户分类模型。
在一个实施例中,第一获取单元71配置为,从多个数据平台获取各自统计的用户特征表,作为第一特征表。
在另一实施例中,所述标签数据表中还包括用户的至少一项特征;在这样的情况下,第一获取单元71可以配置,基于该至少一项特征,生成第一特征表。
在不同实施例中,用户的类别标签可以包括以下之一:用户的风险等级标签,用户所属的营销人群标签,用户的信用等级标签。
根据一种实施方式,该装置700还包括预处理单元(未示出),配置为对各个第一特征表进行预处理,所述预处理包括:统计各项特征的特征值缺失率,将缺失率大于预定缺失阈值的特征剔除;对于各个第一特征表中保留的特征,用统一的缺省值替代缺失的特征值。
根据一个实施例,第一特征表和标签数据表均以用户标识信息为主键,所述用户标识信息包括以下之一:账户ID,手机号,邮箱地址。
在一个实施例中,第一筛选单元72具体配置为通过以下方式确定各项特征的IV值:从任意一个第一特征表中获取各个用户针对任意的第一特征的第一特征值,将各个第一特征值排序形成第一特征值序列;利用用户标识信息关联标签数据表和该第一特征表,得到标签值序列,该标签值序列与第一特征值序列关于用户顺序相对齐;根据所述第一特征值序列对用户进行分箱;基于所述标签值序列,统计各个分箱中所述类别标签的标签值分布情况;根据各个分箱的标签值分布情况,确定所述第一特征的信息价值IV。
进一步地,在一个实施例中,标签数据表还包括,所述类别标签的标注时间;所述第一特征表包括,用户针对所述第一特征在不同采集时间采集的多个特征值,以及该多个特征值对应的采集时间戳;在这样的情况下,第一筛选单元72通过以下方式获取上述第一特征值:对于每个用户,在针对第一特征采集的多个特征值中,确定采集时间戳早于所述标注时间,且距离所述标注时间最近的特征值,作为该用户针对第一特征的特征值。
根据一个实施例,节点集确定单元74具体配置为,在当前二部图包含的第一类节点中,确定出连接边数目最大的节点作为选中节点,将该选中节点添加到选中节点集合;更新当前二部图,包括,删除该选中节点以及与该选中节点相连接的第二类节点;根据删除后的第二类节点,更新其余第一类节点的连接边,并删除不再具有连接边的第一类节点;重复执行以上步骤,直到更新后的二部图不包含任何节点,将此时的选中节点集合作为所述第一节点集合。
在以上实施例的一个例子中,节点集确定单元74具体配置为,如果存在多个第一类节点具有相同的最大连接边数目,则分别确定该多个第一类节点中各第一类节点所连接的非重复节点的数目,所述非重复节点为,仅有一条连接边的第二类节点;将所连接的非重复节点的数目最大的第一类节点,确定为所述选中节点。
更进一步的,节点集确定单元74还可以配置为,如果存在多于一个第一类节点连接到相同的最大数目的非重复节点,则从该多于一个第一类节点中随机选择一个作为所述选中节点。
根据一种实施方式,第二筛选单元76具体配置为:对于所述综合特征表中每一项特征,如果该特征与任何其他特征之间的相关系数高于预定相关性阈值,则剔除该项特征,由此得到保留特征集合;基于该保留特征集合,确定所述多项选中特征。
进一步地,在一个实施例中,第二筛选单元76可以将所述保留特征集合中的各项特征按照信息价值IV的大小排序,选取IV值较大的预定数目的特征,作为所述多项选中特征。
根据另一种实施方式,第二筛选单元76可以通过以下方式执行第二筛选操作:对于所述综合特征表中每一项特征,计算该特征与其他各项特征之间的相关系数的均值;将所述综合特征表中的各项特征,按照相关系数的均值大小进行排序,选取均值较小的预定数目的特征作为所述多项选中特征。
根据一种实施方式,上述装置700还可以包括(未示出)模型训练和评估单元,配置为基于所述多项选中特征,以及所述标签数据表,训练所述用户分类模型,并评估其性能;以及包括特征添加单元,配置为在所述用户分类模型的性能评估满足预设要求的情况下,在特征池中添加所述多项选中特征的特征信息,以供其他预测模型选择。
在一个具体例子中,所述多项选中特征的特征信息包括,各项选中特征的特征名,该特征所来自的第一特征表的表名,该特征被模型使用的使用信息。
在一个实施例中,上述装置还可以包括特征衍生单元(未示出),配置为在训练的用户分类模型的性能评估不满足预设要求的情况下,使用若干特征衍生工具,生成若干衍生特征,形成衍生特征表;将所述衍生特征表合并到所述综合特征表中,得到更新的综合特征表;相关性计算单元75还配置为,基于该更新的综合特征表,计算特征之间的相关系数;第二筛选单元76还配置为,基于所述相关系数,再次对特征进行第二筛选操作,得到扩展的选中特征,用于再次训练所述用户分类模型。
在具体例子中,所述若干衍生特征包括以下中的一项或多项:基于基础特征的累积特征,基于基础特征的组合特征,序列特征,与用户关系网络相关的图特征。
通过以上装置,针对用户分类模型实现特征的处理和选择。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (21)
1.一种针对用户分类模型进行特征处理的方法,包括:
获取标签数据表以及获取N个第一特征表,所述标签数据表中包括用户的类别标签,每个所述第一特征表记录用户的若干项特征;
针对每个第一特征表,结合所述标签数据表确定各项特征的信息价值IV,基于所述信息价值IV对特征进行第一筛选操作,得到对应的第二特征表;
以各个第二特征表为第一类节点,以所述第二特征表中包含的特征为第二类节点,以第二特征表与特征的包含关系为连接边,构建二部图;
在所述二部图中确定出第一节点集合,其中包含连接到所有第二类节点的最小数目的第一类节点,从而得到与该第一节点集合中的第一类节点对应的M个第二特征表;
合并所述M个第二特征表,得到综合特征表,并基于该综合特征表,计算特征之间的相关系数;
基于所述相关系数,对特征进行第二筛选操作,得到多项选中特征,用于训练所述用户分类模型。
2.根据权利要求1所述的方法,其中,获取N个第一特征表包括,从多个数据平台获取其各自统计的用户特征表,作为所述第一特征表。
3.根据权利要求1所述的方法,其中,所述标签数据表中还包括用户的至少一项特征;所述获取N个第一特征表包括:基于所述至少一项特征,生成第一特征表。
4.根据权利要求1所述的方法,其中,所述用户的类别标签包括以下之一:用户的风险等级标签,用户所属的营销人群标签,用户的信用等级标签。
5.根据权利要求1所述的方法,其中,在结合所述标签数据表确定各项特征的信息价值IV之前,还包括对各个第一特征表进行预处理,所述预处理包括:
统计各项特征的特征值缺失率,将缺失率大于预定缺失阈值的特征剔除;
对于各个第一特征表中保留的特征,用统一的缺省值替代缺失的特征值。
6.根据权利要求1所述的方法,其中,所述第一特征表和所述标签数据表均以用户标识信息为主键,所述用户标识信息包括以下之一:账户ID,手机号,邮箱地址。
7.根据权利要求6所述的方法,其中,结合所述标签数据表确定各项特征的信息价值IV,包括:
从任意一个第一特征表中获取各个用户针对任意的第一特征的第一特征值,将各个第一特征值排序形成第一特征值序列;
利用用户标识信息关联标签数据表和该第一特征表,得到标签值序列,该标签值序列与第一特征值序列关于用户顺序相对齐;
根据所述第一特征值序列对用户进行分箱;
基于所述标签值序列,统计各个分箱中所述类别标签的标签值分布情况;
根据各个分箱的标签值分布情况,确定所述第一特征的信息价值IV。
8.根据权利要求7所述的方法,其中,所述标签数据表还包括,所述类别标签的标注时间;所述第一特征表包括,用户针对所述第一特征在不同采集时间采集的多个特征值,以及该多个特征值对应的采集时间戳;
从任意一个第一特征表中获取各个用户针对任意的第一特征的第一特征值,包括:对于每个用户,在针对第一特征采集的多个特征值中,确定采集时间戳早于所述标注时间,且距离所述标注时间最近的特征值,作为该用户针对第一特征的特征值。
9.根据权利要求1所述的方法,其中,在所述二部图中确定出第一节点集合,包括:
在当前二部图包含的第一类节点中,确定出连接边数目最大的节点作为选中节点,将该选中节点添加到选中节点集合;
更新当前二部图,包括,删除该选中节点以及与该选中节点相连接的第二类节点;根据删除后的第二类节点,更新其余第一类节点的连接边,并删除不再具有连接边的第一类节点;
重复执行以上步骤,直到更新后的二部图不包含任何节点,将此时的选中节点集合作为所述第一节点集合。
10.根据权利要求9所述的方法,其中,在当前二部图包含的第一类节点中,确定出连接边数目最大的节点作为选中节点,包括:
如果存在多个第一类节点具有相同的最大连接边数目,则分别确定该多个第一类节点中各第一类节点所连接的非重复节点的数目,所述非重复节点为,仅有一条连接边的第二类节点;
将所连接的非重复节点的数目最大的第一类节点,确定为所述选中节点。
11.根据权利要求10所述的方法,其中,将所连接的非重复节点的数目最大的第一类节点,确定为所述选中节点,包括:
如果存在多于一个第一类节点连接到相同的最大数目的非重复节点,则从该多于一个第一类节点中随机选择一个作为所述选中节点。
12.根据权利要求1所述的方法,其中,基于所述相关系数,对特征进行第二筛选操作,得到多项选中特征,具体包括:
对于所述综合特征表中每一项特征,如果该特征与任何其他特征之间的相关系数高于预定相关性阈值,则剔除该项特征,由此得到保留特征集合;
基于该保留特征集合,确定所述多项选中特征。
13.根据权利要求12所述的方法,其中,基于该保留特征集合,确定所述多项选中特征,包括:
将所述保留特征集合中的各项特征按照信息价值IV的大小排序,选取IV值较大的预定数目的特征,作为所述多项选中特征。
14.根据权利要求1所述的方法,其中,基于所述相关系数,对特征进行第二筛选操作,得到多项选中特征,具体包括:
对于所述综合特征表中每一项特征,计算该特征与其他各项特征之间的相关系数的均值;
将所述综合特征表中的各项特征,按照相关系数的均值大小进行排序,选取均值较小的预定数目的特征作为所述多项选中特征。
15.根据权利要求1所述的方法,其中,在所述得到多项选中特征之后,还包括:
基于所述多项选中特征,以及所述标签数据表,训练所述用户分类模型,并评估其性能;
在所述用户分类模型的性能评估满足预设要求的情况下,在特征池中添加所述多项选中特征的特征信息,以供其他预测模型选择。
16.根据权利要求15所述的方法,其中,所述多项选中特征的特征信息包括,各项选中特征的特征名,该特征所来自的第一特征表的表名,该特征被模型使用的使用信息。
17.根据权利要求15所述的方法,其中,在训练所述用户分类模型,并评估其性能之后,还包括:
在所述用户分类模型的性能评估不满足预设要求的情况下,使用若干特征衍生工具,生成若干衍生特征,形成衍生特征表;
将所述衍生特征表合并到所述综合特征表中,得到更新的综合特征表;并基于该更新的综合特征表,计算特征之间的相关系数;
基于所述相关系数,对特征进行所述第二筛选操作,得到扩展的选中特征,用于再次训练所述用户分类模型。
18.根据权利要求17所述的方法,其中,所述若干衍生特征包括以下中的一项或多项:基于基础特征的累积特征,基于基础特征的组合特征,序列特征,与用户关系网络相关的图特征。
19.一种针对用户分类模型进行特征处理的装置,包括:
第一获取单元,配置为获取标签数据表以及获取N个第一特征表,所述标签数据表中包括用户的类别标签,每个所述第一特征表记录用户的若干项特征;
第一筛选单元,配置为针对每个第一特征表,结合所述标签数据表确定各项特征的信息价值IV,基于所述信息价值IV对特征进行第一筛选操作,得到对应的第二特征表;
二部图构建单元,配置为以各个第二特征表为第一类节点,以所述第二特征表中包含的特征为第二类节点,以第二特征表与特征的包含关系为连接边,构建二部图;
节点集确定单元,配置为在所述二部图中确定出第一节点集合,其中包含连接到所有第二类节点的最小数目的第一类节点,从而得到与该第一节点集合中的第一类节点对应的M个第二特征表;
相关性计算单元,配置为合并所述M个第二特征表,得到综合特征表,并基于该综合特征表,计算特征之间的相关系数;
第二筛选单元,配置为基于所述相关系数,对特征进行第二筛选操作,得到多项选中特征,用于训练所述用户分类模型。
20.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-18中任一项的所述的方法。
21.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-18中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097814.7A CN111291816B (zh) | 2020-02-17 | 2020-02-17 | 针对用户分类模型进行特征处理的方法及装置 |
PCT/CN2020/134499 WO2021164382A1 (zh) | 2020-02-17 | 2020-12-08 | 针对用户分类模型进行特征处理的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097814.7A CN111291816B (zh) | 2020-02-17 | 2020-02-17 | 针对用户分类模型进行特征处理的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291816A CN111291816A (zh) | 2020-06-16 |
CN111291816B true CN111291816B (zh) | 2021-08-06 |
Family
ID=71028461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010097814.7A Active CN111291816B (zh) | 2020-02-17 | 2020-02-17 | 针对用户分类模型进行特征处理的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111291816B (zh) |
WO (1) | WO2021164382A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291816B (zh) * | 2020-02-17 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 针对用户分类模型进行特征处理的方法及装置 |
CN111753920B (zh) * | 2020-06-30 | 2022-06-21 | 重庆紫光华山智安科技有限公司 | 特征构建方法、装置、计算机设备及存储介质 |
CN112104706B (zh) * | 2020-08-24 | 2022-12-20 | 中国银联股份有限公司 | 分布式系统中模型发布方法、装置、设备、存储介质 |
CN112215238B (zh) * | 2020-10-29 | 2022-06-07 | 支付宝(杭州)信息技术有限公司 | 一种通用特征提取模型构建方法、系统及装置 |
CN112818028B (zh) * | 2021-01-12 | 2021-09-17 | 平安科技(深圳)有限公司 | 数据指标筛选方法、装置、计算机设备及存储介质 |
CN112801563B (zh) * | 2021-04-14 | 2021-08-17 | 支付宝(杭州)信息技术有限公司 | 风险评估方法和装置 |
CN113917364B (zh) * | 2021-10-09 | 2024-03-08 | 广东电网有限责任公司东莞供电局 | 一种配电网高阻接地识别方法和装置 |
CN114372835B (zh) * | 2022-03-22 | 2022-06-24 | 佰聆数据股份有限公司 | 综合能源服务潜力客户识别方法、系统及计算机设备 |
CN114707990B (zh) * | 2022-03-23 | 2023-04-07 | 支付宝(杭州)信息技术有限公司 | 一种用户行为模式的识别方法和装置 |
CN114553395B (zh) * | 2022-04-24 | 2022-07-26 | 蓝象智联(杭州)科技有限公司 | 一种风控场景下的纵向联邦特征衍生方法 |
CN115578307B (zh) * | 2022-05-25 | 2023-09-15 | 广州市基准医疗有限责任公司 | 一种肺结节良恶性分类方法及相关产品 |
CN116089809B (zh) * | 2023-04-07 | 2023-06-20 | 平安银行股份有限公司 | 金融特征数据的筛选方法、装置、电子设备及存储介质 |
CN116880340B (zh) * | 2023-09-07 | 2023-12-29 | 深圳金亚太科技有限公司 | 基于工业物联网的控制终端 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1285067A (zh) * | 1997-11-06 | 2001-02-21 | 联信技术公司 | 根据权限管理信息和其它信息进行选配、选择、窄带广播和/或分类的系统和方法 |
JP2008145504A (ja) * | 2006-12-06 | 2008-06-26 | Nippon Telegr & Teleph Corp <Ntt> | 信号特徴抽出方法、信号特徴抽出装置、信号特徴抽出プログラム、及びその記録媒体 |
CN102663027A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种网页人群属性的预测方法 |
CN109767255A (zh) * | 2018-12-06 | 2019-05-17 | 东莞团贷网互联网科技服务有限公司 | 一种通过大数据建模实现智能运营及精准营销的方法 |
CN109886758A (zh) * | 2019-03-13 | 2019-06-14 | 中南大学 | 一种基于组合分类器的客户流失预测模型 |
CN110222267A (zh) * | 2019-06-06 | 2019-09-10 | 中山大学 | 一种游戏平台信息推送方法、系统、存储介质及设备 |
CN110245687A (zh) * | 2019-05-17 | 2019-09-17 | 腾讯科技(上海)有限公司 | 用户分类方法以及装置 |
CN110659318A (zh) * | 2019-08-15 | 2020-01-07 | 中国平安财产保险股份有限公司 | 基于大数据的策略推送方法、系统及计算机设备 |
CN110704706A (zh) * | 2019-09-11 | 2020-01-17 | 北京海益同展信息科技有限公司 | 分类模型的训练方法、分类方法及相关设备、分类系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7203864B2 (en) * | 2004-06-25 | 2007-04-10 | Hewlett-Packard Development Company, L.P. | Method and system for clustering computers into peer groups and comparing individual computers to their peers |
CN101848455B (zh) * | 2009-03-23 | 2014-02-19 | 华为技术有限公司 | 业务网络中增强用户信息的方法、设备及系统 |
CN101923689A (zh) * | 2009-06-15 | 2010-12-22 | 中国移动通信集团公司 | 确定广告信息投放受众的方法以及相关装置 |
US20150169758A1 (en) * | 2013-12-17 | 2015-06-18 | Luigi ASSOM | Multi-partite graph database |
CN108897778B (zh) * | 2018-06-04 | 2021-12-31 | 创意信息技术股份有限公司 | 一种基于多源大数据分析的图像标注方法 |
US20190391901A1 (en) * | 2018-06-20 | 2019-12-26 | Ca, Inc. | Adaptive baselining and filtering for anomaly analysis |
CN109903198B (zh) * | 2019-01-24 | 2022-08-30 | 南京邮电大学 | 专利对比分析方法 |
CN110061859B (zh) * | 2019-03-20 | 2021-11-12 | 重庆邮电大学 | 一种基于用户生存性条件约束下的sdn控制器部署方法 |
CN110322142A (zh) * | 2019-07-01 | 2019-10-11 | 百维金科(上海)信息科技有限公司 | 一种大数据风控模型及线上系统配置技术 |
CN110309335B (zh) * | 2019-07-03 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 一种图片匹配方法、装置、设备及存储介质 |
CN110674848A (zh) * | 2019-08-31 | 2020-01-10 | 南京理工大学 | 联合稀疏表示与二部图分割的高维数据联合聚类方法 |
CN111291816B (zh) * | 2020-02-17 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 针对用户分类模型进行特征处理的方法及装置 |
-
2020
- 2020-02-17 CN CN202010097814.7A patent/CN111291816B/zh active Active
- 2020-12-08 WO PCT/CN2020/134499 patent/WO2021164382A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1285067A (zh) * | 1997-11-06 | 2001-02-21 | 联信技术公司 | 根据权限管理信息和其它信息进行选配、选择、窄带广播和/或分类的系统和方法 |
JP2008145504A (ja) * | 2006-12-06 | 2008-06-26 | Nippon Telegr & Teleph Corp <Ntt> | 信号特徴抽出方法、信号特徴抽出装置、信号特徴抽出プログラム、及びその記録媒体 |
CN102663027A (zh) * | 2012-03-22 | 2012-09-12 | 浙江盘石信息技术有限公司 | 一种网页人群属性的预测方法 |
CN109767255A (zh) * | 2018-12-06 | 2019-05-17 | 东莞团贷网互联网科技服务有限公司 | 一种通过大数据建模实现智能运营及精准营销的方法 |
CN109886758A (zh) * | 2019-03-13 | 2019-06-14 | 中南大学 | 一种基于组合分类器的客户流失预测模型 |
CN110245687A (zh) * | 2019-05-17 | 2019-09-17 | 腾讯科技(上海)有限公司 | 用户分类方法以及装置 |
CN110222267A (zh) * | 2019-06-06 | 2019-09-10 | 中山大学 | 一种游戏平台信息推送方法、系统、存储介质及设备 |
CN110659318A (zh) * | 2019-08-15 | 2020-01-07 | 中国平安财产保险股份有限公司 | 基于大数据的策略推送方法、系统及计算机设备 |
CN110704706A (zh) * | 2019-09-11 | 2020-01-17 | 北京海益同展信息科技有限公司 | 分类模型的训练方法、分类方法及相关设备、分类系统 |
Non-Patent Citations (2)
Title |
---|
"Co-Clustering Image Features and Semantic Concepts";M Rege等;《IEEE International Conference on Image Processing》;20070220;137-140页 * |
"微博客用户特征分析及分类研究——以‘新浪微博’为例";彭希羡等;《情报科学》;20150131;69-75页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021164382A1 (zh) | 2021-08-26 |
CN111291816A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291816B (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN110837931B (zh) | 客户流失预测方法、装置及存储介质 | |
CN110188198B (zh) | 一种基于知识图谱的反欺诈方法及装置 | |
CN109583966B (zh) | 一种高价值客户识别方法、系统、设备及存储介质 | |
CN111291900A (zh) | 训练风险识别模型的方法及装置 | |
US20100057509A1 (en) | Co-occurrence consistency analysis method and apparatus for finding predictive variable groups | |
CN111368147B (zh) | 图特征处理的方法及装置 | |
CN109739844B (zh) | 基于衰减权重的数据分类方法 | |
CN111325248A (zh) | 降低贷前业务风险的方法及系统 | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
CN110728301A (zh) | 一种个人用户的信用评分方法、装置、终端及存储介质 | |
CN112036476A (zh) | 基于二分类业务的数据特征选择方法、装置及计算机设备 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN111709844A (zh) | 一种保险洗钱人员检测方法、装置和计算机可读存储介质 | |
CN115293336A (zh) | 风险评估模型训练方法、装置和服务器 | |
CN115205011A (zh) | 基于lsf-fc算法的银行用户画像模型生成方法 | |
CN111091408A (zh) | 用户识别模型创建方法、装置与识别方法、装置 | |
CN114723554B (zh) | 异常账户识别方法及装置 | |
CN115965468A (zh) | 基于交易数据的异常行为检测方法、装置、设备及介质 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
Golecha | Analyzing term deposits in banking sector by performing predictive analysis using multiple machine learning techniques | |
CN115545781A (zh) | 客户挖掘模型生成方法、装置和终端设备 | |
CN113537666B (zh) | 评测模型训练方法、评测和业务审核方法、装置及设备 | |
CN117994017A (zh) | 构建零售信用风险预测模型的方法和线上信贷业务Scoredelta模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |