CN118194003A - 特征选择方法、装置、设备和存储介质 - Google Patents

特征选择方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN118194003A
CN118194003A CN202410242484.4A CN202410242484A CN118194003A CN 118194003 A CN118194003 A CN 118194003A CN 202410242484 A CN202410242484 A CN 202410242484A CN 118194003 A CN118194003 A CN 118194003A
Authority
CN
China
Prior art keywords
feature
target
customer
client
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410242484.4A
Other languages
English (en)
Inventor
戴秋萍
庄跃生
林志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202410242484.4A priority Critical patent/CN118194003A/zh
Publication of CN118194003A publication Critical patent/CN118194003A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种特征选择方法、装置、设备和存储介质。具体实现方案为:获取目标结算场景下金融结算产品对应的样本集合;根据多个样本以及各自对应的营销状态标签,对多个客户特征进行特征选择,以从多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征;根据至少一个目标客户特征,生成目标结算场景下金融结算产品对应的目标客户特征集合。由此,通过对已被投放目标结算场景下金融结算产品的客户特征进行自动化分析的方式,便捷地确定出了在目标结算场景下金融结算产品对应的目标客户特征集合。

Description

特征选择方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种特征选择方法、装置、设备和存储介质。
背景技术
目前,在金融服务平台中,通常对同一个客户特征库进行人工分析来得到对应结算场景下金融结算产品下的客户特征集合,以便基于所得到的客户特征集合进行客体群体选择,以投放该金融结算产品。然而,这种方式所得到的对应结算场景下金融结算产品下的客户特征集合不够客观,并且由于客户特征库中的客户特征比较多,人工分析需要的时间较长,因此得到结算场景下金融结算产品下的客户特征集合的时间较长。因此,如何以便捷的方式得到对应结算场景下金融结算产品的客户特征,对于准确得到投放对应金融结算产品的客户群体是十分重要的。
申请内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的一个目的在于提出一种特征选择方法、装置、设备和存储介质。
第一方面,本申请提供一种特征选择方法,包括:获取目标结算场景下金融结算产品对应的样本集合,其中,所述样本集合中包括多个样本以及每个所述样本分别对应的营销状态标签,每个所述样本对应一个客户,所述客户已被投放所述金融结算产品,所述样本中包括:在向与所述样本对应的客户投放所述金融结算产品时所使用的多个客户特征,所述营销状态标签用于表示所述样本所对应的客户是否有意愿有意向购买所述金融结算产品;根据所述多个样本以及各自对应的营销状态标签,对所述多个客户特征进行特征选择,以从所述多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征;根据所述至少一个目标客户特征,生成所述目标结算场景下所述金融结算产品对应的目标客户特征集合。
第二方面,本申请提供一种特征选择装置,包括:第一获取模块,用于获取目标结算场景下金融结算产品对应的样本集合,其中,所述样本集合中包括多个样本以及每个所述样本分别对应的营销状态标签,每个所述样本对应一个客户,所述客户已被投放所述金融结算产品,所述样本中包括:在向与所述样本对应的客户投放所述金融结算产品时所使用的多个客户特征,所述营销状态标签用于表示所述样本所对应的客户是否有意愿有意向购买所述金融结算产品;选择模块,用于根据所述多个样本以及各自对应的营销状态标签,对所述多个客户特征进行特征选择,以从所述多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征;生成模块,用于根据所述至少一个目标客户特征,生成所述目标结算场景下所述金融结算产品对应的目标客户特征集合。
第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现本申请实施例公开的特征选择方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现本申请实施例公开的特征选择方法。
第九方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请实施例公开的特征选择方法。
上述申请中的一个实施例具有如下优点或有益效果:
获取目标结算场景下金融结算产品对应的样本集合,其中,样本集合中包括多个样本以及每个样本分别对应的营销状态标签,每个样本对应一个客户,客户已被投放金融结算产品,样本中包括:在向与样本对应的客户投放金融结算产品时所使用的多个客户特征,营销状态标签用于表示样本所对应的客户是否有意愿有意向购买金融结算产品;根据多个样本以及各自对应的营销状态标签,对多个客户特征进行特征选择,以从多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征;根据至少一个目标客户特征,生成目标结算场景下金融结算产品对应的目标客户特征集合。由此,通过对已被投放目标结算场景下金融结算产品的客户特征进行自动化分析的方式,便捷地确定出了在目标结算场景下金融结算产品对应的目标客户特征集合。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例所提供的特征选择方法的流程图一;
图2为本申请实施例所提供的特征选择方法的流程图二;
图3为本申请实施例所提供的特征选择方法的流程图三;
图4为本申请实施例提供的特征选择装置的结构示意图;
图5为本申请实施例提供的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
其中,需要说明的是,本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例所提供的一种特征选择方法的流程示意图一。
如图1所示,该方法包括以下步骤:
步骤101、获取目标结算场景下金融结算产品对应的样本集合,其中,样本集合中包括多个样本以及每个样本分别对应的营销状态标签,每个样本对应一个客户,客户已被投放金融结算产品,样本中包括:在向与样本对应的客户投放金融结算产品时所使用的多个客户特征,营销状态标签用于表示样本所对应的客户是否有意愿有意向购买金融结算产品。
其中,需要说明的是,本申请实施例提供的特征选择方法可以由特征选择装置(也可以称为特征选择器)执行,其中,特征选择装置可以由软件和/或者硬件实现。其中,特征选择装置可以为电子设备,也可以被配置在电子设备中,以实现特征选择功能。
其中,本申请实施例以特征选择方法被配置在电子设备中为例进行说明。
其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
其中,可以理解的是,目标结算场景可以为金融技术领域中的多个结算场景中的任意一个。
其中,需要说明的是,金融结算产品可以分为多种类别。
例如,金融结算产品可以分为普惠类、存款类、套餐类、结算卡、全球类、高级复杂类、套餐类以及其他类别的金融结算产品。
在本示例中,在样本集合中每个样本对应一个客户,其中,在向与样本对应的客户投放同一类别的金融结算产品时,其所使用的多个客户特征相同,以及营销状态标签用于表示样本所对应的客户是否有意愿有意向购买此类别的金融结算产品。
其中,需要说明的是,客户特征包括在目标结算场景不同类别的金融结算产品下客户所具备的通用条件特征以及客户对不同类别的金融结算产品各自所关注的业务指标。
其中,可以理解的是,业务指标用于表示客户对不同类别的金融结算产品在业务层面上重点关注的指标,其中,在不同类别的金融结算产品下,客户所具备的通用条件特征并不相同以及客户对不同类别的金融结算产品各自所关注的业务指标也并不相同。
步骤102、根据多个样本以及各自对应的营销状态标签,对多个客户特征进行特征选择,以从多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征。
其中,可以理解的是,预设权重阈值是预先设置的权重的临界值,可以根据实际需求来预先设置该预设权重阈值的取值,该实施例对预设权重阈值的取值不作具体限定。
步骤103、根据至少一个目标客户特征,生成目标结算场景下金融结算产品对应的目标客户特征集合。
其中,可以理解的是,目标客户特征,是用于后续在目标结算场景下筛选出金融结算产品对应的目标客户。
本申请实施例提供的一种特征选择方法,获取目标结算场景下金融结算产品对应的样本集合,其中,样本集合中包括多个样本以及每个样本分别对应的营销状态标签,每个样本对应一个客户,客户已被投放金融结算产品,样本中包括:在向与样本对应的客户投放金融结算产品时所使用的多个客户特征,营销状态标签用于表示样本所对应的客户是否有意愿有意向购买金融结算产品;根据多个样本以及各自对应的营销状态标签,对多个客户特征进行特征选择,以从多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征;根据至少一个目标客户特征,生成目标结算场景下金融结算产品对应的目标客户特征集合。由此,通过对已被投放目标结算场景下金融结算产品的客户特征进行自动化分析的方式,便捷地确定出了在目标结算场景下金融结算产品对应的目标客户特征集合。
基于上述实施例的基础上,为了可以清楚理解根据多个样本以及各自对应的营销状态标签,对多个客户特征进行特征选择,以从多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征,下面结合图2进行示例性描述。
图2为本申请实施例所提供的特征选择方法的流程图二。
如图2所示,该方法可以包括:
步骤201、对样本集合执行M轮抽样,其中,在每一轮抽样中,从样本集合中随机选择一个目标样本,并从与目标样本具有相同营销状态标签的样本中选取K个第一最近邻样本,以及从与目标样本具有不同营销状态标签的样本中选取K个第二最近邻样本,并根据上一轮抽样中每个客户特征的特征权重、M、K、目标样本、第一最近邻样本和第二最近邻样本确定在本轮抽样中每个客户特征的特征权重,其中,K和M均为对大于或者等于1的整数。
其中,可以理解的是,M和K的具体取值可以根据实际需求来预先设置。此处不做限定。
其中,需要说明的是,相同营销状态用于表示该样本所对应的客户是否有意愿有意向购买与目标样本处于同一个类别的金融结算产品。
其中,需要说明的是,不同营销状态用于表示该样本所对应的客户是否有意愿有意向购买与目标样本不处于同一个类别的金融结算产品。
在一些示例中,在对样本集合执行第一轮抽样时,从样本集合中随机选择一个目标样本,并从与目标样本具有相同营销状态标签的样本中选取K个第一最近邻样本,以及从与目标样本具有不同营销状态标签的样本中选取K个第二最近邻样本,并根据每个客户特征的初始特征权重、M、K、目标样本、第一最近邻样本和第二最近邻样本确定在第一轮抽样中每个客户特征的特征权重。
其中,需要说明的是,在对样本集合执行M轮抽样前,每个客户特征均可以预先设置初始特征权重,其中,每个客户特征的初始特征权重均为0。
作为一种可能的实施方式,在每一轮抽样中,在选取K个第一最近邻样本,以及选取K个第二最近邻样本之后,针对每个客户特征,对各个第一最近邻样本与目标样本在客户特征上的第一差异值进行求和处理,以得到第一求和值,根据M和K,对第一求和值进行处理,以得到第一中间值,对各个第二最近邻样本与目标样本在客户特征上的第二差异值进行求和处理,以得到第二求和值,根据M和K,对第二求和值进行处理,以得到第二中间值,根据上一轮抽样中客户特征的特征权重、第一中间值和第二中间值,确定在本轮抽样中客户特征的特征权重。
在一些示例中,在目标样本客户所使用的多个客户特征中,存在对于后续筛选目标客户影响较大的客户特征,为了实现更准确地确定目标客户特征,还可以对目标样本在客户特征上的特征值与其它样本在客户特征上的特征值进行差异对比,以确定差异值,以及根据客户特征所对应的加权权重,对差异值进行加权处理,并对加权后的差异值进行求和处理,以得到求和值。
在一些示例中,获取样本集合中样本对应的客户投放金融结算产品时所使用的多个客户特征,采用层次分析法,对被投放同一个类别的金融结算产品的客户所使用的多个客户特征进行分析,以确定多个客户特征各自所对应的加权权重。
其中,可以理解的是,对于不同的客户特征,其所设置的加权权重并不相同。
在本申请的一个实施例中,对各个第一最近邻样本与目标样本在客户特征上的第一差异值进行求和处理,以得到第一求和值的一种可能实现方式为:获取客户特征所对应的加权权重,根据加权权重,分别对各个第一最近邻样本与目标样本在客户特征上的第一差异值进行加权,以得到各个加权后的第一差异值,对各个加权后的第一差异值进行求和处理,以得到第一求和值。
例如,假设K为1,R1[A]可以表示为目标样本R1在客户特征A上的特征值,R2[A]可以表示为在1个第一最近邻样本中样本R2在客户特征A上的特征值,客户特征所设置的加权权重可以表示为WA,那么加权后的最近邻样本样本R2与目标样本在客户特征A上的第一差异值可以表示为第一求和值可以表示为其中,max[A]表示目标样本以及K个第一最近邻样本在客户特征A上的客户特征A最大特征值,min[A]表示目标样本以及K个第一最近邻样本在客户特征A上的客户特征A最小特征值。
在本申请的一个实施例中,对各个第二最近邻样本与目标样本在客户特征上的第二差异值进行求和处理,以得到第二求和值的一种可能实现方式为:获取客户特征所对应的加权权重,根据加权权重,分别对各个第二最近邻样本与目标样本在客户特征上的第二差异值进行加权,以得到各个加权后的第二差异值,对各个加权后的第二差异值进行求和处理,以得到第二求和值。
例如,假设K为1,R1[A]可以表示为目标样本R1在客户特征A上的特征值,R3[A]可以表示为在1个第二最近邻样本中样本R2在客户特征A上的特征值,客户特征所设置的加权权重可以表示为WA,那么加权后的最近邻样本样本R3与目标样本在客户特征A上的第一差异值可以表示为第二求和值可以表示为其中,max[A]表示目标样本以及K个第二最近邻样本在客户特征A上的客户特征A最大特征值,min[A]表示目标样本以及K个第二最近邻样本在客户特征A上的客户特征A最小特征值。
例如,对第一求和值进行处理,则第一中间值可以表示为对第二求和值/>进行处理,则第二中间值可以表示为 根据上一轮抽样中客户特征的特征权重、第一中间值和第二中间值,则本轮抽样中客户特征的特征权重可以表示为/>其中,W[A]可以表示为上一轮抽样中客户特征的特征权重,j为大于或者等于1以及小于等于K的正整数,m表示为对样本集合进行抽样的轮次。
步骤202、根据最后一轮抽样中每个客户特征的特征权重,从多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征。
本申请实施例提供的一种特征选择方法,对样本集合执行M轮抽样,其中,在每一轮抽样中,从样本集合中随机选择一个目标样本,并从与目标样本具有相同营销状态标签的样本中选取K个第一最近邻样本,以及从与目标样本具有不同营销状态标签的样本中选取K个第二最近邻样本,并根据上一轮抽样中每个客户特征的特征权重、M、K、目标样本、第一最近邻样本和第二最近邻样本确定在本轮抽样中每个客户特征的特征权重,其中,K和M均为对大于或者等于1的整数,根据最后一轮抽样中每个客户特征的特征权重,从多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征。由此,通过对样本集合执行M轮抽样,在每一轮抽样中,确定该轮抽样中每个客户特征的特征权重,最终将最后一轮抽样中客户特征的特征权重大于预设权重阈值的客户特征,确定为目标客户特征,从而从多个客户特征中区分出在目标结算场景下目标客户所使用的最显著的客户特征。
为了可以清楚理解本申请,下面结合图3对该实施例的特征选择方法进行示例性描述。
图3为本申请实施例所提供的特征选择方法的流程图三。
如图3所示,该方法可以包括:
步骤301,根据目标结算场景下金融结算产品所对应的初始客户特征集合,确定出待投放该金融结算产品的目标客户群。
步骤302,向该目标客户群投放该金融结算产品。
步骤303,根据向该目标客户群投放该金融结算产品的营销结果,确定目标结算场景下金融结算产品对应的样本集合。
其中,样本集合中包括多个样本以及每个样本分别对应的营销状态标签,每个样本对应一个客户,客户已被投放金融结算产品,样本中包括:在向与样本对应的客户投放金融结算产品时所使用的多个客户特征,营销状态标签用于表示样本所对应的客户是否有意愿有意向购买金融结算产品。
在一个实施例中,为了进一步提高所确定出的客户特征的准确性,还可以对客户特征进行特征清洗以及特征缺省值补充处理。
作为一种可能的实施方式:对多个客户特征各自对应的内容进行判断,以获取对应的内容为文本内容的客户特征,根据文本内容,对在文本内容中不能进行频次统计的文本内容进行删除,并对删除了文本内容所对应的客户特征进行剔除,以实现对多个客户特征进行特征清洗。
其中,可以理解的是,不能进行频次统计的文本内容用于表示该文本内容中不存在有统计价值的数值或者无数值类型的内容。
例如,文本内容为客户名称的客户特征以及文本内容为注册地址的客户特征,其中,客户名称和注册地址均不能进行频次统计,则可以将文本内容为客户名称的客户特征以及文本内容为注册地址的客户特征进行剔除。
作为一种可能的实施方式:对多个客户特征进行判断,以确定缺少对应的内容的客户特征,若客户特征缺少对应的内容为数值类内容,获取与使用该客户特征的客户处于同一个客户等级下的客户所使用的与该客户特征相同的客户特征,根据与该客户特征相同的客户特征所对应的数值类内容,对数值类内容进行平均值计算,以确定平均值,将该平均值作为缺少数值类内容的客户特征所对应的内容;若客户特征缺少对应的内容为枚举型内容,获取与使用该客户特征的客户处于同一个客户等级下的客户所使用的与该客户特征相同的客户特征,根据与该客户特征相同的客户特征所对应的枚举型内容,对使用枚举型内容的与该客户特征相同的客户特征的频次进行统计,以确定中位数,将中位数对应的客户特征所对应的枚举型内容作为缺少枚举型内容的客户特征所对应的内容,以实现对多个客户特征进行特征缺省值补充处理。
其中,可以理解的是,客户等级用于表示对客户等级的划分。
步骤304,对样本集合执行M轮抽样,其中,在每一轮抽样中,从样本集合中随机选择一个目标样本,并从与目标样本具有相同营销状态标签的样本中选取K个第一最近邻样本,以及从与目标样本具有不同营销状态标签的样本中选取K个第二最近邻样本,并根据上一轮抽样中每个客户特征的特征权重、M、K、目标样本、第一最近邻样本和第二最近邻样本确定在本轮抽样中每个客户特征的特征权重,其中,K和M均为对大于或者等于1的整数。
步骤305,根据最后一轮抽样中每个客户特征的特征权重,从多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征。
步骤306,根据至少一个目标客户特征,生成目标结算场景下金融结算产品对应的目标客户特征集合。
在一些示例中,为了可以更加准确地确定出在目标结算场景下金融结算产品对应的目标客户特征集合,在确定样本集合中每个客户特征以及每个客户特征对应的特征权重之后,根据预设权重,将每个客户特征以及每个客户特征对应的特征权重分为训练集和测试集,根据训练集,得到训练集中客户特征及客户特征对应的特征权重组成的模型,根据该模型,对测试集中的客户特征对应的特征权重进行预测,以确定预测测试集,对预测测试集和测试集进行对比,以确定该模型对测试集中每个客户特征以及每个客户特征对应的特征权重进行测试的测试精度,将测试精度高于预设测试精度阈值的客户特征及客户特征对应的特征权重构成目标客户特征集合。
其中,预设权重的具体取值可以根据实际需求来确定,此处不做限定。
其中,可以理解的是,预设测试精度阈值的具体取值可以根据实际需求来确定,此处不做限定。
其中,可以理解的是,预测测试集中包括测试集中的客户特征以及该模型预测的客户特征的特征权重。
图4为本申请实施例提供的一种特征选择装置的结构示意图。
如图4所示,该特征选择装置400包括:第一获取模块401,选择模块402和生成模块403。
第一获取模块401,用于获取目标结算场景下金融结算产品对应的样本集合,其中,样本集合中包括多个样本以及每个样本分别对应的营销状态标签,每个样本对应一个客户,所述客户已被投放金融结算产品,样本中包括:在向与样本对应的客户投放金融结算产品时所使用的多个客户特征,营销状态标签用于表示样本所对应的客户是否有意愿有意向购买所述金融结算产品;
选择模块402,用于根据多个样本以及各自对应的营销状态标签,对多个客户特征进行特征选择,以从多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征;
生成模块403,用于根据至少一个目标客户特征,生成目标结算场景下金融结算产品对应的目标客户特征集合。
在申请的一个实施例中,选择模块402,包括:
抽样单元4021,用于对样本集合执行M轮抽样,其中,在每一轮抽样中,从样本集合中随机选择一个目标样本,并从与目标样本具有相同营销状态标签的样本中选取K个第一最近邻样本,以及从与目标样本具有不同营销状态标签的样本中选取K个第二最近邻样本,并根据上一轮抽样中每个客户特征的特征权重、M、K、目标样本、第一最近邻样本和第二最近邻样本确定在本轮抽样中每个客户特征的特征权重,其中,K和M均为对大于或者等于1的整数;
选择单元4022,用于根据最后一轮抽样中每个客户特征的特征权重,从多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征。
在申请的一个实施例中,抽样单元4021,具体用于:
针对每个客户特征,对各个第一最近邻样本与目标样本在客户特征上的第一差异值进行求和处理,以得到第一求和值;
根据M和K,对第一求和值进行处理,以得到第一中间值;
对各个第二最近邻样本与目标样本在客户特征上的第二差异值进行求和处理,以得到第二求和值;
根据M和K,对第二求和值进行处理,以得到第二中间值;
根据上一轮抽样中客户特征的特征权重、第一中间值和第二中间值,确定在本轮抽样中客户特征的特征权重。
在申请的一个实施例中,对各个第一最近邻样本与目标样本在客户特征上的第一差异值进行求和处理,以得到第一求和值,包括:
获取客户特征所对应的加权权重;
根据加权权重,分别对各个第一最近邻样本与目标样本在客户特征上的第一差异值进行加权,以得到各个加权后的第一差异值;
对各个加权后的第一差异值进行求和处理。
在申请的一个实施例中,对各个第二最近邻样本与目标样本在客户特征上的第二差异值进行求和处理,以得到第二求和值,包括:
获取客户特征所对应的加权权重;
根据加权权重,分别对各个第二最近邻样本与目标样本在客户特征上的第二差异值进行加权,以得到各个加权后的第二差异值;
对各个加权后的第二差异值进行求和处理。
在申请的一个实施例中,该装置还包括采用层次分析法确定所述加权权重。
本申请实施例提供的一种特征选择装置,获取目标结算场景下金融结算产品对应的样本集合,其中,样本集合中包括多个样本以及每个样本分别对应的营销状态标签,每个样本对应一个客户,客户已被投放金融结算产品,样本中包括:在向与样本对应的客户投放金融结算产品时所使用的多个客户特征,营销状态标签用于表示样本所对应的客户是否有意愿有意向购买金融结算产品;根据多个样本以及各自对应的营销状态标签,对多个客户特征进行特征选择,以从多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征;根据至少一个目标客户特征,生成目标结算场景下金融结算产品对应的目标客户特征集合。由此,通过对已被投放目标结算场景下金融结算产品的客户特征进行自动化分析的方式,便捷地确定出了在目标结算场景下金融结算产品对应的目标客户特征集合。
图5为本申请实施例提供的电子设备的结构示意图。如图5所示,该电子设备可以包括:存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机指令。
处理器502执行指令时实现上述实施例中提供的特征选择方法。
进一步地,电子设备500还包括:
通信接口503,用于存储器501和处理器502之间的通信。
存储器501,用于存放可在处理器502上运行的计算机指令。
存储器501可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器502,用于执行程序时实现上述实施例提供的特征选择方法。
如果存储器501、处理器502和通信接口503独立实现,则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器501、处理器502及通信接口503,集成在一块芯片上实现,则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。
处理器502可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例还提供一种运行指令的芯片,该芯片用于执行上述实施例中的特征选择方法。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行上述实施例中的特征选择方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,其存储在计算机可读存储介质中,至少一个处理器可以从计算机可读存储介质读取计算机程序,至少一个处理器执行计算机程序时可实现上述实施例中的特征选择方法。
在本申请的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (15)

1.一种特征选择方法,其特征在于,所述方法包括:
获取目标结算场景下金融结算产品对应的样本集合,其中,所述样本集合中包括多个样本以及每个所述样本分别对应的营销状态标签,每个所述样本对应一个客户,所述客户已被投放所述金融结算产品,所述样本中包括:在向与所述样本对应的客户投放所述金融结算产品时所使用的多个客户特征,所述营销状态标签用于表示所述样本所对应的客户是否有意愿有意向购买所述金融结算产品;
根据所述多个样本以及各自对应的营销状态标签,对所述多个客户特征进行特征选择,以从所述多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征;
根据所述至少一个目标客户特征,生成所述目标结算场景下所述金融结算产品对应的目标客户特征集合。
2.如权利要求1所述的方法,其特征在于,所述根据所述多个样本以及各自对应的营销状态标签,对所述多个客户特征进行特征选择,以从所述多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征,包括:
对所述样本集合执行M轮抽样,其中,在每一轮抽样中,从所述样本集合中随机选择一个目标样本,并从与所述目标样本具有相同营销状态标签的样本中选取K个第一最近邻样本,以及从与所述目标样本具有不同营销状态标签的样本中选取K个第二最近邻样本,并根据上一轮抽样中每个所述客户特征的特征权重、M、K、所述目标样本、所述第一最近邻样本和所述第二最近邻样本确定在本轮抽样中每个所述客户特征的特征权重,其中,K和M均为对大于或者等于1的整数;
根据最后一轮抽样中每个所述客户特征的特征权重,从所述多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征。
3.如权利要求2所述的方法,其特征在于,所述根据上一轮抽样中每个所述客户特征的特征权重、M、K、所述目标样本、所述第一最近邻样本和所述第二最近邻样本确定在本轮抽样中每个所述客户特征的特征权重,包括:
针对每个所述客户特征,对各个所述第一最近邻样本与所述目标样本在所述客户特征上的第一差异值进行求和处理,以得到第一求和值;
根据M和K,对所述第一求和值进行处理,以得到第一中间值;
对各个所述第二最近邻样本与所述目标样本在所述客户特征上的第二差异值进行求和处理,以得到第二求和值;
根据M和K,对所述第二求和值进行处理,以得到第二中间值;
根据上一轮抽样中所述客户特征的特征权重、所述第一中间值和所述第二中间值,确定在本轮抽样中所述客户特征的特征权重。
4.如权利要求3所述的方法,其特征在于,所述对各个所述第一最近邻样本与所述目标样本在所述客户特征上的第一差异值进行求和处理,以得到第一求和值,包括:
获取所述客户特征所对应的加权权重;
根据所述加权权重,分别对各个所述第一最近邻样本与所述目标样本在所述客户特征上的第一差异值进行加权,以得到各个加权后的第一差异值;
对所述各个加权后的第一差异值进行求和处理。
5.如权利要求3所述的方法,其特征在于,所述对各个所述第二最近邻样本与所述目标样本在所述客户特征上的第二差异值进行求和处理,以得到第二求和值,包括:
获取所述客户特征所对应的加权权重;
根据所述加权权重,分别对各个所述第二最近邻样本与所述目标样本在所述客户特征上的第二差异值进行加权,以得到各个加权后的第二差异值;
对所述各个加权后的第二差异值进行求和处理。
6.如权利要求4或5所述的方法,其特征在于,采用层次分析法确定所述加权权重。
7.一种特征选择装置,其特征在于,包括:
第一获取模块,用于获取目标结算场景下金融结算产品对应的样本集合,其中,所述样本集合中包括多个样本以及每个所述样本分别对应的营销状态标签,每个所述样本对应一个客户,所述客户已被投放所述金融结算产品,所述样本中包括:在向与所述样本对应的客户投放所述金融结算产品时所使用的多个客户特征,所述营销状态标签用于表示所述样本所对应的客户是否有意愿有意向购买所述金融结算产品;
选择模块,用于根据所述多个样本以及各自对应的营销状态标签,对所述多个客户特征进行特征选择,以从所述多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征;
生成模块,用于根据所述至少一个目标客户特征,生成所述目标结算场景下所述金融结算产品对应的目标客户特征集合。
8.如权利要求7所述的装置,其特征在于,所述选择模块,包括:
抽样单元,用于对所述样本集合执行M轮抽样,其中,在每一轮抽样中,从所述样本集合中随机选择一个目标样本,并从与所述目标样本具有相同营销状态标签的样本中选取K个第一最近邻样本,以及从与所述目标样本具有不同营销状态标签的样本中选取K个第二最近邻样本,并根据上一轮抽样中每个所述客户特征的特征权重、M、K、所述目标样本、所述第一最近邻样本和所述第二最近邻样本确定在本轮抽样中每个所述客户特征的特征权重,其中,K和M均为对大于或者等于1的整数;
选择单元,用于根据最后一轮抽样中每个所述客户特征的特征权重,从所述多个客户特征中选择出特征权重大于预设权重阈值的至少一个目标客户特征。
9.如权利要求8所述的装置,其特征在于,所述抽样单元,具体用于:
针对每个所述客户特征,对各个所述第一最近邻样本与所述目标样本在所述客户特征上的第一差异值进行求和处理,以得到第一求和值;
根据M和K,对所述第一求和值进行处理,以得到第一中间值;
对各个所述第二最近邻样本与所述目标样本在所述客户特征上的第二差异值进行求和处理,以得到第二求和值;
根据M和K,对所述第二求和值进行处理,以得到第二中间值;
根据上一轮抽样中所述客户特征的特征权重、所述第一中间值和所述第二中间值,确定在本轮抽样中所述客户特征的特征权重。
10.如权利要求9所述的装置,其特征在于,所述对各个所述第一最近邻样本与所述目标样本在所述客户特征上的第一差异值进行求和处理,以得到第一求和值,包括:
获取所述客户特征所对应的加权权重;
根据所述加权权重,分别对各个所述第一最近邻样本与所述目标样本在所述客户特征上的第一差异值进行加权,以得到各个加权后的第一差异值;
对所述各个加权后的第一差异值进行求和处理。
11.如权利要求9所述的装置,其特征在于,所述对各个所述第二最近邻样本与所述目标样本在所述客户特征上的第二差异值进行求和处理,以得到第二求和值,包括:
获取所述客户特征所对应的加权权重;
根据所述加权权重,分别对各个所述第二最近邻样本与所述目标样本在所述客户特征上的第二差异值进行加权,以得到各个加权后的第二差异值;
对所述各个加权后的第二差异值进行求和处理。
12.如权利要求10或11所述的装置,其特征在于,采用层次分析法确定所述加权权重。
13.一种电子设备,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-6中任一所述的特征选择法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的特征选择方法。
15.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现如权利要求1-6中任一所述的特征选择方法。
CN202410242484.4A 2024-03-04 2024-03-04 特征选择方法、装置、设备和存储介质 Pending CN118194003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410242484.4A CN118194003A (zh) 2024-03-04 2024-03-04 特征选择方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410242484.4A CN118194003A (zh) 2024-03-04 2024-03-04 特征选择方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN118194003A true CN118194003A (zh) 2024-06-14

Family

ID=91410909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410242484.4A Pending CN118194003A (zh) 2024-03-04 2024-03-04 特征选择方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN118194003A (zh)

Similar Documents

Publication Publication Date Title
CN111078880B (zh) 子应用的风险识别方法以及装置
TW201939379A (zh) 資訊轉化率的預測、資訊推薦方法和裝置
CN111275491A (zh) 一种数据处理方法及装置
CN109598414B (zh) 风险评估模型训练、风险评估方法、装置及电子设备
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN113407854A (zh) 一种应用推荐方法、装置、设备及计算机可读存储介质
CN112434717A (zh) 一种模型训练方法及装置
CN114219003A (zh) 样本生成模型的训练方法、装置及电子设备
CN110334936B (zh) 一种信贷资质评分模型的构建方法、装置和设备
CN109828902B (zh) 接口参数确定方法、装置、电子设备及存储介质
CN118194003A (zh) 特征选择方法、装置、设备和存储介质
CN111127223A (zh) 保险产品测试方法、装置和存储介质
CN115564423A (zh) 基于大数据的留学缴费的分析处理方法
CN114519520A (zh) 模型评估方法、装置及存储介质
CN110458707B (zh) 基于分类模型的行为评估方法、装置及终端设备
CN113378037B (zh) 资费配置的获取方法及装置
CN114022045A (zh) 一种区域经济发展水平确定方法、装置及终端设备
CN108958929B (zh) 应用算法库的方法、装置、存储介质及电子设备
CN112269924A (zh) 基于排名的点评方法、装置、电子设备和介质
CN112819079A (zh) 模型的采样算法匹配方法、装置和电子设备
CN112711524B (zh) 基于ab测试的数据测试方法、装置及计算机存储介质
CN115083442B (zh) 数据处理方法、装置、电子设备以及计算机可读存储介质
CN113672783B (zh) 特征处理方法、模型训练方法及媒体资源处理方法
CN117217852B (zh) 一种基于行为识别购买意愿度预测方法及装置
WO2023151622A1 (zh) 页面测试方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination