CN113821542B - 一种显著特征自动推荐系统及方法 - Google Patents
一种显著特征自动推荐系统及方法 Download PDFInfo
- Publication number
- CN113821542B CN113821542B CN202111389625.8A CN202111389625A CN113821542B CN 113821542 B CN113821542 B CN 113821542B CN 202111389625 A CN202111389625 A CN 202111389625A CN 113821542 B CN113821542 B CN 113821542B
- Authority
- CN
- China
- Prior art keywords
- feature
- recommendation
- recommended
- characteristic
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种显著特征自动推荐系统及方法,属于大数据技术领域。本发明包括任务定义模块:用于根据特征挖掘需要,自定义推荐任务;样本选择模块:用于根据定义的推荐任务,选择关联的数据集,指定关联关系生成样本数据大宽表;特征加工模块:用于对数据集的原始特征变量进行可视化配置并进行特征加工;目标自定义模块:用于根据特征加工之后的数据集定义目标变量;特征推荐模块:用于指定每个目标变量的推荐方法和阈值;报告生成模块:用于根据特征推荐模块生成显著特征推荐报告。本发明通过系统界面化的配置,实现在指定目标变量的情况下,自动推荐显著特征,不仅极大的提升了特征挖掘的效率,也为金融智能风控提供了一种新的自动化方案。
Description
技术领域
本发明属于大数据技术领域,具体涉及一种显著特征自动推荐系统及方法。
背景技术
人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学。随着大数据、云计算、互联网、物联网等信息技术的发展,人工智能技术飞速发展,大幅跨越了科学与应用之间的“技术鸿沟”,迎来爆发式增长的新高潮。在互联网金融领域,人工智能技术越来多的应用到金融风控中,其中一个应用场景就是利用人工智能技术挖掘信用或欺诈风险目标的显著特征,以此替代传统专家经验的方式。当前行业的通用做法一般是模型人员或者策略人员通过调优脚本的方式分析选择某个目标变量的显著特征。但是该方法会对模型人员或策略人员产生大量编写脚本的工作,浪费了人力,而且效率较低,不能实现系统自动化的显著特征推荐。
基于此,本发明提出了一种显著特征自动推荐的方法和系统,该系统集成了基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法、基于AUC的特征推荐方法合计4种方法,通过系统界面化的配置,实现在指定目标变量的情况下,自动推荐显著特征,不仅极大的提升了特征挖掘的效率,也为金融智能风控提供了一种新的自动化方案。同时,该方案可以拓展到其他任何需要挖掘显著特征的场景,如:医学诊断、精准营销、保险欺诈、潜在犯罪预测等。
发明内容
针对现有技术中存在的问题,本发明提供一种显著特征自动推荐系统及方法,其目的在于:解放模型人员或策略人员编写脚本的工作,实现系统自动化的显著特征推荐,提高效率。
本发明采用的技术方案如下:
一种显著特征自动推荐系统,包括:
任务定义模块:用于根据特征挖掘需要,自定义推荐任务;
样本选择模块:用于根据定义的推荐任务,选择关联的数据集,指定关联关系生成样本数据集大宽表;
特征加工模块:用于对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工;
目标自定义模块:用于根据特征加工之后的样本数据集定义目标变量;
特征推荐模块:用于指定每个目标变量的推荐方法和阈值,并生成推荐特征集;
报告生成模块:用于根据推荐特征集生成显著特征推荐报告。
本发明通过任务定义模块自定义推荐任务,样本选择模块根据推荐任务选择数据集并生成样本数据集大宽表,特征加工模块对样本数据集的原始特征变量进行特征加工 ,目标自定义模块根据特征加工之后的样本数据集定义目标变量,特征推荐模块指定每个目标变量的推荐方法和阈值,并生成推荐特征集,报告生成模块根据推荐特征集生成显著特征推荐报告,从而实现显著特征的自动生成推荐,解放模型人员或策略人员编写脚本的工作,极大的提升了特征挖掘的效率。
本发明还公开了一种显著特征自动推荐方法,包括以下步骤:
步骤1:根据特征挖掘需要,通过任务定义模块自定义推荐任务;
步骤2:样本选择模块根据定义的推荐任务,选择关联的数据集,指定关联关系并生成样本数据集大宽表,并在存储介质中新建用于保存样本数据集大宽表的存储空间;
步骤3:特征加工模块对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工;
步骤4:目标自定义模块根据特征加工之后的样本数据集定义目标变量,并将所述目标变量保存在存储介质中新建的对应的数据结构中;
步骤5:通过特征推荐模块指定每个目标变量的推荐方法和阈值,并生成推荐特征集,新建用于保存所述推荐特征集的存储空间;
步骤6:报告生成模块根据推荐特征集生成显著特征推荐报告。
优选的,步骤1中所述推荐任务的内容包括任务名称、任务说明和跑批方式,所述任务名称为用户自定义所属任务的名称;所述任务说明为推荐任务的详细介绍;所述跑批方式包括实时跑批、异步定时跑批和周期性跑批三种方式。优选的,步骤2中所述的样本数据大宽表根据样本数据集名称、表名、过滤条件和关联条件四个要素建立。
优选的,步骤3中所述的特征加工包括剔除特征和新增特征两种方式,所述新增特征基于表达式运算,支持四则运算、字符串运算、时间类型运算及JSON运算。
优选的,步骤4中所述的目标变量为二分类变量或者多分类变量,支持表达式运算。
优选的,步骤5中所述的推荐方法包括基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法以及基于AUC的特征推荐方法。
优选的,所述基于相关系数的特征推荐方法具体包括以下步骤:
步骤A3:基于推荐的特征变量生成推荐特征集corrSet,
优选的,所述基于IV的特征推荐方法具体包括以下步骤:
步骤B4:基于推荐的特征变量生成的推荐特征集为ivSet,
优选的,所述基于KS的特征推荐方法具体包括以下步骤:
步骤C4:基于推荐的特征变生成推荐特征集ksSet,
优选的,所述基于AUC的特征推荐方法具体包括以下步骤:
步骤D3:基于推荐的特征变量生成推荐特征集aucSet,
优选的,所述显著特征推荐报告包括报告名称、报告生成时间、推荐任务名称、推荐任务说明和显著特征列表,所述显著特征列表按照目标变量、推荐方法进行分类展示,并按照显著性从高到低降序排序。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1. 本发明通过任务定义模块自定义推荐任务,样本选择模块根据推荐任务选择数据集并生成样本数据集大宽表,特征加工模块对样本数据集的原始特征变量进行特征加工 ,目标自定义模块根据特征加工之后的样本数据集定义目标变量,特征推荐模块指定每个目标变量的推荐方法和阈值,并生成推荐特征集,报告生成模块根据推荐特征集生成显著特征推荐报告,从而实现显著特征的自动生成推荐,解放模型人员或策略人员编写脚本的工作,极大的提升了特征挖掘的效率。
2.本发明通过系统界面化的配置,实现在指定目标变量的情况下,自动生成推荐的显著特征,不仅极大的提升了特征挖掘的效率,也为金融智能风控提供了一种新的自动化方案。
3.本发明抽象了4种特征推荐的方法,为行业提供了多种显著特征挖掘的方案,且该方案具有极强的可扩展性和通用性,可以拓展到其他任何需要挖掘显著特征的场景,如:医学诊断、精准营销、保险欺诈、潜在犯罪预测等。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明的流程图;
图2是任务定义模块界面示意图;
图3是样本选择模块界面示意图;
图4是特征加工模块界面示意图;
图5是目标自定义模块界面示意图;
图6是特征推荐模块界面示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合图1-图6对本发明作详细说明。
一种显著特征自动推荐系统,包括:
任务定义模块:用于根据特征挖掘需要,自定义推荐任务;
样本选择模块:用于根据定义的推荐任务,选择关联的数据集,指定关联关系生成样本数据大宽表;
特征加工模块:用于对数据集的原始特征变量进行可视化配置并进行特征加工;
目标自定义模块:用于根据特征加工之后的数据集定义目标变量;
特征推荐模块:用于指定每个目标变量的推荐方法和阈值;
报告生成模块:用于根据特征推荐模块生成显著特征推荐报告。
本发明还公开了一种显著特征自动推荐方法,包括以下步骤:
步骤1:根据特征挖掘需要,通过任务定义模块自定义推荐任务。
推荐任务内容包括:任务名称、任务说明、跑批方式。任务名称指的是用户自定义所属任务的名称;任务说明指的是推荐任务的详细介绍;跑批方式指的是任务运行的方式。跑批方式包括实时跑批、异步定时跑批、周期性跑批3种方式。实时跑批指的是任务提交之后立即跑批,是一次性任务;异步定时跑批指的是任务提交之后,从某个指定的时刻开始跑批,是一次性任务;周期性跑批,指的是任务提交之后,从某个指定的时刻开始,每隔一个固定周期跑批,是循环性任务。如在互联网信贷行业,针对于“杀猪盘”类电信诈骗,拟通过特征推荐系统自动生成显著特征,则定义任务名称为”szpMarkedFeatureTask”,任务说明为“消费贷款杀猪盘诈骗显著特征挖掘任务“,跑批方式选择周期性跑批,每天早上9点跑批。
步骤2:样本选择模块根据定义的推荐任务,选择关联的数据集,指定关联关系并生成样本数据集大宽表,并在存储介质中新建用于保存样本数据集大宽表的存储空间。
宽表指的是,基于某个实体分析对象而建立的一个逻辑数据体系,由实体的维度、描述信息、以及基于这个实体的一系列度量组成。大宽表的建立包括4个要素:样本数据集名称、表名、过滤条件、关联条件,可以实现将不同数据表的内容集成到一张大宽表中。如对于推荐任务“szpMarkedFeatureTask”,样本数据集包括业务流水表、行为数据表、授信申请表、地址画像表等信息。
步骤3:特征加工模块对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工。
特征加工包括2种方式,剔除特征和新增特征。新增特征基于表达式运算,支持四则运算、字符串运算、时间类型运算及JSON运算等。该模块可以不做任何二次加工,仅保留原始特征。如对于推荐任务“szpMarkedFeatureTask”,删除特征姓名、公司等文本特征,新增注册到授信申请的时长、授信申请到借款申请的时长等衍生特征。
步骤4:目标自定义模块根据特征加工之后的样本数据集定义目标变量,并将所述目标变量保存在存储介质中新建的对应的数据结构中。
同一个推荐任务支持配置多个目标变量,目标变量可以是二类分变量,也可以是多分类变量,支持表达式运算。如对于推荐任务“szpMarkedFeatureTask”,定义目标变量为Y,当该客户为被定性为杀猪盘类电信诈骗时,Y=1;否则Y=0。
步骤5:通过特征推荐模块指定每个目标变量的推荐方法和阈值,并生成推荐特征集,新建用于保存所述推荐特征集的存储空间。
特征推荐模块通过可视化的界面模块指定每个目标变量的推荐方法和阈值。特征推荐系统集成了4种特征推荐的方法,系统默认全选。当特征推荐模块配置完成之后,点击“提交”,则保存了一个推荐任务,系统会按照配置好的参数进行自动的跑批。如对于推荐任务“szpMarkedFeatureTask”,选择系统默认方法和阈值,则相当于选择了基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法、基于AUC的特征推荐方法合计4种推荐算法,且阈值均为0.1。假设样本数据集的目标变量为,包含个特征向量,分别记为。假设样本数据集包含条记录,则和均为维的列向量,记,其中。特征推荐方法详细如下:
基于相关系数的特征推荐方法:
相关系数是量化相关性分析中两个变量之间的线性关系强度的特定测度。本实施例采用皮尔逊相关系数,通过计算特征变量与目标变量的相关系数的方式,用以近似评估特征变量的显著性。相关系数取值为[-1,1],相关系数的绝对值越接近0,说明特征变量和目标变量的线性关系越弱,即越不显著;相关系数的绝对值越接近1,说明特征变量和目标变量的线性关系越强,即越显著。对于任意特征变量,计算和目标变量之间的相关系数,记作,其中其中表示特征变量的平均值,即;表示目标变量的平均值,即,其中。假设相关系数推荐方法对应的阈值为,当相关系数的绝对值在0.3以上时,则认为特征变量具有一定的显著性。对于生成的个相关系数列表按照相关系数降序排序,选择对应的特征变量即为系统推荐的特征变量。假设推荐的特征变量有个,相关系数降序排序对应的特征变量序号为,其中。则基于相关系数的特征推荐方法生成的推荐特征集为corrSet,其中
基于IV的特征推荐方法:
在机器学习的二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。本实施例采用IV值,通过计算特征变量与目标变量的IV值的方式,用以近似评估特征变量的显著性。IV 值的取值范围是,特征变量IV值越大,表示特征变量包含的信息量越多,也就越显著。对于目标变量,记样本数据集的坏样本数为;记样本数据集的好样本数为。对于任意特征变量,计算对应于目标变量的IV值,记作,假设将的取值范围分为组,对于第组,定义该组的坏客户人数为,该组的好客户人数为,则,其中。假设IV推荐方法对应的阈值为,一般情况下,IV值大于0.1时,表示具有较强的显著性。对于生成的个IV值列表按照IV值降序排序,选择对应的特征变量即为系统推荐的特征变量。假设推荐的特征变量有个,IV值降序排序对应的特征变量的序号为,其中。则基于IV值特征推荐方法生成的推荐特征集为ivSet,
基于KS的特征推荐方法:
KS即Kolmogorov–Smirnov统计量,是基于累积分布函数,用以检验一个经验分布是否符合某种理论分布或比较两个经验分布是否有显著性差异。KS值是在模型中用于区分预测正负样本分隔程度的评价指标。本文采用KS值,通过计算特征变量与目标变量的KS值的方式,用以近似评估特征变量的显著性。KS 值的取值范围是[0,1],特征变量KS值越大,表示特征变量越显著。对于目标变量,记样本数据集的坏样本数为,则;记样本数据集的好样本数为,则。对于任意特征变量,计算对应于目标变量的KS值,记作,将按照升序顺序排序之后分为组,对于第组,定义该组累积的坏客户人数为,该组累积的好客户人数为,则
其中。假设KS推荐方法对应的阈值为,一般情况下,KS值大于0.3时,表示具有较强的显著性。对于生成的个KS值列表按照KS值降序排序,选择对应的特征变量即为系统推荐的特征变量。假设推荐的特征变量有个,KS值降序排序对应的特征变量的序号为,其中。则基于KS值特征推荐方法生成的推荐特征集为ksSet,
基于AUC的特征推荐方法:
AUC在机器学习领域中是一种模型评估指标。根据维基百科的定义,AUC(areaunder the curve)是ROC曲线下的面积。本实施例采用AUC指标,通过计算特征变量与目标变量的AUC值的方式,用以近似评估特征变量的显著性。AUC值的取值范围是[0.5,1],特征变量的AUC越大,表示特征变量越显著。通过调用python开源包sklearn的方式来计算AUC。对于任意特征变量,计算对应于目标变量的AUC值,记作,其中。假设AUC推荐方法对应的阈值为,一般情况下,AUC值大于0.8时,表示具有较强的显著性。对于生成的个AUC值列表按照AUC值降序排序,选择对应的特征变量即为系统推荐的特征变量。假设推荐的特征变量有个,AUC值降序排序对应的特征变量的序号为。则基于AUC值的特征推荐方法生成的推荐特征集为aucSet,
步骤6:报告生成模块根据推荐特征集生成显著特征推荐报告。
基于特征推荐模块,系统自动生成显著特征推荐报告。显著特征推荐报告为PDF格式,包括报告名称、报告生成时间、推荐任务名称、推荐任务说明、显著特征列表。显著特征列表按照目标变量、推荐方法进行分类展示,并按照显著性从高到低降序排序。
综上所述,本发明基于任务定义模块、样本选择模块、特征加工模块、目标自定义模块、特征推荐模块、报告生成模块构成了自动化闭环,实现对于任意目标变量显著特征的自动生成、自动推荐,极大的提升了效率。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (8)
1.一种显著特征自动推荐系统,其特征在于,包括:
任务定义模块:用于根据特征挖掘需要,自定义推荐任务;所述推荐任务的内容包括任务名称、任务说明和跑批方式,所述任务名称为用户自定义所属任务的名称;所述任务说明为推荐任务的详细介绍;所述跑批方式包括实时跑批、异步定时跑批和周期性跑批三种方式;
样本选择模块:用于根据定义的推荐任务,选择关联的数据集,指定关联关系生成样本数据集大宽表;
特征加工模块:用于对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工;
目标自定义模块:用于根据特征加工之后的样本数据集定义目标变量;
特征推荐模块:用于指定每个目标变量的推荐方法和阈值,并生成推荐特征集;
报告生成模块:用于根据推荐特征集生成显著特征推荐报告。
2.一种显著特征自动推荐方法,其特征在于,包括以下步骤:
步骤1:根据特征挖掘需要,通过任务定义模块自定义推荐任务;所述推荐任务的内容包括任务名称、任务说明和跑批方式,所述任务名称为用户自定义所属任务的名称;所述任务说明为推荐任务的详细介绍;所述跑批方式包括实时跑批、异步定时跑批和周期性跑批三种方式;
步骤2:样本选择模块根据定义的推荐任务,选择关联的数据集,指定关联关系并生成样本数据集大宽表,并在存储介质中新建用于保存样本数据集大宽表的存储空间;
步骤3:特征加工模块对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工;
步骤4:目标自定义模块根据特征加工之后的样本数据集定义目标变量,并将所述目标变量保存在存储介质中新建的对应的数据结构中;
步骤5:通过特征推荐模块指定每个目标变量的推荐方法和阈值,并生成推荐特征集,新建用于保存所述推荐特征集的存储空间;
步骤6:报告生成模块根据推荐特征集生成显著特征推荐报告。
3.根据权利要求2所述的一种显著特征自动推荐方法,其特征在于,步骤3中所述的特征加工包括剔除特征和新增特征两种方式,所述新增特征基于表达式运算,支持四则运算、字符串运算、时间类型运算及JSON运算。
4.根据权利要求2所述的一种显著特征自动推荐方法,其特征在于,步骤5中所述的推荐方法包括基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法以及基于AUC的特征推荐方法。
5.根据权利要求4所述的一种显著特征自动推荐方法,其特征在于,所述基于相关系数的特征推荐方法具体包括以下步骤:
6.根据权利要求4所述的一种显著特征自动推荐方法,其特征在于,所述基于IV的特征推荐方法具体包括以下步骤:
步骤B4:基于推荐的特征变量生成的推荐特征集为ivSet,
8.根据权利要求2所述的一种显著特征自动推荐方法,其特征在于,所述显著特征推荐报告包括报告名称、报告生成时间、推荐任务名称、推荐任务说明和显著特征列表,所述显著特征列表按照目标变量和推荐方法进行分类展示,并按照显著性从高到低降序排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111389625.8A CN113821542B (zh) | 2021-11-23 | 2021-11-23 | 一种显著特征自动推荐系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111389625.8A CN113821542B (zh) | 2021-11-23 | 2021-11-23 | 一种显著特征自动推荐系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113821542A CN113821542A (zh) | 2021-12-21 |
CN113821542B true CN113821542B (zh) | 2022-02-11 |
Family
ID=78919665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111389625.8A Active CN113821542B (zh) | 2021-11-23 | 2021-11-23 | 一种显著特征自动推荐系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113821542B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961774B (zh) * | 2021-12-22 | 2022-04-15 | 四川新网银行股份有限公司 | 一种多特征组合策略的推荐方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294439A (zh) * | 2015-05-27 | 2017-01-04 | 北京广通神州网络技术有限公司 | 一种数据推荐系统及其数据推荐方法 |
CN107067014A (zh) * | 2016-02-09 | 2017-08-18 | 塔塔咨询服务有限公司 | 农业田地聚类和生态预报所用的方法和系统 |
CN109508424A (zh) * | 2018-12-17 | 2019-03-22 | 中译语通科技股份有限公司 | 一种基于特征演进的流式数据推荐方法 |
CN110119474A (zh) * | 2018-05-16 | 2019-08-13 | 华为技术有限公司 | 推荐模型训练方法、基于推荐模型的预测方法及装置 |
CN110287415A (zh) * | 2019-06-26 | 2019-09-27 | 海南车智易通信息技术有限公司 | 一种内容推荐方法、装置和计算设备 |
US10439884B1 (en) * | 2017-04-27 | 2019-10-08 | Dflabs S.P.A. | Cybersecurity incident response and security operation system employing playbook generation through custom machine learning |
CN110400191A (zh) * | 2018-04-24 | 2019-11-01 | 福特全球技术公司 | 用于自适应车辆特征推荐的方法和设备 |
CN110569428A (zh) * | 2019-08-08 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 一种推荐模型的构建方法、装置及设备 |
CN111506835A (zh) * | 2020-04-17 | 2020-08-07 | 北京理工大学 | 一种融合用户时间特征和个性特征的数据特征提取方法 |
CN112288530A (zh) * | 2020-10-30 | 2021-01-29 | 广东技术师范大学 | 资源共享智能就餐方法、装置、系统、介质和设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10127587B2 (en) * | 2015-11-04 | 2018-11-13 | At&T Intellectual Property I, L.P. | Virtualized services discovery and recommendation engine |
-
2021
- 2021-11-23 CN CN202111389625.8A patent/CN113821542B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294439A (zh) * | 2015-05-27 | 2017-01-04 | 北京广通神州网络技术有限公司 | 一种数据推荐系统及其数据推荐方法 |
CN107067014A (zh) * | 2016-02-09 | 2017-08-18 | 塔塔咨询服务有限公司 | 农业田地聚类和生态预报所用的方法和系统 |
US10439884B1 (en) * | 2017-04-27 | 2019-10-08 | Dflabs S.P.A. | Cybersecurity incident response and security operation system employing playbook generation through custom machine learning |
CN110400191A (zh) * | 2018-04-24 | 2019-11-01 | 福特全球技术公司 | 用于自适应车辆特征推荐的方法和设备 |
CN110119474A (zh) * | 2018-05-16 | 2019-08-13 | 华为技术有限公司 | 推荐模型训练方法、基于推荐模型的预测方法及装置 |
CN109508424A (zh) * | 2018-12-17 | 2019-03-22 | 中译语通科技股份有限公司 | 一种基于特征演进的流式数据推荐方法 |
CN110287415A (zh) * | 2019-06-26 | 2019-09-27 | 海南车智易通信息技术有限公司 | 一种内容推荐方法、装置和计算设备 |
CN110569428A (zh) * | 2019-08-08 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 一种推荐模型的构建方法、装置及设备 |
CN111506835A (zh) * | 2020-04-17 | 2020-08-07 | 北京理工大学 | 一种融合用户时间特征和个性特征的数据特征提取方法 |
CN112288530A (zh) * | 2020-10-30 | 2021-01-29 | 广东技术师范大学 | 资源共享智能就餐方法、装置、系统、介质和设备 |
Non-Patent Citations (1)
Title |
---|
基于随机森林模型的电信运营商外呼推荐系统;朱奕健等;《计算机科学》;20161115;第557-563页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113821542A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816032B (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
Krishna et al. | Artificial Intelligence Integrated with Big Data Analytics for Enhanced Marketing | |
CN110956273A (zh) | 融合多种机器学习模型的征信评分方法及系统 | |
CN114819186A (zh) | 构建gbdt模型的方法、装置及预测方法、装置 | |
CN111611488B (zh) | 基于人工智能的信息推荐方法、装置、电子设备 | |
CN115423603B (zh) | 一种基于机器学习的风控模型建立方法、系统及存储介质 | |
US20180260446A1 (en) | System and method for building statistical predictive models using automated insights | |
CN113177700B (zh) | 一种风险评估方法、系统、电子设备及存储介质 | |
CN113821542B (zh) | 一种显著特征自动推荐系统及方法 | |
CN109447129A (zh) | 一种多模式情绪识别方法、装置及计算机可读存储介质 | |
CN110458600A (zh) | 画像模型训练方法、装置、计算机设备及存储介质 | |
CN114240101A (zh) | 一种风险识别模型的验证方法、装置以及设备 | |
CN112884569A (zh) | 一种信用评估模型的训练方法、装置及设备 | |
CN117315331A (zh) | 一种基于gnn和lstm的动态图异常检测方法及系统 | |
CN115511525A (zh) | 一种针对b2b平台用户的会员流失预警方法和系统 | |
CN114385465A (zh) | 一种故障预测方法、设备及存储介质 | |
CN113506160A (zh) | 一种面向不平衡财务文本数据的风险预警方法及系统 | |
CN116402546A (zh) | 店铺风险归因方法及其装置、设备、介质、产品 | |
CN113961774B (zh) | 一种多特征组合策略的推荐方法 | |
CN111797995A (zh) | 一种模型预测样本的解释报告的生成方法及装置 | |
Buslim et al. | The Modeling of" Mustahiq" Data Using K-Means Clustering Algorithm and Big Data Analysis (Case Study: LAZ) | |
CN114693428A (zh) | 数据确定方法、装置、计算机可读存储介质及电子设备 | |
CN110210518B (zh) | 提取降维特征的方法和装置 | |
CN113159213A (zh) | 一种业务分配方法、装置及设备 | |
CN111967973A (zh) | 银行客户数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |