CN113821542B - 一种显著特征自动推荐系统及方法 - Google Patents

一种显著特征自动推荐系统及方法 Download PDF

Info

Publication number
CN113821542B
CN113821542B CN202111389625.8A CN202111389625A CN113821542B CN 113821542 B CN113821542 B CN 113821542B CN 202111389625 A CN202111389625 A CN 202111389625A CN 113821542 B CN113821542 B CN 113821542B
Authority
CN
China
Prior art keywords
feature
recommendation
recommended
characteristic
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111389625.8A
Other languages
English (en)
Other versions
CN113821542A (zh
Inventor
王萍
李思琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN202111389625.8A priority Critical patent/CN113821542B/zh
Publication of CN113821542A publication Critical patent/CN113821542A/zh
Application granted granted Critical
Publication of CN113821542B publication Critical patent/CN113821542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Technology Law (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种显著特征自动推荐系统及方法,属于大数据技术领域。本发明包括任务定义模块:用于根据特征挖掘需要,自定义推荐任务;样本选择模块:用于根据定义的推荐任务,选择关联的数据集,指定关联关系生成样本数据大宽表;特征加工模块:用于对数据集的原始特征变量进行可视化配置并进行特征加工;目标自定义模块:用于根据特征加工之后的数据集定义目标变量;特征推荐模块:用于指定每个目标变量的推荐方法和阈值;报告生成模块:用于根据特征推荐模块生成显著特征推荐报告。本发明通过系统界面化的配置,实现在指定目标变量的情况下,自动推荐显著特征,不仅极大的提升了特征挖掘的效率,也为金融智能风控提供了一种新的自动化方案。

Description

一种显著特征自动推荐系统及方法
技术领域
本发明属于大数据技术领域,具体涉及一种显著特征自动推荐系统及方法。
背景技术
人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学。随着大数据、云计算、互联网、物联网等信息技术的发展,人工智能技术飞速发展,大幅跨越了科学与应用之间的“技术鸿沟”,迎来爆发式增长的新高潮。在互联网金融领域,人工智能技术越来多的应用到金融风控中,其中一个应用场景就是利用人工智能技术挖掘信用或欺诈风险目标的显著特征,以此替代传统专家经验的方式。当前行业的通用做法一般是模型人员或者策略人员通过调优脚本的方式分析选择某个目标变量的显著特征。但是该方法会对模型人员或策略人员产生大量编写脚本的工作,浪费了人力,而且效率较低,不能实现系统自动化的显著特征推荐。
基于此,本发明提出了一种显著特征自动推荐的方法和系统,该系统集成了基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法、基于AUC的特征推荐方法合计4种方法,通过系统界面化的配置,实现在指定目标变量的情况下,自动推荐显著特征,不仅极大的提升了特征挖掘的效率,也为金融智能风控提供了一种新的自动化方案。同时,该方案可以拓展到其他任何需要挖掘显著特征的场景,如:医学诊断、精准营销、保险欺诈、潜在犯罪预测等。
发明内容
针对现有技术中存在的问题,本发明提供一种显著特征自动推荐系统及方法,其目的在于:解放模型人员或策略人员编写脚本的工作,实现系统自动化的显著特征推荐,提高效率。
本发明采用的技术方案如下:
一种显著特征自动推荐系统,包括:
任务定义模块:用于根据特征挖掘需要,自定义推荐任务;
样本选择模块:用于根据定义的推荐任务,选择关联的数据集,指定关联关系生成样本数据集大宽表;
特征加工模块:用于对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工;
目标自定义模块:用于根据特征加工之后的样本数据集定义目标变量;
特征推荐模块:用于指定每个目标变量的推荐方法和阈值,并生成推荐特征集;
报告生成模块:用于根据推荐特征集生成显著特征推荐报告。
本发明通过任务定义模块自定义推荐任务,样本选择模块根据推荐任务选择数据集并生成样本数据集大宽表,特征加工模块对样本数据集的原始特征变量进行特征加工 ,目标自定义模块根据特征加工之后的样本数据集定义目标变量,特征推荐模块指定每个目标变量的推荐方法和阈值,并生成推荐特征集,报告生成模块根据推荐特征集生成显著特征推荐报告,从而实现显著特征的自动生成推荐,解放模型人员或策略人员编写脚本的工作,极大的提升了特征挖掘的效率。
本发明还公开了一种显著特征自动推荐方法,包括以下步骤:
步骤1:根据特征挖掘需要,通过任务定义模块自定义推荐任务;
步骤2:样本选择模块根据定义的推荐任务,选择关联的数据集,指定关联关系并生成样本数据集大宽表,并在存储介质中新建用于保存样本数据集大宽表的存储空间;
步骤3:特征加工模块对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工;
步骤4:目标自定义模块根据特征加工之后的样本数据集定义目标变量,并将所述目标变量保存在存储介质中新建的对应的数据结构中;
步骤5:通过特征推荐模块指定每个目标变量的推荐方法和阈值,并生成推荐特征集,新建用于保存所述推荐特征集的存储空间;
步骤6:报告生成模块根据推荐特征集生成显著特征推荐报告。
优选的,步骤1中所述推荐任务的内容包括任务名称、任务说明和跑批方式,所述任务名称为用户自定义所属任务的名称;所述任务说明为推荐任务的详细介绍;所述跑批方式包括实时跑批、异步定时跑批和周期性跑批三种方式。优选的,步骤2中所述的样本数据大宽表根据样本数据集名称、表名、过滤条件和关联条件四个要素建立。
优选的,步骤3中所述的特征加工包括剔除特征和新增特征两种方式,所述新增特征基于表达式运算,支持四则运算、字符串运算、时间类型运算及JSON运算。
优选的,步骤4中所述的目标变量为二分类变量或者多分类变量,支持表达式运算。
优选的,步骤5中所述的推荐方法包括基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法以及基于AUC的特征推荐方法。
优选的,所述基于相关系数的特征推荐方法具体包括以下步骤:
步骤A1:对于任意特征变量
Figure 210199DEST_PATH_IMAGE001
,计算
Figure 442597DEST_PATH_IMAGE001
和目标变量
Figure 620768DEST_PATH_IMAGE002
之间的相关系数,记作
Figure 555095DEST_PATH_IMAGE003
Figure 906442DEST_PATH_IMAGE004
其中
Figure 524505DEST_PATH_IMAGE005
表示特征变量
Figure 935895DEST_PATH_IMAGE005
的平均值;
Figure 842671DEST_PATH_IMAGE006
表示目标变量
Figure 981397DEST_PATH_IMAGE007
的平均值,相关系数取值为[-1,1],
Figure 922809DEST_PATH_IMAGE008
表示第
Figure 239520DEST_PATH_IMAGE009
维的特征向量,
Figure 368013DEST_PATH_IMAGE010
表示第
Figure 310431DEST_PATH_IMAGE009
维的目标变量值,
Figure 106348DEST_PATH_IMAGE011
Figure 859541DEST_PATH_IMAGE012
n表示样本数据集中记录的条数;
步骤A2:对于生成的
Figure 537647DEST_PATH_IMAGE013
个相关系数列表按照相关系数降序排序,选择
Figure 768908DEST_PATH_IMAGE014
对应的特征变量为系统推荐的特征变量,
Figure 668600DEST_PATH_IMAGE015
为相关系数推荐方法对应的阈值;
步骤A3:基于推荐的特征变量生成推荐特征集corrSet,
Figure 592693DEST_PATH_IMAGE016
其中且
Figure 961358DEST_PATH_IMAGE017
为相关系数推荐方法推荐的特征变量个数,相关系数降序排序对应的特征变量序号为
Figure 996310DEST_PATH_IMAGE018
优选的,所述基于IV的特征推荐方法具体包括以下步骤:
步骤B1:对于目标变量
Figure 750508DEST_PATH_IMAGE019
,记样本数据集的坏样本数为
Figure 845503DEST_PATH_IMAGE020
Figure 435884DEST_PATH_IMAGE021
;记样本数据集的好样本数为
Figure 8948DEST_PATH_IMAGE022
Figure 883232DEST_PATH_IMAGE023
Figure 149128DEST_PATH_IMAGE010
表示第
Figure 226806DEST_PATH_IMAGE009
维的目标变量值;
步骤B2:对于任意特征变量
Figure 869140DEST_PATH_IMAGE024
,计算
Figure 145400DEST_PATH_IMAGE024
对应于目标变量
Figure 831465DEST_PATH_IMAGE025
的IV值,记作
Figure 396439DEST_PATH_IMAGE026
Figure 311305DEST_PATH_IMAGE028
其中
Figure 910914DEST_PATH_IMAGE029
的取值范围分为
Figure 502301DEST_PATH_IMAGE030
组,对于第
Figure 554571DEST_PATH_IMAGE031
组,
Figure 273128DEST_PATH_IMAGE032
为第
Figure 727243DEST_PATH_IMAGE031
组的坏客户数量,
Figure 755111DEST_PATH_IMAGE033
为第
Figure 294677DEST_PATH_IMAGE034
组的好客户数量;
步骤B3:对于生成的
Figure 613662DEST_PATH_IMAGE035
个IV值列表按照IV值降序排序,选择
Figure 922284DEST_PATH_IMAGE036
对应的特征变量为系统推荐的特征变量,
Figure 871786DEST_PATH_IMAGE037
为IV推荐方法对应的阈值;
步骤B4:基于推荐的特征变量生成的推荐特征集为ivSet,
Figure 882336DEST_PATH_IMAGE038
其中
Figure 208275DEST_PATH_IMAGE039
为IV推荐方法推荐的特征变量的数量,
Figure 105824DEST_PATH_IMAGE040
为IV值降序排序对应的特征变量的序号。
优选的,所述基于KS的特征推荐方法具体包括以下步骤:
步骤C1:对于目标变量
Figure 226226DEST_PATH_IMAGE041
,记样本数据集的坏样本数为,
Figure 537122DEST_PATH_IMAGE042
;记样本数据集的好样本数为
Figure 650440DEST_PATH_IMAGE043
步骤C2:对于任意特征变量
Figure 668075DEST_PATH_IMAGE044
,计算
Figure 224958DEST_PATH_IMAGE045
对应于目标变量
Figure 413363DEST_PATH_IMAGE046
的KS值,记作
Figure 612263DEST_PATH_IMAGE047
,将
Figure 749983DEST_PATH_IMAGE044
按照升序顺序排序之后分为
Figure 477768DEST_PATH_IMAGE048
组,
Figure 435360DEST_PATH_IMAGE049
其中
Figure 156060DEST_PATH_IMAGE050
为第
Figure 148287DEST_PATH_IMAGE051
组累积的坏客户人数,
Figure 515814DEST_PATH_IMAGE052
为第
Figure 226281DEST_PATH_IMAGE051
组累积的好客户人数;
步骤C3:对于生成的
Figure 485093DEST_PATH_IMAGE053
个KS值列表按照KS值降序排序,选择
Figure 331826DEST_PATH_IMAGE054
对应的特征变量为系统推荐的特征变量;
步骤C4:基于推荐的特征变生成推荐特征集ksSet,
Figure 401414DEST_PATH_IMAGE055
其中
Figure 130335DEST_PATH_IMAGE056
为KS推荐方法推荐的特征变量的数量,KS值降序排序对应的特征变量的序号为
Figure 943570DEST_PATH_IMAGE058
优选的,所述基于AUC的特征推荐方法具体包括以下步骤:
步骤D1:对于任意特征变量
Figure 159657DEST_PATH_IMAGE059
,计算
Figure 134566DEST_PATH_IMAGE060
对应于目标变量
Figure 819625DEST_PATH_IMAGE061
的AUC值,记作
Figure 170972DEST_PATH_IMAGE062
,其中
Figure 241565DEST_PATH_IMAGE063
步骤D2:对于生成的
Figure 387376DEST_PATH_IMAGE053
个AUC值列表按照AUC值降序排序,选择
Figure 28573DEST_PATH_IMAGE064
对应的特征变量为系统推荐的特征变量,
Figure 449190DEST_PATH_IMAGE065
为AUC推荐方法对应的阈值;
步骤D3:基于推荐的特征变量生成推荐特征集aucSet,
Figure 108710DEST_PATH_IMAGE066
其中,
Figure 691001DEST_PATH_IMAGE067
为AUC推荐方法推荐的特征变量的数量,AUC值降序排序对应的特征变量的序号为
Figure 85074DEST_PATH_IMAGE069
优选的,所述显著特征推荐报告包括报告名称、报告生成时间、推荐任务名称、推荐任务说明和显著特征列表,所述显著特征列表按照目标变量、推荐方法进行分类展示,并按照显著性从高到低降序排序。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1. 本发明通过任务定义模块自定义推荐任务,样本选择模块根据推荐任务选择数据集并生成样本数据集大宽表,特征加工模块对样本数据集的原始特征变量进行特征加工 ,目标自定义模块根据特征加工之后的样本数据集定义目标变量,特征推荐模块指定每个目标变量的推荐方法和阈值,并生成推荐特征集,报告生成模块根据推荐特征集生成显著特征推荐报告,从而实现显著特征的自动生成推荐,解放模型人员或策略人员编写脚本的工作,极大的提升了特征挖掘的效率。
2.本发明通过系统界面化的配置,实现在指定目标变量的情况下,自动生成推荐的显著特征,不仅极大的提升了特征挖掘的效率,也为金融智能风控提供了一种新的自动化方案。
3.本发明抽象了4种特征推荐的方法,为行业提供了多种显著特征挖掘的方案,且该方案具有极强的可扩展性和通用性,可以拓展到其他任何需要挖掘显著特征的场景,如:医学诊断、精准营销、保险欺诈、潜在犯罪预测等。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明的流程图;
图2是任务定义模块界面示意图;
图3是样本选择模块界面示意图;
图4是特征加工模块界面示意图;
图5是目标自定义模块界面示意图;
图6是特征推荐模块界面示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合图1-图6对本发明作详细说明。
一种显著特征自动推荐系统,包括:
任务定义模块:用于根据特征挖掘需要,自定义推荐任务;
样本选择模块:用于根据定义的推荐任务,选择关联的数据集,指定关联关系生成样本数据大宽表;
特征加工模块:用于对数据集的原始特征变量进行可视化配置并进行特征加工;
目标自定义模块:用于根据特征加工之后的数据集定义目标变量;
特征推荐模块:用于指定每个目标变量的推荐方法和阈值;
报告生成模块:用于根据特征推荐模块生成显著特征推荐报告。
本发明还公开了一种显著特征自动推荐方法,包括以下步骤:
步骤1:根据特征挖掘需要,通过任务定义模块自定义推荐任务。
推荐任务内容包括:任务名称、任务说明、跑批方式。任务名称指的是用户自定义所属任务的名称;任务说明指的是推荐任务的详细介绍;跑批方式指的是任务运行的方式。跑批方式包括实时跑批、异步定时跑批、周期性跑批3种方式。实时跑批指的是任务提交之后立即跑批,是一次性任务;异步定时跑批指的是任务提交之后,从某个指定的时刻开始跑批,是一次性任务;周期性跑批,指的是任务提交之后,从某个指定的时刻开始,每隔一个固定周期跑批,是循环性任务。如在互联网信贷行业,针对于“杀猪盘”类电信诈骗,拟通过特征推荐系统自动生成显著特征,则定义任务名称为”szpMarkedFeatureTask”,任务说明为“消费贷款杀猪盘诈骗显著特征挖掘任务“,跑批方式选择周期性跑批,每天早上9点跑批。
步骤2:样本选择模块根据定义的推荐任务,选择关联的数据集,指定关联关系并生成样本数据集大宽表,并在存储介质中新建用于保存样本数据集大宽表的存储空间。
宽表指的是,基于某个实体分析对象而建立的一个逻辑数据体系,由实体的维度、描述信息、以及基于这个实体的一系列度量组成。大宽表的建立包括4个要素:样本数据集名称、表名、过滤条件、关联条件,可以实现将不同数据表的内容集成到一张大宽表中。如对于推荐任务“szpMarkedFeatureTask”,样本数据集包括业务流水表、行为数据表、授信申请表、地址画像表等信息。
步骤3:特征加工模块对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工。
特征加工包括2种方式,剔除特征和新增特征。新增特征基于表达式运算,支持四则运算、字符串运算、时间类型运算及JSON运算等。该模块可以不做任何二次加工,仅保留原始特征。如对于推荐任务“szpMarkedFeatureTask”,删除特征姓名、公司等文本特征,新增注册到授信申请的时长、授信申请到借款申请的时长等衍生特征。
步骤4:目标自定义模块根据特征加工之后的样本数据集定义目标变量,并将所述目标变量保存在存储介质中新建的对应的数据结构中。
同一个推荐任务支持配置多个目标变量,目标变量可以是二类分变量,也可以是多分类变量,支持表达式运算。如对于推荐任务“szpMarkedFeatureTask”,定义目标变量为Y,当该客户为被定性为杀猪盘类电信诈骗时,Y=1;否则Y=0。
步骤5:通过特征推荐模块指定每个目标变量的推荐方法和阈值,并生成推荐特征集,新建用于保存所述推荐特征集的存储空间。
特征推荐模块通过可视化的界面模块指定每个目标变量的推荐方法和阈值。特征推荐系统集成了4种特征推荐的方法,系统默认全选。当特征推荐模块配置完成之后,点击“提交”,则保存了一个推荐任务,系统会按照配置好的参数进行自动的跑批。如对于推荐任务“szpMarkedFeatureTask”,选择系统默认方法和阈值,则相当于选择了基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法、基于AUC的特征推荐方法合计4种推荐算法,且阈值均为0.1。假设样本数据集的目标变量为
Figure 778223DEST_PATH_IMAGE070
,包含
Figure 823408DEST_PATH_IMAGE071
个特征向量,分别记为
Figure 576601DEST_PATH_IMAGE072
。假设样本数据集包含
Figure 989127DEST_PATH_IMAGE073
条记录,则
Figure 485968DEST_PATH_IMAGE074
Figure 136392DEST_PATH_IMAGE075
均为
Figure 309753DEST_PATH_IMAGE073
维的列向量,记
Figure 412839DEST_PATH_IMAGE077
,其中
Figure 447791DEST_PATH_IMAGE078
。特征推荐方法详细如下:
基于相关系数的特征推荐方法:
相关系数是量化相关性分析中两个变量之间的线性关系强度的特定测度。本实施例采用皮尔逊相关系数,通过计算特征变量与目标变量的相关系数的方式,用以近似评估特征变量的显著性。相关系数取值为[-1,1],相关系数的绝对值越接近0,说明特征变量和目标变量的线性关系越弱,即越不显著;相关系数的绝对值越接近1,说明特征变量和目标变量的线性关系越强,即越显著。对于任意特征变量
Figure 952721DEST_PATH_IMAGE079
,计算
Figure 296984DEST_PATH_IMAGE080
和目标变量
Figure 887365DEST_PATH_IMAGE081
之间的相关系数,记作
Figure 726008DEST_PATH_IMAGE082
,其中
Figure 351025DEST_PATH_IMAGE083
其中
Figure 413658DEST_PATH_IMAGE075
表示特征变量
Figure 740604DEST_PATH_IMAGE075
的平均值,即
Figure 117358DEST_PATH_IMAGE084
Figure 596881DEST_PATH_IMAGE085
表示目标变量
Figure 33679DEST_PATH_IMAGE074
的平均值,即
Figure 847920DEST_PATH_IMAGE086
,其中
Figure 28365DEST_PATH_IMAGE087
。假设相关系数推荐方法对应的阈值为
Figure 627974DEST_PATH_IMAGE088
,当相关系数的绝对值在0.3以上时,则认为特征变量具有一定的显著性。对于生成的
Figure 970094DEST_PATH_IMAGE089
个相关系数列表按照相关系数降序排序,选择
Figure 6052DEST_PATH_IMAGE090
对应的特征变量即为系统推荐的特征变量。假设推荐的特征变量有
Figure 990188DEST_PATH_IMAGE091
个,相关系数降序排序对应的特征变量序号为
Figure 444303DEST_PATH_IMAGE092
,其中
Figure 222903DEST_PATH_IMAGE093
。则基于相关系数的特征推荐方法生成的推荐特征集为corrSet,
Figure 293628DEST_PATH_IMAGE094
其中
Figure 65143DEST_PATH_IMAGE095
基于IV的特征推荐方法:
在机器学习的二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。本实施例采用IV值,通过计算特征变量与目标变量的IV值的方式,用以近似评估特征变量的显著性。IV 值的取值范围是
Figure 373765DEST_PATH_IMAGE096
,特征变量IV值越大,表示特征变量包含的信息量越多,也就越显著。对于目标变量
Figure 323266DEST_PATH_IMAGE002
,记样本数据集的坏样本数为
Figure 350128DEST_PATH_IMAGE097
;记样本数据集的好样本数为
Figure 659756DEST_PATH_IMAGE098
。对于任意特征变量
Figure 822884DEST_PATH_IMAGE099
,计算
Figure 208866DEST_PATH_IMAGE100
对应于目标变量
Figure 191865DEST_PATH_IMAGE101
的IV值,记作
Figure 328621DEST_PATH_IMAGE102
,假设将
Figure 611835DEST_PATH_IMAGE099
的取值范围分为
Figure 903139DEST_PATH_IMAGE103
组,对于第
Figure 435751DEST_PATH_IMAGE104
组,定义该组的坏客户人数为
Figure 103493DEST_PATH_IMAGE105
,该组的好客户人数为
Figure 490481DEST_PATH_IMAGE106
,则
Figure 952686DEST_PATH_IMAGE108
,其中
Figure 175857DEST_PATH_IMAGE109
。假设IV推荐方法对应的阈值为
Figure 647290DEST_PATH_IMAGE110
,一般情况下,IV值大于0.1时,表示具有较强的显著性。对于生成的
Figure 623205DEST_PATH_IMAGE089
个IV值列表按照IV值降序排序,选择
Figure 256312DEST_PATH_IMAGE111
对应的特征变量即为系统推荐的特征变量。假设推荐的特征变量有
Figure 966779DEST_PATH_IMAGE112
个,IV值降序排序对应的特征变量的序号为
Figure 976323DEST_PATH_IMAGE113
,其中
Figure 72324DEST_PATH_IMAGE114
。则基于IV值特征推荐方法生成的推荐特征集为ivSet,
Figure 141911DEST_PATH_IMAGE115
其中
Figure 870833DEST_PATH_IMAGE116
基于KS的特征推荐方法:
KS即Kolmogorov–Smirnov统计量,是基于累积分布函数,用以检验一个经验分布是否符合某种理论分布或比较两个经验分布是否有显著性差异。KS值是在模型中用于区分预测正负样本分隔程度的评价指标。本文采用KS值,通过计算特征变量与目标变量的KS值的方式,用以近似评估特征变量的显著性。KS 值的取值范围是[0,1],特征变量KS值越大,表示特征变量越显著。对于目标变量
Figure 684068DEST_PATH_IMAGE117
,记样本数据集的坏样本数为
Figure 385308DEST_PATH_IMAGE118
,则
Figure 875064DEST_PATH_IMAGE119
;记样本数据集的好样本数为
Figure 294544DEST_PATH_IMAGE120
,则
Figure 645891DEST_PATH_IMAGE121
。对于任意特征变量
Figure 201637DEST_PATH_IMAGE122
,计算
Figure 862294DEST_PATH_IMAGE122
对应于目标变量
Figure 769070DEST_PATH_IMAGE117
的KS值,记作
Figure 924108DEST_PATH_IMAGE123
,将
Figure 599940DEST_PATH_IMAGE122
按照升序顺序排序之后分为
Figure 431499DEST_PATH_IMAGE124
组,对于第
Figure 622309DEST_PATH_IMAGE125
组,定义该组累积的坏客户人数为
Figure 518721DEST_PATH_IMAGE126
,该组累积的好客户人数为
Figure 111376DEST_PATH_IMAGE127
,则
Figure 598989DEST_PATH_IMAGE129
其中
Figure 729625DEST_PATH_IMAGE130
。假设KS推荐方法对应的阈值为
Figure 226465DEST_PATH_IMAGE131
,一般情况下,KS值大于0.3时,表示具有较强的显著性。对于生成的
Figure 876890DEST_PATH_IMAGE035
个KS值列表按照KS值降序排序,选择
Figure 535404DEST_PATH_IMAGE132
对应的特征变量即为系统推荐的特征变量。假设推荐的特征变量有
Figure 153336DEST_PATH_IMAGE133
个,KS值降序排序对应的特征变量的序号为
Figure 922709DEST_PATH_IMAGE134
,其中
Figure 693219DEST_PATH_IMAGE135
。则基于KS值特征推荐方法生成的推荐特征集为ksSet,
Figure 788214DEST_PATH_IMAGE136
其中
Figure 627863DEST_PATH_IMAGE137
基于AUC的特征推荐方法:
AUC在机器学习领域中是一种模型评估指标。根据维基百科的定义,AUC(areaunder the curve)是ROC曲线下的面积。本实施例采用AUC指标,通过计算特征变量与目标变量的AUC值的方式,用以近似评估特征变量的显著性。AUC值的取值范围是[0.5,1],特征变量的AUC越大,表示特征变量越显著。通过调用python开源包sklearn的方式来计算AUC。对于任意特征变量
Figure 466506DEST_PATH_IMAGE138
,计算
Figure 888260DEST_PATH_IMAGE139
对应于目标变量
Figure 154156DEST_PATH_IMAGE140
的AUC值,记作
Figure 231834DEST_PATH_IMAGE141
,其中
Figure 857856DEST_PATH_IMAGE142
。假设AUC推荐方法对应的阈值为
Figure 337379DEST_PATH_IMAGE143
,一般情况下,AUC值大于0.8时,表示具有较强的显著性。对于生成的
Figure DEST_PATH_IMAGE144
个AUC值列表按照AUC值降序排序,选择
Figure DEST_PATH_IMAGE145
对应的特征变量即为系统推荐的特征变量。假设推荐的特征变量有
Figure DEST_PATH_IMAGE146
个,AUC值降序排序对应的特征变量的序号为
Figure DEST_PATH_IMAGE148
。则基于AUC值的特征推荐方法生成的推荐特征集为aucSet,
Figure DEST_PATH_IMAGE149
其中
Figure DEST_PATH_IMAGE150
步骤6:报告生成模块根据推荐特征集生成显著特征推荐报告。
基于特征推荐模块,系统自动生成显著特征推荐报告。显著特征推荐报告为PDF格式,包括报告名称、报告生成时间、推荐任务名称、推荐任务说明、显著特征列表。显著特征列表按照目标变量、推荐方法进行分类展示,并按照显著性从高到低降序排序。
综上所述,本发明基于任务定义模块、样本选择模块、特征加工模块、目标自定义模块、特征推荐模块、报告生成模块构成了自动化闭环,实现对于任意目标变量显著特征的自动生成、自动推荐,极大的提升了效率。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (8)

1.一种显著特征自动推荐系统,其特征在于,包括:
任务定义模块:用于根据特征挖掘需要,自定义推荐任务;所述推荐任务的内容包括任务名称、任务说明和跑批方式,所述任务名称为用户自定义所属任务的名称;所述任务说明为推荐任务的详细介绍;所述跑批方式包括实时跑批、异步定时跑批和周期性跑批三种方式;
样本选择模块:用于根据定义的推荐任务,选择关联的数据集,指定关联关系生成样本数据集大宽表;
特征加工模块:用于对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工;
目标自定义模块:用于根据特征加工之后的样本数据集定义目标变量;
特征推荐模块:用于指定每个目标变量的推荐方法和阈值,并生成推荐特征集;
报告生成模块:用于根据推荐特征集生成显著特征推荐报告。
2.一种显著特征自动推荐方法,其特征在于,包括以下步骤:
步骤1:根据特征挖掘需要,通过任务定义模块自定义推荐任务;所述推荐任务的内容包括任务名称、任务说明和跑批方式,所述任务名称为用户自定义所属任务的名称;所述任务说明为推荐任务的详细介绍;所述跑批方式包括实时跑批、异步定时跑批和周期性跑批三种方式;
步骤2:样本选择模块根据定义的推荐任务,选择关联的数据集,指定关联关系并生成样本数据集大宽表,并在存储介质中新建用于保存样本数据集大宽表的存储空间;
步骤3:特征加工模块对样本数据集大宽表中的样本数据集的原始特征变量进行可视化配置并进行特征加工;
步骤4:目标自定义模块根据特征加工之后的样本数据集定义目标变量,并将所述目标变量保存在存储介质中新建的对应的数据结构中;
步骤5:通过特征推荐模块指定每个目标变量的推荐方法和阈值,并生成推荐特征集,新建用于保存所述推荐特征集的存储空间;
步骤6:报告生成模块根据推荐特征集生成显著特征推荐报告。
3.根据权利要求2所述的一种显著特征自动推荐方法,其特征在于,步骤3中所述的特征加工包括剔除特征和新增特征两种方式,所述新增特征基于表达式运算,支持四则运算、字符串运算、时间类型运算及JSON运算。
4.根据权利要求2所述的一种显著特征自动推荐方法,其特征在于,步骤5中所述的推荐方法包括基于相关系数的特征推荐方法、基于IV的特征推荐方法、基于KS的特征推荐方法以及基于AUC的特征推荐方法。
5.根据权利要求4所述的一种显著特征自动推荐方法,其特征在于,所述基于相关系数的特征推荐方法具体包括以下步骤:
步骤A1:对于任意特征变量
Figure 11364DEST_PATH_IMAGE001
,计算
Figure 397346DEST_PATH_IMAGE001
和目标变量
Figure 770559DEST_PATH_IMAGE002
之间的相关系数,记作
Figure 634609DEST_PATH_IMAGE003
Figure 571952DEST_PATH_IMAGE004
其中
Figure 863256DEST_PATH_IMAGE005
表示特征变量
Figure 723765DEST_PATH_IMAGE001
的平均值;
Figure 391507DEST_PATH_IMAGE006
表示目标变量
Figure 607855DEST_PATH_IMAGE002
的平均值,相关系数取值为[-1,1],
Figure 194695DEST_PATH_IMAGE007
表示第
Figure 417866DEST_PATH_IMAGE008
维的特征向量,
Figure 997620DEST_PATH_IMAGE009
表示第
Figure 989847DEST_PATH_IMAGE008
维的目标变量值,
Figure 13167DEST_PATH_IMAGE010
表示特征向量的数量,
Figure 989213DEST_PATH_IMAGE011
n表示样本数据集中记录的条数;
步骤A2:对于生成的
Figure 608544DEST_PATH_IMAGE012
个相关系数列表按照相关系数降序排序,选择
Figure 720857DEST_PATH_IMAGE013
对应的特征变量为系统推荐的特征变量,
Figure 649499DEST_PATH_IMAGE014
为相关系数推荐方法对应的阈值;
步骤A3:基于推荐的特征变量生成推荐特征集corrSet,
Figure 847262DEST_PATH_IMAGE016
其中
Figure 975011DEST_PATH_IMAGE017
Figure 66464DEST_PATH_IMAGE018
为相关系数推荐方法推荐的特征变量数量,相关系数降序排序对应的特征变量序号为
Figure 306952DEST_PATH_IMAGE019
6.根据权利要求4所述的一种显著特征自动推荐方法,其特征在于,所述基于IV的特征推荐方法具体包括以下步骤:
步骤B1:对于目标变量
Figure 601799DEST_PATH_IMAGE020
,记样本数据集的坏样本数为
Figure 953146DEST_PATH_IMAGE021
Figure 164684DEST_PATH_IMAGE022
;记样本数据集的好样本数为
Figure 576074DEST_PATH_IMAGE023
Figure 856751DEST_PATH_IMAGE024
Figure 74106DEST_PATH_IMAGE009
表示第
Figure 15517DEST_PATH_IMAGE008
维的目标变量值;
步骤B2:对于任意特征变量
Figure 473174DEST_PATH_IMAGE025
,计算
Figure 867247DEST_PATH_IMAGE025
对应于目标变量
Figure 950609DEST_PATH_IMAGE020
的IV值,记作
Figure 480948DEST_PATH_IMAGE026
Figure 610971DEST_PATH_IMAGE027
,其中
Figure 492339DEST_PATH_IMAGE028
Figure 317076DEST_PATH_IMAGE029
的取值范围分为
Figure 842866DEST_PATH_IMAGE030
组,对于第
Figure 501381DEST_PATH_IMAGE031
组,
Figure 994679DEST_PATH_IMAGE032
为第
Figure 295210DEST_PATH_IMAGE031
组的坏客户数量,
Figure 439622DEST_PATH_IMAGE033
为第
Figure 269037DEST_PATH_IMAGE031
组的好客户数量;
步骤B3:对于生成的
Figure 249632DEST_PATH_IMAGE012
个IV值列表按照IV值降序排序,选择
Figure 88275DEST_PATH_IMAGE034
对应的特征变量为系统推荐的特征变量,
Figure 526340DEST_PATH_IMAGE035
为IV推荐方法对应的阈值;
步骤B4:基于推荐的特征变量生成的推荐特征集为ivSet,
Figure 916870DEST_PATH_IMAGE036
其中
Figure 994548DEST_PATH_IMAGE037
Figure 279292DEST_PATH_IMAGE038
,
Figure 758815DEST_PATH_IMAGE039
为IV推荐方法
推荐的特征变量的数量,
Figure 320246DEST_PATH_IMAGE040
为IV值降序排序对应的特征变量的序号。
7.根据权利要求4所述的一种显著特征自动推荐方法,其特征在于,所述基于KS的特征推荐方法具体包括以下步骤:
步骤C1:对于目标变量
Figure 885220DEST_PATH_IMAGE002
,记样本数据集的坏样本数为
Figure 941032DEST_PATH_IMAGE041
Figure 275061DEST_PATH_IMAGE042
;记样本数据集的好样本数为
Figure 210656DEST_PATH_IMAGE043
Figure 636827DEST_PATH_IMAGE044
步骤C2:对于任意特征变量
Figure 355384DEST_PATH_IMAGE025
,计算
Figure 934133DEST_PATH_IMAGE025
对应于目标变量
Figure 712733DEST_PATH_IMAGE020
的KS值,记作
Figure 393245DEST_PATH_IMAGE045
,将
Figure 915493DEST_PATH_IMAGE025
按照升序顺序排序之后分为
Figure 348748DEST_PATH_IMAGE046
组,
Figure 298250DEST_PATH_IMAGE047
其中
Figure 627907DEST_PATH_IMAGE048
为第
Figure 78480DEST_PATH_IMAGE049
组累积的坏客户人数,
Figure 241608DEST_PATH_IMAGE050
为第
Figure 237377DEST_PATH_IMAGE049
组累积的好客户人数;
步骤C3:对于生成的
Figure 751535DEST_PATH_IMAGE012
个KS值列表按照KS值降序排序,选择
Figure 5799DEST_PATH_IMAGE051
对应的特征变量为系统推荐的特征变量;
步骤C4:基于推荐的特征变生成推荐特征集ksSet,
Figure 23433DEST_PATH_IMAGE052
其中
Figure 954218DEST_PATH_IMAGE053
为KS推荐方法推荐的特征变量的数量,KS值降序排序对应的特征变量的序号为
Figure 690093DEST_PATH_IMAGE054
其中
Figure DEST_PATH_IMAGE055
8.根据权利要求2所述的一种显著特征自动推荐方法,其特征在于,所述显著特征推荐报告包括报告名称、报告生成时间、推荐任务名称、推荐任务说明和显著特征列表,所述显著特征列表按照目标变量和推荐方法进行分类展示,并按照显著性从高到低降序排序。
CN202111389625.8A 2021-11-23 2021-11-23 一种显著特征自动推荐系统及方法 Active CN113821542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111389625.8A CN113821542B (zh) 2021-11-23 2021-11-23 一种显著特征自动推荐系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111389625.8A CN113821542B (zh) 2021-11-23 2021-11-23 一种显著特征自动推荐系统及方法

Publications (2)

Publication Number Publication Date
CN113821542A CN113821542A (zh) 2021-12-21
CN113821542B true CN113821542B (zh) 2022-02-11

Family

ID=78919665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111389625.8A Active CN113821542B (zh) 2021-11-23 2021-11-23 一种显著特征自动推荐系统及方法

Country Status (1)

Country Link
CN (1) CN113821542B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961774B (zh) * 2021-12-22 2022-04-15 四川新网银行股份有限公司 一种多特征组合策略的推荐方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294439A (zh) * 2015-05-27 2017-01-04 北京广通神州网络技术有限公司 一种数据推荐系统及其数据推荐方法
CN107067014A (zh) * 2016-02-09 2017-08-18 塔塔咨询服务有限公司 农业田地聚类和生态预报所用的方法和系统
CN109508424A (zh) * 2018-12-17 2019-03-22 中译语通科技股份有限公司 一种基于特征演进的流式数据推荐方法
CN110119474A (zh) * 2018-05-16 2019-08-13 华为技术有限公司 推荐模型训练方法、基于推荐模型的预测方法及装置
CN110287415A (zh) * 2019-06-26 2019-09-27 海南车智易通信息技术有限公司 一种内容推荐方法、装置和计算设备
US10439884B1 (en) * 2017-04-27 2019-10-08 Dflabs S.P.A. Cybersecurity incident response and security operation system employing playbook generation through custom machine learning
CN110400191A (zh) * 2018-04-24 2019-11-01 福特全球技术公司 用于自适应车辆特征推荐的方法和设备
CN110569428A (zh) * 2019-08-08 2019-12-13 阿里巴巴集团控股有限公司 一种推荐模型的构建方法、装置及设备
CN111506835A (zh) * 2020-04-17 2020-08-07 北京理工大学 一种融合用户时间特征和个性特征的数据特征提取方法
CN112288530A (zh) * 2020-10-30 2021-01-29 广东技术师范大学 资源共享智能就餐方法、装置、系统、介质和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127587B2 (en) * 2015-11-04 2018-11-13 At&T Intellectual Property I, L.P. Virtualized services discovery and recommendation engine

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294439A (zh) * 2015-05-27 2017-01-04 北京广通神州网络技术有限公司 一种数据推荐系统及其数据推荐方法
CN107067014A (zh) * 2016-02-09 2017-08-18 塔塔咨询服务有限公司 农业田地聚类和生态预报所用的方法和系统
US10439884B1 (en) * 2017-04-27 2019-10-08 Dflabs S.P.A. Cybersecurity incident response and security operation system employing playbook generation through custom machine learning
CN110400191A (zh) * 2018-04-24 2019-11-01 福特全球技术公司 用于自适应车辆特征推荐的方法和设备
CN110119474A (zh) * 2018-05-16 2019-08-13 华为技术有限公司 推荐模型训练方法、基于推荐模型的预测方法及装置
CN109508424A (zh) * 2018-12-17 2019-03-22 中译语通科技股份有限公司 一种基于特征演进的流式数据推荐方法
CN110287415A (zh) * 2019-06-26 2019-09-27 海南车智易通信息技术有限公司 一种内容推荐方法、装置和计算设备
CN110569428A (zh) * 2019-08-08 2019-12-13 阿里巴巴集团控股有限公司 一种推荐模型的构建方法、装置及设备
CN111506835A (zh) * 2020-04-17 2020-08-07 北京理工大学 一种融合用户时间特征和个性特征的数据特征提取方法
CN112288530A (zh) * 2020-10-30 2021-01-29 广东技术师范大学 资源共享智能就餐方法、装置、系统、介质和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于随机森林模型的电信运营商外呼推荐系统;朱奕健等;《计算机科学》;20161115;第557-563页 *

Also Published As

Publication number Publication date
CN113821542A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN109816032B (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
Krishna et al. Artificial Intelligence Integrated with Big Data Analytics for Enhanced Marketing
CN110956273A (zh) 融合多种机器学习模型的征信评分方法及系统
CN114819186A (zh) 构建gbdt模型的方法、装置及预测方法、装置
CN111611488B (zh) 基于人工智能的信息推荐方法、装置、电子设备
CN115423603B (zh) 一种基于机器学习的风控模型建立方法、系统及存储介质
US20180260446A1 (en) System and method for building statistical predictive models using automated insights
CN113177700B (zh) 一种风险评估方法、系统、电子设备及存储介质
CN113821542B (zh) 一种显著特征自动推荐系统及方法
CN109447129A (zh) 一种多模式情绪识别方法、装置及计算机可读存储介质
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN114240101A (zh) 一种风险识别模型的验证方法、装置以及设备
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
CN117315331A (zh) 一种基于gnn和lstm的动态图异常检测方法及系统
CN115511525A (zh) 一种针对b2b平台用户的会员流失预警方法和系统
CN114385465A (zh) 一种故障预测方法、设备及存储介质
CN113506160A (zh) 一种面向不平衡财务文本数据的风险预警方法及系统
CN116402546A (zh) 店铺风险归因方法及其装置、设备、介质、产品
CN113961774B (zh) 一种多特征组合策略的推荐方法
CN111797995A (zh) 一种模型预测样本的解释报告的生成方法及装置
Buslim et al. The Modeling of" Mustahiq" Data Using K-Means Clustering Algorithm and Big Data Analysis (Case Study: LAZ)
CN114693428A (zh) 数据确定方法、装置、计算机可读存储介质及电子设备
CN110210518B (zh) 提取降维特征的方法和装置
CN113159213A (zh) 一种业务分配方法、装置及设备
CN111967973A (zh) 银行客户数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant