CN110782342B - 基于二分类模型验证新渠道特征工程正确性的方法及装置 - Google Patents

基于二分类模型验证新渠道特征工程正确性的方法及装置 Download PDF

Info

Publication number
CN110782342B
CN110782342B CN201911039264.7A CN201911039264A CN110782342B CN 110782342 B CN110782342 B CN 110782342B CN 201911039264 A CN201911039264 A CN 201911039264A CN 110782342 B CN110782342 B CN 110782342B
Authority
CN
China
Prior art keywords
channel user
feature information
new channel
characteristic information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911039264.7A
Other languages
English (en)
Other versions
CN110782342A (zh
Inventor
邱磊
徐凯波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911039264.7A priority Critical patent/CN110782342B/zh
Publication of CN110782342A publication Critical patent/CN110782342A/zh
Application granted granted Critical
Publication of CN110782342B publication Critical patent/CN110782342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种基于二分类模型验证新渠道特征工程正确性的方法及装置,涉及风控技术领域。本申请实施例通过获取新渠道用户的特征信息和已有渠道用户的特征信息,根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证,可以快速确定是否需要对新渠道用户的特征信息进行正确性验证,无需对特征信息进行一一比较,从而可以减少新渠道特征工程正确性验证的时长,实现快速有效地对新渠道特征工程正确性进行验证。

Description

基于二分类模型验证新渠道特征工程正确性的方法及装置
技术领域
本申请涉及风控技术领域,具体而言,涉及一种基于二分类模型验证新渠道特征工程正确性的方法及装置。
背景技术
风险控制(风控)是指风险管理者采取各种措施和办法,预防各类风险实现发生或发生的可能性。在金融领域中,一些线上贷款公司经常需要从新渠道引流,即,需要引进新用户;此时,公司的风控系统则需要基于新渠道提供的用户基本信息或者一些附加信息生成用户的特征信息,以排查新渠道中存在的骗贷、欺诈等风险,为了保证排查结果的准确性,需要保证所生成的特征信息是正确可靠的。
现有技术中,实现特征正确性验证的方法通常为:获取来自新渠道的用户的原始数据;将新渠道的用户的原始数据与已有渠道的用户的原始数据进行人工对比,确保存储结构、字段命名、取值单位等保持一致;以及,将新渠道的用户的特征信息取出,逐一统计特征信息中每个特征的均值、中值或者空值率等统计量,与已有渠道的用户的特征信息进行对比,挑选差别较大的特征进行追溯排查。
但是上述现有的特征正确性验证的方法中,人工一一对比原始数据、以及逐一统计特征信息中每个特征的统计量对差别较大的特征进行挑选的过程,需要耗费大量的时长。
发明内容
本申请的目的在于,提供一种基于二分类模型验证新渠道特征工程正确性的方法及装置,可以对新渠道用户进行特征工程所生成的特征信息的正确性进行快速、有效地验证,减少验证新渠道特征工程正确性的验证时长。
第一方面,本申请实施例提供一种基于二分类模型验证新渠道特征工程正确性的方法,该方法包括:
获取新渠道用户的特征信息和已有渠道用户的特征信息;
根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度;其中,预设二分类模型通过样本特征信息集合训练获取,样本特征信息集合包括:样本特征信息,样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且已有渠道用户的特征信息包含已有渠道标签、新渠道用户的特征信息包含新渠道标签;
若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证。
可选地,已有渠道标签为0,新渠道标签为1;上述根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,包括:
根据预设二分类模型,分别获取新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,分类参数大于等于0、且小于等于1;
采用预设算法,根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度。
可选地,上述采用预设算法,根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,包括:
根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取KS值作为新渠道用户的特征信息和已有渠道用户的特征信息的区分度;
相应地,上述若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证,包括:
若KS值大于或等于0.2,则按照预设规则对新渠道用户的特征信息进行正确性验证。
可选地,上述采用预设算法,根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,包括:
根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取AUC值作为新渠道用户的特征信息和已有渠道用户的特征信息的区分度;
相应地,上述若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证,包括:
若AUC值大于或等于0.65,则按照预设规则对新渠道用户的特征信息进行正确性验证。
可选地,上述按照预设规则对新渠道用户的特征信息进行正确性验证,包括:
根据新渠道用户的特征信息中各特征的重要程度,从高到低对新渠道用户的特征信息中的各特征进行排序,得到新渠道用户的特征信息中各特征对应的重要程度排序队列;
从重要程度排序队列中,选择前预设数量个特征进行正确性验证。
可选地,上述根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度之前,该方法还包括:
获取样本特征信息集合,样本特征信息集合包括:样本特征信息,样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且已有渠道用户的特征信息包含已有渠道标签、新渠道用户的特征信息包含新渠道标签;
采用预设神经网络以及样本特征信息集合,训练获取二分类模型。
第二方面,本申请实施例提供一种基于二分类模型验证新渠道特征工程正确性的装置,该装置包括:
特征获取模块,用于获取新渠道用户的特征信息和已有渠道用户的特征信息;计算模块,用于根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度;其中,预设二分类模型通过样本特征信息集合训练获取,样本特征信息集合包括:样本特征信息,样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且已有渠道用户的特征信息包含已有渠道标签、新渠道用户的特征信息包含新渠道标签;验证模块,用于若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证。
可选地,已有渠道标签为0,新渠道标签为1;计算模块包括:二分类子模块,用于根据预设二分类模型,分别获取新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,分类参数大于等于0、且小于等于1;计算子模块,用于采用预设算法,根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度。
可选地,计算子模块,具体用于根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取KS值作为新渠道用户的特征信息和已有渠道用户的特征信息的区分度;
相应地,验证模块,具体用于若KS值大于或等于0.2,则按照预设规则对新渠道用户的特征信息进行正确性验证。
可选地,计算子模块,具体用于根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取AUC值作为新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度;
相应地,验证模块,具体用于若AUC值大于或等于0.65,则按照预设规则对新渠道用户的特征信息进行正确性验证。
可选地,验证模块包括:排序子模块,用于根据新渠道用户的特征信息中各特征的重要程度,从高到低对新渠道用户的特征信息中的各特征进行排序,得到新渠道用户的特征信息中各特征对应的重要程度排序队列;验证子模块,用于从重要程度排序队列中,选择前预设数量个特征进行正确性验证。
可选地,该装置还包括:样本获取模块和训练模块;在计算模块根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度之前,样本获取模块用于获取样本特征信息集合,样本特征信息集合包括:样本特征信息,样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且已有渠道用户的特征信息包含已有渠道标签、新渠道用户的特征信息包含新渠道标签;训练模块用于采用预设神经网络以及样本特征信息集合,训练获取二分类模型。
第三方面,本申请实施例提供一种基于二分类模型验证新渠道特征工程正确性的设备,包括:处理器和存储器,存储器中存储有可在处理器运行的计算机程序,处理器执行计算机程序时实现如第一方面所述的方法。
第四方面,本申请实施例提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如第一方面所述的方法。
本申请实施例通过获取新渠道用户的特征信息和已有渠道用户的特征信息,根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证,可以快速确定是否需要对新渠道用户的特征信息进行正确性验证,无需对特征信息进行一一比较,从而可以减少新渠道特征工程正确性验证的时长,实现快速有效地对新渠道特征工程正确性进行验证。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的方法的流程示意图;
图2示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的方法的另一流程示意图;
图3示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的方法的又一流程示意图;
图4示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的方法的又一流程示意图;
图5示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的装置的结构示意图;
图6示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的装置的另一结构示意图;
图7示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的装置的又一结构示意图;
图8示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的装置的又一结构示意图;
图9示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。此外,还需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
本申请实施例提供一种基于二分类模型验证新渠道特征工程正确性的方法,该方法的执行主体可以为服务器、计算机等具有数据处理能力的设备。通过该基于二分类模型验证新渠道特征工程正确性的方法,可以对新渠道用户进行特征工程所生成的特征信息的正确性进行快速、有效地验证。
图1示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的方法的流程示意图。
如图1所示,该基于二分类模型验证新渠道特征工程正确性的方法,可以包括:
S101、获取新渠道用户的特征信息和已有渠道用户的特征信息。
其中,已有渠道用户可以是指企业已经建立渠道关系(如:利益关系或合作关系)的已有用户,新渠道用户可以是指企业从新渠道引进的新用户。
例如,已有渠道用户可以是与对于一些线上贷款公司、银行等已经产生贷款、存款行为,在线上贷款公司、银行等的业务系统中存在交易记录和用户信息的用户。新渠道用户可以是需要与线上贷款公司或银行开展业务合作的新用户,线上贷款公司、银行等的业务系统中不存在与新用户的交易记录和新用户的用户信息。
可选地,对于新渠道用户和已有渠道用户而言,特征信息可以包括新渠道用户和已有渠道用户的身份信息、征信信息、用户名下的资产信息等。其中,身份信息可以包括用户的身份证信息、户口本信息或其他可以证明用户身份的证件信息等。征信信息可以包括用户的历史贷款记录和还款记录、信用报告、信用评估等。用户名下的资产信息可以包括用户名下的房产、车辆、公司等。
S102、根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度。
其中,预设二分类模型通过样本特征信息集合训练获取,样本特征信息集合包括:样本特征信息,样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且已有渠道用户的特征信息包含已有渠道标签、新渠道用户的特征信息包含新渠道标签。
可选地,预设二分类模型可以用于根据用户的特征信息对新渠道用户和已有渠道用户进行区分,例如,可以将新渠道用户的特征信息和已有渠道用户的特征信息输入预设二分类模型,预设二分类模型可以针对每组特征信息输出对应的预测结果;预测结果可以用于表明该组特征信息对应的用户为新渠道用户或已有渠道用户,或者可以用于表明该组特征信息对应的用户为更偏向于新渠道用户或已有渠道用户的偏向程度。进一步,可以根据预设算法和预设二分类模型输出的预测结果,计算得到预测结果的区分度,也即,可以得到预设二分类模型对输入的新渠道用户的特征信息和已有渠道用户的特征信息的区分度。
可选地,输入该预设二分类模型的新渠道用户的特征信息和已有渠道用户的特征信息的数量可以相同。例如,若新渠道用户的特征信息为n组,则已有渠道用户的特征信息也可以为n组,n可以为500、800、900、1000等任意值,本申请对n的具体取值不作限定。
S103、若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证。
其中,预设阈值可以用于比较上述新渠道用户的特征信息和已有渠道用户的特征信息的区分度的高低,区分度越大,表明新渠道用户的特征信息和已有渠道用户的特征信息之间的差异越大;区分度越小,表明新渠道用户的特征信息和已有渠道用户的特征信息之间的差异越小。当新渠道用户的特征信息和已有渠道用户的特征信息之间的差异过大时,如区分度大于或等于预设阈值时,可以按照预设规则对新渠道用户的特征信息进行正确性验证。
例如,若预设阈值为A,区分度为a,则可以通过比较a和A的大小,若a大于或等于A,则可以表明新渠道用户的特征信息和已有渠道用户的特征信息之间的差异较大,可以按照预设规则对新渠道用户的特征信息进行正确性验证;若a小于A,则可以表明新渠道用户的特征信息和已有渠道用户的特征信息之间的差异较小,特征工程所生成的新渠道用户的特征信息正确性较高,可以无需对新渠道用户的特征信息进行正确性验证。
可选地,对新渠道用户的特征信息进行正确性验证可以是根据需要验证的特征信息,追溯特征工程生成该特征信息时的生成代码、以及用到的原始数据字段等。
由上所述,本申请实施例通过获取新渠道用户的特征信息和已有渠道用户的特征信息,根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证,可以快速确定是否需要对新渠道用户的特征信息进行正确性验证,无需对特征信息进行一一比较,从而可以减少新渠道特征工程正确性验证的时长,实现快速有效地对新渠道特征工程正确性进行验证。
图2示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的方法的另一流程示意图。
可选地,本申请实施例中,已有渠道标签可以为0,新渠道标签可以为1。如图2所示,上述根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,可以包括:
S201、根据预设二分类模型,分别获取新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数。
其中,分类参数大于等于0、且小于等于1。
可选地,当已有渠道标签为0,新渠道标签为1时,将新渠道用户的特征信息和已有渠道用户的特征信息输入预设二分类模型后,预设二分类模型针对每组特征信息输出的预测结果可以为分类参数,该分类参数为大于等于0、且小于等于1的数值,如:可能为0、0.2、0.5、0.7、0.8、1等数值。若分类参数更加接近于1,则可以表明该组特征信息对应的用户更偏向于新渠道用户,若分类参数更加接近于0,则可以表明该组特征信息对应的用户更偏向于已有渠道用户。
需要说明的是,其他实施例中,已有渠道标签和新渠道标签也可以为其他数值,如也可以是已有渠道标签为1,新渠道标签为0;或者,已有渠道标签和新渠道标签还可以是1和2、2和3、-1和0等更多的组合数值,对应的,分类参数会根据已有渠道标签和新渠道标签的变化而产生相应的变化,具体方式与前述实施例类似,在此不再赘述。
S202、采用预设算法,根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征对应信息的分类参数,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度。
可选地,在得到预设二分类模型输出的新渠道用户及已有渠道用户的各特征信息对应的分类参数后,可以采用预设算法计算新渠道用户的特征信息和已有渠道用户的特征信息的区分度。
一种实施方式中,上述采用预设算法,根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,可以包括:根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取KS值作为新渠道用户的特征信息和已有渠道用户的特征信息的区分度。
相应地,上述若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证,可以包括:若KS值大于或等于0.2,则按照预设规则对新渠道用户的特征信息进行正确性验证。
其中,KS值是KS图中两条线之间最大的距离,其能反映出预设分类模型对特征信息对应的用户属于已有渠道用户或新渠道用户的预测划分能力,KS图中的两条线可以分别为已有渠道用户的特征信息对应的预测结果曲线和新渠道用户的特征信息对应的预测结果曲线。
另一种实施方式中,上述采用预设算法,根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度,还可以包括:根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取接受者操作特性曲线(Receiver Operating CharacteristicCurve,ROC)下与坐标轴围成的面积(Area Under Curve,AUC)值作为新渠道用户的特征信息和已有渠道用户的特征信息的区分度。
相应地,上述若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证,可以包括:若AUC值大于或等于0.65,则按照预设规则对新渠道用户的特征信息进行正确性验证。
需要说明的是,计算获取KS值和AUC值的具体技术已较为成熟,本申请在此不再赘述。另外,本申请其他实施方式中,也可以不采用KS值或AUC值作为新渠道用户的特征信息和已有渠道用户的特征信息的区分度,新渠道用户的特征信息和已有渠道用户的特征信息的区分度也可以通过计算预设二分类模型的预测正确率进行表示,并不仅仅限于上述实施例中记载的方式,本申请对此不作限制。
图3示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的方法的又一流程示意图。
可选地,如图3所示,上述按照预设规则对新渠道用户的特征信息进行正确性验证,可以包括:
S301、根据新渠道用户的特征信息中各特征的重要程度,从高到低对新渠道用户的特征信息中的各特征进行排序,得到新渠道用户的特征信息中各特征对应的重要程度排序队列。
对于任一组新渠道用户的特征信息而言,该组特征信息可能包括多个维度的特征,如:可以包括身份维度、征信维度、资产维度等多种不同维度的特征。
可选地,对任一组新渠道用户的特征信息进行正确性验证时,可以先对该组特征信息中多个维度的特征,按照各特征的重要程度进行排序,得到该组特征信息中各特征对应的重要程度排序队列。如:可以根据各特征的重要程度,从高到低对新渠道用户的特征信息中的各特征进行排序,得到重要程度排序队列;或者,也可以从低到高对新渠道用户的特征信息中的各特征进行排序,得到重要程度排序队列。本申请在此亦不作限制。
S302、从重要程度排序队列中,选择前预设数量个特征进行正确性验证。
可选地,可以基于上述重要程度排序队列,从按照重要程度进行排序后的各特征中,挑选重要程度较高的特征进行正确性验证,以提高特征工程正确性验证的效率。若重要程度排序队列是根据各特征的重要程度,从高到低对新渠道用户的特征信息中的各特征进行排序所得到,则可以从重要程度排序队列中,选择前预设数量个特征进行正确性验证。若重要程度排序队列是根据各特征的重要程度,从低到高对新渠道用户的特征信息中的各特征进行排序所得到,则可以从重要程度排序队列中,选择最后的预设数量个特征进行正确性验证。
其中,预设数量的大小可以预先人为设定,或者也可以根据特征信息中包含的特征维度的数量所设置。例如,假设某组特征信息包括100个维度的特征,则可以从中挑选30个重要程度较高的特征进行正确性验证,或者,也可以是10个、20个、25个等,或者也可以是取100的百分之十:10个、百分之二十:20个等,本申请对预设数量的具体数值不作限制。
可选地,本申请实施例中,对特征信息中的各特征根据重要程度进行排名的依据,可以包括:各特征的增益或权重,或者各特征的AUC值、KS值等,本申请在此亦不作限制。
图4示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的方法的又一流程示意图。
可选地,如图4所示,上述根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度之前,该方法还可以包括:
S401、获取样本特征信息集合。
样本特征信息集合包括:样本特征信息,样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且已有渠道用户的特征信息包含已有渠道标签、新渠道用户的特征信息包含新渠道标签。
可选地,可以从已有渠道的记录中随机抽取第一数量(如:1万、2万等)的用户对应的用户信息;当新渠道的用户达到第二数量之后(如:1千,第一数量和第二数量可以相同或不同),可以将第二数量的新渠道用户对应的用户信息全部取出。然后,可以分别对已有渠道用户的用户信息和新渠道用户的用户信息进行特征工程,获取已有渠道用户的特征信息以及新渠道用户的特征信息,并分别为已有渠道用户的特征信息添加已有渠道标签(如:0),为新渠道用户的特征信息添加新渠道标签(如:1),得到上述样本特征信息集合。
S402、采用预设神经网络以及样本特征信息集合,训练获取二分类模型。
其中,预设神经网络可以包括高效梯度提升模型(Light Gradient BoostingMachine,LightBGB)或极端梯度提升模型(eXtreme Gradient Boosting,XGBoost)。
以XGBoost模型为例,可以基于上述样本特征信息集合中包含已有渠道标签的已有渠道用户的特征信息、以及包含新渠道标签的新渠道用户的特征信息作为训练数据,对XGBoost模型进行训练,获取得到二分类模型。训练得到的二分类模型的输入可以为用户的特征信息,输出可以为该特征信息对应的用户为新渠道用户或已有渠道用户的预测结果,通过该二分类模型,可以对新渠道用户和已有渠道用户进行区分。
可选地,本申请其他实施例中,也可以选择多分类模型、单标签数据的生成式模型等,对已有渠道用户的特征信息、以及新渠道用户的特征信息进行学习,获取相关模型实现对已有渠道用户和新渠道用户的区分,本申请在此不作限制。
基于前述方法实施例,本申请实施例还对应提供一种基于二分类模型验证新渠道特征工程正确性的装置,图5示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的装置的结构示意图。
如图5所示,该装置可以包括:特征获取模块10、计算模块20和验证模块30。特征获取模块10可以用于获取新渠道用户的特征信息和已有渠道用户的特征信息。计算模块20可以用于根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度;其中,预设二分类模型通过样本特征信息集合训练获取,样本特征信息集合包括:样本特征信息,样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且已有渠道用户的特征信息包含已有渠道标签、新渠道用户的特征信息包含新渠道标签。验证模块30可以用于若区分度大于或等于预设阈值,则按照预设规则对新渠道用户的特征信息进行正确性验证。
图6示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的装置的另一结构示意图。
可选地,已有渠道标签可以为0,新渠道标签可以为1。如图6所示,计算模块可以包括:二分类子模块21和计算子模块22。二分类子模块21可以用于根据预设二分类模型,分别获取新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,分类参数大于等于0、且小于等于1。计算子模块22可以用于采用预设算法,根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度。
可选地,计算子模块22具体可以用于根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取KS值作为新渠道用户的特征信息和已有渠道用户的特征信息的区分度。
相应地,验证模块30具体可以用于若KS值大于或等于0.2,则按照预设规则对新渠道用户的特征信息进行正确性验证。
可选地,计算子模块22具体可以用于根据新渠道用户的特征信息中各特征信息对应的分类参数、以及已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取AUC值作为新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度。
相应地,验证模块30具体可以用于若AUC值大于或等于0.65,则按照预设规则对新渠道用户的特征信息进行正确性验证。
图7示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的装置的又一结构示意图。
可选地,如图7所示,验证模块可以包括:排序子模块31和验证子模块32。排序子模块31可以用于根据新渠道用户的特征信息中各特征的重要程度,从高到低对新渠道用户的特征信息中的各特征进行排序,得到新渠道用户的特征信息中各特征对应的重要程度排序队列。验证子模块32可以用于从重要程度排序队列中,选择前预设数量个特征进行正确性验证。
图8示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的装置的又一结构示意图。
可选地,如图8所示,该装置还可以包括:样本获取模块40和训练模块50。在计算模块20根据预设二分类模型和预设算法,计算获取新渠道用户的特征信息和已有渠道用户的特征信息的区分度之前,样本获取模块40可以用于获取样本特征信息集合。样本特征信息集合包括:样本特征信息,样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且已有渠道用户的特征信息包含已有渠道标签、新渠道用户的特征信息包含新渠道标签。训练模块50可以用于采用预设神经网络以及样本特征信息集合,训练获取二分类模型。
本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的装置,对应于前述方法实施例中所述的基于二分类模型验证新渠道特征工程正确性的方法,具备前述方法实施例中所述的全部有益效果,本申请在此不再赘述。
本申请实施例还提供一种基于二分类模型验证新渠道特征工程正确性的设备,图9示出了本申请实施例提供的基于二分类模型验证新渠道特征工程正确性的设备的结构示意图。
可选地,如图9所示,该基于二分类模型验证新渠道特征工程正确性的设备可以包括:处理器100和存储器200,存储器200中存储有可在处理器100运行的计算机程序,处理器100执行计算机程序时实现如前述方法实施例中所述的基于二分类模型验证新渠道特征工程正确性的方法。具体实现方式和技术效果类似,本申请在此不再赘述。
本申请实施例还提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如前述实施例中所述的基于二分类模型验证新渠道特征工程正确性的方法。具体实现方式和技术效果同样类似,本申请在此亦不再赘述。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于二分类模型验证新渠道特征工程正确性的方法,其特征在于,包括:
获取新渠道用户的特征信息和已有渠道用户的特征信息;
根据预设二分类模型和预设算法,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度;其中,所述预设二分类模型通过样本特征信息集合训练获取,所述样本特征信息集合包括:样本特征信息,所述样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且所述已有渠道用户的特征信息包含已有渠道标签、所述新渠道用户的特征信息包含新渠道标签;
若所述区分度大于或等于预设阈值,则按照预设规则对所述新渠道用户的特征信息进行正确性验证。
2.根据权利要求1所述的方法,其特征在于,所述已有渠道标签为0,所述新渠道标签为1;所述根据预设二分类模型和预设算法,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度,包括:
根据预设二分类模型,分别获取所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,所述分类参数大于等于0、且小于等于1;
采用预设算法,根据所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度。
3.根据权利要求2所述的方法,其特征在于,所述采用预设算法,根据所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度,包括:
根据所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取KS值作为所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度;
相应地,所述若所述区分度大于或等于预设阈值,则按照预设规则对所述新渠道用户的特征信息进行正确性验证,包括:
若所述KS值大于或等于0.2,则按照预设规则对所述新渠道用户的特征信息进行正确性验证。
4.根据权利要求2所述的方法,其特征在于,所述采用预设算法,根据所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度,包括:
根据所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取AUC值作为所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度;
相应地,所述若所述区分度大于或等于预设阈值,则按照预设规则对所述新渠道用户的特征信息进行正确性验证,包括:
若所述AUC值大于或等于0.65,则按照预设规则对所述新渠道用户的特征信息进行正确性验证。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述按照预设规则对所述新渠道用户的特征信息进行正确性验证,包括:
根据所述新渠道用户的特征信息中各特征的重要程度,从高到低对所述新渠道用户的特征信息中的各特征进行排序,得到所述新渠道用户的特征信息中各特征对应的重要程度排序队列;
从所述重要程度排序队列中,选择前预设数量个特征进行正确性验证。
6.根据权利要求1所述的方法,其特征在于,所述根据预设二分类模型和预设算法,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度之前,所述方法还包括:
获取样本特征信息集合,所述样本特征信息集合包括:样本特征信息,所述样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且所述已有渠道用户的特征信息包含已有渠道标签、所述新渠道用户的特征信息包含新渠道标签;
采用预设神经网络以及所述样本特征信息集合,训练获取二分类模型。
7.一种基于二分类模型验证新渠道特征工程正确性的装置,其特征在于,包括:
特征获取模块,用于获取新渠道用户的特征信息和已有渠道用户的特征信息;
计算模块,用于根据预设二分类模型和预设算法,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度;其中,所述预设二分类模型通过样本特征信息集合训练获取,所述样本特征信息集合包括:样本特征信息,所述样本特征信息包括已有渠道用户的特征信息和新渠道用户的特征信息,且所述已有渠道用户的特征信息包含已有渠道标签、所述新渠道用户的特征信息包含新渠道标签;
验证模块,用于若所述区分度大于或等于预设阈值,则按照预设规则对所述新渠道用户的特征信息进行正确性验证。
8.根据权利要求7所述的装置,其特征在于,所述已有渠道标签为0,所述新渠道标签为1;所述计算模块包括:
二分类子模块,用于根据预设二分类模型,分别获取所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,所述分类参数大于等于0、且小于等于1;
计算子模块,用于采用预设算法,根据所述新渠道用户的特征信息中各特征信息对应的分类参数、以及所述已有渠道用户的特征信息中各特征信息对应的分类参数,计算获取所述新渠道用户的特征信息和所述已有渠道用户的特征信息的区分度。
9.一种基于二分类模型验证新渠道特征工程正确性的设备,其特征在于,包括:处理器和存储器,所述存储器中存储有可在所述处理器运行的计算机程序,所述处理器执行计算机程序时实现如权利要求1-6任一项所述的方法。
10.一种计算机存储介质,其特征在于,其上存储有计算机程序,计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。
CN201911039264.7A 2019-10-29 2019-10-29 基于二分类模型验证新渠道特征工程正确性的方法及装置 Active CN110782342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911039264.7A CN110782342B (zh) 2019-10-29 2019-10-29 基于二分类模型验证新渠道特征工程正确性的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911039264.7A CN110782342B (zh) 2019-10-29 2019-10-29 基于二分类模型验证新渠道特征工程正确性的方法及装置

Publications (2)

Publication Number Publication Date
CN110782342A CN110782342A (zh) 2020-02-11
CN110782342B true CN110782342B (zh) 2022-03-01

Family

ID=69387412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911039264.7A Active CN110782342B (zh) 2019-10-29 2019-10-29 基于二分类模型验证新渠道特征工程正确性的方法及装置

Country Status (1)

Country Link
CN (1) CN110782342B (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731914A (zh) * 2015-03-24 2015-06-24 浪潮集团有限公司 一种基于行为相似度的用户异常行为检测方法
CN107330445B (zh) * 2017-05-31 2020-06-05 北京京东尚科信息技术有限公司 用户属性的预测方法和装置
CN108399418B (zh) * 2018-01-23 2021-09-03 北京奇艺世纪科技有限公司 一种用户分类方法及装置
CN110310114B (zh) * 2018-03-27 2020-09-01 阿里巴巴集团控股有限公司 对象分类方法、装置、服务器及存储介质
CN109615503A (zh) * 2018-10-26 2019-04-12 深圳市元征科技股份有限公司 一种信用风险的预测方法及相关设备
CN110111131A (zh) * 2019-04-08 2019-08-09 浙江口碑网络技术有限公司 虚假客资信息的确定方法及装置
CN110196951A (zh) * 2019-04-24 2019-09-03 上海任意门科技有限公司 用户匹配方法及设备
CN110222733B (zh) * 2019-05-17 2021-05-11 嘉迈科技(海南)有限公司 一种高精度的多阶神经网络分类方法及系统

Also Published As

Publication number Publication date
CN110782342A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN107103171B (zh) 机器学习模型的建模方法及装置
CN112801498B (zh) 风险识别模型的训练方法、风险识别方法、装置及设备
CN111371767B (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN110111113B (zh) 一种异常交易节点的检测方法及装置
CN111127178A (zh) 数据处理方法与装置、存储介质、电子设备
CN109685104B (zh) 一种识别模型的确定方法和装置
CN112329816A (zh) 数据分类方法、装置、电子设备和可读存储介质
CN107403311B (zh) 账户用途的识别方法及装置
CN111931047B (zh) 基于人工智能的黑产账号检测方法及相关装置
CN111260189B (zh) 一种风险控制方法、装置、计算机系统及可读存储介质
US20230004979A1 (en) Abnormal behavior detection method and apparatus, electronic device, and computer-readable storage medium
CN115293336A (zh) 风险评估模型训练方法、装置和服务器
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN112634048A (zh) 一种反洗钱模型的训练方法及装置
CA3154757A1 (en) Self learning machine learning transaction scores adjustment via normalization thereof
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
CN113918471A (zh) 测试用例的处理方法、装置及计算机可读存储介质
CN117114689A (zh) 一种欺诈检测模型构建方法、装置、设备及存储介质
CN110782342B (zh) 基于二分类模型验证新渠道特征工程正确性的方法及装置
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN105512914A (zh) 一种信息处理方法及电子设备
CN115482084A (zh) 用于生成风控规则集的方法及装置
CN114511329A (zh) 账户识别方法、装置、存储介质和电子设备
CN114493838A (zh) 家装公司风险识别方法、装置、终端及存储介质
CN110533297B (zh) 一种识别异常设备的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant