CN113283804B - 一种风险预测模型的训练方法和系统 - Google Patents
一种风险预测模型的训练方法和系统 Download PDFInfo
- Publication number
- CN113283804B CN113283804B CN202110677673.0A CN202110677673A CN113283804B CN 113283804 B CN113283804 B CN 113283804B CN 202110677673 A CN202110677673 A CN 202110677673A CN 113283804 B CN113283804 B CN 113283804B
- Authority
- CN
- China
- Prior art keywords
- feature
- characteristic
- model
- risk prediction
- coefficients
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013058 risk prediction model Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000008859 change Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 54
- 238000007477 logistic regression Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 27
- 230000008569 process Effects 0.000 description 8
- 238000003066 decision tree Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012417 linear regression Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例公开了一种风险预测模型的训练方法和系统。所述方法包括:获取先验知识,所述先验知识反映被预测对象的特征和/或特征分箱对风险预测值的影响力的大小顺序,和/或反映被预测对象的特征和/或特征分箱的变动方向与风险预测值的变动方向相同或相反;基于训练集和第一目标函数训练得到第一模型;确定第一模型中与所述先验知识不符的一个或多个特征系数;调整与所述先验知识不符的一个或多个特征系数,以得到所述风险预测模型。
Description
技术领域
本说明书涉及信息技术领域,特别涉及一种风险预测模型的训练方法和系统。
背景技术
在一些风控场景中,会面临许多小样本学习的问题。由于训练数据较少,会导致训练出的风险预测模型无法满足性能方面的要求。因此,有必要结合人工的先验知识(可称作“专家知识”)进行模型训练,以提高预测准确性。
发明内容
本说明书实施例之一提供一种风险预测模型的训练方法。所述方法包括:获取先验知识,所述先验知识反映被预测对象的特征和/或特征分箱对风险预测值的影响力的大小顺序,和/或反映被预测对象的特征和/或特征分箱的变动方向与风险预测值的变动方向相同或相反;基于训练集和第一目标函数训练得到第一模型,所述第一模型的模型参数包括与各特征和/或各特征分箱对应的特征系数,所述第一目标函数反映模型输出所表征的风险预测值与样本对象的实际风险值之间的差异;确定第一模型中与所述先验知识不符的一个或多个特征系数;调整与所述先验知识不符的一个或多个特征系数,以得到所述风险预测模型。
本说明书实施例之一提供一种风险预测模型的训练系统。所述系统包括:先验知识获取模块,用于获取先验知识,所述先验知识反映被预测对象的特征和/或特征分箱对风险预测值的影响力的大小顺序,和/或反映被预测对象的特征和/或特征分箱的变动方向与风险预测值的变动方向相同或相反;第一训练模块,用于基于训练集和第一目标函数训练得到第一模型,所述第一模型的模型参数包括与各特征和/或各特征分箱对应的特征系数,所述第一目标函数反映模型输出所表征的风险预测值与样本对象的实际风险值之间的差异;特征系数确定模块,用于确定第一模型中与所述先验知识不符的一个或多个特征系数;特征系数调整模块,用于调整与所述先验知识不符的一个或多个特征系数,以得到所述风险预测模型。
本说明书实施例之一提供一种风险预测模型的训练装置。所述装置包括处理器和存储设备,所述存储设备用于存储指令,当所述处理器执行指令时,实现如本说明书任一实施例所述的风险预测模型的训练方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的风险预测模型的训练方法的示例性流程图;
图2是根据本说明书一些实施例所示的调整与所述先验知识不符的一个或多个特征系数的示例型流程图;
图3是根据本说明书一些实施例所示的风险预测模型的训练系统的示例性模块图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
在一些风控场景中,常遇到小样本学习的问题。例如,企业风控场景,不一定会存在海量的样本数据。样本数量不足对于机器学习模型机器学习的性能是一个极大的挑战,因为机器学习领域普遍认为“数据决定性能上限”。更为严重的是,由于训练样本不足,较多特征会存在偏差,与正态分布存在较大偏离,这会导致最终模型结果违背先验的人工经验(以下称为专家知识)。例如,专家知识表明公司的注册资本越大,该公司违约的可能越小(即风险越低),但相关的模型参数使得公司的注册资本越大,该公司的风险预测值越大。这导致模型无法满足性能要求。
为了能够获得直观的理解,下面结合评分卡技术详细阐述。
在评估(预测)被预测对象(如公司)在未来一段时间内发生不良行为(如违约/逾期/失联等,视为风险)的概率时,可以使用评分卡技术。评分卡以分数的形式来表征风险预测值的高低,其可以与风险预测值负相关,例如,分数越高越安全(风险越低),也可将分数理解为信用分。
可用于构建评分卡的模型包括逻辑回归模型、线性回归模型、决策树等。下面以逻辑回归模型为例详细介绍评分卡的原理。为了便于描述,下文用违约来指代不良行为。
一个事件发生的几率(Odds),可指该事件发生的概率与该事件不发生的概率的比值。若被预测对象违约的概率为p,则其不违约的概率为1-p,由此可得Odds=p/(1-p)。
评分卡的表达式可以是Score=A-B*ln(Odds)。其中,系数A和B为常数,可通过给定两组(Odds,Score)来确定系数A和B。由于对数函数ln()是单调递增函数,所以当被预测对象违约几率(Odds)越大时,评分(Score)越低。
通过以上分析,求被预测对象的评分的问题可转化为求对数几率ln(Odds)的问题。由于被预测对象违约几率(Odds)越大时,对数几率ln(Odds)越大,也可将对数几率ln(Odds)理解为风险预测值(值越大风险越高)。
根据逻辑回归(Logistic Regression Model,LR)构造的预测函数如下:
其中,hθ(x)即被预测对象违约的概率p。通过转换,可以得到ln(Odds)=θTx,其与风险预测值正相关或者可以直接将其作为风险预测值。
θTx的展开形式为w0+w1x1+…+wnxn。
其中,带下标的x可表示被预测对象的不同特征。例如,x1可以表示注册资本,x2可以表示公司员工人数,x3可以表示专利数据。除w0外,任一带下标的w表示与特征对应的特征系数。应当理解,w0可被视为风险预测值的初始量,特征系数可被视为权重系数或选通系数,特征值与特征系数的乘积可被视为特征对风险预测值的贡献量,特征系数的绝对值越大,对应特征对风险预测值的影响力也越大。
在一些实施例中,训练集(含多个训练样本)在某些特征下的特征值为连续值,或者分布的数值范围较广,为了便于机器学习,可以对这些特征的特征值进行分箱。特征分箱是对同一特征下的特征值进行分组,每一组特征值视作一个分箱(箱子)。特征经过分箱后,属于同一特征分箱中的一个或多个特征值在训练时被置换为新的特征值,即该特征分箱的代表值。特征分箱的代表值可取自该特征分箱,也可以基于该特征分箱中的一个或多个特征值计算得到,实际上特征分箱的代表值可被理解为分箱后的特征值。例如,注册资本这一特征,待预测对象或训练样本在其下的特征值从10万到2亿均有分布,则可以将特征值分为三个分箱进而得到该特征下的三个特征分箱,其分别包含10万到100万、100万到500万、500万到2亿,各分箱的代表值可以设为5、10、100。特征分箱以后,对于注册资本在300万的训练样本,可以将其在注册资本这一特征下的特征值确定为10。
在一些实施例中,同一特征的不同特征分箱可以对应有不同的特征系数,使得同一特征的不同特征分箱的特征值的选通比例不同。例如,注册资金大于500万时其对风险预测值的影响力大于注册资金小于500万时对风险预测值的影响力。鉴于此,可以对同一特征的不同特征分箱设置对应的特征系数。参照前述示例,可以为10万到100万、100万到500万这两个特征分箱设置一个的特征系数,为500万到2亿的特征分箱设置另一个特征系数。也可以理解为,该同一特征对应的特征系数构成关于该特征下不同特征分箱的分段函数。通过对同一特征的不同特征分箱设置对应的特征系数,可以更加精细的刻画训练样本或被预测对象各特征对风险预测值的影响,使模型预测更加准确。
需要注意的是,当某个特征经过分箱后,在计算θTx时只会考虑该被预测对象在该特征下的特征值所属的唯一特征分箱的代表值与该唯一特征分箱对应的特征系数的乘积。换句话说,对于同一特征的不同特征分箱设置不同的特征系数时,对于不同被预测对象或者不同的训练样本,θTx中涉及的特征系数可能是不相同的。
上述评分卡模型或逻辑回归模型涉及的模型参数(包括各特征系数)可以通过训练集训练得到。然而当训练集中的训练样本不足时,训练出的模型中难免会出现不符合专家知识的模型参数。例如,专家知识表明注册资本越大则风险越低。但是,模型中与注册资本大小对应的特征系数为正(默认特征值非负),使得注册资本大小对风险预测值的贡献量随注册资本的增大而增大,这显然是不符合“注册资本越大则风险越低”的。后文提供了更多特征系数不符合专家知识的例子,这里不再赘述。
鉴于企业风控等场景中小样本学习的问题,本说明书实施例提供一种风险预测模型的训练方法和系统。通过将专家知识转化为对模型参数的限制,可以保证模型的性能和可解释性。
图1是根据本说明书一些实施例所示的风险预测模型的训练方法的示例性流程图。仅作为示例,风险预测模型可以为评分卡模型,也可以为逻辑回归模型、线性回归模型、决策树等。流程100可以由处理器执行。如图1所示,流程100可以包括:
步骤110,获取先验知识。
所述先验知识可以反映被预测对象的特征和/或特征分箱对风险预测值的影响力的大小顺序,和/或反映被预测对象的特征和/或特征分箱的变动方向与风险预测值的变动方向相同或相反。可以理解,相关人员可以收集符合客户预期、行业(领域)经验的专家知识,并将其转换为计算机可识别的先验知识。
在一些实施例中,所述先验知识可以具体表示为被预测对象的各特征和/或各特征分箱对应的特征系数绝对值的大小关系。其中,被预测对象的特征和/或特征分箱对风险预测值的影响力(以下称作特征和/或特征分箱的重要性)越大,该特征或该特征分箱对应的特征系数的绝对值越大。
在一些实施例中,所述先验知识还可以指示被预测对象的各特征和/或各特征分箱对应的特征系数为正值或者为负值。其中,特征和/或特征分箱与风险预测值的变动方向相同(即正相关)时,该特征或该特征分箱对应的特征系数为正值。特征和/或特征分箱与风险预测值的变动方向相反(即负相关)时,该特征或该特征分箱对应的特征系数为负值。
下面结合基于LR模型的评分卡解释先验知识中对特征系数的绝对值大小、正负的要求。
根据前述内容,基于LR模型构建评分卡时,存在θTx等于w0+w1x1+…+wnxn。其中,带下标的x可以表示特征或特征分箱,带下标的w可以表示特征或特征分箱对应的特征系数。特征系数的绝对值可以反映相应特征或特征分箱的重要性。特征系数的正负性反应了特征的变动方向与预测结果的变动方向之间的关系。在一些实施例中,各个特征的取值可以是非负的。在一些实施例中,若特征的取值存在负数,可以把特征的符号等效体现到特征系数中,进而保持特征的取值可以非负。
对于一些特征(如注册资本大小、公司员工人数、专利数据等)而言,预测对象的特征值越大,认为该预测对象的风险越小。那么,期望特征或特征分箱对应的特征系数为负,如此,随着特征值的增大相应特征对风险预测值的贡献量减小,符合“特征值越大则风险越小”。
对于一些特征(如失信被执行次数、负债大小等)而言,预测对象的特征值越大,认为该预测对象的风险越大。相应地,期望特征或特征分箱对应的特征系数为正,如此,随着特征值的增大相应特征对风险预测值的贡献量增大,符合“特征值越大则风险越大”。
任一特征系数的绝对值大小可以反映相应特征或特征分箱对风险预测值的影响力。可以理解,任一特征系数的绝对值越大,相应的特征对风险预测值的影响力越大。例如,专家知识表明feature(注册资本大于500万)>feature(企业员工人数500+)>feature(注册资本小于500万)>feature(企业员工人数不足500)>feature(公司专利数据),其中,feather()表示特征或特征分箱的重要性。不妨将注册资本大、注册资本小、企业员工人数500+、企业员工人数不足500、公司专利数据对应的特征系数分别记为α1,α2,β1,β2,γ。那么,先验知识可以具体表示为|α1|>|β1|>|α2|>|β2|>|γ|。鉴于专家知识还表明注册资本的分箱、公司员工人数的分箱和专利数据与风险预测值的变动方向都相反(即负相关),即先验知识还包括α1,α2,β1,β2,γ均小于0,则先验知识中的系数绝对值大小关系可具化为α1<β1<α2<β2<γ。除此,前述专家知识还隐含表明了对于特征的分箱要求,例如,前述示例同时给出了可以至少基于500万为界,将注册资本中大于500万的特征值和小于500万的特征值划分到不同的特征分箱中。因此,可以基于专家知识对训练集中的特征进行特征分箱,以使其与专家知识给出的分箱建议一致。
步骤120,基于训练集和第一目标函数训练得到第一模型。
第一模型的模型参数可包括与各特征和/或各特征分箱对应的特征系数。在一些实施例中,第一模型可以包括用于构建评分卡的LR模型。在一些实施例中,用于构建评分卡的模型也可以包括其他模型,如线性回归模型、决策树。在一些实施例中,也可以直接将评分卡作为第一模型。在一些实施例中,第一模型与风险预测模型可以是在不同训练阶段的同一模型,例如,第一模型是训练初期的LR模型、线性回归模型、决策树模型或评分卡模型,风险预测模型则为对应的经过训练得到的可以进行风险预测的LR模型、线性回归模型、决策树模型或评分卡模型。在一些实施例中,第一模型是风险预测模型的一部分,例如,第一模型是LR模型、线性回归模型或决策树模型,风险预测模型则为基于第一模型构建的评分卡模型。在一些实施例中,第一模型和/或风险预测模型还可以是其他类型的模型,如神经网络模型等,在此不作限制。
第一目标函数可以反映模型输出所表征的风险预测值与样本对象的实际风险值之间差异。此处的模型输出可以是第一模型的输出也可以是指风险预测模型的输出,本说明书在此不作限制。可以理解的是,不论是作为风险预测模型的一部分的第一模型还是风险预测模型的输出的具体形式如何,其本质都能反映被预测对象的风险预测值大小,即都可以表征风险预测值大小,或者经转化得到风险预测值。示例性的,第一目标函数可以反映风险预测模型的模型输出与样本标签的差值。以风险预测模型为LR模型为例,LR模型的输出为样本发生违约的预测概率h(x),样本标签为样本是否发生违约,取值为0或1。进而可以构造第一目标函数,反映LR模型输出与样本标签的差值。
在一些实施例中,可以参照先验知识中的特征分箱指示对训练集中的特征进行分箱,可以使训练得到的第一模型更符合先验知识。
步骤130,确定第一模型中与所述先验知识不符的一个或多个特征系数。
例如,若先验知识包括|α1|>|β1|>|α2|>|β2|>|γ|,而第一模型的相关参数实际关系为|α2|>|β1|>|α1|>|β2|>|γ|,则可以确定与所述先验知识不符的特征系数α1,α2,β1。又如,若先验知识包括α1,α2,β1,β2,γ均小于0,而第一模型中α2,β1均大于0,则可以确定与所述先验知识不符的特征系数α2,β1。又如,若先验知识包括α1,α2,β1,β2,γ均小于0和|α1|>|β1|>|α2|>|β2|>|γ|,而第一模型中α2,β1均大于0且|α2|>|β1|>|α1|>|β2|>|γ|,则可以确定与所述先验知识不符的特征系数α1,α2,β1。
步骤140,调整与所述先验知识不符的一个或多个特征系数,以得到风险预测模型。
可以理解,调整特征系数的目的在于获得符合先验知识(对应专家知识)的风险预测模型。仅作为示例,当先验知识包括α1,α2,β1,β2,γ均小于0和|α1|>|β1|>|α2|>|β2|>|γ|,而第一模型中α2,β1均大于0且|α2|>|β1|>|α1|>|β2|>|γ|时,可以确定与所述先验知识不符的特征系数α1,α2,β1。进而,可以调整特征系数α1,α2,β1以使α2,β1均小于0且|α1|>|β1|>|α2|。在一些实施例中,可以基于调整特征系数后的第一模型(如LR模型)连同其他必要的模型参数(如A、B)得到所述风险预测模型(如评分卡模型);或者将调整特征系数后的第一模型直接作为最终的风险预测模型(如LR模型等)。
图2是根据本说明书一些实施例所示的调整与所述先验知识不符的一个或多个特征系数的示例型流程图。如图2所示,步骤140可以包括:
步骤210,确定第二目标函数。
步骤220,基于训练集和第二目标函数学习所述一个或多个特征系数。
步骤230,将第一模型中与所述先验知识不符的一个或多个特征系数替换为学习得到的一个或多个特征系数,以获得风险预测模型。
第二目标函数可以包括第一目标函数以及约束项,第一目标函数用于在调整所述一个或多个特征系数时约束模型预测的整体准确性,所述约束项用于约束模型参数中的所述一个或多个特征系数符合先验知识,具体可以包括所述一个或多个特征系数且反映基于所述先验知识构造的所述一个或多个特征系数之间的运算关系。可以理解,本说明书提及的目标函数(第一目标函数或第二目标函数)可以是损失函数,也可以是增益函数。训练时,以减小损失函数值为目标调整模型参数,或者以增大增益函数值为目标调整模型参数。
在用于训练第一模型的第一目标函数中,所有特征系数都可以被设置为可学习的模型参数。在第二目标函数包含的第一目标函数中,一部分特征系数可以被设置为固定的模型参数(来源于第一模型),剩余的特征系数(如与先验知识不符的一个或多个特征系数)可以被设置为可学习(可调整)的模型参数。
在一些实施例中,所述约束项可以包括绝对值关系与所述先验知识不符的至少一对特征系数的绝对值的作差项。可以理解,作差可将差值的正负性与绝对值大小关系关联起来,而差值的正负性又影响着目标函数值的变化方向,因此通过构造包含所述作差项的第二目标函数,可以在调参过程中约束特征系数之间的绝对值大小关系。以第二目标函数为损失函数为例,调参过程可以包括搜索所述一个或多个特征系数的绝对值以使第二目标函数在训练集上最小化。进而,基于搜索得到的所述一个或多个特征系数的绝对值以及先验知识指示的正负性,获得调整后的所述一个或多个特征系数。
当存在绝对值关系与所述先验知识不符的多对特征系数时,所述约束项可以基于对多对特征系数的绝对值的作差项进行加权求和得到。其中,作差项的权值可以根据人工经验设定,也可以通过超参搜索获得。仅作为示例,当先验知识包括|α1|>|β1|>|α2|>|β2|>|γ|,而第一模型的相关参数满足|α2|>|β1|>|α1|>|β2|>|γ|时,可以确定与所述先验知识不符的特征系数α1,α2,β1。当第二目标函数为损失函数时,可以构建约束项f(α1,α2,β1)=l1(|β1|-|α1|)+l2(|α2|-|β1|)。即作差项中先验知识指示较小的特征系数的绝对值作为被减数,较大的作为减数。
在一些实施例中,第二目标函数可以基于对第一目标函数和约束项进行加权求和得到。其中,第一目标函数和/或约束项的权值可以根据人工经验设定,也可以通过超参搜索获得。
在一些实施例中,可以通过参数搜索的方式求解与先验知识不符的特征系数的取值,以使得第二目标函数能够在所述训练集上取得较小值。具体的,可以当第二目标函数值小于设定阈值时停止搜索,或者可以当第二目标函数值在一个较小的数值周围振荡时停止搜索。
值得注意的是,在调参过程中可以通过限制搜索域以使模型参数符合先验知识。对于正负性不符合先验知识的特征系数,可以限制在(-∞,0)或(0,+∞)上搜索符合先验知识的特征系数。在调整一个或多个特征系数以使其符合先验知识中的绝对值大小关系时,可以限制所述一个或多个特征系数的绝对值的搜索域,以避免调整前后的一个或多个特征系数与未调整(固定)的其他特征系数之间的绝对值大小关系发生变化(会导致违背先验知识)。例如,当先验知识包括|α1|>|β1|>|α2|>|β2|>|γ|,而第一模型的相关参数满足|α2|>|β1|>|α1|>|β2|>|γ|时,可以确定与所述先验知识不符的特征系数α1,α2,β1。调整特征系数α1,α2,β1的同时特征系数β2和γ固定,为了防止调参前后特征系数α1,α2,β1与特征系数γ之间的绝对值大小关系发生变化(如调参后|α2|<|β2|),可以限制在(|β2|,+∞)上搜索符合|α1|>|β1|>|α2|的特征系数α1,α2,β1的绝对值。
在一些实施例中,所述一个或多个特征系数的学习可以利用开源机器学习库PyTorch来实现,以提高学习效率。
应当注意的是,上述有关流程的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图3是根据本说明书一些实施例所示的风险预测模型的训练系统的示例性模块图。
如图3所示,系统300可以包括先验知识获取模块310、第一训练模块320、特征系数确定模块330和特征系数调整模块340。
先验知识获取模块310可以用于获取先验知识,所述先验知识反映被预测对象的特征和/或特征分箱对风险预测值的影响力的大小顺序,和/或反映被预测对象的特征和/或特征分箱的变动方向与风险预测值的变动方向相同或相反。
第一训练模块320可以用于基于训练集和第一目标函数训练得到第一模型。所述第一模型的模型参数包括与各特征和/或各特征分箱对应的特征系数,所述第一目标函数反映模型输出所表征的风险预测值与样本对象的实际风险值之间的差异。
特征系数确定模块330可以用于确定第一模型中与所述先验知识不符的一个或多个特征系数。
特征系数调整模块340可以用于调整与所述先验知识不符的一个或多个特征系数,得到所述风险预测模型。
关于系统300及其模块的更多细节,可以参考图1及其相关描述。
应当理解,图3所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,先验知识获取模块310和特征系数确定模块330可以是一个系统中的不同模块,也可以是一个模块实现这两个模块的功能。又如,在一些实施例中,…可以是两个模块,也可以合并为一个模块。诸如此类的变形,均在本说明书的保护范围之内。
本说明书实施例可能带来的有益效果包括但不限于:(1)将专家知识转化成对模型参数的限制,可以保证模型的性能和可解释性;(2)可将专家知识分类别(如行业/场景)转化成对模型参数的限制,形成标准化流程方案,以面对不同客户、不同场景的多样化需求,以节约建模人员时间与精力。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书实施例的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书实施例进行各种修改、改进和修正。该类修改、改进和修正在本说明书实施例中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书实施例的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书实施例的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书实施例的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书实施例各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书实施例所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书实施例流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书实施例披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书实施例对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书实施例的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (11)
1.一种风险预测模型的训练方法,其中,包括:
获取先验知识,所述先验知识反映被预测对象的特征和/或特征分箱对风险预测值的影响力的大小顺序,和/或反映被预测对象的特征和/或特征分箱的变动方向与风险预测值的变动方向相同或相反;
基于训练集和第一目标函数训练得到第一模型;所述第一模型的模型参数包括与各特征和/或各特征分箱对应的特征系数,所述第一目标函数反映模型输出所表征的风险预测值与样本对象的实际风险值之间的差异;
确定第一模型中与所述先验知识不符的一个或多个特征系数;
调整与所述先验知识不符的一个或多个特征系数,以得到所述风险预测模型。
2.如权利要求1所述的方法,所述先验知识包括被预测对象的各特征和/或各特征分箱对应的特征系数绝对值的大小关系,和/或被预测对象的各特征和/或各特征分箱对应的特征系数的正负性,其中:
特征或特征分箱对风险预测值的影响力越大,该特征或该特征分箱对应的特征系数的绝对值越大;
特征或特征分箱的变动方向与风险预测值的变动方向相同时,该特征或该特征分箱对应的特征系数为正值;特征和/或特征分箱的变动方向与风险预测值的变动方向相反时,该特征或该特征分箱对应的特征系数为负值。
3.如权利要求1或2所述的方法,其中,所述调整与所述先验知识不符的一个或多个特征系数,以得到所述风险预测模型,包括:
确定第二目标函数,所述第二目标函数包括第一目标函数以及约束项,所述约束项包括所述一个或多个特征系数且反映基于所述先验知识构造的所述一个或多个特征系数之间的运算关系;
基于所述训练集和所述第二目标函数学习所述一个或多个特征系数;
将所述第一模型中与所述先验知识不符的一个或多个特征系数替换为学习得到的一个或多个特征系数,以获得所述风险预测模型。
4.如权利要求3所述的方法,其中,所述约束项包括绝对值大小关系与所述先验知识不符的至少一对特征系数的绝对值的作差项。
5.如权利要求4所述的方法,其中,所述约束项基于对多对特征系数的绝对值的作差项进行加权求和得到。
6.如权利要求5所述的方法,其中,作差项中,先验知识指示较小的特征系数绝对值作为被减数;所述基于训练集和所述第二目标函数学习所述一个或多个特征系数,包括:
搜索所述一个或多个特征系数的绝对值以使所述第二目标函数在所述训练集上最小化;
基于搜索得到的所述一个或多个特征系数的绝对值以及先验知识指示的正负性,获得调整后的所述一个或多个特征系数。
7.如权利要求3所述的方法,其中,所述第二目标函数基于对所述第一目标函数和所述约束项进行加权求和得到。
8.如权利要求1所述的方法,其中,所述训练集中样本对象的特征分箱与所述先验知识中的分箱指示一致。
9.如权利要求1所述的方法,其中,所述第一模型包括逻辑回归模型。
10.一种风险预测模型的训练系统,其中,包括:
先验知识获取模块,用于获取先验知识,所述先验知识反映被预测对象的特征和/或特征分箱对风险预测值的影响力的大小顺序,和/或反映被预测对象的特征和/或特征分箱的变动方向与风险预测值的变动方向相同或相反;
第一训练模块,用于基于训练集和第一目标函数训练得到第一模型;所述第一模型的模型参数包括与各特征和/或各特征分箱对应的特征系数,所述第一目标函数反映模型输出所表征的风险预测值与样本对象的实际风险值之间的差异;
特征系数确定模块,用于确定第一模型中与所述先验知识不符的一个或多个特征系数;
特征系数调整模块,用于调整与所述先验知识不符的一个或多个特征系数,以得到所述风险预测模型。
11.一种风险预测模型的训练装置,其中,包括处理器和存储设备,所述存储设备用于存储指令,当所述处理器执行指令时,实现如权利要求1~9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110677673.0A CN113283804B (zh) | 2021-06-18 | 2021-06-18 | 一种风险预测模型的训练方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110677673.0A CN113283804B (zh) | 2021-06-18 | 2021-06-18 | 一种风险预测模型的训练方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283804A CN113283804A (zh) | 2021-08-20 |
CN113283804B true CN113283804B (zh) | 2022-05-31 |
Family
ID=77285012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110677673.0A Active CN113283804B (zh) | 2021-06-18 | 2021-06-18 | 一种风险预测模型的训练方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283804B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139856A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于先验知识规整协方差的概率线性鉴别说话人识别方法 |
CN109102005A (zh) * | 2018-07-23 | 2018-12-28 | 杭州电子科技大学 | 基于浅层模型知识迁移的小样本深度学习方法 |
CN109785971A (zh) * | 2019-01-30 | 2019-05-21 | 华侨大学 | 一种基于先验医学知识的疾病风险预测方法 |
CN109934261A (zh) * | 2019-01-31 | 2019-06-25 | 中山大学 | 一种知识驱动参数传播模型及其少样本学习方法 |
CN111724083A (zh) * | 2020-07-21 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 金融风险识别模型的训练方法、装置、计算机设备及介质 |
CN112200380A (zh) * | 2020-10-23 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 优化风险检测模型的方法及装置 |
CN112884059A (zh) * | 2021-03-09 | 2021-06-01 | 电子科技大学 | 一种融合先验知识的小样本雷达工作模式分类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201805293D0 (en) * | 2018-03-29 | 2018-05-16 | Benevolentai Tech Limited | Attention filtering for multiple instance learning |
US11593572B2 (en) * | 2019-08-27 | 2023-02-28 | Nuance Communications, Inc. | System and method for language processing using adaptive regularization |
US20210142224A1 (en) * | 2019-10-21 | 2021-05-13 | SigOpt, Inc. | Systems and methods for an accelerated and enhanced tuning of a model based on prior model tuning data |
-
2021
- 2021-06-18 CN CN202110677673.0A patent/CN113283804B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139856A (zh) * | 2015-09-02 | 2015-12-09 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于先验知识规整协方差的概率线性鉴别说话人识别方法 |
CN109102005A (zh) * | 2018-07-23 | 2018-12-28 | 杭州电子科技大学 | 基于浅层模型知识迁移的小样本深度学习方法 |
CN109785971A (zh) * | 2019-01-30 | 2019-05-21 | 华侨大学 | 一种基于先验医学知识的疾病风险预测方法 |
CN109934261A (zh) * | 2019-01-31 | 2019-06-25 | 中山大学 | 一种知识驱动参数传播模型及其少样本学习方法 |
CN111724083A (zh) * | 2020-07-21 | 2020-09-29 | 腾讯科技(深圳)有限公司 | 金融风险识别模型的训练方法、装置、计算机设备及介质 |
CN112200380A (zh) * | 2020-10-23 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 优化风险检测模型的方法及装置 |
CN112884059A (zh) * | 2021-03-09 | 2021-06-01 | 电子科技大学 | 一种融合先验知识的小样本雷达工作模式分类方法 |
Non-Patent Citations (2)
Title |
---|
样本先验知识在神经网络训练中的应用;许少华等;《大庆石油学院学报》;20041230(第06期);全文 * |
融合过程先验知识的递归神经网络模型及其应用;娄海川等;《化工学报》;20130515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113283804A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200089650A1 (en) | Techniques for automated data cleansing for machine learning algorithms | |
US20220067588A1 (en) | Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model | |
US10860892B1 (en) | Systems and methods of synthetic data generation for data stream | |
JP2015087973A (ja) | 生成装置、生成方法、およびプログラム | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
US20220351634A1 (en) | Question answering systems | |
CN110490304B (zh) | 一种数据处理方法及设备 | |
CN110782349A (zh) | 一种模型训练方法和系统 | |
CN111027717A (zh) | 一种模型训练方法和系统 | |
EP3929800A1 (en) | Skill word evaluation method and device, electronic device, and computer readable medium | |
CN112365344B (zh) | 一种业务规则自动生成方法和系统 | |
CN116089873A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
WO2020170593A1 (ja) | 情報処理装置及び情報処理方法 | |
US20240273270A1 (en) | Generating learned representations of digital circuit designs | |
CN117975464A (zh) | 基于U-Net的电气二次图纸文字信息的识别方法及系统 | |
Ardimento et al. | Predicting bug-fix time: Using standard versus topic-based text categorization techniques | |
CN113468323A (zh) | 争议焦点类别及相似判断方法及系统及装置及推荐方法 | |
CN110909885B (zh) | 一种平衡多个任务的方法及系统 | |
CN113283804B (zh) | 一种风险预测模型的训练方法和系统 | |
Ferguson et al. | A standardized representation of convolutional neural networks for reliable deployment of machine learning models in the manufacturing industry | |
CN117272999A (zh) | 基于类增量学习的模型训练方法及装置、设备、存储介质 | |
US11501225B2 (en) | Intelligent method to identify complexity of work artifacts | |
US20240020531A1 (en) | System and Method for Transforming a Trained Artificial Intelligence Model Into a Trustworthy Artificial Intelligence Model | |
CN112698977B (zh) | 服务器故障定位方法方法、装置、设备及介质 | |
CN115712574A (zh) | 一种面向人工智能组件的测试用例生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240926 Address after: Room 302, 3rd Floor, Building 1, Yard 1, Danling Street, Haidian District, Beijing, 100080 Patentee after: Sasi Digital Technology (Beijing) Co.,Ltd. Country or region after: China Address before: 310000 801-11 section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province Patentee before: Alipay (Hangzhou) Information Technology Co.,Ltd. Country or region before: China |