发明内容
本申请实施例提供了一种信息审核方法、装置及服务器,以解决现有技术中基于逻辑回归算法的信审模型在二手车自动化信审等业务中的稳定性差、预测结果的偏差较大的问题。
第一方面,本申请实施例提供了一种信息审核方法,该方法包括:
获取待审核数据,所述待审核数据包含多个特征字段;
通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
将所述输入数据输入到信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值。
第二方面,本申请实施例提供了一种信息审核装置,该装置包括:
数据获取模块,用于获取待审核数据,所述待审核数据包含多个特征字段;
数据分析模块,用于通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
特征工程模块,用于对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
求解模块,用于将所述输入数据输入到所述信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值。
第三方面,本申请实施例提供了一种服务器,包括:
存储器,用于存储处理器执行的程序指令,以及存储用于组成信审模型的模型数据;
所述收发器,用于获取待审核数据,所述待审核数据包含多个特征字段;
所述处理器,用于通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
所述处理器,还用于对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
所述处理器,还用于将所述输入数据输入到信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值。
由以上技术方案可知,本申请实施例提供了一种信息审核方法、装置及服务器。能够将待审核数据进行探索性数据分析EDA和特征编码处理,然后作为输入数据输入到信审模型,从而得到信审结果。本申请实施例提供的技术方案使用了具有多个分片的信审模型,信审模型的输入数据在不同的分片中具有不同的权重,同一个特征编码在不同的分片中具有不同的权重,信审结果为输入数据在不同分片的预测结果的融合值。由此,信审模型能够将输入数据的整个特征空间划分成多个分片,并对每个分片进行分段预测,并融合输出,避免了对输入数据进行整体预测时,数据稀疏性影响到预测结果。因此,本申请的技术方案在应用到二手车信审等业务中时,能够提高信审结果的稳定性和准确性。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
二手车的自动化信息审核业务是逻辑回归在金融风控领域的一个应用场景。通过获取申请分期购车用户的各种第三方信息,并利用逻辑回归模型或者其他模型建立自动化信审预测模型,可以根据第三方信息预测用户未来发生逾期的可能性,作为是否通过用户分期购车请求的依据。但是,由于与用户分期购车相关的第三方信息的特征字段较多,并且,其中一些类别的特征较多地呈现长尾分布,因此,在对这些特征字段进行编码后,会造成严重的数据稀疏;另外,在对特征字段进行编码时,由于需要对缺失的字段进行填充,也会造成原始特征分布的变化。上述原因导致了基于逻辑回归算法的信审模型在二手车自动化信审等业务中存在稳定性差、预测结果的偏差较大的问题。
本申请实施例提供了一种信息审核方法、装置及服务器,以解决现有技术中基于逻辑回归算法的信审模型在二手车自动化信审等业务中的稳定性差、预测结果的偏差较大的问题。
下面是本申请的方法实施例,提供了一种信息审核方法,该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机和智能穿戴设备等多种设备中。
图1是该方法的流程图,如图1所示,该方法可以包括以下步骤:
步骤S101,获取待审核数据,所述待审核数据包含多个特征字段。
其中,待审核数据可以包括多个类型的特征字段,这些类型可以根据信审在实际业务或场景中的需求确定。例如,在二手车行业的分期购车的信审场景中,特征字段可以包括:基础特征,例如用户的年龄、职业、收入、资产等;消费特征,例如用户近期的消费流水、借贷行为、大额消费记录等;行为特征,例如:用户的征信情况、失信行为、逾期行为、法律纠纷等;以及,其他用于确定是否通过该用户的分期购车请求的特征。用户数据具体包含哪些特征字段可以根据信审应用的具体业务和场景确定,本申请实施例中不做具体限制。
步骤S102,通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选。
本申请实施例中,探索性数据分析(exploratory data analysis,EDA)至少包括对待审核数据进行缺失性分析、有效性分析、异常值分析等。
图2是本申请实施例提供的一种信息审核方法步骤S102的流程图。
在一个实施例中,如图2所示,步骤S102可以包括以下步骤:
步骤S201,去除所述待审核数据的缺失性特征和异常值特征,所述缺失性特征包括内容缺失程度大于预设第一阈值的特征字段,所述异常值特征包括特征值超出预设范围的特征字段。
缺失性分析可以包括分析各个特征字段的缺失状况,并删除缺失比例较大的特征。例如在待审核数据中,用户的银行账户字段包括:“6222500”,由于该字段内容并不是完整的银行卡号,因此这一特征字段是内容缺失的,可以进行删除。本申请实施例中,对于不同的字段,可以根据字段的类型对缺失比例确定不同的比例阈值,当字段内容的缺失比例大于第一阈值时,删除特征字段。第一阈值可以根据特征字段的含义以及特征缺失对特征字段含义的影响程度确定。例如:在上述银行账户字段中,只要银行卡号出现缺失,那么这个字段就没有意义,因此,该字段的第一阈值可以设置的较低;如果缺失的字段可以通过其他的字段进行补齐,或者部分缺失不影响字段内容的完整性,则该字段的第一阈值可以设置的较高。
有效性分析可以包括分析字段的内容是否合法,或者字段的内容是否与字段类型相匹配,如果不合法或者不匹配,并且也无法通过其他方式纠正,则删除该字段。例如,用户年龄字段出现“0000”,显然“0000”不是年龄,因此该字段内容不合法。
异常值分析可以包括分析字段的值是否超出了合理范围,如果超出了合理范围,并且也无法通过其他方式纠正,则删除该字段。例如,用户年龄字段出现“3”,显然3岁的人是不具备申请分期购车的民事行为能力的,因此“3”属于异常值。
步骤S202,分析特征字段与其对应标签的关联性,以去除与对应标签的关联性低于预设第二阈值的特征字段。
关联性可以包括分析字段的内容与其对应的标签是否相关。例如,某个特征字段的标签为“年龄”,字段的内容出现“医生”,那么,由于“年龄”和“医生”不相关,因此该字段的内容与其对应的标签没有关联性。
步骤S103,对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据。
本申请实施例中,特征字段的类别至少包括基础特征、行为特征和组合特征。其中,组合特征是根据特征字段的含义以及特征字段之间的关联性衍生或者将特征字段组合得到的。
本申请实施例中,对特征字段根据预设的特征类别进行特征编码可以包括:对筛选后的特征字段按照特征字段的类别进行独热(one-hot)编码。其中,one-hot编码根据对应类别可能的特征值的数量确定编码向量的维度,每个维度对应一个特征值,因此对于一个特征值来说,它的one-hot编码中只有一个维度为1,其余维度均为0,例如:
[0,0,0,0,0,0,0,0,1,0,0,0,0,…]
步骤S104,将所述输入数据输入到所述信审模型,以得到所述待审核数据的信审结果。
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值。
图3是本申请实施例提供的信审模型的结构示意图。
如图3所示,x是对待审核数据进行特征编码之后得到的大规模稀疏输入数据。该信审模型首先包括一个embedding嵌入层,该嵌入层包括两个部分。其中,第一个部分用于使用模型参数μTx将输入数据映射到m维空间中,并使用激活函数(activation function)
得到输入数据的分类特征σ;m等于信审模型的分片的数量,因此,在本申请实施例提供的信审模型中,m维空间的每个维度相当于一个分片,而模型参数μTx则包含了输入数据和特征编码在每个维度中的权重。第二个部分用于使用模型参数ωTx将输入数据映射到m维空间中,并使用激活函数
得到输入数据的拟合特征η。该信审模型在嵌入层之后还包括內积层(inner product),用于使用激活函数
计算分类特征σ和拟合特征η的內积,以得到预测输出Y。
需要解释说明的是,本申请实施例中嵌入层用于对输入数据进行embedding(也称:word embedding,词嵌入)操作。词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
本申请实施例提供的信审模型,将输入数据的整个特征空间划分成多个局部区域,即分片。对于每个分片,采用单独的广义线性分类模型,分段处理输入数据,以解决由于输入数据稀疏导致的预测结果稳定性差和偏差大的问题。结合上述对信审模型的描述,该信审模型的数学表达形式如下:
其中,Θ={u
1,…,u
m,w
1,…,w
m}∈R
dX2m为模型参数,{u
1,…,u
m}具体为分类函数σ(-)的参数,而{w
1,…,w
m}具体为拟合函数η(-)的参数。给定一个输入数据X,本申请实施例提供的信审模型p(y|x)由两部分组成:第一部分
将输入数据的特征空间划分成m个分片,第二部分
给出了每个分片的预测结果。函数g(-)用于确保模型的输出满足概率函数的定义。
在一个实施例中,取softmax函数
作为分类函数σ(-),取sigmoid函数
作为拟合函数η(-)以及g(x)=x,于是该信审模型可以表达为以下数学形式:
另外,该信审模型还包括用于保证稀疏性的L1正则,以及作用于特征的分片,用于求解分片稀疏解的L2正则。
图4是本申请实施例提供的一种信息审核方法步骤S104的流程图。
基于图3提供的信审模型,如图4所示,步骤S104可以包括以下步骤:
步骤S301,将所述输入数据通过embedding映射到第一低维空间,并使用分类函数得到所述输入数据在每个所述分片的分类特征。
具体地,根据所述信审模型预设的第一模型参数(即:{u1,…,um})对输入数据进行embedding,并使用归一化指数函数softmax作为分类函数,得到输入数据在每个分片对应的分类特征。
步骤S302,将所述输入数据通过embedding映射到第二低维空间,并使用拟合函数得到所述输入数据在每个所述分片的拟合特征。
具体地,根据所述信审模型预设的第二模型参数(即:{w1,…,wm})对输入数据进行embedding,并使用sigmoid函数作为拟合函数,到输入数据在每个分片对应的拟合特征。
本申请实施例中,第一低维空间和第二低维空间的维度m等于所述信审模型的分片数量。
步骤S303,对所述分类特征和所述拟合特征进行求内积空间操作,以得到所述待审核数据的信审结果。
具体地,对输入数据在各个分片的分类特征和拟合特征进行求內积空间的操作,然后使用sigmoid函数g(-)将求內积的结果映射到概率函数的定义内,作为待审核数据的信审结果。
由以上技术方案可知,本申请实施例提供了一种信息审核方法。能够将待审核数据进行探索性数据分析EDA和特征编码处理,然后作为输入数据输入到信审模型,从而得到信审结果。本申请的技术方案使用了具有多个分片的信审模型,信审模型的输入数据在不同的分片中具有不同的权重,同一个特征编码在不同的分片中具有不同的权重,信审结果为输入数据在不同分片的预测结果的融合值。由此,信审模型能够将输入数据的整个特征空间划分成多个分片,并对每个分片进行分段预测,并融合输出,避免了对输入数据进行整体预测时,数据稀疏性影响预测结果。因此,本申请的技术方案在应用到二手车信审等业务中时,能够提高信审结果的稳定性和准确性。
下面是本申请的装置实施例,提供了一种信息审核装置,该装置可用于执行本申请的方法实施例,该装置实施例中未公开的技术细节请参照本申请的方法实施例。
图5是本申请实施例提供的一种信息审核装置的示意图。
如图5所示,该装置包括:
数据获取模块401,用于获取待审核数据,所述待审核数据包含多个特征字段;
数据分析模块402,用于通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
特征工程模块403,用于对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
求解模块404,用于将所述输入数据输入到所述信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值。
图6是本申请实施例提供的一种信息审核装置的数据分析模块402的示意图。
如图6所示,在一个实施例中,所述数据分析模块402,具体包括:
数据清洗单元501,用于去除所述待审核数据的缺失性特征和异常值特征,所述缺失性特征包括内容缺失程度大于预设第一阈值的特征字段,所述异常值特征包括特征值超出预设范围的特征字段;
关联分析单元502,用于分析特征字段与其对应标签的关联性,以去除与对应标签的关联性低于预设第二阈值的特征字段。
图7是本申请实施例提供的一种信息审核装置的求解模块404的示意图。
如图7所示,在一个实施例中,所述求解模块404,具体包括:
第一嵌入单元601,用于将所述输入数据通过embedding映射到第一低维空间,并使用分类函数得到所述输入数据在每个所述分片的分类特征;
第二嵌入单元602,用于将所述输入数据通过embedding映射到第二低维空间,并使用拟合函数得到所述输入数据在每个所述分片的拟合特征;
求解单元603,用于对所述分类特征和所述拟合特征进行求内积空间操作,以得到所述待审核数据的信审结果;
其中,所述第一低维空间和所述第二低维空间的维度等于所述信审模型的分片数量。
在一个实施例中,第一嵌入单元601用于将所述输入数据通过embedding映射到第一低维空间,并使用分类函数得到所述输入数据在每个所述分片的分类特征,具体包括:根据所述信审模型预设的第一模型参数对所述输入数据进行embedding,并使用归一化指数函数softmax作为分类函数,得到所述分类特征。
在一个实施例中,第二嵌入单元602用于将所述输入数据通过embedding映射到第二低维空间,并使用拟合函数得到所述输入数据在每个所述分片的拟合特征,具体包括:根据所述信审模型预设的第二模型参数对所述输入数据进行embedding,并使用sigmoid函数作为拟合函数,得到所述拟合特征。
由以上技术方案可知,本申请实施例提供了一种信息审核装置。能够将待审核数据进行探索性数据分析EDA和特征编码处理,然后作为输入数据输入到信审模型,从而得到信审结果。本申请的技术方案使用了具有多个分片的信审模型,信审模型的输入数据在不同的分片中具有不同的权重,同一个特征编码在不同的分片中具有不同的权重,信审结果为输入数据在不同分片的预测结果的融合值。由此,信审模型能够将输入数据的整个特征空间划分成多个分片,并对每个分片进行分段预测,并融合输出,避免了对输入数据进行整体预测时,数据稀疏性影响预测结果。因此,本申请的技术方案在应用到二手车信审等业务中时,能够提高信审结果的稳定性和准确性。
下面是本申请的硬件实施例,提供了一种服务器,该服务器可用于执行本申请的方法实施例,该装置实施例中未公开的技术细节请参照本申请的方法实施例。
图8是本申请实施例提供的一种服务器的示意图。
如图8所示,该服务器包括:
存储器701,用于存储处理器执行的程序指令,以及存储用于组成信审模型的模型数据;
所述收发器702,用于获取待审核数据,所述待审核数据包含多个特征字段;
所述处理器703,用于通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
所述处理器703,还用于对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
所述处理器703,还用于将所述输入数据输入到信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值。
由以上技术方案可知,本申请实施例提供了一种服务器。能够将待审核数据进行探索性数据分析EDA和特征编码处理,然后作为输入数据输入到信审模型,从而得到信审结果。本申请的技术方案使用了具有多个分片的信审模型,信审模型的输入数据在不同的分片中具有不同的权重,同一个特征编码在不同的分片中具有不同的权重,信审结果为输入数据在不同分片的预测结果的融合值。由此,信审模型能够将输入数据的整个特征空间划分成多个分片,并对每个分片进行分段预测,并融合输出,避免了对输入数据进行整体预测时,数据稀疏性影响预测结果。因此,本申请的技术方案在应用到二手车信审等业务中时,能够提高信审结果的稳定性和准确性。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。