CN110322150B - 一种信息审核方法、装置及服务器 - Google Patents
一种信息审核方法、装置及服务器 Download PDFInfo
- Publication number
- CN110322150B CN110322150B CN201910607497.6A CN201910607497A CN110322150B CN 110322150 B CN110322150 B CN 110322150B CN 201910607497 A CN201910607497 A CN 201910607497A CN 110322150 B CN110322150 B CN 110322150B
- Authority
- CN
- China
- Prior art keywords
- data
- input data
- characteristic
- model
- audited
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请实施例提供了一种信息审核方法、装置及服务器。能够将待审核数据进行探索性数据分析EDA和特征编码处理,然后作为输入数据输入到信审模型,从而得到信审结果。本申请实施例提供的技术方案使用了具有多个分片的信审模型,信审模型的输入数据在不同的分片中具有不同的权重,同一个特征编码在不同的分片中具有不同的权重,信审结果为输入数据在不同分片的预测结果的融合值。由此,信审模型能够将输入数据的整个特征空间划分成多个分片,并对每个分片进行分段预测,并融合输出,避免了对输入数据进行整体预测时,数据稀疏性影响预测结果。因此,本申请实施例提供的技术方案在应用到二手车信审等业务中时,能够提高信审结果的稳定性和准确性。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种信息审核方法、装置及服务器。
背景技术
逻辑回归(logistic regression,LR)是一种常见的线性二分类算法,它通过非线性函数将线性回归的预测值概率化,达到分类的目的。逻辑回归由于原理通俗易懂、工程上实现简单,因此在金融风控,内容识别中有着广泛的应用。
二手车的自动化信息审核业务是逻辑回归在金融风控领域的一个应用场景。通过获取申请分期购车用户的各种第三方信息,并利用逻辑回归模型或者其他模型建立自动化信审预测模型,可以根据第三方信息预测用户未来发生逾期的可能性,作为是否通过用户分期购车请求的依据。但是,由于与用户分期购车相关的第三方信息的特征字段较多,并且其中一些类别的特征较多地呈现长尾分布,因此,在对这些特征字段进行编码后,会造成严重的数据稀疏;另外,在对特征字段进行编码时,由于需要对缺失的字段进行填充,也会造成原始特征分布的变化。上述原因导致了基于逻辑回归算法的信审模型在二手车自动化信审等业务中存在稳定性差、预测结果的偏差较大的问题。
发明内容
本申请实施例提供了一种信息审核方法、装置及服务器,以解决现有技术中基于逻辑回归算法的信审模型在二手车自动化信审等业务中的稳定性差、预测结果的偏差较大的问题。
第一方面,本申请实施例提供了一种信息审核方法,该方法包括:
获取待审核数据,所述待审核数据包含多个特征字段;
通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
将所述输入数据输入到信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值。
第二方面,本申请实施例提供了一种信息审核装置,该装置包括:
数据获取模块,用于获取待审核数据,所述待审核数据包含多个特征字段;
数据分析模块,用于通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
特征工程模块,用于对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
求解模块,用于将所述输入数据输入到所述信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值。
第三方面,本申请实施例提供了一种服务器,包括:
存储器,用于存储处理器执行的程序指令,以及存储用于组成信审模型的模型数据;
所述收发器,用于获取待审核数据,所述待审核数据包含多个特征字段;
所述处理器,用于通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
所述处理器,还用于对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
所述处理器,还用于将所述输入数据输入到信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值。
由以上技术方案可知,本申请实施例提供了一种信息审核方法、装置及服务器。能够将待审核数据进行探索性数据分析EDA和特征编码处理,然后作为输入数据输入到信审模型,从而得到信审结果。本申请实施例提供的技术方案使用了具有多个分片的信审模型,信审模型的输入数据在不同的分片中具有不同的权重,同一个特征编码在不同的分片中具有不同的权重,信审结果为输入数据在不同分片的预测结果的融合值。由此,信审模型能够将输入数据的整个特征空间划分成多个分片,并对每个分片进行分段预测,并融合输出,避免了对输入数据进行整体预测时,数据稀疏性影响到预测结果。因此,本申请的技术方案在应用到二手车信审等业务中时,能够提高信审结果的稳定性和准确性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种信息审核方法的流程图;
图2是本申请实施例提供的一种信息审核方法步骤S102的流程图;
图3是本申请实施例提供的信审模型的结构示意图;
图4是本申请实施例提供的一种信息审核方法步骤S104的流程图;
图5是本申请实施例提供的一种信息审核装置的示意图;
图6是本申请实施例提供的一种信息审核装置的数据分析模块402的示意图;
图7是本申请实施例提供的一种信息审核装置的求解模块404的示意图;
图8是本申请实施例提供的一种服务器的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
二手车的自动化信息审核业务是逻辑回归在金融风控领域的一个应用场景。通过获取申请分期购车用户的各种第三方信息,并利用逻辑回归模型或者其他模型建立自动化信审预测模型,可以根据第三方信息预测用户未来发生逾期的可能性,作为是否通过用户分期购车请求的依据。但是,由于与用户分期购车相关的第三方信息的特征字段较多,并且,其中一些类别的特征较多地呈现长尾分布,因此,在对这些特征字段进行编码后,会造成严重的数据稀疏;另外,在对特征字段进行编码时,由于需要对缺失的字段进行填充,也会造成原始特征分布的变化。上述原因导致了基于逻辑回归算法的信审模型在二手车自动化信审等业务中存在稳定性差、预测结果的偏差较大的问题。
本申请实施例提供了一种信息审核方法、装置及服务器,以解决现有技术中基于逻辑回归算法的信审模型在二手车自动化信审等业务中的稳定性差、预测结果的偏差较大的问题。
下面是本申请的方法实施例,提供了一种信息审核方法,该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机和智能穿戴设备等多种设备中。
图1是该方法的流程图,如图1所示,该方法可以包括以下步骤:
步骤S101,获取待审核数据,所述待审核数据包含多个特征字段。
其中,待审核数据可以包括多个类型的特征字段,这些类型可以根据信审在实际业务或场景中的需求确定。例如,在二手车行业的分期购车的信审场景中,特征字段可以包括:基础特征,例如用户的年龄、职业、收入、资产等;消费特征,例如用户近期的消费流水、借贷行为、大额消费记录等;行为特征,例如:用户的征信情况、失信行为、逾期行为、法律纠纷等;以及,其他用于确定是否通过该用户的分期购车请求的特征。用户数据具体包含哪些特征字段可以根据信审应用的具体业务和场景确定,本申请实施例中不做具体限制。
步骤S102,通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选。
本申请实施例中,探索性数据分析(exploratory data analysis,EDA)至少包括对待审核数据进行缺失性分析、有效性分析、异常值分析等。
图2是本申请实施例提供的一种信息审核方法步骤S102的流程图。
在一个实施例中,如图2所示,步骤S102可以包括以下步骤:
步骤S201,去除所述待审核数据的缺失性特征和异常值特征,所述缺失性特征包括内容缺失程度大于预设第一阈值的特征字段,所述异常值特征包括特征值超出预设范围的特征字段。
缺失性分析可以包括分析各个特征字段的缺失状况,并删除缺失比例较大的特征。例如在待审核数据中,用户的银行账户字段包括:“6222500”,由于该字段内容并不是完整的银行卡号,因此这一特征字段是内容缺失的,可以进行删除。本申请实施例中,对于不同的字段,可以根据字段的类型对缺失比例确定不同的比例阈值,当字段内容的缺失比例大于第一阈值时,删除特征字段。第一阈值可以根据特征字段的含义以及特征缺失对特征字段含义的影响程度确定。例如:在上述银行账户字段中,只要银行卡号出现缺失,那么这个字段就没有意义,因此,该字段的第一阈值可以设置的较低;如果缺失的字段可以通过其他的字段进行补齐,或者部分缺失不影响字段内容的完整性,则该字段的第一阈值可以设置的较高。
有效性分析可以包括分析字段的内容是否合法,或者字段的内容是否与字段类型相匹配,如果不合法或者不匹配,并且也无法通过其他方式纠正,则删除该字段。例如,用户年龄字段出现“0000”,显然“0000”不是年龄,因此该字段内容不合法。
异常值分析可以包括分析字段的值是否超出了合理范围,如果超出了合理范围,并且也无法通过其他方式纠正,则删除该字段。例如,用户年龄字段出现“3”,显然3岁的人是不具备申请分期购车的民事行为能力的,因此“3”属于异常值。
步骤S202,分析特征字段与其对应标签的关联性,以去除与对应标签的关联性低于预设第二阈值的特征字段。
关联性可以包括分析字段的内容与其对应的标签是否相关。例如,某个特征字段的标签为“年龄”,字段的内容出现“医生”,那么,由于“年龄”和“医生”不相关,因此该字段的内容与其对应的标签没有关联性。
步骤S103,对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据。
本申请实施例中,特征字段的类别至少包括基础特征、行为特征和组合特征。其中,组合特征是根据特征字段的含义以及特征字段之间的关联性衍生或者将特征字段组合得到的。
本申请实施例中,对特征字段根据预设的特征类别进行特征编码可以包括:对筛选后的特征字段按照特征字段的类别进行独热(one-hot)编码。其中,one-hot编码根据对应类别可能的特征值的数量确定编码向量的维度,每个维度对应一个特征值,因此对于一个特征值来说,它的one-hot编码中只有一个维度为1,其余维度均为0,例如:
[0,0,0,0,0,0,0,0,1,0,0,0,0,…]
步骤S104,将所述输入数据输入到所述信审模型,以得到所述待审核数据的信审结果。
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值。
图3是本申请实施例提供的信审模型的结构示意图。
如图3所示,x是对待审核数据进行特征编码之后得到的大规模稀疏输入数据。该信审模型首先包括一个embedding嵌入层,该嵌入层包括两个部分。其中,第一个部分用于使用模型参数μTx将输入数据映射到m维空间中,并使用激活函数(activation function)得到输入数据的分类特征σ;m等于信审模型的分片的数量,因此,在本申请实施例提供的信审模型中,m维空间的每个维度相当于一个分片,而模型参数μTx则包含了输入数据和特征编码在每个维度中的权重。第二个部分用于使用模型参数ωTx将输入数据映射到m维空间中,并使用激活函数得到输入数据的拟合特征η。该信审模型在嵌入层之后还包括內积层(inner product),用于使用激活函数计算分类特征σ和拟合特征η的內积,以得到预测输出Y。
需要解释说明的是,本申请实施例中嵌入层用于对输入数据进行embedding(也称:word embedding,词嵌入)操作。词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
本申请实施例提供的信审模型,将输入数据的整个特征空间划分成多个局部区域,即分片。对于每个分片,采用单独的广义线性分类模型,分段处理输入数据,以解决由于输入数据稀疏导致的预测结果稳定性差和偏差大的问题。结合上述对信审模型的描述,该信审模型的数学表达形式如下:
其中,Θ={u1,…,um,w1,…,wm}∈RdX2m为模型参数,{u1,…,um}具体为分类函数σ(-)的参数,而{w1,…,wm}具体为拟合函数η(-)的参数。给定一个输入数据X,本申请实施例提供的信审模型p(y|x)由两部分组成:第一部分将输入数据的特征空间划分成m个分片,第二部分给出了每个分片的预测结果。函数g(-)用于确保模型的输出满足概率函数的定义。
另外,该信审模型还包括用于保证稀疏性的L1正则,以及作用于特征的分片,用于求解分片稀疏解的L2正则。
图4是本申请实施例提供的一种信息审核方法步骤S104的流程图。
基于图3提供的信审模型,如图4所示,步骤S104可以包括以下步骤:
步骤S301,将所述输入数据通过embedding映射到第一低维空间,并使用分类函数得到所述输入数据在每个所述分片的分类特征。
具体地,根据所述信审模型预设的第一模型参数(即:{u1,…,um})对输入数据进行embedding,并使用归一化指数函数softmax作为分类函数,得到输入数据在每个分片对应的分类特征。
步骤S302,将所述输入数据通过embedding映射到第二低维空间,并使用拟合函数得到所述输入数据在每个所述分片的拟合特征。
具体地,根据所述信审模型预设的第二模型参数(即:{w1,…,wm})对输入数据进行embedding,并使用sigmoid函数作为拟合函数,到输入数据在每个分片对应的拟合特征。
本申请实施例中,第一低维空间和第二低维空间的维度m等于所述信审模型的分片数量。
步骤S303,对所述分类特征和所述拟合特征进行求内积空间操作,以得到所述待审核数据的信审结果。
具体地,对输入数据在各个分片的分类特征和拟合特征进行求內积空间的操作,然后使用sigmoid函数g(-)将求內积的结果映射到概率函数的定义内,作为待审核数据的信审结果。
由以上技术方案可知,本申请实施例提供了一种信息审核方法。能够将待审核数据进行探索性数据分析EDA和特征编码处理,然后作为输入数据输入到信审模型,从而得到信审结果。本申请的技术方案使用了具有多个分片的信审模型,信审模型的输入数据在不同的分片中具有不同的权重,同一个特征编码在不同的分片中具有不同的权重,信审结果为输入数据在不同分片的预测结果的融合值。由此,信审模型能够将输入数据的整个特征空间划分成多个分片,并对每个分片进行分段预测,并融合输出,避免了对输入数据进行整体预测时,数据稀疏性影响预测结果。因此,本申请的技术方案在应用到二手车信审等业务中时,能够提高信审结果的稳定性和准确性。
下面是本申请的装置实施例,提供了一种信息审核装置,该装置可用于执行本申请的方法实施例,该装置实施例中未公开的技术细节请参照本申请的方法实施例。
图5是本申请实施例提供的一种信息审核装置的示意图。
如图5所示,该装置包括:
数据获取模块401,用于获取待审核数据,所述待审核数据包含多个特征字段;
数据分析模块402,用于通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
特征工程模块403,用于对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
求解模块404,用于将所述输入数据输入到所述信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值。
图6是本申请实施例提供的一种信息审核装置的数据分析模块402的示意图。
如图6所示,在一个实施例中,所述数据分析模块402,具体包括:
数据清洗单元501,用于去除所述待审核数据的缺失性特征和异常值特征,所述缺失性特征包括内容缺失程度大于预设第一阈值的特征字段,所述异常值特征包括特征值超出预设范围的特征字段;
关联分析单元502,用于分析特征字段与其对应标签的关联性,以去除与对应标签的关联性低于预设第二阈值的特征字段。
图7是本申请实施例提供的一种信息审核装置的求解模块404的示意图。
如图7所示,在一个实施例中,所述求解模块404,具体包括:
第一嵌入单元601,用于将所述输入数据通过embedding映射到第一低维空间,并使用分类函数得到所述输入数据在每个所述分片的分类特征;
第二嵌入单元602,用于将所述输入数据通过embedding映射到第二低维空间,并使用拟合函数得到所述输入数据在每个所述分片的拟合特征;
求解单元603,用于对所述分类特征和所述拟合特征进行求内积空间操作,以得到所述待审核数据的信审结果;
其中,所述第一低维空间和所述第二低维空间的维度等于所述信审模型的分片数量。
在一个实施例中,第一嵌入单元601用于将所述输入数据通过embedding映射到第一低维空间,并使用分类函数得到所述输入数据在每个所述分片的分类特征,具体包括:根据所述信审模型预设的第一模型参数对所述输入数据进行embedding,并使用归一化指数函数softmax作为分类函数,得到所述分类特征。
在一个实施例中,第二嵌入单元602用于将所述输入数据通过embedding映射到第二低维空间,并使用拟合函数得到所述输入数据在每个所述分片的拟合特征,具体包括:根据所述信审模型预设的第二模型参数对所述输入数据进行embedding,并使用sigmoid函数作为拟合函数,得到所述拟合特征。
由以上技术方案可知,本申请实施例提供了一种信息审核装置。能够将待审核数据进行探索性数据分析EDA和特征编码处理,然后作为输入数据输入到信审模型,从而得到信审结果。本申请的技术方案使用了具有多个分片的信审模型,信审模型的输入数据在不同的分片中具有不同的权重,同一个特征编码在不同的分片中具有不同的权重,信审结果为输入数据在不同分片的预测结果的融合值。由此,信审模型能够将输入数据的整个特征空间划分成多个分片,并对每个分片进行分段预测,并融合输出,避免了对输入数据进行整体预测时,数据稀疏性影响预测结果。因此,本申请的技术方案在应用到二手车信审等业务中时,能够提高信审结果的稳定性和准确性。
下面是本申请的硬件实施例,提供了一种服务器,该服务器可用于执行本申请的方法实施例,该装置实施例中未公开的技术细节请参照本申请的方法实施例。
图8是本申请实施例提供的一种服务器的示意图。
如图8所示,该服务器包括:
存储器701,用于存储处理器执行的程序指令,以及存储用于组成信审模型的模型数据;
所述收发器702,用于获取待审核数据,所述待审核数据包含多个特征字段;
所述处理器703,用于通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
所述处理器703,还用于对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
所述处理器703,还用于将所述输入数据输入到信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值。
由以上技术方案可知,本申请实施例提供了一种服务器。能够将待审核数据进行探索性数据分析EDA和特征编码处理,然后作为输入数据输入到信审模型,从而得到信审结果。本申请的技术方案使用了具有多个分片的信审模型,信审模型的输入数据在不同的分片中具有不同的权重,同一个特征编码在不同的分片中具有不同的权重,信审结果为输入数据在不同分片的预测结果的融合值。由此,信审模型能够将输入数据的整个特征空间划分成多个分片,并对每个分片进行分段预测,并融合输出,避免了对输入数据进行整体预测时,数据稀疏性影响预测结果。因此,本申请的技术方案在应用到二手车信审等业务中时,能够提高信审结果的稳定性和准确性。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种信息审核方法,其特征在于,涉及二手车交易,所述方法包括:
获取待审核数据,所述待审核数据包含多个特征字段;所述特征字段包括用户的年龄、收入,用户近期的消费流水、借贷行为,用户的征信情况、失信行为;
通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
对筛选后的特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
将所述输入数据输入到所述信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值;
所述将输入数据输入到所述信审模型,以得到所述待审核数据的信审结果,包括:将所述输入数据通过embedding映射到第一低维空间,并使用分类函数得到所述输入数据在每个所述分片的分类特征;以及,将所述输入数据通过embedding映射到第二低维空间,并使用拟合函数得到所述输入数据在每个所述分片的拟合特征;其中,所述第一低维空间和所述第二低维空间的维度等于所述信审模型的分片数量;
对所述分类特征和所述拟合特征进行求内积空间操作,以得到所述待审核数据的信审结果。
2.根据权利要求1所述的方法,其特征在于,所述通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选,包括:
去除所述待审核数据的缺失性特征和异常值特征,所述缺失性特征包括内容缺失程度大于预设第一阈值的特征字段,所述异常值特征包括特征值超出预设范围的特征字段;
分析特征字段与其对应标签的关联性,以去除与对应标签的关联性低于预设第二阈值的特征字段。
3.根据权利要求1所述的方法,其特征在于,所述特征字段的类别至少包括基础特征、行为特征和组合特征,所述组合特征是根据特征字段的含义以及特征字段之间的关联性衍生或者将特征字段组合得到的;所述对筛选后的特征字段根据预设的特征类别进行特征编码,包括:对筛选后的特征字段按照特征字段的类别进行独热(one-hot)编码。
4.根据权利要求1所述的方法,其特征在于,所述将输入数据通过embedding映射到第一低维空间,并使用分类函数得到所述输入数据在每个所述分片的分类特征,包括:
根据所述信审模型预设的第一模型参数对所述输入数据进行embedding,并使用归一化指数函数softmax作为分类函数,得到所述分类特征。
5.根据权利要求1所述的方法,其特征在于,所述将输入数据通过embedding映射到第二低维空间,并使用拟合函数得到所述输入数据在每个所述分片的拟合特征,包括:
根据所述信审模型预设的第二模型参数对所述输入数据进行embedding,并使用sigmoid函数作为拟合函数,得到所述拟合特征。
6.一种信息审核装置,其特征在于,包括:
数据获取模块,用于获取待审核数据,所述待审核数据包含多个特征字段;所述特征字段包括用户的年龄、收入,用户近期的消费流水、借贷行为,用户的征信情况、失信行为;
数据分析模块,用于通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
特征工程模块,用于对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
求解模块,用于将所述输入数据输入到所述信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值;
所述求解模块,包括:
第一嵌入单元,用于将所述输入数据通过embedding映射到第一低维空间,并使用分类函数得到所述输入数据在每个所述分片的分类特征;
第二嵌入单元,用于将所述输入数据通过embedding映射到第二低维空间,并使用拟合函数得到所述输入数据在每个所述分片的拟合特征;
求解单元,用于对所述分类特征和所述拟合特征进行求内积空间操作,以得到所述待审核数据的信审结果;
其中,所述第一低维空间和所述第二低维空间的维度等于所述信审模型的分片数量。
7.根据权利要求6所述的装置,其特征在于,所述数据分析模块,包括:
数据清洗单元,用于去除所述待审核数据的缺失性特征和异常值特征,所述缺失性特征包括内容缺失程度大于预设第一阈值的特征字段,所述异常值特征包括特征值超出预设范围的特征字段;
关联分析单元,用于分析特征字段与其对应标签的关联性,以去除与对应标签的关联性低于预设第二阈值的特征字段。
8.根据权利要求6所述的装置,其特征在于,所述第一嵌入单元,具体用于:
根据所述信审模型预设的第一模型参数对所述输入数据进行embedding,并使用归一化指数函数softmax作为分类函数,得到所述分类特征。
9.根据权利要求6所述的装置,其特征在于,所述第二嵌入单元,具体用于:
根据所述信审模型预设的第二模型参数对所述输入数据进行embedding,并使用sigmoid函数作为拟合函数,得到所述拟合特征。
10.一种服务器,其特征在于,包括:
存储器,用于存储处理器执行的程序指令,以及存储用于组成信审模型的模型数据;
收发器,用于获取待审核数据,所述待审核数据包含多个特征字段;所述特征字段包括用户的年龄、收入,用户近期的消费流水、借贷行为,用户的征信情况、失信行为;
处理器,用于通过探索性数据分析EDA,对所述待审核数据包含的特征字段进行特征筛选;
所述处理器,还用于对筛选后的所述特征字段根据预设的类别进行特征编码,得到所述待审核数据对应的用于输入到信审模型的输入数据;
所述处理器,还用于将所述输入数据输入到所述信审模型,以得到所述待审核数据的信审结果;
其中,所述信审模型包括预设的多个分片,所述输入数据在不同的分片中具有不同的权重,同一个所述特征编码在不同的分片中具有不同的权重,所述信审结果为所述输入数据在不同分片的预测结果的融合值;
所述将输入数据输入到所述信审模型,以得到所述待审核数据的信审结果,包括:将所述输入数据通过embedding映射到第一低维空间,并使用分类函数得到所述输入数据在每个所述分片的分类特征;以及,将所述输入数据通过embedding映射到第二低维空间,并使用拟合函数得到所述输入数据在每个所述分片的拟合特征;其中,所述第一低维空间和所述第二低维空间的维度等于所述信审模型的分片数量;
对所述分类特征和所述拟合特征进行求内积空间操作,以得到所述待审核数据的信审结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910607497.6A CN110322150B (zh) | 2019-07-04 | 2019-07-04 | 一种信息审核方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910607497.6A CN110322150B (zh) | 2019-07-04 | 2019-07-04 | 一种信息审核方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110322150A CN110322150A (zh) | 2019-10-11 |
CN110322150B true CN110322150B (zh) | 2023-04-18 |
Family
ID=68122977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910607497.6A Active CN110322150B (zh) | 2019-07-04 | 2019-07-04 | 一种信息审核方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110322150B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579771B (zh) * | 2020-12-08 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 一种内容的标题检测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654102A (zh) * | 2014-11-10 | 2016-06-08 | 富士通株式会社 | 数据处理装置及数据处理方法 |
JP2017076281A (ja) * | 2015-10-15 | 2017-04-20 | 日本電信電話株式会社 | 単語埋込学習装置、テキスト評価装置、方法、及びプログラム |
CN107301604A (zh) * | 2017-08-29 | 2017-10-27 | 重庆华龙强渝信用管理有限公司 | 多模型融合评价系统 |
CN109034658A (zh) * | 2018-08-22 | 2018-12-18 | 重庆邮电大学 | 一种基于大数据金融的违约用户风险预测方法 |
CN109636591A (zh) * | 2018-12-28 | 2019-04-16 | 浙江工业大学 | 一种基于机器学习的信用评分卡开发方法 |
-
2019
- 2019-07-04 CN CN201910607497.6A patent/CN110322150B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654102A (zh) * | 2014-11-10 | 2016-06-08 | 富士通株式会社 | 数据处理装置及数据处理方法 |
JP2017076281A (ja) * | 2015-10-15 | 2017-04-20 | 日本電信電話株式会社 | 単語埋込学習装置、テキスト評価装置、方法、及びプログラム |
CN107301604A (zh) * | 2017-08-29 | 2017-10-27 | 重庆华龙强渝信用管理有限公司 | 多模型融合评价系统 |
CN109034658A (zh) * | 2018-08-22 | 2018-12-18 | 重庆邮电大学 | 一种基于大数据金融的违约用户风险预测方法 |
CN109636591A (zh) * | 2018-12-28 | 2019-04-16 | 浙江工业大学 | 一种基于机器学习的信用评分卡开发方法 |
Non-Patent Citations (2)
Title |
---|
Beyond one-hot encoding: Lower dimensional target embedding;Pau Rodríguez 等;《Image and Vision Computing》;20180511;全文 * |
基于词嵌入的个性化推荐系统的研究;孟天宏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110322150A (zh) | 2019-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220343433A1 (en) | System and method that rank businesses in environmental, social and governance (esg) | |
CN112270547A (zh) | 基于特征构造的金融风险评估方法、装置和电子设备 | |
CN113657993B (zh) | 信用风险识别方法、装置、设备及存储介质 | |
CN112101520A (zh) | 风险评估模型训练方法、业务风险评估方法及其他设备 | |
CN113177700B (zh) | 一种风险评估方法、系统、电子设备及存储介质 | |
CN112288279A (zh) | 基于自然语言处理和线性回归的业务风险评估方法和装置 | |
CN113220999B (zh) | 用户特征的生成方法、装置、电子设备和存储介质 | |
CN111582932A (zh) | 场景间信息推送方法、装置、计算机设备及存储介质 | |
CN114707041B (zh) | 消息推荐方法、装置、计算机可读介质及电子设备 | |
CN110782349A (zh) | 一种模型训练方法和系统 | |
CN115994684A (zh) | 一种企业风险的评估方法、装置、计算机设备及介质 | |
CN115080868A (zh) | 产品推送方法、装置、计算机设备、存储介质和程序产品 | |
CN110322150B (zh) | 一种信息审核方法、装置及服务器 | |
CN113297478B (zh) | 基于用户生命周期的信息推送方法、装置及电子设备 | |
CN117115833A (zh) | 一种证件分类方法、装置、设备及存储介质 | |
CN117437019A (zh) | 信用卡逾期风险预测方法、装置、设备、介质和程序产品 | |
CN116542783A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
CN116012066A (zh) | 广告转化率的预测方法、装置、可读存储介质 | |
CN110619024A (zh) | 一种信用评价方法、系统及相关装置 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
Karim et al. | Classification of Google Play Store Application Reviews Using Machine Learning | |
CN114065763A (zh) | 一种基于事件抽取的舆情分析方法、装置及相关组件 | |
Lee et al. | Application of machine learning in credit risk scorecard | |
CN113112299A (zh) | 一种贵金属价格趋势预测方法及装置 | |
CN117077656B (zh) | 论证关系挖掘方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |