CN111079941B

CN111079941B - 信用信息处理方法、系统、终端和存储介质

Info

Publication number: CN111079941B
Application number: CN201911221952.5A
Authority: CN
Inventors: 何儒汉; 苏裕益; 向俐双; 万方名; 胡新荣; 陈常念; 刘军平
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2024-02-20
Anticipated expiration: 2039-12-03
Also published as: CN111079941A

Abstract

本发明属于数据处理技术领域，公开了一种结合专家经验模型与有监督机器学习算法的信用信息系统，信用信息系统包括样本评判模块用于通过专家模型根据重要的样本特征来对整个样本做出评判，得到初步的信用分；样本排序模块用于通过样本评判模块得到的信用分Y将样本X进行排序，并得到监督机器学习算法的数据集；模型构建模块用于构建有监督机器学习模型，进行数据集的训练，并得到稳定模型及信用分标签Y’；模型验证模块用于验证机器学习模型。本发明结合专家模型与有监督机器学习算法进行信用评分，训练出来的机器学习模型不依赖于样本数据的分布，解决了利用机器学习模型没有标注数据的问题，能够实现信用评分模型的精准预测。

Description

信用信息处理方法、系统、终端和存储介质

技术领域

本发明属于数据处理技术领域，尤其涉及一种结合专家经验模型与有监督机器学习算法的信用信息系统。

背景技术

目前，最接近的现有技术：现有技术试图在很多行业、企业或社会组织进行信用评分时，常常面临这样的现状：虽然已经累积了大量数据，但基本没有可用于有监督机器学习的标注数据。由于缺乏标注数据，无法利用当前流行的预测比较精准的有监督机器学习方法；而传统的专家经验模型通常是挑选少数重要数据指标，利用专家经验做出判断，得到信用评分，但是其缺点是没有充分利用已有的多维度大数据，而且存在主观性较强，得到的信用评分结果往往不够准确。

专家经验模型主要依赖人类专家，根据心理学家的研究：人区分信息等级的极限能力为7±2级，所以当数据指标超过9个时，即使最好的专家也难以区分不同指标的重要性。所以专家经验模型，通常挑选少数数据指标，依据专家经验判断，获得指标权重，进而计算出信用评分。其主要缺点在于：(1)由于挑选的数据指标比较少，得到信用分不够精准；(2)不适合处理多维度大数据，也就无法充分利用所累积的大数据。

有监督机器学习模型，比如逻辑回归等，在处理大数据和分类预测准确性上有较大优势，但其缺点为：(1)模型训练需要标注数据，这样才有训练样本集进而进行训练；(2)对于大数据，由于体量太大，人工标注成本太高，所以不可能通过人工进行数据标注。所以有监督的机器学习模型是无法直接应用到我们目前缺少标注数据的某些场景中。

针对目前某些信用评分场景中缺少标注数据的问题，无法直接利用有监督机器学习算法，专家经验模型不能充分利用数据且信用评分不够精准。因此针对缺乏标注数据的信用评价问题，急需一种解决方案，即结合专家模型与有监督机器学习算法的各自优点来解决信用评分问题。

综上所述，现有技术存在的问题是：(1)传统的专家经验模型挑选的数据指标比较少，没有充分利用已有的多维度大数据，得到信用分不够精准。

(2)传统的专家经验模型存在主观性较强的缺陷，得到的信用评分结果往往不够准确。

(3)传统的有监督机器学习模型在模型训练时需要标注数据，这样才有训练样本集进而进行训练。

(4)传统的有监督机器学习模型对于大数据而言，由于体量太大，人工标注成本太高，所以很难通过人工进行数据标注。

解决上述技术问题的难度：1、现有的专家经验模型存在学习能力不足的问题，虽然技术简单易实现，但是如何保证在不失科学准确的情况下，快速的构建信用信息系统。现有的专家经验模型在一定程度上可以解决没有标注数据的信用评分问题，但存在不够准确，主观性较强的问题；2、现有的有监督机器学习模型，可以满足信用评分的要求，当输入给模型的特征向量存在强相关的维度或维度组合，模型会得到一个很好的结果；但是如果没有标注数据或者数据集来训练模型，模型再好也没能解决问题，并且当使用的特征维度质量不高时，模型自身的局限性就会显露出来。

解决上述技术问题的意义：本发明有效利用了专家经验模型与有监督机器学习算法各自优点，弥补了现有模型学习能力不足缺点，为缺乏标注数据的信用评分应用场景提供了有效的解决方法。

发明内容

针对现有技术存在的问题，本发明提供了一种结合专家经验模型与有监督机器学习算法的信用信息系统。

本发明是这样实现的，一种结合专家经验模型与有监督机器学习算法的信用信息系统，所述信用信息系统包括：样本评判模块、样本排序模块、模型构建模块和模型验证模块。

样本评判模块，用于通过专家模型根据重要的样本特征来对整个样本做出评判，得到初步的信用分；

样本排序模块，用于通过样本评判模块得到的信用分Y将样本X进行排序，并抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集；

模型构建模块，用于构建有监督机器学习模型，进行数据集的训练；通过训练得到稳定模型，即可对样本重新预测新的信用分，得到准确的信用分标签Y’；

模型验证模块，用于验证机器学习模型，以及对应的样本特征是否准确影响信用分的生成。

进一步，所述样本评判模块的样本评判方法为：给定输入样本Xi∈{x₁,x₂,...,x_n}其中i＝1,2,...m,m为样本个数，n为单个样本的特征个数，假设重要特征指标为x₁，x₃，x₆，x₈，x₁₁，专家模型根据这五个重要特征指标进行定性判断，给出这五个指标的影响权重值，最后根据Xi样本对应的具体数据得到初步的信用分，即预测标签Y_i。

进一步，所述样本排序模块的样本排序方法为：根据得到的信用分Y将样本X排序，按比例划分为三个等级高，中，低，高分段占N％，中分段占M％，低分段占K％，其中N+M+K＝1，N,M,K的值依据实际情况给出；抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集，即好的样本和坏的样本的集合。

进一步，模型构建模块中，所述机器学习模型考虑的样本特征是包含五个重要特征指标以及剩下的所有特征指标，机器学习模型将所有的多维度特征数据作为输入来训练，探究了除了五个重要指标以外，剩下所有指标对信用分的影响，训练过程中机器学习模型分类效果会向样本量大的类别倾斜。最后训练得到一个既考虑所有特征，又不依赖样本数据分布的稳定模型，即可对样本重新预测新的信用分，得到比较准确的信用分标签Y’。

进一步，所述模型验证模块的模型验证方法为：验证机器学习模型，有监督机器学习算法得到的信用分Y’，通过对比专家模型得到的信用分Y，验证对应的样本特征是否准确影响了信用分的生成。最终利用训练得到的有监督机器学习模型，即可针对该领域数据生成数据集。根据标注数据，即可利用机器学习的各种鲁棒的算法解决问题。

本发明的另一目的在于提供一种结合专家经验模型与有监督机器学习算法的信用信息处理方法，所述信用信息处理方法包括以下步骤：

步骤一，通过专家模型根据重要的样本特征来对整个样本X做出评判，得到初步的信用分Y。首先，构建信用评分的指标体系，专家通过挑选几个指标，并对挑选出来的指标分配权重，所有数据都经过预处理、规范化处理，预处理包括：数据清洗：如异常值、重复值等的处理，缺失值的处理；数据转化：如将男女，转化为01等。规范化处理：不同评价指标往往具有不同的量纲，数值间的差别可能很大，不进行处理可能会影响到数据分析的结果，为了消除指标之间的量纲和取值范围差异的影响，需要进行标准差处理，将数据按照比例进行缩放，使之落入一个特定的区域，便于进行综合分析，数据规范化的方法包括：最小最大规范化、零均值规范化、小数定标规范化等。经过以上数据处理方法得到标准化X，X中对应的指标的数据与专家分配的权重进行矩阵乘，得到初步的信用分Y。

步骤二，通过步骤一得到的信用分Y将样本X进行排序，并抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集。通过步骤一得到的信用分Y，需要抽取正负样本作为机器学习的数据集，正样本表示为信用分高的用户，反之，为负样本。因为这样的样本数据更能体现样本特征对信用分的影响。因此将样本数据X按信用分Y进行排序，按比例划分正负样本，高分段占N，中分段占M，低分段占K，其中N+M+K＝1，N,M,K的值依据实际情况给出，我们抽取高分段和低分段的数据样本和信用分作为正负样本集，即机器学习算法的数据集。

步骤三，构建有监督机器学习模型，进行数据集的训练。通过训练得到稳定模型，即可对样本重新预测新的信用分，得到准确的信用分标签Y’。由于专家经验模型只挑选几个指标进行信用分的预测，没有考虑所有指标的影响，得到初步的信用分。有监督机器学习算法考虑所有的特征对信用分的影响，通过机器训练学习得到更精准、合理的信用分Y’；并且训练得到模型，可以直接预测新用户数据得到准确的信用分。

步骤四，验证机器学习模型以及对应的样本特征是否准确影响信用分的生成。通过比较步骤二中的信用分及样本数据和步骤三得到的最终评分对模型进行迭代优化。

本发明的另一目的在于提供一种实现所述信用信息处理方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的信用信息处理方法。

综上所述，本发明的优点及积极效果为：本发明提供的一种结合专家经验模型与有监督机器学习算法的信用信息系统及方法，结合专家模型与有监督机器学习算法进行信用评分，根据专家经验模型得到初步的信用分，可以作为有监督机器学习算法的数据集，通过专家经验模型方法有效解决了机器学习在信用评分领域面临的标注数据匮乏的问题。利用机器学习且这样训练出来的机器学习模型就不会依赖于样本数据的分布，不依赖专家主观性，能够快速、精准预测信用分。

本发明利用专家经验模型，先挑选几个重要的数据指标，专家依据多年从业经验进行对比判断，计算出的指标权重，样本数据进而计算出初步信用分，并将一定比例的获得最高分和最低分样本数据作为正负样本，形成有监督机器学习的训练数据集，然后利用有监督机器学习算法进行训练，从而实现信用分的精准预测。本发明有效利用了专家经验模型和有监督机器学习算法的优点，弥补了相互间的缺点，为缺乏标注数据的信用评分应用场景提供了有效的解决方法。

附图说明

图1是本发明实施例提供的结合专家经验模型与有监督机器学习算法的信用信息系统结构示意图；

图中：1、样本评判模块；2、样本排序模块；3、模型构建模块；4、模型验证模块。

图2是本发明实施例提供的结合专家经验模型与有监督机器学习算法的信用信息处理方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种结合专家经验模型与有监督机器学习算法的信用信息系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的一种结合专家经验模型与有监督机器学习算法的信用信息系统包括：样本评判模块1、样本排序模块2、模型构建模块3和模型验证模块4。

样本评判模块1，用于通过专家模型根据重要的样本特征来对整个样本做出评判，得到初步的信用分；

样本排序模块2，用于通过样本评判模块得到的信用分Y将样本X进行排序，并抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集；

模型构建模块3，用于构建有监督机器学习模型，进行数据集的训练；通过训练得到稳定模型，即可对样本重新预测新的信用分，得到准确的信用分标签Y’；

模型验证模块4，用于验证机器学习模型，以及对应的样本特征是否准确影响信用分的生成。

本发明实施例提供的样本评判模块1的样本评判方法为：给定输入样本Xi∈{x₁,x₂,...,x_n}其中i＝1,2,...m,m为样本个数，n为单个样本的特征个数，假设重要特征指标为x₁，x₃，x₆，x₈，x₁₁，专家模型根据这五个重要特征指标进行定性判断，给出这五个指标的影响权重值，最后根据Xi样本对应的具体数据得到初步的信用分，即预测标签Y_i。

本发明实施例提供的样本排序模块2的样本排序方法为：根据得到的信用分Y将样本X排序，按比例划分为三个等级高，中，低，高分段占N％，中分段占M％，低分段占K％，其中N+M+K＝1，N,M,K的值依据实际情况给出；抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集，即好的样本和坏的样本的集合。

本发明实施例提供的模型构建模块3中，所述机器学习模型考虑的样本特征是包含五个重要特征指标以及剩下的所有特征指标，机器学习模型将所有的多维度特征数据作为输入来训练，探究了除了五个重要指标以外，剩下所有指标对信用分的影响，训练过程中机器学习模型分类效果会向样本量大的类别倾斜。最后训练得到一个既考虑所有特征，又不依赖样本数据分布的稳定模型，即可对样本重新预测新的信用分，得到比较准确的信用分标签Y’。

本发明实施例提供的模型验证模块4的模型验证方法为：验证机器学习模型，有监督机器学习算法得到的信用分Y’，通过对比专家模型得到的信用分Y，验证对应的样本特征是否准确影响了信用分的生成。最终利用训练得到的有监督机器学习模型，即可针对该领域数据生成数据集。根据标注数据，即可利用机器学习的各种鲁棒的算法解决问题。

如图2所示，本发明实施例提供的一种结合专家经验模型与有监督机器学习算法的信用信息处理方法包括以下步骤：

S101：通过专家模型根据重要的样本特征来对整个样本X做出评判，得到初步的信用分Y。

S102：通过S101得到的信用分Y将样本X进行排序，并抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集。

S103：构建有监督机器学习模型，进行数据集的训练。通过训练得到稳定模型，即可对样本重新预测新的信用分，得到准确的信用分标签Y’。

S104：验证机器学习模型以及对应的样本特征是否准确影响信用分的生成。

下面结合具体实施例对本发明作进一步描述。

实施例

针对实际项目中，很多缺乏标注数据的信用评分问题，本发明提出结合专家模型与有监督机器学习算法的信用评分方法，利用专家经验模型生成准确合理的信用分，这样得到一个对有监督机器学习模型所需的数据集，很好利用机器学习算法来解决信用评分问题。

第一步，专家模型根据几个重要的样本特征来对整个样本做出评判，得到初步的信用分，如给定输入样本Xi∈{x₁,x₂,...,x_n}其中i＝1,2,...m,m为样本个数，n为单个样本的特征个数(n在实际场景中通常比较大，可能为几十甚至几千)，假设重要特征指标为x₁，x₃，x₆，x₈，x₁₁，专家模型根据这五个重要特征指标进行定性判断，给出这五个指标的影响权重值，最后根据Xi样本对应的具体数据得到初步的信用分，即预测标签Y_i，为了减少专家判断的误差，我们减少了指标的考虑，没有充分利用已有的多维度大数据，因此我们整个样本X得到的信用分Y是初步的不够精准的结果。

第二步，由第一步专家模型得到的样本数据及样本标签(X,Y)，其中信用分Y是根据对应五个重要的样本特征得到的，我们根据得到的信用分Y将样本X排序，按比例划分为三个等级高，中，低，高分段占N％，中分段占M％，低分段占K％，其中N+M+K＝1，N,M,K的值依据实际情况给出，我们抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集，其实就是好的样本和坏的样本的集合。因为这样的样本数据更能体现样本特征对信用分的影响。我们有了机器学习所需的数据集，就可以构建一个有监督机器学习模型来训练数据集，机器学习模型考虑的样本特征是包含五个重要特征指标以及剩下的所有特征指标，机器学习模型将所有的多维度特征数据作为输入来训练，探究了除了五个重要指标以外，剩下所有指标对信用分的影响，训练过程中机器学习模型分类效果会向样本量大的类别倾斜，因此在前期的专家模型中针对五个重要指标特征的评判是非常重要的，因为有些重要指标特征数量虽然少，但是将其识别出来却是至关重要的。最后训练得到一个既考虑所有特征，又不依赖样本数据分布的稳定模型，即可对样本重新预测新的信用分，得到比较准确的信用分标签Y’。

第三步，验证机器学习模型，有监督机器学习算法得到的信用分Y’，通过对比专家模型得到的信用分Y，验证对应的样本特征是否准确影响了信用分的生成。最终我们训练得到的有监督机器学习模型，就可以针对该领域数据生成数据集。有了标注数据，就可以利用机器学习的各种鲁棒的算法解决问题。

本发明提出的结合专家模型与有监督机器学习算法的信用评分方法，根据专家经验模型得到初步的信用分，可以作为有监督机器学习算法的数据集，这样训练出来的机器学习模型就不会依赖于样本数据的分布，解决了利用机器学习模型没有标注数据的问题，能够实现信用评分模型的精准预测。

下面结合具体实施例如某烟草局卷烟零售户的信用评分对本发明作进一步描述。

1样本评判模块具体步骤：

1.1数据采集：通过已有业务系统进行数据动态采集归集和抽取，主要包含用户基本数据、营销数据和信用数据；

1.2信用指标构建：指标体系构建依据信用自身内涵，借鉴信用要素分析法，通过分析与借鉴“FICO评分”和“芝麻信用”体系指标选取原则的基础上，利用类比的方法汲取两种体系指标选择的优点，进而结合行业专家经验，分析信用评分对象特征，探究其信用内涵与范畴，最终选取出评分对象的信用评价指标，如：基础指标A(零售对象合法A1等)、营销指标B(明码标价率B21、入网销售时长B31等)、专卖指标C(守法经营时长C11、行政处罚次数C21、责令停业户C32等)。

1.3数据特征标准化：不同评价指标往往具有不同的量纲，数值间的差别可能很大，不进行处理可能会影响到数据分析的结果，为了消除指标之间的量纲和取值范围差异的影响，需要进行标准差处理，将数据按照比例进行缩放，使之落入一个特定的区域，便于进行综合分析，数据规范化的方法包括：最小最大规范化、零均值规范化、小数定标规范化等。

1.4样本评判：烟草行业专家根据多年行业经验挑选出A1、B21、B31、C11、C32五个指标，通过综合多名烟草行业专家的成对比较矩阵，并采用层次分析法进行实验验证，得到五个指标的权重(A1：0.0365，B21：0.0631，B31：0.2459，C11：0.3428，C32：0.3118)，最后根据X样本对应的具体数据得到初步的信用分，即预测标签Y＝0.0365(x₁)+0.0631(x₃)+0.2459(x₆)+0.3428(x₈)+0.3118(x₁₁)。

2样本排序模块：通过样本评判模块得到的信用分Y将样本X进行排序，并检查信用分(0-100)是否超出阈值，当信用分超出阈值时，超出的部分会截掉。经过实验分析，我们按比例抽取高分段10％和低分段10％的数据样本和信用分作为有监督机器学习算法的数据集。

3模型构建模块：通过将上述模块2得到的数据集，构建基于梯度提升决策树的信用评分模型，该模型考虑了除了五个重要指标以外剩下的22个指标。基于梯度提升决策树的信用评分模型将所有的多维度特征数据作为输入来训练，探究了除了五个重要指标以外，剩下所有指标对信用分的影响，训练过程中机器学习模型分类效果会向样本量大的类别倾斜，因此在前期的专家模型中针对五个重要指标特征的评判是非常重要的，因为有些重要指标(如责令停业户C32)特征数量虽然少，但是将其识别出来却是至关重要的。最后训练得到一个既考虑所有特征，又不依赖样本数据分布的稳定模型，即可对样本重新预测新的信用分，得到比较准确的信用分标签Y’。

4模型验证模块：通过比较模块1中的信用分及样本数据和模块3得到的最终评分对模型进行迭代优化，最终更加准确的得出信用分。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合专家经验模型与有监督机器学习算法的信用信息处理方法，其特征在于，所述结合专家经验模型与有监督机器学习算法的信用信息处理方法针对卷烟零售户的信用评分，选取出评分对象的信用评价指标，包含：基础指标A、营销指标B、专卖指标C；其中：基础指标A包括零售对象合法A1，营销指标B包括明码标价率B21、入网销售时长B31，专卖指标C包括守法经营时长C11、行政处罚次数C21、责令停业户C32；具体包括以下步骤：

步骤一，通过专家模型根据重要的样本特征来对整个样本X做出评判，得到初步的信用分Y；

步骤二，通过步骤一得到的信用分Y将样本X进行排序，并抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集；

步骤三，构建有监督机器学习模型，进行数据集的训练；通过训练得到稳定模型，即可对样本重新预测新的信用分，得到准确的信用分标签Y’；

步骤四，验证机器学习模型以及对应的样本特征是否准确影响信用分的生成；

步骤一的样本评判方法为：

给定输入样本Xi∈{x₁,x₂,...,x_n}其中i＝1,2,...m,m为样本个数，n为单个样本的特征个数，假设重要特征指标为x₁，x₃，x₆，x₈，x₁₁，专家模型根据这五个重要特征指标进行定性判断，给出这五个指标的影响权重值；最后根据Xi样本对应的具体数据得到初步的信用分，即预测标签Y_i；

步骤二的样本排序方法为：

根据得到的信用分Y将样本X排序，按比例划分为三个等级高，中，低，高分段占N％，中分段占M％，低分段占K％，其中N+M+K＝100，N,M,K的值依据实际情况给出；抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集，即好的样本和坏的样本的集合；

步骤三中，有监督机器学习模型的样本特征是包含五个重要特征指标以及剩下的所有特征指标，将所有的多维度特征数据作为输入训练，除重要指标以外，剩下所有指标对信用分的影响，训练过程中机器学习模型分类效果会向样本量大的类别倾斜；最后训练得到既结合所有特征，又不依赖样本数据分布的稳定模型对样本重新预测新的信用分，得到信用分标签Y’；

步骤四中，模型验证方法为：

验证机器学习模型，有监督机器学习算法得到的信用分Y’，通过对比专家模型得到的信用分Y，验证对应的样本特征是否准确影响了信用分的生成；最终利用训练得到的有监督机器学习模型。

2.一种基于权利要求1所述结合专家经验模型与有监督机器学习算法的信用信息处理方法的信用信息系统，其特征在于，所述信用信息系统包括：样本评判模块、样本排序模块、模型构建模块和模型验证模块；

3.一种实现权利要求1所述结合专家经验模型与有监督机器学习算法的信用信息处理方法的信息数据处理终端。

4.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1所述的结合专家经验模型与有监督机器学习算法的信用信息处理方法。