CN111079941B - 信用信息处理方法、系统、终端和存储介质 - Google Patents
信用信息处理方法、系统、终端和存储介质 Download PDFInfo
- Publication number
- CN111079941B CN111079941B CN201911221952.5A CN201911221952A CN111079941B CN 111079941 B CN111079941 B CN 111079941B CN 201911221952 A CN201911221952 A CN 201911221952A CN 111079941 B CN111079941 B CN 111079941B
- Authority
- CN
- China
- Prior art keywords
- credit
- model
- sample
- machine learning
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 14
- 238000003672 processing method Methods 0.000 title claims description 14
- 238000003860 storage Methods 0.000 title claims description 8
- 238000010801 machine learning Methods 0.000 claims abstract description 102
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000012795 verification Methods 0.000 claims abstract description 12
- 238000009826 distribution Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 4
- 235000019504 cigarettes Nutrition 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 4
- 238000002372 labelling Methods 0.000 description 10
- 238000010606 normalization Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 241000208125 Nicotiana Species 0.000 description 3
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 244000000231 Sesamum indicum Species 0.000 description 1
- 235000003434 Sesamum indicum Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明属于数据处理技术领域,公开了一种结合专家经验模型与有监督机器学习算法的信用信息系统,信用信息系统包括样本评判模块用于通过专家模型根据重要的样本特征来对整个样本做出评判,得到初步的信用分;样本排序模块用于通过样本评判模块得到的信用分Y将样本X进行排序,并得到监督机器学习算法的数据集;模型构建模块用于构建有监督机器学习模型,进行数据集的训练,并得到稳定模型及信用分标签Y’;模型验证模块用于验证机器学习模型。本发明结合专家模型与有监督机器学习算法进行信用评分,训练出来的机器学习模型不依赖于样本数据的分布,解决了利用机器学习模型没有标注数据的问题,能够实现信用评分模型的精准预测。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种结合专家经验模型与有监督机器学习算法的信用信息系统。
背景技术
目前,最接近的现有技术:现有技术试图在很多行业、企业或社会组织进行信用评分时,常常面临这样的现状:虽然已经累积了大量数据,但基本没有可用于有监督机器学习的标注数据。由于缺乏标注数据,无法利用当前流行的预测比较精准的有监督机器学习方法;而传统的专家经验模型通常是挑选少数重要数据指标,利用专家经验做出判断,得到信用评分,但是其缺点是没有充分利用已有的多维度大数据,而且存在主观性较强,得到的信用评分结果往往不够准确。
专家经验模型主要依赖人类专家,根据心理学家的研究:人区分信息等级的极限能力为7±2级,所以当数据指标超过9个时,即使最好的专家也难以区分不同指标的重要性。所以专家经验模型,通常挑选少数数据指标,依据专家经验判断,获得指标权重,进而计算出信用评分。其主要缺点在于:(1)由于挑选的数据指标比较少,得到信用分不够精准;(2)不适合处理多维度大数据,也就无法充分利用所累积的大数据。
有监督机器学习模型,比如逻辑回归等,在处理大数据和分类预测准确性上有较大优势,但其缺点为:(1)模型训练需要标注数据,这样才有训练样本集进而进行训练;(2)对于大数据,由于体量太大,人工标注成本太高,所以不可能通过人工进行数据标注。所以有监督的机器学习模型是无法直接应用到我们目前缺少标注数据的某些场景中。
针对目前某些信用评分场景中缺少标注数据的问题,无法直接利用有监督机器学习算法,专家经验模型不能充分利用数据且信用评分不够精准。因此针对缺乏标注数据的信用评价问题,急需一种解决方案,即结合专家模型与有监督机器学习算法的各自优点来解决信用评分问题。
综上所述,现有技术存在的问题是:(1)传统的专家经验模型挑选的数据指标比较少,没有充分利用已有的多维度大数据,得到信用分不够精准。
(2)传统的专家经验模型存在主观性较强的缺陷,得到的信用评分结果往往不够准确。
(3)传统的有监督机器学习模型在模型训练时需要标注数据,这样才有训练样本集进而进行训练。
(4)传统的有监督机器学习模型对于大数据而言,由于体量太大,人工标注成本太高,所以很难通过人工进行数据标注。
解决上述技术问题的难度:1、现有的专家经验模型存在学习能力不足的问题,虽然技术简单易实现,但是如何保证在不失科学准确的情况下,快速的构建信用信息系统。现有的专家经验模型在一定程度上可以解决没有标注数据的信用评分问题,但存在不够准确,主观性较强的问题;2、现有的有监督机器学习模型,可以满足信用评分的要求,当输入给模型的特征向量存在强相关的维度或维度组合,模型会得到一个很好的结果;但是如果没有标注数据或者数据集来训练模型,模型再好也没能解决问题,并且当使用的特征维度质量不高时,模型自身的局限性就会显露出来。
解决上述技术问题的意义:本发明有效利用了专家经验模型与有监督机器学习算法各自优点,弥补了现有模型学习能力不足缺点,为缺乏标注数据的信用评分应用场景提供了有效的解决方法。
发明内容
针对现有技术存在的问题,本发明提供了一种结合专家经验模型与有监督机器学习算法的信用信息系统。
本发明是这样实现的,一种结合专家经验模型与有监督机器学习算法的信用信息系统,所述信用信息系统包括:样本评判模块、样本排序模块、模型构建模块和模型验证模块。
样本评判模块,用于通过专家模型根据重要的样本特征来对整个样本做出评判,得到初步的信用分;
样本排序模块,用于通过样本评判模块得到的信用分Y将样本X进行排序,并抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集;
模型构建模块,用于构建有监督机器学习模型,进行数据集的训练;通过训练得到稳定模型,即可对样本重新预测新的信用分,得到准确的信用分标签Y’;
模型验证模块,用于验证机器学习模型,以及对应的样本特征是否准确影响信用分的生成。
进一步,所述样本评判模块的样本评判方法为:给定输入样本Xi∈{x1,x2,...,xn}其中i=1,2,...m,m为样本个数,n为单个样本的特征个数,假设重要特征指标为x1,x3,x6,x8,x11,专家模型根据这五个重要特征指标进行定性判断,给出这五个指标的影响权重值,最后根据Xi样本对应的具体数据得到初步的信用分,即预测标签Yi。
进一步,所述样本排序模块的样本排序方法为:根据得到的信用分Y将样本X排序,按比例划分为三个等级高,中,低,高分段占N%,中分段占M%,低分段占K%,其中N+M+K=1,N,M,K的值依据实际情况给出;抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集,即好的样本和坏的样本的集合。
进一步,模型构建模块中,所述机器学习模型考虑的样本特征是包含五个重要特征指标以及剩下的所有特征指标,机器学习模型将所有的多维度特征数据作为输入来训练,探究了除了五个重要指标以外,剩下所有指标对信用分的影响,训练过程中机器学习模型分类效果会向样本量大的类别倾斜。最后训练得到一个既考虑所有特征,又不依赖样本数据分布的稳定模型,即可对样本重新预测新的信用分,得到比较准确的信用分标签Y’。
进一步,所述模型验证模块的模型验证方法为:验证机器学习模型,有监督机器学习算法得到的信用分Y’,通过对比专家模型得到的信用分Y,验证对应的样本特征是否准确影响了信用分的生成。最终利用训练得到的有监督机器学习模型,即可针对该领域数据生成数据集。根据标注数据,即可利用机器学习的各种鲁棒的算法解决问题。
本发明的另一目的在于提供一种结合专家经验模型与有监督机器学习算法的信用信息处理方法,所述信用信息处理方法包括以下步骤:
步骤一,通过专家模型根据重要的样本特征来对整个样本X做出评判,得到初步的信用分Y。首先,构建信用评分的指标体系,专家通过挑选几个指标,并对挑选出来的指标分配权重,所有数据都经过预处理、规范化处理,预处理包括:数据清洗:如异常值、重复值等的处理,缺失值的处理;数据转化:如将男女,转化为01等。规范化处理:不同评价指标往往具有不同的量纲,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,为了消除指标之间的量纲和取值范围差异的影响,需要进行标准差处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析,数据规范化的方法包括:最小最大规范化、零均值规范化、小数定标规范化等。经过以上数据处理方法得到标准化X,X中对应的指标的数据与专家分配的权重进行矩阵乘,得到初步的信用分Y。
步骤二,通过步骤一得到的信用分Y将样本X进行排序,并抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集。通过步骤一得到的信用分Y,需要抽取正负样本作为机器学习的数据集,正样本表示为信用分高的用户,反之,为负样本。因为这样的样本数据更能体现样本特征对信用分的影响。因此将样本数据X按信用分Y进行排序,按比例划分正负样本,高分段占N,中分段占M,低分段占K,其中N+M+K=1,N,M,K的值依据实际情况给出,我们抽取高分段和低分段的数据样本和信用分作为正负样本集,即机器学习算法的数据集。
步骤三,构建有监督机器学习模型,进行数据集的训练。通过训练得到稳定模型,即可对样本重新预测新的信用分,得到准确的信用分标签Y’。由于专家经验模型只挑选几个指标进行信用分的预测,没有考虑所有指标的影响,得到初步的信用分。有监督机器学习算法考虑所有的特征对信用分的影响,通过机器训练学习得到更精准、合理的信用分Y’;并且训练得到模型,可以直接预测新用户数据得到准确的信用分。
步骤四,验证机器学习模型以及对应的样本特征是否准确影响信用分的生成。通过比较步骤二中的信用分及样本数据和步骤三得到的最终评分对模型进行迭代优化。
本发明的另一目的在于提供一种实现所述信用信息处理方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的信用信息处理方法。
综上所述,本发明的优点及积极效果为:本发明提供的一种结合专家经验模型与有监督机器学习算法的信用信息系统及方法,结合专家模型与有监督机器学习算法进行信用评分,根据专家经验模型得到初步的信用分,可以作为有监督机器学习算法的数据集,通过专家经验模型方法有效解决了机器学习在信用评分领域面临的标注数据匮乏的问题。利用机器学习且这样训练出来的机器学习模型就不会依赖于样本数据的分布,不依赖专家主观性,能够快速、精准预测信用分。
本发明利用专家经验模型,先挑选几个重要的数据指标,专家依据多年从业经验进行对比判断,计算出的指标权重,样本数据进而计算出初步信用分,并将一定比例的获得最高分和最低分样本数据作为正负样本,形成有监督机器学习的训练数据集,然后利用有监督机器学习算法进行训练,从而实现信用分的精准预测。本发明有效利用了专家经验模型和有监督机器学习算法的优点,弥补了相互间的缺点,为缺乏标注数据的信用评分应用场景提供了有效的解决方法。
附图说明
图1是本发明实施例提供的结合专家经验模型与有监督机器学习算法的信用信息系统结构示意图;
图中:1、样本评判模块;2、样本排序模块;3、模型构建模块;4、模型验证模块。
图2是本发明实施例提供的结合专家经验模型与有监督机器学习算法的信用信息处理方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种结合专家经验模型与有监督机器学习算法的信用信息系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的一种结合专家经验模型与有监督机器学习算法的信用信息系统包括:样本评判模块1、样本排序模块2、模型构建模块3和模型验证模块4。
样本评判模块1,用于通过专家模型根据重要的样本特征来对整个样本做出评判,得到初步的信用分;
样本排序模块2,用于通过样本评判模块得到的信用分Y将样本X进行排序,并抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集;
模型构建模块3,用于构建有监督机器学习模型,进行数据集的训练;通过训练得到稳定模型,即可对样本重新预测新的信用分,得到准确的信用分标签Y’;
模型验证模块4,用于验证机器学习模型,以及对应的样本特征是否准确影响信用分的生成。
本发明实施例提供的样本评判模块1的样本评判方法为:给定输入样本Xi∈{x1,x2,...,xn}其中i=1,2,...m,m为样本个数,n为单个样本的特征个数,假设重要特征指标为x1,x3,x6,x8,x11,专家模型根据这五个重要特征指标进行定性判断,给出这五个指标的影响权重值,最后根据Xi样本对应的具体数据得到初步的信用分,即预测标签Yi。
本发明实施例提供的样本排序模块2的样本排序方法为:根据得到的信用分Y将样本X排序,按比例划分为三个等级高,中,低,高分段占N%,中分段占M%,低分段占K%,其中N+M+K=1,N,M,K的值依据实际情况给出;抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集,即好的样本和坏的样本的集合。
本发明实施例提供的模型构建模块3中,所述机器学习模型考虑的样本特征是包含五个重要特征指标以及剩下的所有特征指标,机器学习模型将所有的多维度特征数据作为输入来训练,探究了除了五个重要指标以外,剩下所有指标对信用分的影响,训练过程中机器学习模型分类效果会向样本量大的类别倾斜。最后训练得到一个既考虑所有特征,又不依赖样本数据分布的稳定模型,即可对样本重新预测新的信用分,得到比较准确的信用分标签Y’。
本发明实施例提供的模型验证模块4的模型验证方法为:验证机器学习模型,有监督机器学习算法得到的信用分Y’,通过对比专家模型得到的信用分Y,验证对应的样本特征是否准确影响了信用分的生成。最终利用训练得到的有监督机器学习模型,即可针对该领域数据生成数据集。根据标注数据,即可利用机器学习的各种鲁棒的算法解决问题。
如图2所示,本发明实施例提供的一种结合专家经验模型与有监督机器学习算法的信用信息处理方法包括以下步骤:
S101:通过专家模型根据重要的样本特征来对整个样本X做出评判,得到初步的信用分Y。
S102:通过S101得到的信用分Y将样本X进行排序,并抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集。
S103:构建有监督机器学习模型,进行数据集的训练。通过训练得到稳定模型,即可对样本重新预测新的信用分,得到准确的信用分标签Y’。
S104:验证机器学习模型以及对应的样本特征是否准确影响信用分的生成。
下面结合具体实施例对本发明作进一步描述。
实施例
针对实际项目中,很多缺乏标注数据的信用评分问题,本发明提出结合专家模型与有监督机器学习算法的信用评分方法,利用专家经验模型生成准确合理的信用分,这样得到一个对有监督机器学习模型所需的数据集,很好利用机器学习算法来解决信用评分问题。
第一步,专家模型根据几个重要的样本特征来对整个样本做出评判,得到初步的信用分,如给定输入样本Xi∈{x1,x2,...,xn}其中i=1,2,...m,m为样本个数,n为单个样本的特征个数(n在实际场景中通常比较大,可能为几十甚至几千),假设重要特征指标为x1,x3,x6,x8,x11,专家模型根据这五个重要特征指标进行定性判断,给出这五个指标的影响权重值,最后根据Xi样本对应的具体数据得到初步的信用分,即预测标签Yi,为了减少专家判断的误差,我们减少了指标的考虑,没有充分利用已有的多维度大数据,因此我们整个样本X得到的信用分Y是初步的不够精准的结果。
第二步,由第一步专家模型得到的样本数据及样本标签(X,Y),其中信用分Y是根据对应五个重要的样本特征得到的,我们根据得到的信用分Y将样本X排序,按比例划分为三个等级高,中,低,高分段占N%,中分段占M%,低分段占K%,其中N+M+K=1,N,M,K的值依据实际情况给出,我们抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集,其实就是好的样本和坏的样本的集合。因为这样的样本数据更能体现样本特征对信用分的影响。我们有了机器学习所需的数据集,就可以构建一个有监督机器学习模型来训练数据集,机器学习模型考虑的样本特征是包含五个重要特征指标以及剩下的所有特征指标,机器学习模型将所有的多维度特征数据作为输入来训练,探究了除了五个重要指标以外,剩下所有指标对信用分的影响,训练过程中机器学习模型分类效果会向样本量大的类别倾斜,因此在前期的专家模型中针对五个重要指标特征的评判是非常重要的,因为有些重要指标特征数量虽然少,但是将其识别出来却是至关重要的。最后训练得到一个既考虑所有特征,又不依赖样本数据分布的稳定模型,即可对样本重新预测新的信用分,得到比较准确的信用分标签Y’。
第三步,验证机器学习模型,有监督机器学习算法得到的信用分Y’,通过对比专家模型得到的信用分Y,验证对应的样本特征是否准确影响了信用分的生成。最终我们训练得到的有监督机器学习模型,就可以针对该领域数据生成数据集。有了标注数据,就可以利用机器学习的各种鲁棒的算法解决问题。
本发明提出的结合专家模型与有监督机器学习算法的信用评分方法,根据专家经验模型得到初步的信用分,可以作为有监督机器学习算法的数据集,这样训练出来的机器学习模型就不会依赖于样本数据的分布,解决了利用机器学习模型没有标注数据的问题,能够实现信用评分模型的精准预测。
下面结合具体实施例如某烟草局卷烟零售户的信用评分对本发明作进一步描述。
1样本评判模块具体步骤:
1.1数据采集:通过已有业务系统进行数据动态采集归集和抽取,主要包含用户基本数据、营销数据和信用数据;
1.2信用指标构建:指标体系构建依据信用自身内涵,借鉴信用要素分析法,通过分析与借鉴“FICO评分”和“芝麻信用”体系指标选取原则的基础上,利用类比的方法汲取两种体系指标选择的优点,进而结合行业专家经验,分析信用评分对象特征,探究其信用内涵与范畴,最终选取出评分对象的信用评价指标,如:基础指标A(零售对象合法A1等)、营销指标B(明码标价率B21、入网销售时长B31等)、专卖指标C(守法经营时长C11、行政处罚次数C21、责令停业户C32等)。
1.3数据特征标准化:不同评价指标往往具有不同的量纲,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,为了消除指标之间的量纲和取值范围差异的影响,需要进行标准差处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析,数据规范化的方法包括:最小最大规范化、零均值规范化、小数定标规范化等。
1.4样本评判:烟草行业专家根据多年行业经验挑选出A1、B21、B31、C11、C32五个指标,通过综合多名烟草行业专家的成对比较矩阵,并采用层次分析法进行实验验证,得到五个指标的权重(A1:0.0365,B21:0.0631,B31:0.2459,C11:0.3428,C32:0.3118),最后根据X样本对应的具体数据得到初步的信用分,即预测标签Y=0.0365(x1)+0.0631(x3)+0.2459(x6)+0.3428(x8)+0.3118(x11)。
2样本排序模块:通过样本评判模块得到的信用分Y将样本X进行排序,并检查信用分(0-100)是否超出阈值,当信用分超出阈值时,超出的部分会截掉。经过实验分析,我们按比例抽取高分段10%和低分段10%的数据样本和信用分作为有监督机器学习算法的数据集。
3模型构建模块:通过将上述模块2得到的数据集,构建基于梯度提升决策树的信用评分模型,该模型考虑了除了五个重要指标以外剩下的22个指标。基于梯度提升决策树的信用评分模型将所有的多维度特征数据作为输入来训练,探究了除了五个重要指标以外,剩下所有指标对信用分的影响,训练过程中机器学习模型分类效果会向样本量大的类别倾斜,因此在前期的专家模型中针对五个重要指标特征的评判是非常重要的,因为有些重要指标(如责令停业户C32)特征数量虽然少,但是将其识别出来却是至关重要的。最后训练得到一个既考虑所有特征,又不依赖样本数据分布的稳定模型,即可对样本重新预测新的信用分,得到比较准确的信用分标签Y’。
4模型验证模块:通过比较模块1中的信用分及样本数据和模块3得到的最终评分对模型进行迭代优化,最终更加准确的得出信用分。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种结合专家经验模型与有监督机器学习算法的信用信息处理方法,其特征在于,所述结合专家经验模型与有监督机器学习算法的信用信息处理方法针对卷烟零售户的信用评分,选取出评分对象的信用评价指标,包含:基础指标A、营销指标B、专卖指标C;其中:基础指标A包括零售对象合法A1,营销指标B包括明码标价率B21、入网销售时长B31,专卖指标C包括守法经营时长C11、行政处罚次数C21、责令停业户C32;具体包括以下步骤:
步骤一,通过专家模型根据重要的样本特征来对整个样本X做出评判,得到初步的信用分Y;
步骤二,通过步骤一得到的信用分Y将样本X进行排序,并抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集;
步骤三,构建有监督机器学习模型,进行数据集的训练;通过训练得到稳定模型,即可对样本重新预测新的信用分,得到准确的信用分标签Y’;
步骤四,验证机器学习模型以及对应的样本特征是否准确影响信用分的生成;
步骤一的样本评判方法为:
给定输入样本Xi∈{x1,x2,...,xn}其中i=1,2,...m,m为样本个数,n为单个样本的特征个数,假设重要特征指标为x1,x3,x6,x8,x11,专家模型根据这五个重要特征指标进行定性判断,给出这五个指标的影响权重值;最后根据Xi样本对应的具体数据得到初步的信用分,即预测标签Yi;
步骤二的样本排序方法为:
根据得到的信用分Y将样本X排序,按比例划分为三个等级高,中,低,高分段占N%,中分段占M%,低分段占K%,其中N+M+K=100,N,M,K的值依据实际情况给出;抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集,即好的样本和坏的样本的集合;
步骤三中,有监督机器学习模型的样本特征是包含五个重要特征指标以及剩下的所有特征指标,将所有的多维度特征数据作为输入训练,除重要指标以外,剩下所有指标对信用分的影响,训练过程中机器学习模型分类效果会向样本量大的类别倾斜;最后训练得到既结合所有特征,又不依赖样本数据分布的稳定模型对样本重新预测新的信用分,得到信用分标签Y’;
步骤四中,模型验证方法为:
验证机器学习模型,有监督机器学习算法得到的信用分Y’,通过对比专家模型得到的信用分Y,验证对应的样本特征是否准确影响了信用分的生成;最终利用训练得到的有监督机器学习模型。
2.一种基于权利要求1所述结合专家经验模型与有监督机器学习算法的信用信息处理方法的信用信息系统,其特征在于,所述信用信息系统包括:样本评判模块、样本排序模块、模型构建模块和模型验证模块;
样本评判模块,用于通过专家模型根据重要的样本特征来对整个样本做出评判,得到初步的信用分;
样本排序模块,用于通过样本评判模块得到的信用分Y将样本X进行排序,并抽取高分段和低分段的数据样本和信用分作为有监督机器学习算法的数据集;
模型构建模块,用于构建有监督机器学习模型,进行数据集的训练;通过训练得到稳定模型,即可对样本重新预测新的信用分,得到准确的信用分标签Y’;
模型验证模块,用于验证机器学习模型,以及对应的样本特征是否准确影响信用分的生成。
3.一种实现权利要求1所述结合专家经验模型与有监督机器学习算法的信用信息处理方法的信息数据处理终端。
4.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的结合专家经验模型与有监督机器学习算法的信用信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911221952.5A CN111079941B (zh) | 2019-12-03 | 2019-12-03 | 信用信息处理方法、系统、终端和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911221952.5A CN111079941B (zh) | 2019-12-03 | 2019-12-03 | 信用信息处理方法、系统、终端和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079941A CN111079941A (zh) | 2020-04-28 |
CN111079941B true CN111079941B (zh) | 2024-02-20 |
Family
ID=70312614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911221952.5A Active CN111079941B (zh) | 2019-12-03 | 2019-12-03 | 信用信息处理方法、系统、终端和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079941B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112890816A (zh) * | 2020-12-11 | 2021-06-04 | 万达信息股份有限公司 | 一种个人用户的健康指数评分方法和装置 |
TWI827910B (zh) * | 2021-02-18 | 2024-01-01 | 合作金庫商業銀行股份有限公司 | 信用評價方法與系統 |
CN112801558B (zh) * | 2021-04-07 | 2021-07-30 | 北京瑞莱智慧科技有限公司 | 一种工艺参数调节动作决策模型的优化方法以及装置 |
CN113469342A (zh) * | 2021-07-08 | 2021-10-01 | 北京科技大学 | 一种基于深度学习微震监测数据的冲击地压预警方法 |
CN113850350B (zh) * | 2021-11-30 | 2022-04-22 | 中哲国际工程设计有限公司 | 城市建筑用地智能规划系统及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105931116A (zh) * | 2016-04-20 | 2016-09-07 | 帮帮智信(北京)教育投资有限公司 | 基于深度学习机制的自动化信用评分系统及方法 |
CN106897918A (zh) * | 2017-02-24 | 2017-06-27 | 上海易贷网金融信息服务有限公司 | 一种混合式机器学习信用评分模型构建方法 |
CN107424070A (zh) * | 2017-03-29 | 2017-12-01 | 广州汇融易互联网金融信息服务有限公司 | 一种基于机器学习的贷款用户信用评级方法及系统 |
CN107644375A (zh) * | 2016-07-22 | 2018-01-30 | 花生米浙江数据信息服务股份有限公司 | 一种专家模型与机器学习模型融合的小商户信用评估方法 |
CN108596495A (zh) * | 2018-04-26 | 2018-09-28 | 浙江工业大学 | 一种零售信贷业务评分系统及方法 |
CN109271374A (zh) * | 2018-10-19 | 2019-01-25 | 国网江苏省电力有限公司信息通信分公司 | 一种基于机器学习的数据库健康度打分方法和打分系统 |
CN109948668A (zh) * | 2019-03-01 | 2019-06-28 | 成都新希望金融信息有限公司 | 一种多模型融合方法 |
CN110060047A (zh) * | 2019-03-28 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 基于交易的信用风险判别方法及其装置 |
CN110264221A (zh) * | 2019-05-15 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 一种针对服务商行业的全链路安全业务联合解决方案 |
CN110334737A (zh) * | 2019-06-04 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的客户风险指标筛选的方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025596B (zh) * | 2016-02-01 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 一种风险评估方法和系统 |
US11315030B2 (en) * | 2018-03-06 | 2022-04-26 | Tazi AI Systems, Inc. | Continuously learning, stable and robust online machine learning system |
-
2019
- 2019-12-03 CN CN201911221952.5A patent/CN111079941B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105931116A (zh) * | 2016-04-20 | 2016-09-07 | 帮帮智信(北京)教育投资有限公司 | 基于深度学习机制的自动化信用评分系统及方法 |
CN107644375A (zh) * | 2016-07-22 | 2018-01-30 | 花生米浙江数据信息服务股份有限公司 | 一种专家模型与机器学习模型融合的小商户信用评估方法 |
CN106897918A (zh) * | 2017-02-24 | 2017-06-27 | 上海易贷网金融信息服务有限公司 | 一种混合式机器学习信用评分模型构建方法 |
CN107424070A (zh) * | 2017-03-29 | 2017-12-01 | 广州汇融易互联网金融信息服务有限公司 | 一种基于机器学习的贷款用户信用评级方法及系统 |
CN108596495A (zh) * | 2018-04-26 | 2018-09-28 | 浙江工业大学 | 一种零售信贷业务评分系统及方法 |
CN109271374A (zh) * | 2018-10-19 | 2019-01-25 | 国网江苏省电力有限公司信息通信分公司 | 一种基于机器学习的数据库健康度打分方法和打分系统 |
CN109948668A (zh) * | 2019-03-01 | 2019-06-28 | 成都新希望金融信息有限公司 | 一种多模型融合方法 |
CN110060047A (zh) * | 2019-03-28 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 基于交易的信用风险判别方法及其装置 |
CN110264221A (zh) * | 2019-05-15 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 一种针对服务商行业的全链路安全业务联合解决方案 |
CN110334737A (zh) * | 2019-06-04 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的客户风险指标筛选的方法和系统 |
Non-Patent Citations (4)
Title |
---|
Performance Evaluation and Sensitivity Analysis of Expert-Based, Statistical, Machine Learning, and Hybrid Models for Producing Landslide Susceptibility Maps;Biswajeet Pradhan, et al.;《Springer》;20170506;193–232 * |
一种基于改进AHP的电信企业信用评分模型;李金柱;唐霞;余晨;彭依校;;通信技术;20171110(第11期);165-169 * |
向俐双, 程铭, 何儒汉, 等..卷烟零售户信用评分指标选取研究.《征信》.2019,全文. * |
杨钧元.基于移动电信数据的个人信用评估研究.《中国优秀硕士学位论文全文数据库-信息科技辑》.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111079941A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079941B (zh) | 信用信息处理方法、系统、终端和存储介质 | |
CN110706039A (zh) | 电动汽车残值率评估系统、方法、设备及介质 | |
CN117151870B (zh) | 一种基于客群画像行为分析方法及系统 | |
CN111583012B (zh) | 融合文本信息的信用债发债主体违约风险评估方法 | |
CN113159881B (zh) | 一种数据聚类及b2b平台客户偏好获取方法、系统 | |
CN113177643A (zh) | 一种基于大数据的自动建模系统 | |
CN111612519B (zh) | 一种识别金融产品潜在客户的方法、装置及存储介质 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN113313538A (zh) | 用户消费能力预测方法、装置、电子设备和存储介质 | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN116883153A (zh) | 一种基于人行征信的汽车金融预授信评分卡开发方法及终端 | |
CN114612239A (zh) | 基于算法、大数据、人工智能的股票舆情监测和风控系统 | |
CN113935819A (zh) | 核算异常特征提取方法 | |
CN112308251A (zh) | 一种基于机器学习的工单分派方法和系统 | |
CN112884301A (zh) | 企业风险分析的方法、设备及计算机存储介质 | |
CN112308419A (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
CN112308319B (zh) | 一种民航会员旅客流失的预测方法及装置 | |
CN112926816B (zh) | 供应商评价方法、装置、计算机设备和存储介质 | |
CN116932487B (zh) | 一种基于数据段落划分的量化式数据分析方法及系统 | |
CN115953166B (zh) | 基于大数据智能匹配的客户信息管理方法及系统 | |
CN116775888B (zh) | 一种用于档案形成单位开放审核的方法及系统 | |
CN116933187B (zh) | 一种财务报销单据数字化处理方法及系统 | |
CN113313497B (zh) | 一种账户数据的风险分析方法及装置 | |
CN113065885B (zh) | 用于智能营销的方法及系统 | |
CN116645221A (zh) | 风险评估方法及装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |