CN113239199A - 一种基于多方数据集的信用分类方法 - Google Patents

一种基于多方数据集的信用分类方法 Download PDF

Info

Publication number
CN113239199A
CN113239199A CN202110541128.9A CN202110541128A CN113239199A CN 113239199 A CN113239199 A CN 113239199A CN 202110541128 A CN202110541128 A CN 202110541128A CN 113239199 A CN113239199 A CN 113239199A
Authority
CN
China
Prior art keywords
data set
classification
samples
credit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110541128.9A
Other languages
English (en)
Other versions
CN113239199B (zh
Inventor
钱鹰
刘振龙
刘歆
韦庆杰
安春生
姜美兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110541128.9A priority Critical patent/CN113239199B/zh
Publication of CN113239199A publication Critical patent/CN113239199A/zh
Application granted granted Critical
Publication of CN113239199B publication Critical patent/CN113239199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多方数据集的信用分类方法,属于数据挖掘领域。本发明方法包括:输入信用评估相关的多方数据集;对多个数据集数据进行数据预处理,解决原始数据集中存在的多种问题,并得到标准输入数据集;利用机器学习中的聚类算法与数据生成算法,将多个数据集进行对齐,得到对齐后的新数据集;将文本类型特征与数值类型特征分别输入到两个模型中单独训练;最后结合两个模型中的训练结果,使用逻辑回归方法计算最终两个模型权重,并输出最终的评估结果。本发明通过引入数据对齐方法与信用评估算法解决多个信用数据集中样本数量无法对齐的问题,提高了可被用于训练的样本数量,减少了由于训练样本不足带来的机器学习模型分类无法收敛的问题。

Description

一种基于多方数据集的信用分类方法
技术领域
本发明属于数据挖掘领域,涉及一种基于多方数据集的信用分类方法。
背景技术
由于数据的来源多种多样,例如贷款信息,消费数据,以及自行提供的个人基础信息等等。同一用户或企业在多方提供的数据集中往往会存在信息不全,例如具有个人基础信息,但没有消费数据等,导致多个数据集无法对齐,训练样本不足等问题。因此,设计一种能够将多方数据集进行对齐方法,增加信用分类的训练样本的是十分必要的。
对于信用分类方法,现有的主流信用分类方法都是针对单一数据集中信用分类。其中,随机森林,XGBoost和LightGBM是最典型的方法。随机森林是经典的Bagging类集成方法,随机森林思想是将若干个弱分类器的分类结果进行投票选择,从而组成一个强分类器。XGBoost则是属于Boosting类集成算法的一种,XGBoost的主要思想是:首先,根据信息增益,不断的通过决策树的特征分裂来生成一颗新的树。每颗新构建的决策树的目标是拟合之前训练完成后真实值与预测值之间的残差;其次,当训练完成后,输入的样本在计算后,会在每一颗决策树上对应一个叶子节点,叶子节点代表当前决策树的分类或预测结果;最后,将所有叶子节点上的值进行相加,得到最终的结果。与XGBoost相比,LightGBM通过采用直方图算法,并且将原有的决策树生成方式由按层分裂改为按叶子分裂。在不损失准确率的情况下,在内存消耗和训练时间上相比XGBoost都有极大的降低。
综上所述,目前信用分类还存在以下的问题:
(1)当前信用分类方法大多针对单一数据集,对于多个不同来源的数据集不能有效进行处理;
(2)以决策树为代表的集成模型,凭借着迭代地选取统计信息增益最大的特征来构建决策树,通过选取信息增益大的数值特征进行组合来提高训练精度,在应对数值类型特征具有优势但不能有效地利用稀疏特征进行树的分裂。
因此,本发明提出了一种基于多方数据集的信用分类方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于多方数据集的信用分类方法。
为达到上述目的,本发明提供如下技术方案:
一种基于多方数据集的信用分类方法,该方法包括以下步骤:
S110:输入信用评估相关的多方数据,构建信用评估数据集;
S120:对数据集进行预处理,包括:缺失值处理和归一化,解决原始数据集中存在的多种问题,并得到标准输入数据集;
S130:为有效利用多个数据集中的样本信息,使用机器学习中的聚类算法与数据生成算法,将多个数据集进行对齐,得到对齐生成后的新数据集;
S140:为更好的应对存在大量文本特征导致的稀疏问题,将对齐后的数据集按照特征种类进行拆分,划将文本特征与数值类型特征类型分别输入到两个模型中单独训练;
S150:使用逻辑回归方法,讲上诉两个模型的输出结果作为输入,计算两个模型的最佳权重值,并输出最终评估结果。
可选的,所述对数据集进行预处理具体为:
首先针对缺失数据,分别计算缺失比例,当缺失比例大于特定比例时,将特征直接从数据集中删除;在剩下的缺失数据中,如果特征分布比较均匀,则计算该特征的均值进行缺失填补;如果特征分布不均匀,则采用众数或者中位数进行填补;若缺失特征是离散型特征,并且其离散个数较少,则将该变量转换为哑变量;对于缺失比例小的特征,使用决策树或线性回归模型进行预测,进行填补。
其次针对大数特征,使用Min-max方法进行标准化,计算公式如下:
Figure BDA0003071843580000021
其中,x′为标准化后的值;x为原始特征值;Xmin为该特征在所有样本中的最小值;Xmax为特征在所有样本中的最大值。
可选的,所述S130具体包括以下步骤:
S210:输入待对齐的数据集;
S220:将能够通过索引等方式对齐的样本进行对齐,得到初步对齐后数据集;
S230:利用机器学习中的聚类算法,即K-Means聚类算法,将对齐后的数据集C与样本个数最大的数据集A’分别进行聚类,划分为多个不同的簇A′1,A′2,A′3...A′n与C1,C2,C3...Cn,其中n为聚类的簇的个数,并且数据集A’与数据集C聚类的簇的个数相同,n具体的值根据数据集中样本大小来设定;
S240:统计样本个数最大的数据集聚类后的不同簇A′1,A′2,A′3...A′n中,在对齐后数据集不同簇C1,C2,C3...Cn中的占比,根据占比数量,将不同数据集聚类出来的簇进行对应,即使得A′i1与Cj形成对应关系;
S250:最后根据不同簇之间的对应关系,使用SMOTE方法进行样本生成,将生成结果加入到最终对齐数据集中作为数据集对齐的输出。
可选的,所述聚类算法具体为:
(1)从N个样本随机选取K个样本作为中心点;
(2)对剩余的每个样本测量其到每个中心点的距离,并归到最近的中心点的类;
(3)重新计算已经得到的各个类的中心点;
(4)迭代步骤(2)和(3)直至新的中心点与原中心点相等或小于指定阈值,算法结束。
可选的,所述根据占比数量,将不同数据集聚类出来的簇进行对应具体为:
Figure BDA0003071843580000031
其中,Pi代表样本数量最大的数据集聚类后的第i个簇的对应结果;Ni代表样本数量最大的数据集第i个簇的样本个数;
Figure BDA0003071843580000032
代表样本数量最大的数据集第i个簇中,占对齐后数据集第k个簇的样本个数。
可选的,所述根据数据生成算法具体为:
Figure BDA0003071843580000033
其中,xnew代表新生成的特征,x代表某一样本,
Figure BDA0003071843580000034
代表样本x的一个近邻。
可选的,所述将文本特征与数值类型特征类型分别输入到两个模型中单独训练中,两个模型分别为文本分类模型和数值分类模型;
所述文本分类模型为因子分解机神经网FNN;
所述数值分类模型为GBDT2NN,GBDT2NN使用树蒸馏技术,将多颗决策树结构转换为神经网络结构,通过使用神经网络模型来近似树状结构的函数,实现结构知识的精馏。
可选的,所述S140~S150的训练方法包括以下步骤:
S310:获取信用分类数据集,将数据集划分为训练集和测试集;
S320:将数据集进行拆分,单独提取出文本类型特征和数值类型特征;
S330:将文本类型特征输入到FNN网络中进行训练,采用FM预训练得到的隐含层及其权重作为神经网络的第一层的初始值,之后再不断堆叠全连接层,最终输出预测的结果,计算文本特征的分类损失,提取文本特征的分类信息,计算FNN分类损失函数;
S340:见数值类型特征输入到GBDT2NN网络中进行训练,提取数值分类特征,计算GBDT2NN分类损失函数;
S350:将FNN得到的文本分类结果与GBDT2NN得到的数值类型分类结果输入到LR模型中,计算LR模型的损失函数;
S360:最小化多个损失函数之和来调整FNN、GBDT2NN以及LR参数,重复执行S330~S350,直到分类损失基本不再变化。
可选的,所述FNN的交叉熵损失函数为:
Figure BDA0003071843580000041
其中,y是该样本实际类别,
Figure BDA0003071843580000042
是网络预测输入样本的为第i类的概率;
GBDT2NN的学习过程为:
Figure BDA0003071843580000043
其中,H(Lt,i;wt)是以wt为参数的一层全连接网络;
Figure BDA0003071843580000044
是树学习过程中的损失函数;w和w0是用于将嵌入映射到叶子节点值的参数;pt,i为样本在树种的叶子节点的预测值;
LR分类损失为:
Figure BDA0003071843580000045
其中,m是在训练时的样本总数;hθ(xi)是模型预测输入样本为信用良好的概率;yi是该第i个样本的实际类别。
一种处理装置,包括处理器、存储装置,处理器,适用于执行各条程序;
存储装置,适用于存储多条程序;
所述程序适用于由处理器加载并执行以实现权利要求1~9中任一项所述的基于多方数据集的信用分类方法。
本发明的有益效果在于:
(1)本发明解决了多个信用数据集无法对齐问题。本发明的数据对齐方法,有效的利用聚类方法将样本划分为多个簇,并在相对应簇中使用数据生成方法来填补缺失的特征,为后续分类任务提供了更多的训练样本。
(2)本发明解决了集成决策树类相关的分类模型对稀疏数据学习不充分等问题,提高了分类准确性。本发明将文本数据与数值数据分开训练,通过将文本类型特征单独放入FNN中进行训练,数值类型特征单独放入到GBDT2NN模型中训练。大量研究表明,神经网络能够通过嵌入结构来学习稀疏数据的有效性。该方法提高了在稀疏数据下的信用分类准确度。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1是本发明的流程示意图;
图2是本发明的简略结构示意图;
图3是本发明一种基于聚类的数据集对齐方法结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例1
请参阅图1~图2,本发明实施例提供一种基于多方数据集的信用分类方法,包括如下步骤:
步骤S110,输入信用评估相关的多方数据,构建信用评估数据集;
示例性地,将两个样本内容、数量不一致的数据集进行输入,发明方法对输入数据集大小不做限制,可以按照具体情况设置,但数据集之间必须相关。
步骤S120,对多个数据集数据进行数据预处理,包括:缺失值处理,归一化等等,解决原始数据集中存在的多种问题,并得到标准输入数据集;
对输入的数据集进行缺失值处理,根据设定缺失比例超过80%的特征进行删除,同时对于数值类型特征使用均值进行填补,对于数值类型特征可以使用众数进行填补。填补方式可以是均值、中位数、众数等等。对于部分大数特征,使用Min-max方法对其特征值缩放到0到1之间。
步骤S130,为了有效利用多个数据集中的样本信息,使用机器学习中的聚类算法与数据生成算法,将多个数据集进行对齐,得到对齐生成后的新数据集;
将经过数据预处理后的数据集放入到数据集对齐算法中,该算法使用的聚类算法包括但不限制于K-Means算法,数据生成算法使用SMOTE。该算法详细步骤见实施例2中对应的步骤,在此不再赘述。在该方法结束后,输出一个对齐生成后的数据集。
步骤S140,为了更好的应对存在大量文本特征导致的稀疏问题,讲对齐后的数据集按照特征种类进行拆分,划将文本特征与数值类型特征类型分别输入到两个模型中单独训练;
在信用分类场景下,存在着大量的文本类特征与数值特征,文本特征例如职业,教育水平、所在城市等等;数值特征例如年龄、存款余额等等。将数据对齐后的数据集按照特征类别进行拆分,将数值类型特征放入GBDT2NN模型中进行训练,将文本类型特征放入FNN模型中进行训练,两个模型最终都会输出一个0到1的概率值,之所以使用FNN是因为FNN引入隐向量,缓解了数据稀疏带来的参数难以训练的问题。
步骤S150,使用逻辑回归方法,讲上诉两个模型的输出结果作为输入,计算两个模型的最佳权重值,并输出最终评估结果。
将上述S140步骤中得到的两个预测结果,放入到LR模型中进行训练,得到FNN与GBDT2NN模型对最终结果的权重占比。计算损失函数如下:
Figure BDA0003071843580000061
其中,m是在训练时的样本总数;hθ(xi)是模型预测输入样本为信用良好的概率;yi是该第i个样本的实际类别;
将待测试的数据放入模型中,得到信用评估分类结果。
实施例2
请参阅图3,本发明实施例提供了一种基于聚类的数据集对齐方法,包括如下步骤:
步骤S210,输入待对齐的数据集;
示例性地,将两个样本数量不一致的数据集进行输入,本申请对输入数据集大小不做限制,可以按照具体情况设置,但数据集必须相关。
步骤S220,将能够通过索引等方式对齐的样本进行对齐,得到初步对齐后数据集;
示例性地,设左边数据集A为样本数量较大的数据集,右边数据集B为样本数量较小的数据集,对A和B使用内连接的方式,得到以id相匹配的初步对齐数据集C;对A和B使用左连接的方式得到数据集A′。连接的特征可以是用户姓名、id等信息,以具体数据集为准。
步骤S230,利用机器学习中的聚类算法,将对齐后的数据集与样本个数最大的数据集分别进行聚类,划分为多个不同的簇;
将数据集A′与数据集C使用K-Means聚类方法分别进行聚类,划分为相同个数的簇。例如A′1,A′2,A′3...A′n与C1,C2,C3...Cn。其中n具体的值可以根据数据集中样本大小来设定。
步骤S240,统计样本个数最大的数据集聚类后的不同簇中,在对齐后数据集不同簇中的占比,根据占比数量,将不同数据集聚类出来的簇进行对应;
根据ID特征,分别计算A′1,A′2,A′3...A′n的各个簇中,在C1,C2,C3...Cn中的占比,根据占比的数量为标准,将A′i1与Cj形成对应关系。其占比公式为:
Figure BDA0003071843580000071
其中,Pi代表样本数量最大的数据集聚类后的第i个簇的对应结果;Ni代表样本数量最大的数据集第i个簇的样本个数;
Figure BDA0003071843580000072
代表样本数量最大的数据集第i个簇中,占对齐后数据集第k个簇的样本个数。
步骤S250,最据不同簇之间的对应关系,使用SMOTE方法进行样本生成,将生成结果加入到最终对齐数据集中作为数据集对齐的输出。
在对应关系生成后,对A′1,A′2,A′3...A′n的各个簇中,需要填补特征的变量,在对应的Cj范围内,使用SMOTE方法进行数据生成,计算公式如下:
Figure BDA0003071843580000073
其中,xnew为新生成的样本特征,x在Cj范围内某个样本B数据集的特征,
Figure BDA0003071843580000074
样本x的一个近邻。
将生成后的B数据集的特征随机填补到A′i中,重复S250步骤,直到A′数据集全部填充完毕,输出A′数据集作为对齐后的数据。
实施例3
本发明实施例提供一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的一种基于多方数据集的信用分类方法。
实施例4
本发明实施例提供一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的一种基于多方数据集的信用分类方法。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于多方数据集的信用分类方法,其特征在于:该方法包括以下步骤:
S110:输入信用评估相关的多方数据,构建信用评估数据集;
S120:对数据集进行预处理,包括:缺失值处理和归一化,解决原始数据集中存在的多种问题,并得到标准输入数据集;
S130:为有效利用多个数据集中的样本信息,使用机器学习中的聚类算法与数据生成算法,将多个数据集进行对齐,得到对齐生成后的新数据集;
S140:为更好的应对存在大量文本特征导致的稀疏问题,将对齐后的数据集按照特征种类进行拆分,划将文本特征与数值类型特征类型分别输入到两个模型中单独训练;
S150:使用逻辑回归方法,将上诉两个模型的输出结果作为输入,计算两个模型的最佳权重值,并输出最终评估结果。
2.根据权利要求1所述的一种基于多方数据集的信用分类方法,其特征在于:所述对数据集进行预处理具体为:
首先针对缺失数据,分别计算缺失比例,当缺失比例大于特定比例时,将特征直接从数据集中删除;在剩下的缺失数据中,如果特征分布比较均匀,则计算该特征的均值进行缺失填补;如果特征分布不均匀,则采用众数或者中位数进行填补;若缺失特征是离散型特征,并且其离散个数较少,则将该变量转换为哑变量;对于缺失比例小的特征,使用决策树或线性回归模型进行预测,进行填补;
其次针对大数特征,使用Min-max方法进行标准化,计算公式如下:
Figure FDA0003071843570000011
其中,x′为标准化后的值;x为原始特征值;Xmin为该特征在所有样本中的最小值;Xmax为特征在所有样本中的最大值。
3.根据权利要求1所述的一种基于多方数据集的信用分类方法,其特征在于:所述S130具体包括以下步骤:
S210:输入待对齐的数据集;
S220:将能够通过索引等方式对齐的样本进行对齐,得到初步对齐后数据集;
S230:利用机器学习中的聚类算法,即K-Means聚类算法,将对齐后的数据集C与样本个数最大的数据集A’分别进行聚类,划分为多个不同的簇A′1,A′2,A′3...A′n与C1,C2,C3...Cn,其中n为聚类的簇的个数,并且数据集A’与数据集C聚类的簇的个数相同,n具体的值根据数据集中样本大小来设定;
S240:统计样本个数最大的数据集聚类后的不同簇A′1,A′2,A′3...A′n中,在对齐后数据集不同簇C1,C2,C3...Cn中的占比,根据占比数量,将不同数据集聚类出来的簇进行对应,即使得A′i1与Cj形成对应关系;
S250:最后根据不同簇之间的对应关系,使用SMOTE方法进行样本生成,将生成结果加入到最终对齐数据集中作为数据集对齐的输出。
4.根据权利要求1所述的一种基于多方数据集的信用分类方法,其特征在于:所述聚类算法具体为:
(1)从N个样本随机选取K个样本作为中心点;
(2)对剩余的每个样本测量其到每个中心点的距离,并归到最近的中心点的类;
(3)重新计算已经得到的各个类的中心点;
(4)迭代步骤(2)和(3)直至新的中心点与原中心点相等或小于指定阈值,算法结束。
5.根据权利要求1所述的一种基于多方数据集的信用分类方法,其特征在于:所述根据占比数量,将不同数据集聚类出来的簇进行对应具体为:
Figure FDA0003071843570000021
其中,Pi代表样本数量最大的数据集聚类后的第i个簇的对应结果;Ni代表样本数量最大的数据集第i个簇的样本个数;
Figure FDA0003071843570000022
代表样本数量最大的数据集第i个簇中,占对齐后数据集第k个簇的样本个数。
6.根据权利要求1所述的一种基于多方数据集的信用分类方法,其特征在于:所述根据数据生成算法具体为:
Figure FDA0003071843570000023
其中,xnew代表新生成的特征,x代表某一样本,
Figure FDA0003071843570000024
代表样本x的一个近邻。
7.根据权利要求1所述的一种基于多方数据集的信用分类方法,其特征在于:所述将文本特征与数值类型特征类型分别输入到两个模型中单独训练中,两个模型分别为文本分类模型和数值分类模型;
所述文本分类模型为因子分解机神经网FNN;
所述数值分类模型为GBDT2NN,GBDT2NN使用树蒸馏技术,将多颗决策树结构转换为神经网络结构,通过使用神经网络模型来近似树状结构的函数,实现结构知识的精馏。
8.根据权利要求7所述的一种基于多方数据集的信用分类方法,其特征在于:所述步骤S140~S150具体包括以下步骤:
S310:获取信用分类数据集,将数据集划分为训练集和测试集;
S320:将数据集进行拆分,单独提取出文本类型特征和数值类型特征;
S330:将文本类型特征输入到FNN网络中进行训练,采用FM预训练得到的隐含层及其权重作为神经网络的第一层的初始值,之后再不断堆叠全连接层,最终输出预测的结果,计算文本特征的分类损失,提取文本特征的分类信息,计算FNN分类损失函数;
S340:见数值类型特征输入到GBDT2NN网络中进行训练,提取数值分类特征,计算GBDT2NN分类损失函数;
S350:将FNN得到的文本分类结果与GBDT2NN得到的数值类型分类结果输入到LR模型中,计算LR模型的损失函数;
S360:最小化多个损失函数之和来调整FNN、GBDT2NN以及LR参数,重复执行S330~S350,直到分类损失基本不再变化。
9.根据权利要求8所述的一种基于多方数据集的信用分类方法,其特征在于:所述FNN的交叉熵损失函数为:
Figure FDA0003071843570000031
其中,y是该样本实际类别,
Figure FDA0003071843570000032
是网络预测输入样本的为第i类的概率;
GBDT2NN的学习过程为:
Figure FDA0003071843570000033
其中,H(Lt,i;wt)是以wt为参数的一层全连接网络;
Figure FDA0003071843570000034
是树学习过程中的损失函数;w和w0是用于将嵌入映射到叶子节点值的参数;pt,i为样本在树种的叶子节点的预测值;
LR分类损失为:
Figure FDA0003071843570000035
其中,m是在训练时的样本总数;hθ(xi)是模型预测输入样本为信用良好的概率;yi是该第i个样本的实际类别。
10.一种处理装置,包括处理器、存储装置,其特征在于:
处理器,适用于执行各条程序;
存储装置,适用于存储多条程序;
所述程序适用于由处理器加载并执行以实现权利要求1~9中任一项所述的基于多方数据集的信用分类方法。
CN202110541128.9A 2021-05-18 2021-05-18 一种基于多方数据集的信用分类方法 Active CN113239199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110541128.9A CN113239199B (zh) 2021-05-18 2021-05-18 一种基于多方数据集的信用分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110541128.9A CN113239199B (zh) 2021-05-18 2021-05-18 一种基于多方数据集的信用分类方法

Publications (2)

Publication Number Publication Date
CN113239199A true CN113239199A (zh) 2021-08-10
CN113239199B CN113239199B (zh) 2022-09-23

Family

ID=77135120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110541128.9A Active CN113239199B (zh) 2021-05-18 2021-05-18 一种基于多方数据集的信用分类方法

Country Status (1)

Country Link
CN (1) CN113239199B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115031363A (zh) * 2022-05-27 2022-09-09 约克广州空调冷冻设备有限公司 预测空调性能的方法和装置
CN115345259A (zh) * 2022-10-14 2022-11-15 北京睿企信息科技有限公司 一种命名实体识别模型训练的优化方法、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182279A (zh) * 2018-01-26 2018-06-19 有米科技股份有限公司 基于文本特征的对象分类方法、装置和计算机设备
CN108256029A (zh) * 2018-01-11 2018-07-06 北京神州泰岳软件股份有限公司 统计分类模型训练装置及训练方法
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型
CN110472817A (zh) * 2019-07-03 2019-11-19 西北大学 一种结合深度神经网络的XGBoost集成信用评价系统及其方法
CN110580268A (zh) * 2019-08-05 2019-12-17 西北大学 一种基于深度学习的信用评分集成分类系统和方法
CN112017025A (zh) * 2020-08-26 2020-12-01 天元大数据信用管理有限公司 一种基于深度学习与逻辑回归相融合的企业信用评估方法
CN112200538A (zh) * 2020-10-10 2021-01-08 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
CN112258537A (zh) * 2020-10-27 2021-01-22 重庆邮电大学 一种基于卷积神经网络的监督暗视觉图像边缘检测方法
US20210103794A1 (en) * 2019-10-04 2021-04-08 Palo Alto Research Center Incorporated Method and system for semi-supervised anomaly detection with feed-forward neural network for high-dimensional sensor data
CN112749332A (zh) * 2020-07-10 2021-05-04 腾讯科技(深圳)有限公司 数据处理方法、装置以及计算机可读介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256029A (zh) * 2018-01-11 2018-07-06 北京神州泰岳软件股份有限公司 统计分类模型训练装置及训练方法
CN108182279A (zh) * 2018-01-26 2018-06-19 有米科技股份有限公司 基于文本特征的对象分类方法、装置和计算机设备
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型
CN110472817A (zh) * 2019-07-03 2019-11-19 西北大学 一种结合深度神经网络的XGBoost集成信用评价系统及其方法
CN110580268A (zh) * 2019-08-05 2019-12-17 西北大学 一种基于深度学习的信用评分集成分类系统和方法
US20210103794A1 (en) * 2019-10-04 2021-04-08 Palo Alto Research Center Incorporated Method and system for semi-supervised anomaly detection with feed-forward neural network for high-dimensional sensor data
CN112749332A (zh) * 2020-07-10 2021-05-04 腾讯科技(深圳)有限公司 数据处理方法、装置以及计算机可读介质
CN112017025A (zh) * 2020-08-26 2020-12-01 天元大数据信用管理有限公司 一种基于深度学习与逻辑回归相融合的企业信用评估方法
CN112200538A (zh) * 2020-10-10 2021-01-08 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
CN112258537A (zh) * 2020-10-27 2021-01-22 重庆邮电大学 一种基于卷积神经网络的监督暗视觉图像边缘检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SANGEETA MITTAL等: "Performance Evaluation of Machine Learning Algorithms for Credit Card Fraud Detection", 《网页在线公开:HTTPS://IEEEXPLORE.IEEE.ORG/STAMP/STAMP.JSP?TP=&ARNUMBER=8776925》 *
林丽等: "基于逻辑回归函数的加权K-means聚类算法", 《数理科学与信息工程》 *
胡颖: "基于信息增益的文本特征选择方法", 《计算机与数字工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115031363A (zh) * 2022-05-27 2022-09-09 约克广州空调冷冻设备有限公司 预测空调性能的方法和装置
CN115031363B (zh) * 2022-05-27 2023-11-28 约克广州空调冷冻设备有限公司 预测空调性能的方法和装置
CN115345259A (zh) * 2022-10-14 2022-11-15 北京睿企信息科技有限公司 一种命名实体识别模型训练的优化方法、设备及存储介质

Also Published As

Publication number Publication date
CN113239199B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN105975573B (zh) 一种基于knn的文本分类方法
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN108898479B (zh) 信用评价模型的构建方法及装置
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN113239199B (zh) 一种基于多方数据集的信用分类方法
CN105589806A (zh) 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
CN112557034B (zh) 一种基于pca_cnns的轴承故障诊断方法
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN112784031B (zh) 一种基于小样本学习的客服对话文本的分类方法和系统
CN110991474A (zh) 一种机器学习建模平台
CN106599856A (zh) 一种联合人脸检测、定位和识别的方法
CN111814842A (zh) 基于多通路图卷积神经网络的对象分类方法及装置
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN114048468A (zh) 入侵检测的方法、入侵检测模型训练的方法、装置及介质
CN114998602A (zh) 基于低置信度样本对比损失的域适应学习方法及系统
CN111652264B (zh) 基于最大均值差异的负迁移样本筛选方法
CN113674862A (zh) 一种基于机器学习的急性肾功能损伤发病预测方法
CN114036298B (zh) 一种基于图卷积神经网络与词向量的节点分类方法
CN115050022A (zh) 一种基于多层级自适应注意力的农作物病虫害识别方法
CN112926645B (zh) 一种基于边缘计算的窃电检测方法
CN113901705A (zh) 一种火灾风险评估方法、装置、终端设备及存储介质
CN112819499A (zh) 信息发送方法、装置、服务器及存储介质
CN112070112B (zh) 涉网犯罪分类方法、装置、计算机设备及存储介质
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN111126444A (zh) 分类器集成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant