CN113240130B - 数据分类方法及装置、计算机可读存储介质和电子设备 - Google Patents

数据分类方法及装置、计算机可读存储介质和电子设备 Download PDF

Info

Publication number
CN113240130B
CN113240130B CN202110686162.5A CN202110686162A CN113240130B CN 113240130 B CN113240130 B CN 113240130B CN 202110686162 A CN202110686162 A CN 202110686162A CN 113240130 B CN113240130 B CN 113240130B
Authority
CN
China
Prior art keywords
data
historical user
wide
model
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110686162.5A
Other languages
English (en)
Other versions
CN113240130A (zh
Inventor
郭豪
蔡准
孙悦
郭晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Trusfort Technology Co ltd
Original Assignee
Beijing Trusfort Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Trusfort Technology Co ltd filed Critical Beijing Trusfort Technology Co ltd
Publication of CN113240130A publication Critical patent/CN113240130A/zh
Application granted granted Critical
Publication of CN113240130B publication Critical patent/CN113240130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Technology Law (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

数据分类方法及装置、计算机可读存储介质和电子设备。本申请公开一种数据分类方法及装置,方法包括:获取多个历史用户关联数据,及每个历史用户关联数据对应的标签信息;对每个历史用户关联数据进行向量化,得到每个历史用户关联数据对应的第一向量;将每个第一向量及对应的标签信息输入到Xgboost模型进行转化训练,得到每个历史用户关联数据对应的第一学习信息;将每个第一向量、对应标签信息及对应的第一学习信息输入到Wide&Deep模型进行转化训练,得到每个历史用户关联数据对应的指导概率值;将每个第一向量及对应的指导概率值输入到逻辑回归模型,结合半监督学习方法进行学习训练,得到评分卡模型;获得待分类数据,根据评分卡模型计算待分类数据对应的评分结果,根据评分结果生成待分类数据对应的分类标签。

Description

数据分类方法及装置、计算机可读存储介质和电子设备
技术领域
本申请涉及大数据分类技术领域,尤其涉及一种数据分类方法及装置、计算机可读存储介质和电子设备。
背景技术
评分卡模型属于一种应用统计模型,在大数据领域有着广泛的应用,且评分卡模型被经常用作对数据进行打标分类。例如:利用评分卡模型对输入的用户关联数据(如用户行为数据、用户录入信息等)进行打标分类。评分卡模型用在互联网领域可用作对用户行为预测、网站点击率预估等等,例如:在基于互联网的内容推送场景下,可用作内容网站的内容推送,根据用户在内容网站的历史点击内容序列,预测用户未来可能会选择订购的内容;在电商场景下,可用作电商网站的流量预估,根据用户在电商网站的历史点击商品序列,预测用户未来可能会购买哪些商品。
相关技术中所使用的评分卡模型是基于逻辑回归机器学习算法转换来的,使用有监督的算法从用户的历史用户关联数据训练而来,由于逻辑回归模型属于线性模型,模型的表征能力有限。因此,相关技术中的评分卡模型在用作对数据进行打标分类时,往往存在分类结果准确率较低的问题。
发明内容
有鉴于此,本发明实施例提供了数据分类方法及装置、计算机可读存储介质和电子设备,可有效提升数据打标分类结果的准确性。
为了实现上述目的,在第一方面,本发明提供了一种数据分类方法,所述方法包括:
获取多个历史用户关联数据,及每个历史用户关联数据对应的标签信息;
对每个所述历史用户关联数据进行向量化处理,得到每个历史用户关联数据对应的第一向量;
将每个所述第一向量及对应的标签信息输入到Xgboost模型进行转化训练,得到每个历史用户关联数据对应的第一学习信息;
将每个第一向量、对应标签信息及对应的第一学习信息输入到Wide&Deep模型中进行转化训练,得到每个历史用户关联数据对应的指导概率值;
将每个第一向量及对应的指导概率值输入到逻辑回归模型中,并结合半监督的学习方法进行学习训练,得到评分卡模型;
获得待分类数据,并根据所述评分卡模型计算所述待分类数据对应的评分结果,根据所述评分结果生成所述待分类数据对应的分类标签。
在一实施方式中,所述将每个第一向量及对应的标签信息输入到Xgboost模型进行转化训练,得到每个历史用户关联数据对应的第一学习信息,包括:
将(x1,y1)…(xn,yn)输入到Xgboost模型中进行转化训练,得到
Figure BDA0003124752510000021
其中,xn为第n个历史用户关联数据对应的第一向量;yn为第n个历史用户关联数据对应的标签信息;zn为第n个历史用户关联数据对应的第一学习信息,n为正整数。
在一实施方式中,所述将每个第一向量、对应标签信息及对应的第一学习信息输入到Wide&Deep模型中进行转化训练,得到每个历史用户关联数据对应的指导概率值,包括:
将(x1,y1,z1)…(xn,yn,zn)输入到Wide&Deep模型中,具体的转换公式如下:
(pi0,pi1)=Wide&Deep(xi)=sigmoid(Fdeep(xi)+Fwide(xi)+zi);
Fwide(xi)=wwide*xi+bwide
Fdeep(xi)=MLPdeep(xi);
其中,(pi0,pi1)为第i个历史用户关联数据对应的指导概率值;MLPdeep代表多层神经网络参数;wwide和bwide为Wide模型的向量参数,初始值为随机数,并根据第一损失函数LWide&Deep(xi)更新wwide和bwide的值;
Figure BDA0003124752510000031
在一实施方式中,所述将每个第一向量、对应的指导概率值输入到逻辑回归模型中,并结合半监督的学习方法进行学习训练,得到评分卡模型,包括:
通过以下公式训练得到评分卡模型LR(xi):
LR(xi)=sigmoid(wLR*xi+bLR);
其中,wLR和bLR为评分卡模型的向量参数,初始值为随机数,并根据第二损失函数Ltotal(xi)更新wLR和bLR的值;
Ltotal(xi)=L1(xi)+α*L2(xi);
Figure BDA0003124752510000032
Figure BDA0003124752510000041
其中,α为融合系数。
在一实施方式中,所述多个历史用户关联数据为:多个用户的网站历史浏览记录数据;所述每个历史用户关联数据对应的标签信息为:每个用户浏览概率超出预定阈值的内容标签。
在一实施方式中,所述多个历史用户关联数据具体为:多个用户申请信贷的申请数据;所述每个历史用户关联数据对应的标签信息具体为:每个用户申请信贷的申请数据对应的用于表示是否逾期的标签信息。
为实现上述目的,在第二方面,本发明提供了一种数据分类装置,所述装置包括:
获取单元,用于获取多个历史用户关联数据,及每个历史用户关联数据对应的标签信息;
转化单元,用于对每个所述历史用户关联数据进行向量化处理,得到每个历史用户关联数据对应的第一向量;
第一学习单元,用于将每个所述第一向量及对应的标签信息输入到Xgboost模型进行转化训练,得到每个历史用户关联数据对应的第一学习信息;
第二学习单元,用于将每个第一向量、对应标签信息及对应的第一学习信息输入到Wide&Deep模型中进行转化训练,得到每个历史用户关联数据对应的指导概率值;
第三学习单元,用于将每个第一向量及对应的指导概率值输入到逻辑回归模型中,并结合半监督的学习方法进行学习训练,得到评分卡模型;
打标分类单元,用于获得待分类数据,并根据所述评分卡模型计算所述待分类数据对应的评分结果,根据所述评分结果生成所述待分类数据对应的分类标签。
在一实施方式中,所述第一学习单元具体用于:
将(x1,y1)…(xn,yn)输入到Xgboost模型中进行转化训练,得到
Figure BDA0003124752510000051
其中,xn为第n个历史用户关联数据对应的第一向量;yn为第n个历史用户关联数据对应的标签信息;zn为第n个历史用户关联数据对应的第一学习信息,n为正整数。
在一实施方式中,所述第二学习单元具体用于:
将(x1,y1,z1)…(xn,yn,zn)输入到Wide&Deep模型中,具体的转换公式如下:
A(pi0,pi1)=Wide&Deep(xi)=sigmoid(Fdeep(xi)+Fwide(xi)+zi);
Fwide(xi)=wwide*xi+bwide
Fdeep(xi)=MLPdeep(xi);
其中,(pi0,pi1)为第n个历史用户关联数据对应的指导概率值;MLPdeep代表多层神经网络参数;wwide和bwide为Wide模型的向量参数,初始值为随机数,并根据第一损失函数LWide&Deep(xi)更新wwide和bwide的值;
Figure BDA0003124752510000052
在一实施方式中,所述第三学习单元具体用于:
通过以下公式训练得到评分卡模型LR(xi):
LR(xi)=sigmoid(wLR*xi+bLR);
其中,wLR和bLR为评分卡模型的向量参数,初始值为随机数,并根据第二损失函数Ltotal(xi)更新wLR和bLR的值;
Ltotal(xi)=L1(xi)+α*L2(xi);
Figure BDA0003124752510000061
Figure BDA0003124752510000062
其中,α为融合系数。
在一实施方式中,所述多个历史用户关联数据为:多个用户的网站历史浏览记录数据;所述每个历史用户关联数据对应的标签信息为:每个用户浏览概率超出预定阈值的内容标签。
在一实施方式中,所述多个历史用户关联数据为:多个用户申请信贷的申请数据;所述每个历史用户关联数据对应的标签信息为:每个用户申请信贷的申请数据对应的用于表示是否逾期的标签信息。
为了实现上述目的,在第三方面,本发明提供了一种计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序用于执行上述第一方面中所述的数据分类方法。
为了实现上述目的,在第四方面,本发明提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述第一方面中所述的数据分类方法。
通过利用本方案中提供的数据分类方法及装置,使用Xgboost和Wide&Deep模型对历史用户关联数据与标签信息进行训练得到指导概率值,然后再使用逻辑回归模型,并结合半监督的学习方法对历史用户关联数据和指导概率值进行训练学习,得到评分卡模型,该评分卡模型在用作对用户数据进行打标分类时,相较于现有方式的数据打标分类结果的准确性更高。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本申请一示例性实施例提供的数据分类方法的流程示意图;
图2是本申请一示例性实施例提供的数据分类装置的结构图;
图3是本申请一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
图1是本申请一示例性实施例提供的数据分类方法的流程示意图。该方法应用于数据分类装置,该方法包括:
步骤101,获取多个历史用户关联数据,及每个历史用户关联数据对应的标签信息。
其中,历史用户关联数据可以是用户行为数据,也可以是用户的录入信息等等。用户行为数据是指对用户行为进行记录的历史数据,用户的录入信息是指用户通过操作录入的信息。
如:在网站点击率预估的应用场景下,历史用户关联数据可以是多个用户的网站历史浏览记录数据;每个历史用户关联数据对应的标签信息,可以是每个用户浏览概率超出预定阈值的内容标签;所述每个用户浏览概率超出预定阈值的内容标签,是指每个用户浏览的内容中其浏览概率超出了预定阈值的内容的标签;
在用户行为预测的应用场景下,历史用户关联数据可以是多个用户的历史行为记录数据;每个历史用户关联数据对应的标签信息,可以是每个用户行为概率超出预定阈值的行为内容标签;所述每个用户行为概率超出预定阈值的行为内容标签,是指每个用户行为中发生的概率超出了预定阈值的行为内容的标签;
在电商网站的流量预测场景下,历史用户关联数据可以是多个用户的历史点击商品序列;每个历史用户关联数据对应的标签信息,可以是每个用户对商品购买概率超出预定阈值的标签信息;每个用户对商品购买概率超出预定阈值的标签信息,是指每个用户购买概率超出预定阈值的商品的标签信息;
在用户信用评价的应用场景下,历史用户关联数据可以是多个用户申请信贷时录入的申请数据,每个历史用户关联数据对应的标签信息,可以是每个用户申请信贷的申请数据对应的用于表示是否逾期的标签信息,例如,0表示正常,1表示逾期。在一个例子中,可从银行业务端数据库中抽取用户申请信贷的申请数据,以及对应每个申请是否逾期的标签信息。
步骤102,对每个历史用户关联数据进行向量化处理,得到每个历史用户关联数据对应的第一向量。
具体的,在网站点击率预估的应用场景下,对获取到的多个用户的网站历史浏览记录数据进行特征工程工作,将用户的网站历史浏览记录数据进行向量化处理;
在用户行为预测的应用场景下,对获取到的多个用户的历史行为记录数据进行特征工程工作,将用户的历史行为记录数据进行向量化处理;
在电商网站的流量预测场景下,对获取到的多个用户的历史点击商品序列进行特征工程工作,将用户的历史点击商品序列进行向量化处理;
在用户信用评价的应用场景下,对获取到的用户信贷申请数据进行特征工程工作,将用户信贷申请数据进行向量化处理。
步骤103,将每个第一向量及对应的标签信息输入到Xgboost模型进行转化训练,得到每个历史用户关联数据对应的第一学习信息。
该步骤103具体包括:
将(x1,y1)…(xn,yn)输入到Xgboost模型中进行转化训练,得到
Figure BDA0003124752510000091
其中,xn为第n个历史用户关联数据对应的第一向量;yn为第n个历史用户关联数据对应的标签信息;zn为第n个历史用户关联数据对应的第一学习信息,n为正整数。
具体的,在网站点击率预估的应用场景下,xn可以为第n个网站历史浏览记录数据对应的第一向量;yn可以为第n个网站历史浏览记录数据对应的标签信息;zn可以为第n个网站历史浏览记录数据对应的第一学习信息;
在用户行为预测的应用场景下,xn可以为第n个历史行为记录数据对应的第一向量;yn可以为第n个历史行为记录数据对应的标签信息;zn可以为第n个历史行为记录数据对应的第一学习信息;
在电商网站的流量预测场景下,xn可以为第n个用户的历史点击商品序列对应的第一向量;yn可以为第n个用户的历史点击商品序列对应的标签信息;zn可以为第n个用户的历史点击商品序列对应的第一学习信息;
在用户信用评价的应用场景下,xn可以为第n个用户申请信贷时录入的申请数据对应的第一向量;yn可以为第n个用户申请信贷时录入的申请数据对应的标签信息;zn可以为第n个用户申请信贷时录入的申请数据对应的第一学习信息。
步骤104,将每个第一向量、对应标签信息及对应的第一学习信息输入到Wide&Deep模型中进行转化训练,得到每个历史用户关联数据对应的指导概率值。
该步骤104具体包括:
将(x1,y1,z1)…(xn,yn,zn)输入到Wide&Deep模型中,具体的转换公式如下:
(pi0,pi1)=Wide&Deep(xi)=sigmoid(Fdeep(xi)+Fwide(xi)+zi);
Fwide(xi)=wwide*xi+bwide
Fdeep(xi)=MLPdeep(xi);
其中,(pi0,pi1)为第i个历史用户关联数据对应的指导概率值;MLPdeep代表多层神经网络参数;wwide和bwide为Wide模型的向量参数,初始值为随机数,并根据第一损失函数LWide&Deep(xi)更新wwide和bwide的值;
Figure BDA0003124752510000111
在本步骤中,通过对经典的Wide&Deep模型进行改造,在经典的Wide&Deep模型增加zn,使Wide&Deep模型能够充分参考、结合Xgboost提取的目标预测信息之外,同时对历史用户关联数据进行学习和预测,进一步提升最终指导概率(pi0,pi1)准确率与质量。
步骤105,将每个第一向量及对应的指导概率值输入到逻辑回归模型中,并结合半监督的学习方法进行学习训练,得到评分卡模型。
该步骤105中,具体包括:
通过以下公式训练得到评分卡模型LR(xi):
LR(xi)=sigmoid(wLR*xi+bLR);
其中,wLR和bLR为评分卡模型的向量参数,初始值为随机数,并根据第二损失函数Ltotal(xi)更新wLR和bLR的值;
Ltotal(xi)=L1(xi)+α*L2(xi);
Figure BDA0003124752510000112
Figure BDA0003124752510000113
其中,α为融合系数。L1(xi)代表指导概率值的预测损失函数,L2(xi)代表预测的概率分布熵。
本步骤中,一方面利用了指导概率值,另一方面引入了熵正则机制,有效提高了评分卡模型的收敛速度,能够提升评分卡模型在用作数据分类打标时分类结果的准确性。
步骤106,获得待分类数据,并根据评分卡模型计算待分类数据对应的评分结果,根据评分结果生成待分类数据对应的分类标签。
在获得评分卡模型后,可以用评分卡模型对待分类数据进行打标分类。具体的,根据评分卡模型计算待分类数据对应的评分结果,然后按照评分结果即可对待分类数据打上分类标签,从而能够基于分类标签(例如与预设的阈值进行比较决定打标结果),完成对待分类数据的分类操作。此分类结果用在不同的应用场景,能够实现不同的分类应用需求,如:该分类结果可用作网站点击率预估、用户行为预测、电商网站的流量预测、用户信用评价等等。
通过利用本实施例提供的数据分类方法,使用Xgboost和Wide&Deep模型对历史用户关联数据与标签信息进行训练得到指导概率值,然后再使用逻辑回归模型,并结合半监督的学习方法对历史用户关联数据和指导概率值进行训练学习,得到评分卡模型,该评分卡模型在用作对用户数据进行打标分类时,相较于通过现有方式的数据打标分类结果的准确性更高。
图2是本申请一示例性实施例提供的数据分类装置的结构图。如图2所示,本申请一实施例的评分卡训练装置包括:
获取单元201,用于获取多个历史用户关联数据,及每个历史用户关联数据对应的标签信息;
转化单元202,用于对每个历史用户关联数据进行向量化,得到每个历史用户关联数据对应的第一向量;
第一学习单元203,用于将每个第一向量及对应的标签信息输入到Xgboost模型进行转化训练,得到每个历史用户关联数据对应的第一学习信息;
第二学习单元204,用于将每个第一向量、对应标签信息及对应的第一学习信息输入到Wide&Deep模型中进行转化训练,得到每个历史用户关联数据对应的指导概率值;
第三学习单元205,用于将每个第一向量及对应的指导概率值输入到逻辑回归模型中,并结合半监督的学习方法进行学习训练,得到评分卡模型。
打标分类单元206,用于获得待分类数据,并根据评分卡模型计算待分类数据对应的评分结果,根据评分结果生成待分类数据对应的分类标签。
在获得评分卡模型后,可以用评分卡模型对待分类数据进行打标分类。具体的,根据评分卡模型计算待分类数据对应的评分结果,然后按照评分结果即可对待分类数据打上分类标签,从而能够基于分类标签(例如与预设的阈值进行比较决定打标结果),完成对待分类数据的分类操作。此分类结果用在不同的应用场景,能够实现不同的分类应用需求,如:该分类结果可用作网站点击率预估、用户行为预测、电商网站的流量预测、用户信用评价等等。
优选的,第一学习单元203具体用于:
将(x1,y1)…(xn,yn)输入到Xgboost模型中进行转化训练,得到
Figure BDA0003124752510000131
其中,xn为第n个历史用户关联数据对应的第一向量;yn为第n个历史用户关联数据对应的标签信息;zn为第n个历史用户关联数据对应的第一学习信息,n为正整数。
优选的,第二学习单元204具体用于:
将(x1,y1,z1)…(xn,yn,zn)输入到Wide&Deep模型中,具体的转换公式如下:
(pi0,pi1)wide&Deep(xi)=sigmoid(Fdeep(xi)+Fwide(xi)+zi);
Fwide(xi)=wwide*xi+bwide
Fdeep(xi)=MLPdeep(xi);
其中,(pi0,pi1)为第i个历史用户关联数据对应的指导概率值;MLPdeep代表多层神经网络参数;wwide和bwide为Wide模型的向量参数,初始值为随机数,并根据第一损失函数LWide&Deep(xi)更新wwide和bwide的值;
Figure BDA0003124752510000141
优选的,第三学习单元205具体用于:
通过以下公式训练得到评分卡模型LR(xi):
LR(xi)=sigmoid(wLR*xi+bLR);
其中,wLR和bLR为评分卡模型的向量参数,初始值为随机数,并根据第二损失函数Ltotal(xi)更新wLR和bLR的值;
Ltotal(xi)=L1(xi)+α*L2(xi);
Figure BDA0003124752510000142
Figure BDA0003124752510000143
其中,α为融合系数。
优选的,历史用户关联数据可以是用户行为数据,也可以是用户的录入信息等等。用户行为数据是指对用户行为进行记录的历史数据,用户的录入信息是指用户通过操作录入的信息。
如:在网站点击率预估的应用场景下,历史用户关联数据可以是多个用户的网站历史浏览记录数据;每个历史用户关联数据对应的标签信息,可以是每个用户浏览概率超出预定阈值的内容标签;所述每个用户浏览概率超出预定阈值的内容标签,是指每个用户浏览的内容中其浏览概率超出了预定阈值的内容的标签;
在用户行为预测的应用场景下,历史用户关联数据可以是多个用户的历史行为记录数据;每个历史用户关联数据对应的标签信息,可以是每个用户行为概率超出预定阈值的行为内容标签;所述每个用户行为概率超出预定阈值的行为内容标签,是指每个用户行为中发生的概率超出了预定阈值的行为内容的标签;
在电商网站的流量预测场景下,历史用户关联数据可以是多个用户的历史点击商品序列;每个历史用户关联数据对应的标签信息,可以是每个用户对商品购买概率超出预定阈值的标签信息;每个用户对商品购买概率超出预定阈值的标签信息,是指每个用户购买概率超出预定阈值的商品的标签信息;
在用户信用评价的应用场景下,历史用户关联数据可以是多个用户申请信贷时录入的申请数据,每个历史用户关联数据对应的标签信息,可以是每个用户申请信贷的申请数据对应的用于表示是否逾期的标签信息,例如,0表示正常,1表示逾期。
通过利用本实施例提供的数据分类装置,使用Xgboost和Wide&Deep模型对历史用户关联数据与标签信息进行训练得到指导概率值,然后再使用逻辑回归模型,并结合半监督的学习方法对历史用户关联数据和指导概率值进行训练学习,得到评分卡模型,该评分卡模型在用作对用户数据进行打标分类时,相较于通过现有方式的数据打标分类结果的准确性更高。本发明实施例的方法并非仅限于以上所列举的网站点击率预估的应用场景、用户行为预测的应用场景、电商网站的流量预测场景、用户信用评价的应用场景,还可应用于其他任何基于对用户数据进行打标分类的具体应用场景,本发明实施例在此不做赘述。
下面,参考图3来描述根据本申请实施例的电子设备11。如图3所示,电子设备11包括一个或多个处理器111和存储器112。
处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的其他组件以执行期望的功能。
存储器112可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述程序指令,以实现上文所述的本申请的各个实施例的数据分类方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备11还可以包括:输入装置113和输出装置114,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入设备113可以包括例如键盘、鼠标等等。
该输出装置114可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图3中仅示出了该电子设备11中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的数据分类方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的数据分类方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (8)

1.一种数据分类方法,其特征在于,所述方法包括:
获取多个历史用户关联数据,及每个历史用户关联数据对应的标签信息;所述历史用户关联数据包括:用户行为数据、用户的录入信息;所述每个历史用户关联数据对应的标签信息为:所述用户行为数据、用户的录入信息对应的标签信息;
对每个所述历史用户关联数据进行向量化处理,得到每个历史用户关联数据对应的第一向量;
将每个所述第一向量及对应的标签信息输入到Xgboost模型进行转化训练,得到每个历史用户关联数据对应的第一学习信息;
将每个第一向量、对应标签信息及对应的第一学习信息输入到Wide&Deep模型中进行转化训练,得到每个历史用户关联数据对应的指导概率值;
将每个第一向量及对应的指导概率值输入到逻辑回归模型中,并结合半监督的学习方法进行学习训练,得到评分卡模型;
获得待分类数据,并根据所述评分卡模型计算所述待分类数据对应的评分结果,根据所述评分结果生成所述待分类数据对应的分类标签;
其中,所述将每个第一向量及对应的标签信息输入到Xgboost模型进行转化训练,得到每个历史用户关联数据对应的第一学习信息,包括:
将(x1,y1)...(xn,yn)输入到Xgboost模型中进行转化训练,得到
Figure FDA0003534715910000011
其中,xn为第n个历史用户关联数据对应的第一向量;yn为第n个历史用户关联数据对应的标签信息;zn为第n个历史用户关联数据对应的第一学习信息,n为正整数;
其中,所述将每个第一向量、对应标签信息及对应的第一学习信息输入到Wide&Deep模型中进行转化训练,得到每个历史用户关联数据对应的指导概率值,包括:
将(x1,y1,z1)...(xn,yn,zn)输入到Wide&Deep模型中,具体的转换公式如下:
(pi0,pi1)=Wide&Deep(xi)=sigmoid(Fdeep(xi)+Fwide(xi)+zi);
Fwide(xi)=wwide*xi+bwide
Fdeep(xi)=MLPdeep(xi);
其中,(pi0,pi1)为第i个历史用户关联数据对应的指导概率值;MLPdeep代表多层神经网络参数;wwide和bwide为Wide模型的向量参数,初始值为随机数,并根据第一损失函数LWide&Deep(xi)更新wwide和bwide的值;
Figure FDA0003534715910000021
其中,所述将每个第一向量、对应的指导概率值输入到逻辑回归模型中,并结合半监督的学习方法进行学习训练,得到评分卡模型,包括:
通过以下公式训练得到评分卡模型LR(xi):
LR(xi)=sigmoid(wLR*xi+bLR);
其中,wLR和bLR为评分卡模型的向量参数,初始值为随机数,并根据第二损失函数Ltotal(xi)更新wLR和bLR的值;
Ltotal(xi)=L1(xi)+α*L2(xi);
Figure FDA0003534715910000022
Figure FDA0003534715910000023
其中,α为融合系数。
2.根据权利要求1所述的方法,其特征在于,所述多个历史用户关联数据为:多个用户的网站历史浏览记录数据;所述每个历史用户关联数据对应的标签信息为:每个用户浏览概率超出预定阈值的内容标签。
3.根据权利要求1所述的方法,其特征在于,所述多个历史用户关联数据为:多个用户申请信贷的申请数据;所述每个历史用户关联数据对应的标签信息为:每个用户申请信贷的申请数据对应的用于表示是否逾期的标签信息。
4.一种数据分类装置,其特征在于,所述装置包括:
获取单元,用于获取多个历史用户关联数据,及每个历史用户关联数据对应的标签信息;所述历史用户关联数据包括:用户行为数据、用户的录入信息;所述每个历史用户关联数据对应的标签信息为:所述用户行为数据、用户的录入信息对应的标签信息;
转化单元,用于对每个所述历史用户关联数据进行向量化处理,得到每个历史用户关联数据对应的第一向量;
第一学习单元,用于将所述每个第一向量及对应的标签信息输入到Xgboost模型进行转化训练,得到每个历史用户关联数据对应的第一学习信息;
第二学习单元,用于将每个第一向量、对应标签信息及对应的第一学习信息输入到Wide&Deep模型中进行转化训练,得到每个历史用户关联数据对应的指导概率值;
第三学习单元,用于将每个第一向量及对应的指导概率值输入到逻辑回归模型中,并结合半监督的学习方法进行学习训练,得到评分卡模型;
打标分类单元,用于获得待分类数据,并根据所述评分卡模型计算所述待分类数据对应的评分结果,根据所述评分结果生成所述待分类数据对应的分类标签;
其中,所述第一学习单元具体用于:
将(x1,y1)...(xn,yn)输入到Xgboost模型中进行转化训练,得到
Figure FDA0003534715910000031
其中,xn为第n个历史用户关联数据对应的第一向量;yn为第n个历史用户关联数据对应的标签信息;zn为第n个历史用户关联数据对应的第一学习信息,n为正整数;
其中,所述第二学习单元具体用于:
将(x1,y1,z1)...(xn,yn,zn)输入到Wide&Deep模型中,具体的转换公式如下:
(pi0,pi1)=Wide&Deep(xi)=sigmoid(Fdeep(xi)+Fwide(xi)+zi);
Fwide(xi)=wwide*xi+bwide
Fdeep(xi)=MLPdeep(xi);
其中,(pi0,pi1)为第i个历史用户关联数据对应的指导概率值;MLPdeep代表多层神经网络参数;wwide和bwide为Wide模型的向量参数,初始值为随机数,并根据第一损失函数LWide&Deep(xi)更新wwide和bwide的值;
Figure FDA0003534715910000043
其中,所述第三学习单元具体用于:
通过以下公式训练得到评分卡模型LR(xi):
LR(xi)=sigmoid(wLR*xi+bLR);
其中,wLR和bLR为评分卡模型的向量参数,初始值为随机数,并根据第二损失函数Ltotal(xi)更新wLR和bLR的值;
Ltotal(xi)=L1(xi)+α*L2(xi);
Figure FDA0003534715910000041
Figure FDA0003534715910000042
其中,α为融合系数。
5.根据权利要求4所述的装置,其特征在于,所述多个历史用户关联数据为:多个用户的网站历史浏览记录数据;所述每个历史用户关联数据对应的标签信息为:每个用户浏览概率超出预定阈值的内容标签。
6.根据权利要求4所述的装置,其特征在于,所述多个历史用户关联数据为:多个用户申请信贷的申请数据;所述每个历史用户关联数据对应的标签信息为:每个用户申请信贷的申请数据对应的用于表示是否逾期的标签信息。
7.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-3任一项所述的数据分类方法。
8.一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-3任一项所述的数据分类方法。
CN202110686162.5A 2020-06-22 2021-06-21 数据分类方法及装置、计算机可读存储介质和电子设备 Active CN113240130B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010572344.5A CN111738456A (zh) 2020-06-22 2020-06-22 评分卡模型训练方法及装置
CN2020105723445 2020-06-22

Publications (2)

Publication Number Publication Date
CN113240130A CN113240130A (zh) 2021-08-10
CN113240130B true CN113240130B (zh) 2022-05-27

Family

ID=72650203

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010572344.5A Pending CN111738456A (zh) 2020-06-22 2020-06-22 评分卡模型训练方法及装置
CN202110686162.5A Active CN113240130B (zh) 2020-06-22 2021-06-21 数据分类方法及装置、计算机可读存储介质和电子设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010572344.5A Pending CN111738456A (zh) 2020-06-22 2020-06-22 评分卡模型训练方法及装置

Country Status (1)

Country Link
CN (2) CN111738456A (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862593B (zh) * 2021-01-28 2024-05-03 深圳前海微众银行股份有限公司 信用评分卡模型训练方法、装置、系统及计算机存储介质
CN113626606B (zh) * 2021-08-31 2024-02-13 中国平安财产保险股份有限公司 信息分类方法、装置、电子设备及可读存储介质
CN114139031B (zh) * 2021-10-28 2024-03-19 马上消费金融股份有限公司 数据分类方法、装置、电子设备及存储介质
CN114358920A (zh) * 2022-01-07 2022-04-15 北京百度网讯科技有限公司 迭代信用评分卡模型的方法、装置、电子设备及存储介质
CN114997419A (zh) * 2022-07-18 2022-09-02 北京芯盾时代科技有限公司 评分卡模型的更新方法、装置、电子设备及存储介质
CN116011351B (zh) * 2023-03-28 2023-06-13 中国石油大学(华东) 一种基于聚类算法和WideDeep网络的油井合理沉没度确定方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992076A (zh) * 2019-11-01 2020-04-10 北京三快在线科技有限公司 商家质量评价方法、装置、电子设备及可读存储介质
CN111046941A (zh) * 2019-12-09 2020-04-21 腾讯科技(深圳)有限公司 一种目标评论检测方法、装置、电子设备和存储介质
CN111080417A (zh) * 2019-12-27 2020-04-28 携程计算机技术(上海)有限公司 用于提高预订顺畅率的处理方法、模型训练方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190325293A1 (en) * 2018-04-19 2019-10-24 National University Of Singapore Tree enhanced embedding model predictive analysis methods and systems
CN108596757A (zh) * 2018-04-23 2018-09-28 大连火眼征信管理有限公司 一种智能组合的个人信用评估方法及系统
CN109598513B (zh) * 2018-11-22 2023-06-20 创新先进技术有限公司 一种风险识别方法和装置
CN111144738A (zh) * 2019-12-24 2020-05-12 太平金融科技服务(上海)有限公司 信息处理方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992076A (zh) * 2019-11-01 2020-04-10 北京三快在线科技有限公司 商家质量评价方法、装置、电子设备及可读存储介质
CN111046941A (zh) * 2019-12-09 2020-04-21 腾讯科技(深圳)有限公司 一种目标评论检测方法、装置、电子设备和存储介质
CN111080417A (zh) * 2019-12-27 2020-04-28 携程计算机技术(上海)有限公司 用于提高预订顺畅率的处理方法、模型训练方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《TEM:Tree-enhanced Embedding Model for Explainable Recommendation》;Wang X et al;《ACM》;20180410;全文 *
《基于多模型集成的广告点击率预测研究》;王超贺;《中国优秀硕士学位论文全文数据库信息科技辑》;20200415(第2020年第04期);全文 *

Also Published As

Publication number Publication date
CN111738456A (zh) 2020-10-02
CN113240130A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN113240130B (zh) 数据分类方法及装置、计算机可读存储介质和电子设备
CN109101537B (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
CN107341716B (zh) 一种恶意订单识别的方法、装置及电子设备
CN108959482B (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN110598845B (zh) 数据处理方法、装置、计算机设备和存储介质
US11232141B2 (en) Method and device for processing an electronic document
WO2019174423A1 (zh) 实体情感分析方法及相关装置
CN111444334A (zh) 数据处理方法、文本识别方法、装置及计算机设备
US20130268457A1 (en) System and Method for Extracting Aspect-Based Ratings from Product and Service Reviews
Malik et al. EPR-ML: E-Commerce Product Recommendation Using NLP and Machine Learning Algorithm
CN112560504B (zh) 抽取表单文档中信息的方法、电子设备和计算机可读介质
CN114022176A (zh) 一种电商平台上的商品销量预测的方法及电子设备
CN111538841B (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN112287672A (zh) 文本意图识别方法及装置、电子设备、存储介质
US11934785B2 (en) Multi-task learning of query intent and named entities
CN111695024A (zh) 对象评估值的预测方法及系统、推荐方法及系统
CN114936290A (zh) 数据处理方法及装置、存储介质及电子设备
CN110956278A (zh) 重新训练机器学习模型的方法和系统
CN111190967B (zh) 用户多维度数据处理方法、装置及电子设备
CN116739653A (zh) 销售数据采集分析系统及其方法
Latha et al. Product recommendation using enhanced convolutional neural network for e-commerce platform
CN113763031A (zh) 一种商品推荐方法、装置、电子设备及存储介质
CN115794898B (zh) 一种金融资讯推荐方法、装置、电子设备及存储介质
US11481389B2 (en) Generating an executable code based on a document
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant