CN114897054A - 用户信息分类模型的训练、用户信息分类方法及装置 - Google Patents
用户信息分类模型的训练、用户信息分类方法及装置 Download PDFInfo
- Publication number
- CN114897054A CN114897054A CN202210385791.9A CN202210385791A CN114897054A CN 114897054 A CN114897054 A CN 114897054A CN 202210385791 A CN202210385791 A CN 202210385791A CN 114897054 A CN114897054 A CN 114897054A
- Authority
- CN
- China
- Prior art keywords
- user information
- mark
- classification model
- correct
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种用户信息分类模型的训练方法、用户信息分类方法及装置,该用户信息分类模型的训练方法获取用户信息对应的正确标记集以及错误标记集,将一个用户信息的正确标记集中的一个标记与错误标记集中的一个标记组成第一标记对,利用第一标记对之间的关系,训练用户信息分类模型,并引入校准标记,从而利用该用户信息分类模型可以在输入待分类用户信息时,区分待分类用户信息的正确标记与错误标记,得到待分类用户信息的正确标记集。另外,可以根据标记间的权重大小关系,训练用户信息分类模型,使用户信息分类模型输出一个根据标记对用户的重要程度排列的标记序列,从而提高了对用户信息分类的准确性。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种用户信息分类模型的训练方法、一种用户信息分类方法及装置。
背景技术
近年来,随着金融科技的兴起,“智慧银行”正逐渐在银行的各类业务、产品研发中发挥越来越重要的作用。其中,客户画像可基于客户的用户信息、行为数据赋予银行向客户提供智能决策的功能。因此,客户画像中对客户进行标记化的分类模型的性能对客户画像的质量起着至关重要的作用。
目前,可以采用决策树算法实现用户信息的多标记分类,但是该种方式在实现用户信息的多标记分类时不够准确。
发明内容
有鉴于此,本申请实施例提供一种用户信息分类模型的训练方法、一种用户信息分类方法及装置,以提高进行用户信息的多标记分类时的准确性。
为解决上述问题,本申请实施例提供的技术方案如下:
一种用户信息分类模型的训练方法,所述方法包括:
获取用户数据集,所述用户数据集包括多个用户信息以及每个所述用户信息对应的正确标记集;
确定每个所述用户信息对应的错误标记集,所述每个所述用户信息对应的错误标记集是将全部标记集去除该用户信息对应的正确标记集得到的;
获取目标用户信息对应的第一标记对,所述第一标记对由所述目标用户信息对应的正确标记集中的任意一个标记以及所述目标用户信息对应的错误标记集中的任意一个标记组成;所述目标用户信息为所述用户信息中的任一个;
计算各个所述用户信息对应的第一标记对的间隔;
以最大化所述间隔、最小化第一损失函数为目标,训练用户信息分类模型,并确定校准标记;所述用户信息分类模型用于在输入待分类用户信息时,对所述全部标记集中的标记进行排序,将排序在所述校准标记之前的标记确定为所述待分类用户信息对应的正确标记集;
获取所述目标用户信息对应的第二标记对,所述第二标记对由所述目标用户信息对应的正确标记集中任意两个标记组成;
以最小化第二损失函数为目标,重新训练所述用户信息分类模型,所述第二损失函数根据各个所述用户信息对应的第二标记对的权重概率以及相应的实际权重概率确定;所述用户信息分类模型还用于对所述待分类用户信息对应的正确标记集中的标记按照权重概率进行排序。
在一种可能的实现方式中,所述用户信息分类模型由Q个线性函数组成,Q为所述全部标记集中标记的数量,Q为正整数,所述线性函数与所述全部标记集中的标记一一对应;
所述训练用户信息分类模型,包括:
求解各个所述线性函数的线性参数的最优解。
在一种可能的实现方式中,所述计算各个所述用户信息对应的第一标记对的间隔,包括:
确定决策边界;
根据每一所述用户信息以及对应的正确标记集到所述决策边界的距离,计算各个所述用户信息对应的第一标记对的间隔。
一种用户信息分类方法,所述方法包括:
获取待分类用户信息;
将所述待分类用户信息输入所述用户信息分类模型,获得所述待分类用户信息对应的正确标记集;所述用户信息分类模型用于在输入所述待分类用户信息时,对全部标记集中的标记进行排序,将排序在校准标记之前的标记确定为所述待分类用户信息对应的正确标记集,对所述待分类用户信息对应的正确标记集中的标记按照权重概率进行排序;所述用户信息分类模型是根据上述的用户信息分类模型的训练方法训练得到的;所述校准标记是在训练所述用户信息分类模型的过程中得到的。
一种用户信息分类模型的训练装置,所述装置包括:
第一获取单元,用于获取用户数据集,所述用户数据集包括多个用户信息以及每个所述用户信息对应的正确标记集;
确定单元,用于确定每个所述用户信息对应的错误标记集,所述每个所述用户信息对应的错误标记集是将全部标记集去除该用户信息对应的正确标记集得到的;
第二获取单元,用于获取目标用户信息对应的第一标记对,所述第一标记对由所述目标用户信息对应的正确标记集中的任意一个标记以及所述目标用户信息对应的错误标记集中的任意一个标记组成;所述目标用户信息为所述用户信息中的任一个;
计算单元,用于计算各个所述用户信息对应的第一标记对的间隔;
第一训练单元,用于以最大化所述间隔、最小化第一损失函数为目标,训练用户信息分类模型,并确定校准标记;所述用户信息分类模型用于在输入待分类用户信息时,对所述全部标记集中的标记进行排序,将排序在所述校准标记之前的标记确定为所述待分类用户信息对应的正确标记集;
第三获取单元,用于获取所述目标用户信息对应的第二标记对,所述第二标记对由所述目标用户信息对应的正确标记集中任意两个标记组成;
第二训练单元,用于以最小化第二损失函数为目标,重新训练所述用户信息分类模型,所述第二损失函数根据各个所述用户信息对应的第二标记对的权重概率以及相应的实际权重概率确定;所述用户信息分类模型还用于对所述待分类用户信息对应的正确标记集中的标记按照权重概率进行排序。
在一种可能的实现方式中,所述用户信息分类模型由Q个线性函数组成,Q为所述全部标记集中标记的数量,Q为正整数,所述线性函数与所述全部标记集中的标记一一对应;
所述训练用户信息分类模型,包括:
求解各个所述线性函数的线性参数的最优解。
在一种可能的实现方式中,所述计算单元具体用于:
确定决策边界;
根据每一所述用户信息以及对应的正确标记集到所述决策边界的距离,计算各个所述用户信息对应的第一标记对的间隔。
一种用户信息分类装置,所述装置包括:
第四获取单元,用于获取待分类用户信息;
分类单元,用于将所述待分类用户信息输入所述用户信息分类模型,获得所述待分类用户信息对应的正确标记集;所述用户信息分类模型用于在输入所述待分类用户信息时,对全部标记集中的标记进行排序,将排序在校准标记之前的标记确定为所述待分类用户信息对应的正确标记集,对所述待分类用户信息对应的正确标记集中的标记按照权重概率进行排序;所述用户信息分类模型是根据上述的用户信息分类模型的训练方法训练得到的;所述校准标记是在训练所述用户信息分类模型的过程中得到的。
一种电子设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的用户信息分类模型的训练方法,或者,如上述的用户信息分类方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上述的用户信息分类模型的训练方法,或者,如上述的用户信息分类方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例获取用户信息对应的正确标记集以及错误标记集,将一个用户信息的正确标记集中的一个标记与错误标记集中的一个标记组成第一标记对,利用第一标记对之间的关系,训练用户信息分类模型,并引入校准标记,从而利用该用户信息分类模型可以在输入待分类用户信息时,区分待分类用户信息的正确标记与错误标记,得到待分类用户信息的正确标记集。另外,可以根据标记间的权重大小关系,训练用户信息分类模型,使用户信息分类模型输出一个根据标记对用户的重要程度排列的标记序列,从而提高了对用户信息分类的准确性。
附图说明
图1为本申请实施例提供的一种用户信息分类模型的训练方法的流程图;
图2为本申请实施例提供的一种用户信息分类模型的训练方法的示意图;
图3为本申请实施例提供的一种用户信息分类方法的流程图;
图4为本申请实施例提供的一种用户信息分类模型的训练装置的示意图;
图5为本申请实施例提供的一种用户信息分类装置的示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请实施例的背景技术进行说明。
银行对客户画像是对用户信息在特定业务场景下的系统描述,对用户的各方面信息进行建模。可以抽象出一个客户的各类信息的全貌,构建标记体系。客户画像在构建标记体系中的用户信息分类模型是一类给用户信息标注标记的算法,即多标记学习。多标记学习的目标是学习一组从特征空间到标记空间的实值函数映射,即输入数据集,数据集中的每个样本包括一个示例与示例对应的标记集,经过算法训练后输出一个分类模型。当在分类模型中输入未知标记的示例时,分类模型可输出一个预测的标记集。结合本申请实施例的应用场景,多标记学习则是数据集中的每个样本包括用户信息以及对应的正确标记集,训练生成用户信息分类模型。在将待分类用户信息输入用户信息分类模型时,则可以输出预测的待分类用户信息对应的正确标记集。
目前构建用户的标记体系使用了决策树算法的技术方案。在已知用户信息对应的各类标记的发生概率的情况下,通过构建决策树来求取净现值的期望值大于等于0的概率,以此树形分支结构来得到用户信息对应的标记集。但是,该种方式准确率偏低。
另外,发明人经研究发现,现有的构建用户标记化体系的算法未考虑相关标记对用户的权重问题,而标记间的权重大小关系是影响模型预测用户标记准确度的要素之一。用户信息做为一个示例对应一个标记集,其中每个标记对这个用户信息的“描述程度”各不相同,即每个标记对用户信息的重要程度不同,说明每个标记都应存在既定的权重值,当算法考虑标记的权重值时,才可输出一个准确度更高的预测结果。
基于此,本申请实施例提供了一种用户信息分类模型的训练方法、一种用户信息分类方法及装置、设备。利用用户信息对应的正确标记集以及错误标记集,训练用户信息分类模型,并引入校准标记,从而利用该用户信息分类模型可以在输入待分类用户信息时,区分待分类用户信息的正确标记与错误标记,提高了对用户信息分类的准确性。另一方面,在训练用户信息分类模型时考虑标记的权重概率,则用户信息分类模型可输出根据标记对客户的重要程度(即权重概率)排列的标记序列,因而可表现出更优秀的用户标记挖掘性能。
为了便于理解本申请实施例,下面结合附图对本申请实施例提供的一种用户信息分类模型的训练方法进行说明。
参见图1所示,该图为本申请实施例提供的一种用户信息分类模型的训练方法的流程图,如图1所示,该方法可以包括S101-S105:
S101:获取用户数据集,用户数据集包括多个用户信息以及每个用户信息对应的正确标记集。
用户数据集可以包括多个用户信息,用户信息包括姓名、性别、年龄等基础信息。同时,每个用户信息对应有正确标记集,正确标记集中的标记为该用户信息对应的标记,标记可以理解为用户信息对应的一个分类属性。在实际应用中标记体系,即用户信息可以对应有哪些标记,可以根据实际业务需求构造。
需要说明的是,在本申请实施例中,用户信息以及用户信息对应的正确标记集、错误标记集,不涉及用户的敏感信息,可以是在经过用户授权之后获取并使用的。在一个示例中,在获取用户信息以及用户信息对应的正确标记集之前,相应界面显示获取数据使用授权相关的提示信息,用户基于该提示信息确定是否同意授权。
S102:确定每个用户信息对应的错误标记集,每个用户信息对应的错误标记集是将全部标记集去除该用户信息对应的正确标记集得到的。
根据某一标记是否属于当前用户信息对应的正确标记集,可以将全部标记集中的标记分为正确标记集和错误标记集,正确标记集是由用户信息对应的标记所组成的标记集,错误标记集是由不是该用户信息对应的标记所组成的标记集。则针对每一用户信息,可以由全部标记集去除该用户信息对应的正确标记集得到该用户信息对应的错误标记集。
S103:获取目标用户信息对应的第一标记对,第一标记对由目标用户信息对应的正确标记集中的任意一个标记以及目标用户信息对应的错误标记集中的任意一个标记组成;目标用户信息为用户信息中的任一个。
本申请实施例可以基于二阶策略多标记算法在训练用户信息分类模型时利用二元标记对,考虑了两两标记间的相关性,利用每个标记对中标记间的相关性来训练用户信息分类模型。
将每一用户信息分别作为目标用户信息,选取该目标用户信息对应的正确标记集中的任意一个标记以及目标用户信息对应的错误标记集中的任意一个标记组成目标用户信息对应的第一标记对,即“正确-错误”标记对。第一标记对中两个标记间具有序关系,该序关系可以表征与用户信息相关或无关的排序。
S104:计算各个用户信息对应的第一标记对的间隔。
对于第一标记对,可以通过样本点与决策边界之间的距离来决定第一标记对中两个标记间的序关系,然后根据该距离计算出各个用户信息对应的第一标记对的间隔,从而用于指导训练用户信息分类模型。
计算各个用户信息对应的第一标记对的间隔的具体方式请参见候选实施例,在此不进行赘述。
S105:以最大化间隔、最小化第一损失函数为目标,训练用户信息分类模型,并确定校准标记;用户信息分类模型用于在输入待分类用户信息时,对全部标记集中的标记进行排序,将排序在校准标记之前的标记确定为待分类用户信息对应的正确标记集。
以最大化间隔、最小化第一损失函数为目标,可以训练得到用户信息分类模型。同时,引入校准标记,在待分类用户信息输入用户信息分类模型后,可以得到全部标记集中的标记的排序,以校准标记为基准,校准标记之前的为待分类用户信息的相关标记(即正确标记),校准标记之后的为待分类用户信息的无关标记(即错误标记),从而可以得到待分类用户信息对应的正确标记集。
在一种可能的实现方式中,用户信息分类模型由Q个线性函数组成,Q为全部标记集中标记的数量,Q为正整数,线性函数与全部标记集中的标记一一对应。则训练用户信息分类模型具体为求解各个线性函数的线性参数的最优解。在待分类用户信息输入用户信息分类模型后,可以得到全部标记集中的标记的排序,则是根据各个标记对应的线性函数的值进行排序。
本申请实施例获取用户信息对应的正确标记集以及错误标记集,将一个用户信息的正确标记集中的一个标记与错误标记集中的一个标记组成第一标记对,利用第一标记对之间的关系,训练用户信息分类模型,并引入校准标记,从而利用该用户信息分类模型可以在输入待分类用户信息时,区分待分类用户信息的正确标记与错误标记,得到待分类用户信息的正确标记集。
S106:获取目标用户信息对应的第二标记对,第二标记对由目标用户信息对应的正确标记集中任意两个标记组成。
由于标记间的权重大小关系也是影响用户信息分类模型预测用户标记准确度的要素之一,则本申请实施例还可以利用第二标记对,即“正确-正确”标记对,继续对上述训练完成的用户信息分类模型进行训练。
S107:以最小化第二损失函数为目标,重新训练用户信息分类模型,第二损失函数根据各个用户信息对应的第二标记对的权重概率以及相应的实际权重概率确定;用户信息分类模型还用于对待分类用户信息对应的正确标记集中的标记按照权重概率进行排序。
对于第二标记对,即“正确-正确”标记对,以信息熵的变化为原理定义“正确-正确”标记对中两个标记间的相对权重概率,以此来表示两个标记间相对权重的大小关系。则可通过计算标记间的序关系与相对权重大小关系,使得用户信息分类模型输出准确度更高的标记序列。
以下结合图2,对本申请实施例提供的用户信息分类模型的训练方法进行说明。
设输入空间为d维示例空间:X=Rd,全部标记集:y={1,...,Q},Q为全部标记集中标记的数量。
数据集D={(x1,Y1),(x2,Y2),...,(xm,Ym)},其中,|D|=m,xi∈X,第i个示例xi表示第i个用户信息,可以由d维特征向量表示:(xi1,xi2,...,xid)。Yi为第i个示例对应的标记序列(即正确标记集):(y1,...,yk,...),其任一组成元素yk∈y,并约定若某一标记yt为标记序列Yi中的一个元素,则用集合中的“∈”符号表示,即:yt∈Yi。
训练的用户信息分类模型h:X→2y,即:h=(f1,f2,...,fQ)。其中,线性函数fk=<wk,x>+bk对应于全部标记集y中某一标记k,为标记k所对应的线性函数的权值向量,为标记k所对应的线性函数的偏置,训练用户信息分类模型为通过二次优化来求得每个标记所对应的线性函数的参数wk与bk的最优解。
对数据集D中某个样本(xi,Yi),即一个用户信息以及对应的正确标记集。若有标记R∈Yi,其中,那么标记R与标记U所组成的标记对便是第一标记对,即“正确-错误”标记对。在计算标记间的序关系时,可在最大化间隔与最小化第一损失函数的同时求得最优参数,并引入校准标记K0作为所得标记集的边界值。在使用用户信息分类模型时,将排在K0前的标记作为待分类用户信息对应的正确标记集。则,在实际应用中,利用第一标记对,训练用户信息分类模型可以包括如下步骤:
步骤1,确定第一标记对的决策边界。取数据集D中某一示例xi,在xi的各个正确标记R与错误标记U形成第一标记对的情况下,对应的决策边界g(xi)为:
<wR-wU,xi>+bR-bU=0
步骤2,确定第一标记对的间隔。基于定义的决策边界,计算样本点(xi,Yi)到决策边界的距离,那么,其最小值便是第一标记对的间隔m(xi):
由以上定义的样本点(xi,Yi)上的间隔,可得数据集D上的间隔:
即,上述S104计算各个用户信息对应的第一标记对的间隔确定决策边界,可以包括:确定决策边界;根据每一用户信息以及对应的正确标记集到决策边界的距离,计算各个用户信息对应的第一标记对的间隔。
步骤3,最大化间隔。在理想的情况下,示例xi对应的正确标记集应该是按照每个标记对计算的序关系选出的正确标记,即Yi中的各个标记相对于中的各个标记排名较前。那么数据集D的间隔公式应取正值,即<wR-wU,xi>+bR-bU>0;对参数适当缩放,可得<wR-wU,xi>+bR-bU≥1。那么,最大化间隔问题便可演算为:
在数据集够大的情况下,上述公式可转化为:
为了降低最大化算子对后续公式演算的影响,对公式进一步简化,用求和算子来近似代替最大化算子,那么最大化间隔公式可转化为:
引入参数I来调节这2项目标函数,将以上两个目标函数(最大化间隔公式和第一损失函数)以相加的形式转换为线性约束下的二次规划求解最优参数w,b的问题,公式为:
从而在求解最优参数后,完成训练用户信息分类模型。
继续结合图2,进一步对本申请实施例提供的用户信息分类模型的训练方法进行说明。
在第二标记对,即“正确-正确”(R-R')标记对上计算标记间的相对权重大小关系,实际上是对上述训练过程中输出的参数w做进一步优化。定义标记对的权重概率,此处定义的标记对权重概率并不是用来直接决策标记R的权重是否大于标记R'的权重,而是用来表征标记R的权重大于标记R'的权重这个事件的概率值,并将预测的概率值与实际的权重关系概率值的差值用来定义第二损失函数,最小化第二损失函数,即可求得参数w的最优解。在实际应用中,利用第二标记对,训练用户信息分类模型可以包括如下步骤:
步骤1,确定第二标记对,即(R-R')标记对的权重概率。表示标记R的权重大于标记R'的权重的概率,用符号PR,R'(f)表示:
如果标记R的权重值大于标记R'的权重值,权重概率PR,R'(f)应无限趋近于1;如果标记R的权重值小于标记R'的权重值,则PR,R'(f)无限趋近于0;如果标记R的权重值等于标记R'的权重值,则PR,R'(f)等于0.5。
最小化CR,R'(f)来求解参数wR:
根据模型构建的权重概率值与真实的权重概率值来定义损失函数,标记间权重大小关系的求解即在最小化第二损失函数中求解参数wR的最优解。
因此,本申请实施例提出的用户信息分类模型可在构建客户的标记化体系时,考虑标记间的序关系与权重大小关系,使用户信息分类模型对某一个待分类用户信息输出准确度更高的标记序列,即可输出一个根据标记对用户的重要程度排列的标记序列。
在训练生成用户信息分类模型之后,可以利用用户信息分类模型进行用户信息分类。
下面结合附图对本申请实施例提供的一种用户信息分类方法进行说明。
参见图3所示,该图为本申请实施例提供的一种用户信息分类方法的流程图,如图3所示,该方法可以包括S301-S302:
S301:获取待分类用户信息。
待分类用户信息包括姓名、性别、年龄等基础信息。在本申请实施例中,待分类用户信息,不涉及用户的敏感信息,可以是在经过用户授权之后获取并使用的。在一个示例中,在获取待分类用户信息之前,相应界面显示获取数据使用授权相关的提示信息,用户基于该提示信息确定是否同意授权。
S302:将待分类用户信息输入用户信息分类模型,获得待分类用户信息对应的正确标记集;用户信息分类模型用于在输入待分类用户信息时,对全部标记集中的标记进行排序,将排序在校准标记之前的标记确定为待分类用户信息对应的正确标记集;用户信息分类模型是根据上述的用户信息分类模型的训练方法训练得到的;校准标记是在训练用户信息分类模型的过程中得到的。
将待分类用户信息输入用户信息分类模型,用户信息分类模型对全部标记集中的标记进行排序,将排序在校准标记之前的标记确定为待分类用户信息对应的正确标记集。在用户信息分类模型由Q个线性函数组成时,用户信息分类模型可以根据各个标记对应的线性函数的值对全部标记集中的标记进行排序。
用户信息分类模型的训练以及校准标记的获得,可以参见上述实施例的说明,在此不再赘述。
在一种可能的实现方式中,用户信息分类模型还用于对待分类用户信息对应的正确标记集中的标记按照权重概率进行排序。
当用户信息分类模型根据第二标记对进行训练后,用户信息分类模型还可以对待分类用户信息对应的正确标记集中的标记按照权重概率进行排序,以得到更为准确的标记序列,有效提高客户画像的准确度。
基于上述方法实施例提供的一种用户信息分类模型的训练方法,本申请实施例还提供了一种用户信息分类模型的训练装置,下面将结合附图对该装置进行说明。
参见图4所示,该图为本申请实施例提供的一种用户信息分类模型的训练装置的结构示意图。如图4所示,该用户信息分类模型的训练装置包括:
第一获取单元401,用于获取用户数据集,所述用户数据集包括多个用户信息以及每个所述用户信息对应的正确标记集;
确定单元402,用于确定每个所述用户信息对应的错误标记集,所述每个所述用户信息对应的错误标记集是将全部标记集去除该用户信息对应的正确标记集得到的;
第二获取单元403,用于获取目标用户信息对应的第一标记对,所述第一标记对由所述目标用户信息对应的正确标记集中的任意一个标记以及所述目标用户信息对应的错误标记集中的任意一个标记组成;所述目标用户信息为所述用户信息中的任一个;
计算单元404,用于计算各个所述用户信息对应的第一标记对的间隔;
第一训练单元405,用于以最大化所述间隔、最小化第一损失函数为目标,训练用户信息分类模型,并确定校准标记;所述用户信息分类模型用于在输入待分类用户信息时,对所述全部标记集中的标记进行排序,将排序在所述校准标记之前的标记确定为所述待分类用户信息对应的正确标记集;
第三获取单元406,用于获取所述目标用户信息对应的第二标记对,所述第二标记对由所述目标用户信息对应的正确标记集中任意两个标记组成;
第二训练单元407,用于以最小化第二损失函数为目标,重新训练所述用户信息分类模型,所述第二损失函数根据各个所述用户信息对应的第二标记对的权重概率以及相应的实际权重概率确定;所述用户信息分类模型还用于对所述待分类用户信息对应的正确标记集中的标记按照权重概率进行排序。
在一种可能的实现方式中,所述用户信息分类模型由Q个线性函数组成,Q为所述全部标记集中标记的数量,Q为正整数,所述线性函数与所述全部标记集中的标记一一对应;
所述训练用户信息分类模型,包括:求解各个所述线性函数的线性参数的最优解。
在一种可能的实现方式中,所述计算单元具体用于:
确定决策边界;
根据每一所述用户信息以及对应的正确标记集到所述决策边界的距离,计算各个所述用户信息对应的第一标记对的间隔。
基于上述方法实施例提供的一种用户信息分类方法,本申请实施例还提供了一种用户信息分类装置,下面将结合附图对该装置进行说明。
参见图5所示,该图为本申请实施例提供的一种用户信息分类装置的结构示意图。如图5所示,该用户信息分类装置包括:
第四获取单元501,用于获取待分类用户信息;
分类单元502,用于将所述待分类用户信息输入所述用户信息分类模型,获得所述待分类用户信息对应的正确标记集;所述用户信息分类模型用于在输入所述待分类用户信息时,对全部标记集中的标记进行排序,将排序在校准标记之前的标记确定为所述待分类用户信息对应的正确标记集,对所述待分类用户信息对应的正确标记集中的标记按照权重概率进行排序;所述用户信息分类模型是根据上述的用户信息分类模型的训练方法训练得到的;所述校准标记是在训练所述用户信息分类模型的过程中得到的。
另外,本申请实施例还提供一种电子设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的用户信息分类模型的训练方法,或者,如上述的用户信息分类方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上述的用户信息分类模型的训练方法,或者,如上述的用户信息分类方法。
本申请实施例获取用户信息对应的正确标记集以及错误标记集,将一个用户信息的正确标记集中的一个标记与错误标记集中的一个标记组成第一标记对,利用第一标记对之间的关系,训练用户信息分类模型,并引入校准标记,从而利用该用户信息分类模型可以在输入待分类用户信息时,区分待分类用户信息的正确标记与错误标记,得到待分类用户信息的正确标记集。另外,可以根据标记间的权重大小关系,训练用户信息分类模型,使用户信息分类模型输出一个根据标记对用户的重要程度排列的标记序列,从而提高了对用户信息分类的准确性。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种用户信息分类模型的训练方法,其特征在于,所述方法包括:
获取用户数据集,所述用户数据集包括多个用户信息以及每个所述用户信息对应的正确标记集;
确定每个所述用户信息对应的错误标记集,所述每个所述用户信息对应的错误标记集是将全部标记集去除该用户信息对应的正确标记集得到的;
获取目标用户信息对应的第一标记对,所述第一标记对由所述目标用户信息对应的正确标记集中的任意一个标记以及所述目标用户信息对应的错误标记集中的任意一个标记组成;所述目标用户信息为所述用户信息中的任一个;
计算各个所述用户信息对应的第一标记对的间隔;
以最大化所述间隔、最小化第一损失函数为目标,训练用户信息分类模型,并确定校准标记;所述用户信息分类模型用于在输入待分类用户信息时,对所述全部标记集中的标记进行排序,将排序在所述校准标记之前的标记确定为所述待分类用户信息对应的正确标记集;
获取所述目标用户信息对应的第二标记对,所述第二标记对由所述目标用户信息对应的正确标记集中任意两个标记组成;
以最小化第二损失函数为目标,重新训练所述用户信息分类模型,所述第二损失函数根据各个所述用户信息对应的第二标记对的权重概率以及相应的实际权重概率确定;所述用户信息分类模型还用于对所述待分类用户信息对应的正确标记集中的标记按照权重概率进行排序。
2.根据权利要求1所述的方法,其特征在于,所述用户信息分类模型由Q个线性函数组成,Q为所述全部标记集中标记的数量,Q为正整数,所述线性函数与所述全部标记集中的标记一一对应;
所述训练用户信息分类模型,包括:
求解各个所述线性函数的线性参数的最优解。
3.根据权利要求1所述的方法,其特征在于,所述计算各个所述用户信息对应的第一标记对的间隔,包括:
确定决策边界;
根据每一所述用户信息以及对应的正确标记集到所述决策边界的距离,计算各个所述用户信息对应的第一标记对的间隔。
4.一种用户信息分类方法,其特征在于,所述方法包括:
获取待分类用户信息;
将所述待分类用户信息输入所述用户信息分类模型,获得所述待分类用户信息对应的正确标记集;所述用户信息分类模型用于在输入所述待分类用户信息时,对全部标记集中的标记进行排序,将排序在校准标记之前的标记确定为所述待分类用户信息对应的正确标记集,对所述待分类用户信息对应的正确标记集中的标记按照权重概率进行排序;所述用户信息分类模型是根据权利要求1-3任一项所述的用户信息分类模型的训练方法训练得到的;所述校准标记是在训练所述用户信息分类模型的过程中得到的。
5.一种用户信息分类模型的训练装置,其特征在于,所述装置包括:
第一获取单元,用于获取用户数据集,所述用户数据集包括多个用户信息以及每个所述用户信息对应的正确标记集;
确定单元,用于确定每个所述用户信息对应的错误标记集,所述每个所述用户信息对应的错误标记集是将全部标记集去除该用户信息对应的正确标记集得到的;
第二获取单元,用于获取目标用户信息对应的第一标记对,所述第一标记对由所述目标用户信息对应的正确标记集中的任意一个标记以及所述目标用户信息对应的错误标记集中的任意一个标记组成;所述目标用户信息为所述用户信息中的任一个;
计算单元,用于计算各个所述用户信息对应的第一标记对的间隔;
第一训练单元,用于以最大化所述间隔、最小化第一损失函数为目标,训练用户信息分类模型,并确定校准标记;所述用户信息分类模型用于在输入待分类用户信息时,对所述全部标记集中的标记进行排序,将排序在所述校准标记之前的标记确定为所述待分类用户信息对应的正确标记集;
第三获取单元,用于获取所述目标用户信息对应的第二标记对,所述第二标记对由所述目标用户信息对应的正确标记集中任意两个标记组成;
第二训练单元,用于以最小化第二损失函数为目标,重新训练所述用户信息分类模型,所述第二损失函数根据各个所述用户信息对应的第二标记对的权重概率以及相应的实际权重概率确定;所述用户信息分类模型还用于对所述待分类用户信息对应的正确标记集中的标记按照权重概率进行排序。
6.根据权利要求4所述的装置,其特征在于,所述用户信息分类模型由Q个线性函数组成,Q为所述全部标记集中标记的数量,Q为正整数,所述线性函数与所述全部标记集中的标记一一对应;
所述训练用户信息分类模型,包括:
求解各个所述线性函数的线性参数的最优解。
7.根据权利要求4所述的装置,其特征在于,所述计算单元具体用于:
确定决策边界;
根据每一所述用户信息以及对应的正确标记集到所述决策边界的距离,计算各个所述用户信息对应的第一标记对的间隔。
8.一种用户信息分类装置,其特征在于,所述装置包括:
第四获取单元,用于获取待分类用户信息;
分类单元,用于将所述待分类用户信息输入所述用户信息分类模型,获得所述待分类用户信息对应的正确标记集;所述用户信息分类模型用于在输入所述待分类用户信息时,对全部标记集中的标记进行排序,将排序在校准标记之前的标记确定为所述待分类用户信息对应的正确标记集,对所述待分类用户信息对应的正确标记集中的标记按照权重概率进行排序;所述用户信息分类模型是根据权利要求1-3任一项所述的用户信息分类模型的训练方法训练得到的;所述校准标记是在训练所述用户信息分类模型的过程中得到的。
9.一种电子设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-3任一项所述的用户信息分类模型的训练方法,或者,如权利要求4所述的用户信息分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-3任一项所述的用户信息分类模型的训练方法,或者,如权利要求4所述的用户信息分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210385791.9A CN114897054A (zh) | 2022-04-13 | 2022-04-13 | 用户信息分类模型的训练、用户信息分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210385791.9A CN114897054A (zh) | 2022-04-13 | 2022-04-13 | 用户信息分类模型的训练、用户信息分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114897054A true CN114897054A (zh) | 2022-08-12 |
Family
ID=82717797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210385791.9A Pending CN114897054A (zh) | 2022-04-13 | 2022-04-13 | 用户信息分类模型的训练、用户信息分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114897054A (zh) |
-
2022
- 2022-04-13 CN CN202210385791.9A patent/CN114897054A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522942B (zh) | 一种图像分类方法、装置、终端设备和存储介质 | |
Chen et al. | A variational approach for learning from positive and unlabeled data | |
Bautista et al. | Minimal design of error-correcting output codes | |
CN109446430A (zh) | 产品推荐的方法、装置、计算机设备及可读存储介质 | |
Lee et al. | Technology opportunity analysis based on recombinant search: patent landscape analysis for idea generation | |
CN112395487B (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
CN111310860B (zh) | 改进梯度提升决策树性能的方法及计算机可读存储介质 | |
Goldstein et al. | A scaling approach to record linkage | |
CN112883990A (zh) | 数据分类方法及装置、计算机存储介质、电子设备 | |
CN116340839B (zh) | 基于蚁狮算法的算法选择方法及装置 | |
CN111582315B (zh) | 样本数据处理方法、装置及电子设备 | |
WO2023024408A1 (zh) | 用户特征向量确定方法、相关设备及介质 | |
JP5684084B2 (ja) | 誤分類検出装置、方法、及びプログラム | |
CN113591892A (zh) | 一种训练数据的处理方法及装置 | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
CN116861358A (zh) | 基于bp神经网络与多源数据融合的计算思维评测方法 | |
CN114897054A (zh) | 用户信息分类模型的训练、用户信息分类方法及装置 | |
CN113010687B (zh) | 一种习题标签预测方法、装置、存储介质以及计算机设备 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
Wang | Cost-sensitive boosted ROC classification trees | |
CN116502644B (zh) | 一种基于无源领域自适应的商品实体匹配方法及装置 | |
CN116523546B (zh) | 智能读者行为分析预测系统数据采集分析的方法和装置 | |
CN116402211A (zh) | 基于多标签非平衡机器学习的用户职业预测方法及设备 | |
CN113553349A (zh) | 目标对象分级方法、装置、设备及可读存储介质 | |
CN116911956A (zh) | 基于知识蒸馏的推荐模型训练方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |