CN116910604A - 用户分类方法、装置、计算机设备、存储介质和程序产品 - Google Patents
用户分类方法、装置、计算机设备、存储介质和程序产品 Download PDFInfo
- Publication number
- CN116910604A CN116910604A CN202310670887.4A CN202310670887A CN116910604A CN 116910604 A CN116910604 A CN 116910604A CN 202310670887 A CN202310670887 A CN 202310670887A CN 116910604 A CN116910604 A CN 116910604A
- Authority
- CN
- China
- Prior art keywords
- training
- user
- classification
- model
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 192
- 238000013145 classification model Methods 0.000 claims abstract description 133
- 230000006870 function Effects 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 37
- 238000011156 evaluation Methods 0.000 claims description 35
- 238000002372 labelling Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004140 cleaning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000010755 BS 2869 Class G Substances 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种用户分类方法、装置、计算机设备、存储介质和程序产品。所述方法包括:首先获取目标用户的用户画像数据,然后将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果,其中,分类模型是基于类间距离和类内距离训练得到的。本申请中的分类模型是基于类间距离和类内距离训练得到的,因此,在分类模型根据用户画像数据进行用户分类时,可以兼顾分类结果的类内关系和类间关系,从而提高了用户分类的准确性。
Description
技术领域
本申请涉及用户画像分类技术领域,特别是涉及一种用户分类方法、装置、计算机设备、存储介质和程序产品。
背景技术
在金融领域中,常常会通过大数据分析用户,对用户进行分类,从而为用户提供针对性金融服务。
但是,对用户进行分类时,可能存在分类准确率不高的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高用户分类准确率的方法、装置、计算机设备、存储介质和程序产品。
第一方面,本申请提供了一种用户分类方法。上述方法包括:
获取目标用户的用户画像数据;
将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果;其中,分类模型是基于类间距离和类内距离训练得到的。
在其中一个实施例中,上述方法还包括:
获取训练样本集合;训练样本集合包括多个训练样本;
基于训练样本集合和目标损失函数进行模型训练,得到分类模型,其中,目标损失函数基于类间距离和类内距离构建。
在其中一个实施例中,上述基于训练样本集合和目标损失函数进行模型训练,得到分类模型,包括:
将训练样本集合中的多个训练样本输入到初始模型中,得到初始模型输出的多个训练结果;
利用目标损失函数确定各训练结果的类内距离,并基于各训练结果的类内距离确定各训练结果的类间距离,以及根据多个训练结果的类间距离确定损失值;
若损失值不符合预设收敛条件,则对初始模型中的参数进行调整,并再次将多个训练样本输入参数调整后的模型中,直至损失值符合预设收敛条件时结束训练,得到分类模型。
在其中一个实施例中,上述目标损失函数包括损失值为多个类间距离之和;各类间距离为运算距离与预设值的最大值,运算距离根据类内距离和预设常数确定,类内距离根据模型输出量和模型输出量对应的分类中心确定。
在其中一个实施例中,上述方法还包括:
基于预设指标对分类模型进行评估处理,得到评估结果,其中,预设指标包括:精确率、召回率以及准确率中的至少一种;
根据评估结果对分类模型进行更新处理。
在其中一个实施例中,上述方法还包括:
获取目标用户对应的已清洗数据;
对已清洗数据进行标签化处理,得到目标用户对应的多个用户标签;
根据多个用户标签确定用户画像数据。
第二方面,本申请还提供了一种用户分类装置。上述装置包括:
数据获取模块,用于获取目标用户的用户画像数据;
分类结果确定模块,用于将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果;其中,分类模型是基于类间距离和类内距离训练得到的。
第三方面,本申请还提供了一种计算机设备。上述计算机设备包括存储器和处理器,上述存储器存储有计算机程序,上述处理器执行上述计算机程序时实现以下步骤:
获取目标用户的用户画像数据;
将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果;其中,分类模型是基于类间距离和类内距离训练得到的。
第四方面,本申请还提供了一种计算机可读存储介质。上述计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现以下步骤:
获取目标用户的用户画像数据;
将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果;其中,分类模型是基于类间距离和类内距离训练得到的。
第五方面,本申请还提供了一种计算机程序产品。上述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取目标用户的用户画像数据;
将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果;其中,分类模型是基于类间距离和类内距离训练得到的。
上述用户分类方法、装置、计算机设备、存储介质和程序产品,首先获取目标用户的用户画像数据,然后将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果,其中,分类模型是基于类间距离和类内距离训练得到的。本申请中的分类模型是基于类间距离和类内距离训练得到的,因此,在分类模型根据用户画像数据进行用户分类时,可以兼顾分类结果的类内关系和类间关系,从而提高了用户分类的准确性。
附图说明
图1为一个实施例中用户分类方法的应用环境图;
图2为一个实施例中用户分类方法的流程示意图;
图3为一个实施例中确定分类模型步骤的流程示意图;
图4为另一个实施例中确定分类模型步骤的流程示意图;
图5为另一个实施例中更新模型步骤的流程示意图;
图6为一个实施例中确定用户画像数据步骤的流程示意图;
图7为另一个实施例中用户分类方法的流程示意图;
图8为一个实施例中用户分类装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
通过大数据分析得到的用户画像数据本质上是一种抽象数据的标签化,在得到用户画像数据之后,可以对用户进行分类,可以为用户提供针对性金融服务。在根据用户画像数据进行分类时,可能存在分类不准确率的问题。
本申请实施例提供的用户分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104首先获取目标用户的用户画像数据,然后将用户画像数据输入到预先训练的分类模型中,最后得到分类模型输出的目标用户的分类结果,其中,分类模型是基于类间距离和类内距离训练得到的。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种用户分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤201,获取目标用户的用户画像数据。
其中,用户画像是指与该用户相关联的数据的可视化展现,即用户信息标签化。用户画像数据是指与该用户相关联的数据。用户画像数据包括社会属性、消费习惯、偏好特征等各个维度的数据。
本申请实施例的一种实现方式,终端可以输出一个画像信息填写界面,目标用户可以在画像信息填写界面上的各种画像设置项处,填写对应的信息。当终端检测到画像信息填写界面中的画像设置项中,存在画像信息时,可以从画像填写区域中,获取用户所填写的画像信息,服务器获取终端所获取的用户所填写的画像信息,并将获取到的画像信息作为目标用户的用户画像数据。
本申请实施例的另一种实现方式,在目标用户使用目标应用时,服务器接收用户实时行为数据,并对用户的实时行为数据进行清洗、筛选等处理,得到用户画像数据。
示例性地,目标用户在画像信息填写界面的购物偏好画像填写区域中,填写了喜欢投资理财的画像信息,服务器获取用户终端的喜欢投资理财的画像信息,并作为目标用户的用户画像数据。
或者,目标用户浏览某金融应用时,服务器获取用户终端接收到目标用户的多个浏览页面数据,对目标用户的多个浏览页面数据进行清洗、筛选处理,得到用户画像数据。
步骤202,将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果。
其中,分类模型是基于类间距离和类内距离训练得到的。分类结果是指根据用户画像数据对目标用户进行类型划分,所得到的用户类型。类间距离是指不同类模式样本点间的距离。类内距离是指同一类模式样本点间的均方距离。
本申请实施例中服务器获取到目标用户终端的用户画像数据后,将用户画像数据输入至基于类间距离和类内距离训练得到的分类模型中,分类模型根据服务器输入的用户画像数据,输出目标用户对应的分类结果,服务器可以根据分类结果为各用户终端推荐目标用户感兴趣的内容。
示例性地,服务器接收到目标用户在某应用中的多个消费行为数据,经过数据筛选、清洗处理等步骤,得到目标用户的用户画像数据,将用户画像数据输入到分类模型得到目标用户的分类结果为G类用户。
上述用户分类方法,服务器首先获取目标用户的用户画像数据,然后将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果。本申请中的分类模型是基于类间距离和类内距离训练得到的,因此,在分类模型根据用户画像数据进行用户分类时,可以兼顾分类结果的类内关系和类间关系,从而提高了用户分类的准确性。
在一个实施例中,如图3所示,上述方法还包括以下步骤:
步骤301,获取训练样本集合;训练样本集合包括多个训练样本。
其中,训练样本用于对分类模型进行训练,包括样本画像数据。
本申请实施例,服务器获取人为构建的多个训练样本组成训练样本集合。也可以在大数据平台获取多个训练样本组成训练样本集合。
步骤302,基于训练样本集合和目标损失函数进行模型训练,得到分类模型,其中,目标损失函数基于类间距离和类内距离构建。
其中,损失函数用于计算单个训练样本的误差。现有技术中通常使用Triple-Loss(三元组损失函数),仅能拉开类间间距,而只使用Center-Loss(中心损失函数)仅能拉近类内距离。本申请实施例可以采用Triple-Loss与Center-Loss结合得到的目标损失函数。
本申请实施例中,服务器获取训练样本集合中的多个训练样本,并根据基于类间距离和类内距离构建目标损失函数以及训练样本集合,进行反复训练,得到最终的分类模型。
示例性地,根据训练样本集合Y和Triple-Loss,进行不断训练得到最终的的分类模型。
上述用户分类方法,服务器首先获取训练样本集合,然后基于训练样本集合和目标损失函数进行模型训练,得到分类模型。本申请实施例中,利用基于类间距离和类内距离构建的目标损失函数以及训练样本集合对模型进行不断训练,还考虑到了类间距离和类内距离,考虑因素更全面,使得训练得到的分类模型更准确。
在一个实施例中,如图4所示,上述基于训练样本集合和目标损失函数进行模型训练,得到分类模型,包括以下步骤:
步骤401,将训练样本集合中的多个训练样本输入到初始模型中,得到初始模型输出的多个训练结果。
其中,训练结果可以是初始模型输出的训练样本对应的分类结果,也可以是初始模型输出的训练样本对应的分类数据,然后将分类数据进行处理,得到分类结果。
本申请实施例,服务器将获取到的训练样本集合中的多个训练样本输入到初始模型中,初始模型根据训练样本得出训练样本对应的训练结果,并输出训练结果。
示例性地,将训练样本a、b、c分别输入到分类模型中,得到训练结果如类型Q、类型E、类型W。
步骤402,利用目标损失函数确定各训练结果的类内距离,并基于各训练结果的类内距离确定各训练结果的类间距离,以及根据多个训练结果的类间距离确定损失值。
本申请实施例,首先将训练结果代入目标损失函数,然后根据目标损失函数,得到各训练结果的类内距离。根据各训练结果的类内距离,得到各训练结果的类间距离。最后,根据各训练结果的类间距离和类内距离计算损失值。
步骤403,若损失值不符合预设收敛条件,则对初始模型中的参数进行调整,并再次将多个训练样本输入参数调整后的模型中,直至损失值符合预设收敛条件时结束训练,得到分类模型。
本申请实施例中,若根据损失函数计算得到的损失值不符合预设收敛条件,则根据损失值对初始模型中的参数进行调整,使得损失函数对应的损失曲线呈逐渐下降的收敛态。然后继续将多个训练样本输入参数调整后的模型中,再一次计算损失值,直至损失值符合预设收敛条件,结束对分类模型的训练,得到分类模型。
示例性地,损失值为0.8,预设阈值0.3,可知,损失值大于预设阈值,根据该损失值对初始模型中的参数进行调整后,再次计算损失值为0.2,可知,损失值符合预设收敛条件,结束对分类模型的训练,得到分类模型。
上述用户分类方法,首先将训练样本集合中的多个训练样本输入到初始模型中,得到初始模型输出的多个训练结果。然后利用目标损失函数确定各训练结果的类内距离,并基于各训练结果的类内距离确定各训练结果的类间距离,以及根据多个训练结果的类间距离确定损失值。最后,若损失值不符合预设收敛条件,则对初始模型中的参数进行调整,并再次将多个训练样本输入参数调整后的模型中,直至损失值符合预设收敛条件时结束训练,得到分类模型。本申请实施例,基于各训练结果的类内距离以及多个训练结果的类间距离确定损失值,根据损失值调整初始模型中的参数,使得损失值符合预设收敛条件,上述过程,利用损失值调整初始模型中的参数,同时还考虑到了各训练结果的类间距离和类内距离,考虑因素更全面,使得训练得到的分类模型更准确,提高了分类模型的分类准确率。
在一个实施例中,上述目标损失函数包括损失值为多个类间距离之和;各类间距离为运算距离与预设值的最大值,运算距离根据类内距离和预设常数确定,类内距离根据模型输出量和模型输出量对应的分类中心确定。
其中,目标损失函数采用的是Triplet-Center-Loss,用于对初始模型进行训练。Triplet-Center-Loss的表达式如公式(1)所示,类内距离的计算公式如公式(2)所示:
其中,LtC为损失值,M为类别数,D()为类内距离,f()为模型输出,cy i为yi类标签的中心,m为预设常数,cj为j类标签的中心,xi是指第i个样本的特征。
本申请实施例中,首先根据模型输出以及yi类标签的中心对各训练结果的类内距离进行计算,并求得类内距离的最小值,使得各训练结果的类内距离最小。然后根据计算后的各训练结果的类内距离和预设常数,确定运算距离。最后,计算多个类间距离之和,使得各类间距离为运算距离与预设值的最大值。
上述用户分类方法,目标损失函数包括损失值为多个类间距离之和。各类间距离为运算距离与预设值的最大值。运算距离根据类内距离和预设常数确定,类内距离根据模型输出量和模型输出量对应的分类中心确定。本申请实施例考虑到了训练结果的类间距离以及类内距离,使得类间距离尽可能的小,类间距离尽可能的大,解决了训练结果存在类间纠缠的问题,从而提高了用户分类的准确性。
在一个实施例中,如图5所示,上述方法还包括以下步骤:
步骤501,基于预设指标对分类模型进行评估处理,得到评估结果,其中,预设指标包括:精确率、召回率以及准确率中的至少一种。
其中,评估处理是指根据预设指标的预测结果,对分类模型进行评估。预设指标是根据样本的预测结果决定,预测结果包括如下几种类型:
真阳性(TP,True Positive):预测为正,实际为正。把正样本成功预测为正。
假阳性(FP—False Positive):预测为正,实际为负。把负样本错误预测为正。
真阴性(TN—True Negative):预测为负、实际为负。把负样本成功预测为负。
假阴性(FN—False Negative):预测与负、实际为正。把正样本错误预测为负。
预设指标包括:精确率、召回率以及准确率。
精确率(precision),也称查准率,是指计算预测出来的某类样本中,有多少是被正确预测的。即表示的是预测为正的样本中有多少是真正的正样本,主要针对预测样本。如公式(3)所示,为精确率的计算公式:
precision=TP/(TP+FP)................................(3)
召回率(recall)也称查全率,是指有多少样本被正确的预测出来了,即该类样本有多少被找出来(召回了多少)。即表示的是样本中的正例有多少被预测正确了,主要针对原有的实际样本。如公式(4)所示,为召回率的计算公式:
recall=TP/(TP+FN)....................................(4)
准确率(accuracy),是指正类和负类预测准确的比例。在正例较少负例较多的不平衡分类问题中,存在着如果把所有数据全部预测为负例,准确率依然会很高的问题,所以引入召回率。如公式(5)所示,为精确率的计算公式:
accuracy=(TP+TN)/(TP+FP+TN+FN).................(5)
预设指标还可以包括:
F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种加权平均,它的最大值是1,最小值是0。如公式(6)所示,为F1分数的计算公式:
F1 Score=2P*R/(P+R).....................................(6)
其中,P和R分别为precision和recall。
评估结果是根据预设指标的值得出的对分类模型的结论,比如所有预设指标均达到预设值,则评估结果为优。
本申请实施例,对分类模型的输出结果,结合真阳性、假阳性、真阴性、假阴性等预测结果,得到各预设指标。然后基于各预设指标,对分类模型进行评估,得到评估结果。
示例性地,对分类模型的预设指标进行计算,得到精确率、召回率、准确率分别为:95%、93%、90%,由于上述预设指标均达到90%以上,判定分类模型的评估结果为优。
步骤502,根据评估结果对分类模型进行更新处理。
其中,更新处理是指根据评估结果,对分类模型内部参数进行调整,也可以对分类模型的其他内部数据进行调整。
本申请实施例中,服务器对分类模型进行评估处理,得到评估结果,若评估结果为优,则保持内部参数不变,若评估结果为差或者较好,则对分类模型内部参数进行调整,以达到更新的目的。
示例性地,分类模型的评估结果为优,则保持内部参数不变。
上述用户分类方法,首先基于预设指标对分类模型进行评估处理,得到评估结果,然后根据评估结果对分类模型进行更新处理。本申请实施例对分类模型进行评估处理以及更新处理,使得分类模型的准确率提高,还对分类模型进行更新,提高了分类模型的分类效率。
在一个实施例中,如图6所示,上述方法还包括以下步骤:
步骤601,获取目标用户对应的已清洗数据。
本申请实施例,服务器首先获取目标用户在用户终端上的如浏览数据,点击数据等原始数据。然后,将获取的原始数据进行重要特征提取,对重要特征提取后的数据进行清洗处理,得到已清洗的数据。
示例性地,目标用户在目标应用上的浏览数据为q、w、e、r,对上述数据进行清洗操作,得到已清洗的数据q和r。
步骤602,对已清洗数据进行标签化处理,得到目标用户对应的多个用户标签。
其中,标签可以包括用户的年龄段、用户的性别、用户的工作类别等。
本申请实施例中,服务器对已清洗数据进行分类处理,得到分类后的已清洗数据。对分类后的已清洗数据进行标签化处理,得到目标用户对应的多个用户标签。
示例性地,获取到目标用户浏览购物数据、浏览时间数据,得出目标用户对应的多个用户标签分别为:女性、中等消费水平、浏览时间段为晚上8点后。
步骤603,根据多个用户标签确定用户画像数据。
本申请实施例,对分类后的已清洗数据,根据标签及整个流程的规则计算标签,把数据仓库中的数据进行重组,得到目标用户对应的多个用户标签。根据多个用户标签,将多个用户标签进行结合,得到用户画像数据。
上述用户分类方法,首先获取目标用户对应的已清洗数据,然后对已清洗数据进行标签化处理,得到目标用户对应的多个用户标签,最后根据多个用户标签确定用户画像数据。本申请实施例获取的是已清洗数据,减少了输入到分类模型的数据大小,从而提高了效率分类模型的分类效率。并且,提高了确定用户画像数据的准确率。
在一个实施例中,如图7所示,上述方法还包括以下步骤:
步骤701,获取训练样本集合;训练样本集合包括多个训练样本;
步骤702,将训练样本集合中的多个训练样本输入到初始模型中,得到初始模型输出的多个训练结果;
步骤703,利用目标损失函数确定各训练结果的类内距离,并基于各训练结果的类内距离确定各训练结果的类间距离,以及根据多个训练结果的类间距离确定损失值;
步骤704,若损失值不符合预设收敛条件,则对初始模型中的参数进行调整,并再次将多个训练样本输入参数调整后的模型中,直至损失值符合预设收敛条件时结束训练,得到分类模型;
步骤705,获取目标用户对应的已清洗数据;
步骤706,对已清洗数据进行标签化处理,得到目标用户对应的多个用户标签;
步骤707,根据多个用户标签确定用户画像数据;
步骤708,将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果。
上述用户分类方法,首先获取训练样本集合;训练样本集合包括多个训练样本。然后,将训练样本集合中的多个训练样本输入到初始模型中,得到初始模型输出的多个训练结果;利用目标损失函数确定各训练结果的类内距离,并基于各训练结果的类内距离确定各训练结果的类间距离,以及根据多个训练结果的类间距离确定损失值。若损失值不符合预设收敛条件,则对初始模型中的参数进行调整,并再次将多个训练样本输入参数调整后的模型中,直至损失值符合预设收敛条件时结束训练,得到分类模型。然后,获取目标用户对应的已清洗数据,对已清洗数据进行标签化处理,得到目标用户对应的多个用户标签。根据多个用户标签确定用户画像数据。最后,将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果。
本申请实施例利用目标损失函数确定各训练结果的类内距离,并基于各训练结果的类内距离确定各训练结果的类间距离,解决了类间纠缠问题,使得分类模型输出的用户类型的准确性提高,从而提高了用户分类的准确率。并且,服务器获取的是已清洗数据,减少了输入到分类模型的数据大小,从而提高了效率分类模型的分类效率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的用户分类方法的用户分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用户分类装置实施例中的具体限定可以参见上文中对于用户分类方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种用户分类装置,包括:
数据获取模块801,用于获取目标用户的用户画像数据;
分类结果确定模块802,用于将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果;其中,分类模型是基于类间距离和类内距离训练得到的。
在一个实施例中,上述装置还包括:
训练集合获取模块,用于获取训练样本集合;训练样本集合包括多个训练样本;
分类模型确定模块,用于基于训练样本集合和目标损失函数进行模型训练,得到分类模型,其中,目标损失函数基于类间距离和类内距离构建。
在一个实施例中,上述分类模型确定模块,还包括:
训练结果确定子模块,用于将训练样本集合中的多个训练样本输入到初始模型中,得到初始模型输出的多个训练结果;
损失值确定子模块,用于利用目标损失函数确定各训练结果的类内距离,并基于各训练结果的类内距离确定各训练结果的类间距离,以及根据多个训练结果的类间距离确定损失值;
分类模型确定子模块,用于若损失值不符合预设收敛条件,则对初始模型中的参数进行调整,并再次将多个训练样本输入参数调整后的模型中,直至损失值符合预设收敛条件时结束训练,得到分类模型。
在一个实施例中,目标损失函数包括损失值为多个类间距离之和;各类间距离为运算距离与预设值的最大值,运算距离根据类内距离和预设常数确定,类内距离根据模型输出量和模型输出量对应的分类中心确定。
在一个实施例中,上述装置还包括:
评估结果确定模块,用于基于预设指标对分类模型进行评估处理,得到评估结果,其中,预设指标包括:精确率、召回率以及准确率中的至少一种;
更新模块,用于根据评估结果对分类模型进行更新处理。
在一个实施例中,上述装置还包括:
数据获取模块,用于获取目标用户对应的已清洗数据;
用户标签确定模块,用于对已清洗数据进行标签化处理,得到目标用户对应的多个用户标签;
数据确定模块,根据多个用户标签确定用户画像数据。
上述用户分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户画像数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户分类方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取目标用户的用户画像数据;
将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果;其中,分类模型是基于类间距离和类内距离训练得到的。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取训练样本集合;训练样本集合包括多个训练样本;
基于训练样本集合和目标损失函数进行模型训练,得到分类模型,其中,目标损失函数基于类间距离和类内距离构建。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将训练样本集合中的多个训练样本输入到初始模型中,得到初始模型输出的多个训练结果;
利用目标损失函数确定各训练结果的类内距离,并基于各训练结果的类内距离确定各训练结果的类间距离,以及根据多个训练结果的类间距离确定损失值;
若损失值不符合预设收敛条件,则对初始模型中的参数进行调整,并再次将多个训练样本输入参数调整后的模型中,直至损失值符合预设收敛条件时结束训练,得到分类模型。
在一个实施例中,处理器执行计算机程序时还包括:上述目标损失函数包括损失值为多个类间距离之和;各类间距离为运算距离与预设值的最大值,运算距离根据类内距离和预设常数确定,类内距离根据模型输出量和模型输出量对应的分类中心确定。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于预设指标对分类模型进行评估处理,得到评估结果,其中,预设指标包括:精确率、召回率以及准确率中的至少一种;
根据评估结果对分类模型进行更新处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取目标用户对应的已清洗数据;
对已清洗数据进行标签化处理,得到目标用户对应的多个用户标签;
根据多个用户标签确定用户画像数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标用户的用户画像数据;
将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果;其中,分类模型是基于类间距离和类内距离训练得到的。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取训练样本集合;训练样本集合包括多个训练样本;
基于训练样本集合和目标损失函数进行模型训练,得到分类模型,其中,目标损失函数基于类间距离和类内距离构建。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将训练样本集合中的多个训练样本输入到初始模型中,得到初始模型输出的多个训练结果;
利用目标损失函数确定各训练结果的类内距离,并基于各训练结果的类内距离确定各训练结果的类间距离,以及根据多个训练结果的类间距离确定损失值;
若损失值不符合预设收敛条件,则对初始模型中的参数进行调整,并再次将多个训练样本输入参数调整后的模型中,直至损失值符合预设收敛条件时结束训练,得到分类模型。
在一个实施例中,计算机程序被处理器执行时还实现还包括:上述目标损失函数包括损失值为多个类间距离之和;各类间距离为运算距离与预设值的最大值,运算距离根据类内距离和预设常数确定,类内距离根据模型输出量和模型输出量对应的分类中心确定。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于预设指标对分类模型进行评估处理,得到评估结果,其中,预设指标包括:精确率、召回率以及准确率中的至少一种;
根据评估结果对分类模型进行更新处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取目标用户对应的已清洗数据;
对已清洗数据进行标签化处理,得到目标用户对应的多个用户标签;
根据多个用户标签确定用户画像数据。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取目标用户的用户画像数据;
将用户画像数据输入到预先训练的分类模型中,得到分类模型输出的目标用户的分类结果;其中,分类模型是基于类间距离和类内距离训练得到的。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取训练样本集合;训练样本集合包括多个训练样本;
基于训练样本集合和目标损失函数进行模型训练,得到分类模型,其中,目标损失函数基于类间距离和类内距离构建。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将训练样本集合中的多个训练样本输入到初始模型中,得到初始模型输出的多个训练结果;
利用目标损失函数确定各训练结果的类内距离,并基于各训练结果的类内距离确定各训练结果的类间距离,以及根据多个训练结果的类间距离确定损失值;
若损失值不符合预设收敛条件,则对初始模型中的参数进行调整,并再次将多个训练样本输入参数调整后的模型中,直至损失值符合预设收敛条件时结束训练,得到分类模型。
在一个实施例中,计算机程序被处理器执行时还实现还包括:上述目标损失函数包括损失值为多个类间距离之和;各类间距离为运算距离与预设值的最大值,运算距离根据类内距离和预设常数确定,类内距离根据模型输出量和模型输出量对应的分类中心确定。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于预设指标对分类模型进行评估处理,得到评估结果,其中,预设指标包括:精确率、召回率以及准确率中的至少一种;
根据评估结果对分类模型进行更新处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取目标用户对应的已清洗数据;
对已清洗数据进行标签化处理,得到目标用户对应的多个用户标签;
根据多个用户标签确定用户画像数据。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种用户分类方法,其特征在于,所述方法包括:
获取目标用户的用户画像数据;
将所述用户画像数据输入到预先训练的分类模型中,得到所述分类模型输出的所述目标用户的分类结果;其中,所述分类模型是基于类间距离和类内距离训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练样本集合;所述训练样本集合包括多个训练样本;
基于所述训练样本集合和目标损失函数进行模型训练,得到所述分类模型,其中,所述目标损失函数基于所述类间距离和所述类内距离构建。
3.根据权利要求2所述的方法,其特征在于,所述基于所述训练样本集合和目标损失函数进行模型训练,得到所述分类模型,包括:
将所述训练样本集合中的多个训练样本输入到初始模型中,得到所述初始模型输出的多个训练结果;
利用所述目标损失函数确定各所述训练结果的类内距离,并基于各所述训练结果的类内距离确定各所述训练结果的类间距离,以及根据多个所述训练结果的类间距离确定损失值;
若所述损失值不符合预设收敛条件,则对所述初始模型中的参数进行调整,并再次将多个所述训练样本输入参数调整后的模型中,直至所述损失值符合所述预设收敛条件时结束训练,得到所述分类模型。
4.根据权利要求2所述的方法,其特征在于,所述目标损失函数包括损失值为多个类间距离之和;各所述类间距离为运算距离与预设值的最大值,所述运算距离根据类内距离和预设常数确定,所述类内距离根据模型输出量和所述模型输出量对应的分类中心确定。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
基于预设指标对所述分类模型进行评估处理,得到评估结果,其中,所述预设指标包括精确率、召回率以及准确率中的至少一种;
根据所述评估结果对所述分类模型进行更新处理。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取所述目标用户对应的已清洗数据;
对所述已清洗数据进行标签化处理,得到所述目标用户对应的多个用户标签;
根据所述多个用户标签确定所述用户画像数据。
7.一种用户分类方法装置,其特征在于,所述装置包括:
数据获取模块,用于获取目标用户的用户画像数据;
分类结果确定模块,用于将所述用户画像数据输入到预先训练的分类模型中,得到所述分类模型输出的所述目标用户的分类结果;其中,所述分类模型是基于类间距离和类内距离训练得到的。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310670887.4A CN116910604A (zh) | 2023-06-07 | 2023-06-07 | 用户分类方法、装置、计算机设备、存储介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310670887.4A CN116910604A (zh) | 2023-06-07 | 2023-06-07 | 用户分类方法、装置、计算机设备、存储介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116910604A true CN116910604A (zh) | 2023-10-20 |
Family
ID=88361754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310670887.4A Pending CN116910604A (zh) | 2023-06-07 | 2023-06-07 | 用户分类方法、装置、计算机设备、存储介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910604A (zh) |
-
2023
- 2023-06-07 CN CN202310670887.4A patent/CN116910604A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111815415B (zh) | 一种商品推荐方法、系统及设备 | |
CN111798273A (zh) | 产品的购买概率预测模型的训练方法及购买概率预测方法 | |
CN112052387B (zh) | 一种内容推荐方法、装置和计算机可读存储介质 | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN112085565A (zh) | 基于深度学习的信息推荐方法、装置、设备及存储介质 | |
CN112131261A (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
CN112989182B (zh) | 信息处理方法、装置、信息处理设备及存储介质 | |
CN116910357A (zh) | 一种数据处理方法及相关装置 | |
CN110851708A (zh) | 负样本的抽取方法、装置、计算机设备和存储介质 | |
CN116975359A (zh) | 资源处理方法、资源推荐方法、装置和计算机设备 | |
CN114821140A (zh) | 基于曼哈顿距离的图像聚类方法、终端设备及存储介质 | |
CN116910604A (zh) | 用户分类方法、装置、计算机设备、存储介质和程序产品 | |
CN115705383A (zh) | 基于图卷神经网络时序特征提取的序列推荐算法、系统、终端及介质 | |
CN114298118B (zh) | 一种基于深度学习的数据处理方法、相关设备及存储介质 | |
CN117094828A (zh) | 金融产品推荐方法、装置、计算机设备和存储介质 | |
CN117112724A (zh) | 搜索推送方法、装置、设备、存储介质和计算机程序产品 | |
CN118227677A (zh) | 信息推荐及信息推荐模型处理方法、装置、设备和介质 | |
CN117407418A (zh) | 信息获取方法、装置、计算机设备、存储介质和程序产品 | |
CN116910354A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN116861071A (zh) | 资讯推送方法、装置、计算机设备、存储介质和程序产品 | |
CN116150462A (zh) | 针对目标对象的向量构建方法、装置和计算机设备 | |
CN117473149A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN117076977A (zh) | 对象分类方法、装置、计算机设备和存储介质 | |
CN117196801A (zh) | 银行活动数据的分析方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |