CN112580681B - 用户分类方法、装置、电子设备及可读存储介质 - Google Patents
用户分类方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN112580681B CN112580681B CN201910942263.7A CN201910942263A CN112580681B CN 112580681 B CN112580681 B CN 112580681B CN 201910942263 A CN201910942263 A CN 201910942263A CN 112580681 B CN112580681 B CN 112580681B
- Authority
- CN
- China
- Prior art keywords
- time
- feature
- feature data
- model
- sample users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000036962 time dependent Effects 0.000 claims abstract description 112
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000012216 screening Methods 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 58
- 238000011156 evaluation Methods 0.000 claims description 37
- 230000006399 behavior Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 18
- 238000004590 computer program Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 235000020785 dietary preference Nutrition 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 235000021185 dessert Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例公开了一种用户分类方法、装置、电子设备及可读存储介质,所述方法包括:获取训练数据,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征;基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;使用训练后的预测模型对待分类用户进行分类。该技术方案能够提高用户分类的准确性和泛化能力。
Description
技术领域
本公开涉及数据处理技术领域,具体涉及一种用户分类方法、装置、电子设备及可读存储介质。
背景技术
在互联网服务中,推荐系统和个性化定制的需求日益增加。其中,用户画像(UserProfile)的核心工作是利用存储在服务器上的海量日志和数据库里的大量数据进行分析和挖掘,通过聚类等方法对用户分类,并根据类别给用户贴“标签”来表示该用户某一维度的特征,以实现相似用户的圈定。但是,在做出本公开的过程中,发明人发现,目前的用户分类方法由于样本数量较少、特征过于稀疏等问题,准确性较低,泛化能力较差。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种用户分类方法、装置、电子设备及可读存储介质。
第一方面,本公开实施例中提供了一种用户分类方法,包括:
获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;
对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征;
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;
使用训练后的预测模型对待分类用户进行分类。
结合第一方面,本公开在第一方面的第一种实现方式中,所述时间相关特征,包括通过滑窗法对用户行为数据进行处理后获取的时间相关特征。
结合第一方面,本公开在第一方面的第二种实现方式中,所述对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,包括:
对所述特征数据中的非时间相关特征进行有放回的随机抽样T次,获取T个第一特征数据,所述第一特征数据包括多个所述非时间相关特征,T为正整数;
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据;
基于所述T个第二特征数据,得到所述特定非时间相关特征。
结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据,包括:
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,得到所述第一特征数据中各个非时间相关特征的权重;
基于所述权重,确定所述第一特征数据中的各个非时间相关特征相对应的顺序;
所述第二特征数据包括所述顺序满足选择条件的非时间相关特征。
结合第一方面的第二种实现方式,本公开在第一方面的第四种实现方式中,所述基于所述T个第二特征数据,得到所述特定非时间相关特征,包括:
基于所述T个第二特征数据,确定中间特征的出现次数,其中,所述中间特征为任意一个所述第二特征数据中所包括的非时间相关特征,所述中间特征的出现次数为包含所述中间特征的第二特征数据个数;
基于所述第二特征的出现次数,确定第三特征数据;
基于所述特征选择模型,对所述第三特征进行贪心选择,确定所述特定非时间相关特征。
结合第一方面,本公开在第一方面的第五种实现方式中,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练,包括:
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数;
基于所述各个基模型的模型参数,确定所述多个基模型的组合系数。
结合第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,当所述多个基模型包括item2vec模型时,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数,包括:
获取所述多个样本用户的物品向量和评价矩阵,所述物品向量描述与所述多个样本用户有关的物品,所述评价矩阵描述所述多个样本用户对所述物品的评价;
基于所述多个样本用户的物品向量和评价矩阵,获取各个所述样本用户的用户向量;
根据所述用户向量,确定所述样本用户之间的两两相似度;
根据所述样本用户之间的两两相似度,确定所述item2vec模型的模型参数。
结合第一方面的第五种实现方式,本公开在第一方面的第七种实现方式中,所述基模型为以下任意一种模型:
逻辑回归模型、xgboost模型、xgboost+LR模型、item2vec模型。
结合第一方面,本公开在第一方面的第八种实现方式中,所述使用训练后的预测模型对待分类用户进行分类,包括:
获取所述待分类用户的时间相关特征和特定非时间相关特征;
基于所述待分类用户的时间相关特征和特定非时间相关特征,通过所述训练后的预测模型,确定所述待分类用户的标签。
第二方面,本公开实施例中提供了一种用户分类装置,包括:
获取模块,被配置为获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;
筛选模块,被配置为对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征;
训练模块,被配置为基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;
分类模块,被配置为使用训练后的预测模型对待分类用户进行分类。
结合第二方面,本公开在第二方面的第一种实现方式中,所述时间相关特征,包括通过滑窗法对用户行为数据进行处理后获取的时间相关特征。
结合第二方面,本公开在第二方面的第二种实现方式中,所述对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,包括:
对所述特征数据中的非时间相关特征进行有放回的随机抽样T次,获取T个第一特征数据,所述第一特征数据包括多个所述非时间相关特征,T为正整数;
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据;
基于所述T个第二特征数据,得到所述特定非时间相关特征。
结合第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中,所述基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据,包括:
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,得到所述第一特征数据中各个非时间相关特征的权重;
基于所述权重,确定所述第一特征数据中的各个非时间相关特征相对应的顺序;
所述第二特征数据包括所述顺序满足选择条件的非时间相关特征。
结合第二方面的第二种实现方式,本公开在第二方面的第四种实现方式中,所述基于所述T个第二特征数据,得到所述特定非时间相关特征,包括:
基于所述T个第二特征数据,确定中间特征的出现次数,其中,所述中间特征为任意一个所述第二特征数据中所包括的非时间相关特征,所述中间特征的出现次数为包含所述中间特征的第二特征数据个数;
基于所述第二特征的出现次数,确定第三特征数据;
基于所述特征选择模型,对所述第三特征进行贪心选择,确定所述特定非时间相关特征。
结合第二方面,本公开在第二方面的第五种实现方式中,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练,包括:
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数;
基于所述各个基模型的模型参数,确定所述多个基模型的组合系数。
结合第二方面的第五种实现方式,本公开在第二方面的第六种实现方式中,当所述多个基模型包括item2vec模型时,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数,包括:
获取所述多个样本用户的物品向量和评价矩阵,所述物品向量描述与所述多个样本用户有关的物品,所述评价矩阵描述所述多个样本用户对所述物品的评价;
基于所述多个样本用户的物品向量和评价矩阵,获取各个所述样本用户的用户向量;
根据所述用户向量,确定所述样本用户之间的两两相似度;
根据所述样本用户之间的两两相似度,确定所述item2vec模型的模型参数。
结合第二方面的第五种实现方式,本公开在第二方面的第七种实现方式中,所述基模型为以下任意一种模型:
逻辑回归模型、xgboost模型、xgboost+LR模型、item2vec模型。
结合第二方面,本公开在第二方面的第八种实现方式中,所述使用训练后的预测模型对待分类用户进行分类,包括:
获取所述待分类用户的时间相关特征和特定非时间相关特征;
基于所述待分类用户的时间相关特征和特定非时间相关特征,通过所述训练后的预测模型,确定所述待分类用户的标签。
第三方面,本公开实施例中提供了一种电子设备。
具体地,所述电子设备包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤:
获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;
对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征;
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;
使用训练后的预测模型对待分类用户进行分类。
结合第三方面,本公开在第三方面的第一种实现方式中,所述时间相关特征,包括通过滑窗法对用户行为数据进行处理后获取的时间相关特征。
结合第三方面,本公开在第三方面的第二种实现方式中,所述对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,包括:
对所述特征数据中的非时间相关特征进行有放回的随机抽样T次,获取T个第一特征数据,所述第一特征数据包括多个所述非时间相关特征,T为正整数;
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据;
基于所述T个第二特征数据,得到所述特定非时间相关特征。
结合第三方面的第二种实现方式,本公开在第三方面的第三种实现方式中,所述基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据,包括:
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,得到所述第一特征数据中各个非时间相关特征的权重;
基于所述权重,确定所述第一特征数据中的各个非时间相关特征相对应的顺序;
所述第二特征数据包括所述顺序满足选择条件的非时间相关特征。
结合第三方面的第二种实现方式,本公开在第三方面的第四种实现方式中,所述基于所述T个第二特征数据,得到所述特定非时间相关特征,包括:
基于所述T个第二特征数据,确定中间特征的出现次数,其中,所述中间特征为任意一个所述第二特征数据中所包括的非时间相关特征,所述中间特征的出现次数为包含所述中间特征的第二特征数据个数;
基于所述第二特征的出现次数,确定第三特征数据;
基于所述特征选择模型,对所述第三特征进行贪心选择,确定所述特定非时间相关特征。
结合第三方面,本公开在第三方面的第五种实现方式中,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练,包括:
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数;
基于所述各个基模型的模型参数,确定所述多个基模型的组合系数。
结合第三方面的第五种实现方式,本公开在第三方面的第六种实现方式中,当所述多个基模型包括item2vec模型时,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数,包括:
获取所述多个样本用户的物品向量和评价矩阵,所述物品向量描述与所述多个样本用户有关的物品,所述评价矩阵描述所述多个样本用户对所述物品的评价;
基于所述多个样本用户的物品向量和评价矩阵,获取各个所述样本用户的用户向量;
根据所述用户向量,确定所述样本用户之间的两两相似度;
根据所述样本用户之间的两两相似度,确定所述item2vec模型的模型参数。
结合第三方面的第五种实现方式,本公开在第三方面的第七种实现方式中,所述基模型为以下任意一种模型:
逻辑回归模型、xgboost模型、xgboost+LR模型、item2vec模型。
结合第三方面,本公开在第三方面的第八种实现方式中,所述使用训练后的预测模型对待分类用户进行分类,包括:
获取所述待分类用户的时间相关特征和特定非时间相关特征;
基于所述待分类用户的时间相关特征和特定非时间相关特征,通过所述训练后的预测模型,确定所述待分类用户的标签。
第四方面,本公开实施例中提供了一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种实现方式至第八种实现方式任一项所述的方法。
本公开实施例提供的技术方案可以包括以下有益效果:
根据本公开实施例提供的技术方案,能够在获取训练数据后,对非时间相关特征进行筛选以降低样本的特征维度,有效避免样本数量少、特征过于稀疏而导致的组合爆炸等风险,还能够提高预测模型的准确率和泛化能力。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实现方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开实施例的用户分类方法的流程图;
图2示出根据本公开实施例筛选非时间相关特征的流程图;
图3示出根据本公开实施例获取第二特征数据的流程图;
图4示出根据本公开实施例确定特定非时间相关特征的流程图;
图5示出根据本公开实施例对预测模型进行训练的流程图;
图6示出根据本公开实施例训练item2vec模型的流程图;
图7示出根据本公开实施例使用训练后的预测模型对待分类用户进行分类的流程图;
图8示出根据本公开的实施例的用户分类装置的结构框图;
图9示出根据本公开的实施例的电子设备的结构框图;
图10示出适于用来实现根据本公开实施例的用户分类方法的计算机系统的结构示意图。
具体实现方式
下文中,将参考附图详细描述本公开的示例性实现方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实现方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
上文提及,在互联网服务中,推荐系统和个性化定制的需求日益增加。其中,用户画像(User Profile)的核心工作是利用存储在服务器上的海量日志和数据库里的大量数据进行分析和挖掘,通过聚类等方法对用户分类,并根据类别给用户贴“标签”来表示该用户某一维度的特征,以实现相似用户的圈定。但是,目前的用户分类方法由于样本数量较少、特征过于稀疏等问题,准确性较低,泛化能力较差。
本公开实施例提供的技术方案通过获取训练数据,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征,对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练,使用训练后的预测模型对待分类用户进行分类。该技术方案能够在获取训练数据后,对非时间相关特征进行筛选以降低样本的特征维度,有效避免样本数量少、特征过于稀疏而导致的组合爆炸等风险,还能够提高预测模型的准确率和泛化能力。
图1示出根据本公开实施例的用户分类方法的流程图。
如图1所示,所述用户分类方法包括以下步骤S101-S104。
在步骤S101中,获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征。
在步骤S102中,对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征。
在步骤S103中,基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练。
在步骤S104中,使用训练后的预测模型对待分类用户进行分类。
根据本公开的实施例,所述训练数据是已知分类的数据,通过所述标签表示所述样本用户的类别,每个样本用户可以对应一个或多个标签,每个标签也可以对应一个或多个样本用户。例如,假设所述多个样本用户包括样本用户A、B和C,已知所述样本用户A的标签为“健身”,所述样本用户B的标签为“时尚”和“甜品”,所述样本用户C的标签为“时尚”、“健身”和“西餐”。
根据本公开的实施例,当存在多个标签时,可以通过与所述多个标签一一对应的多个预测模型对用户进行分类。例如,预测模型M1用于判断各个样本用户是否具有标签“健身”,预测模型M2用于判断各个样本用户是否具有标签“时尚”,预测模型M3用于判断各个样本用户是否具有标签“甜品”,预测模型M4用于判断各个样本用户是否具有标签“西餐”等。
根据本公开的实施例,所述时间相关特征可以包括下单时间、最后下单时间、用户生命周期、下单频次、下单周期等与时间相关的特征。对于每个预测模型,所述时间相关特征是确定的,例如,当所述预测模型用于根据用户的饮食偏好对用户进行分类时,所述时间相关特征可以包括下单频次和下单间隔的特征,其中,所述下单频次是指样本用户在固定周期内的下单次数,所述下单间隔是指样本用户在固定周期内的平均下单时间。另外,下单时间、最后下单时间等与时间相关的特征也能够用于用户分类,但与用户的饮食偏好并无密切关系,所述时间相关特征仅保留下单频次和下单间隔,以避免引入其他无关特征,对分类结构造成影响,从而提高了分类的准确性和预测模型的泛化能力。
根据本公开的实施例,所述时间相关特征,包括通过滑窗法对用户行为数据进行处理后获取的时间相关特征。例如,用户行为数据可以包括用户的订单数据和用户的网站点击数据,其可以反映用户的行为偏好。例如,假设以长度为7天的时窗,所述时间相关特征可以包括通过滑窗法对用户的下单数据网站点击数据进行处理之后获取的各个样本用户近30天中每7天的下单次数和下单间隔。
根据本公开的实施例,所述非时间相关特征可以包括菜系、口味、食材、年龄等是与时间间隔无关的特征,下面通过图2~图4对从非时间相关特征中筛选出特定非时间相关特征的方法进行解释和说明。
图2示出根据本公开实施例筛选非时间相关特征的流程图。
如图2所示,步骤S102可以包括以下步骤S201-S203。
在步骤S201中,对所述特征数据中的非时间相关特征进行有放回的随机抽样T次,获取T个第一特征数据,所述第一特征数据包括多个所述非时间相关特征,T为正整数。
例如,假设所述特征数据有n个非时间相关特征X={xn|1≤n≤N},其中,N为大于等于2的正整数,对所述非时间相关特征X进行有放回的随机抽取M个特征,得到第一特征数据其中,M为小于N的正整数,且所述第一特征数据Xt中的任意一个特征均是所述n个非时间相关特征的其中之一,即上述过程重复T次后,可以得到T个第一特征数据X1,…,XT,T为正整数。
在步骤S202中,基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据。
根据本公开的实施例,可以将所述多个样本用户的第一特征数据作为特征选择模型的输入,将所述样本用户的标签作为评价标准,输入所述第一特征数据中各个非时间相关特征的权重,并根据所述各个非时间相关特征的权重关系确定第二特征数据。例如,可以取所述第一特征数据中权重大于预设阈值的非时间相关特征,也可以取所述第一特征数据中权重最大的预设个数的非时间相关特征作为第二特征数据。
根据本公开的实施例,所述特征选择模型可以为逻辑回归模型、xgboost模型、xgboost+LR模型等分类模型,也可以是两个或更多个模型的融合。可以理解的,本领域技术人员可以根据实际需求选择特征选择模型,以及设置对第一特征数据的筛选条件,本申请对此不作具体限定。
在步骤S203中,基于所述T个第二特征数据,得到所述特定非时间相关特征。
例如,假设对各个第一特征数据进行筛选后,获取T个第二特征数据则可以从所述T个第二特征数据Xt_2所包括的非时间相关特征中选择特定非时间相关特征Y={yp|1≤p≤P},其中,P为小于等于N的正整数,且任意一个特定非时间相关特征yp均是所述n个非时间相关特征中的其中之一,即
图3示出根据本公开实施例获取第二特征数据的流程图。
如图3所示,所述步骤S202包括以下步骤S301-S302。
在步骤S301中,基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,得到所述第一特征数据中各个非时间相关特征的权重。
在步骤S302中,基于所述权重,确定所述第一特征数据中的各个非时间相关特征相对应的顺序,所述第二特征数据包括所述顺序满足选择条件的非时间相关特征。
例如,假设预设每个第二特征数据Xt_2包括M个非时间相关特征,则先在步骤S301中,假设以第一特征数据为输入,特征选择模型以所述样本用户的标签为期望输出进行训练,并在训练后输出所述第一特征数据Xt中各个非时间相关特征的·权重然后在步骤S302中,根据所述各个非时间相关特征的权重Pt大小,对所述第一特征数据Xt中各个非时间相关特征进行排序,以确定各个非时间相关特征的顺序,根据所述顺序确定第二特征数据,即取权重最大的M个非时间相关特征为第二特征数据
图4示出根据本公开实施例确定特定非时间相关特征的流程图。
如图4所示,所述步骤S203包括以下步骤S401-S403。
在步骤S401中,基于所述T个第二特征数据,确定中间特征的出现次数,其中,所述中间特征为任意一个所述第二特征数据中所包括的非时间相关特征,所述中间特征的出现次数为包含所述中间特征的第二特征数据个数。
在步骤S402中,基于所述第二特征的出现次数,确定第三特征数据。
在步骤S403中,基于所述特征选择模型,对所述第三特征进行贪心选择,确定所述特定非时间相关特征。
根据本公开的实施例,所述中间特征为任意一个所述第二特征数据中所包括的非时间相关特征,所述中间特征的出现次数为包含所述中间特征的第二特征数据个数。例如,有三个第二特征数据X1_2={x1,x2,x3}、X2_2={x2,x3}、X3_2={x3,x4},则中间特征x1和中间特征x4的出现次数为1次,中间特征x2的出现次数为2次,中间特征x3的出现次数为3次。
根据本公开的实施例,先通过有放回的多次随机抽样,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据,在基于所述第二特征的出现次数,确定第三特征数据,从而提高了所述第三特征数据中所包括的非时间相关特征的准确性和泛化能力。
根据本公开的实施例,基于所述特征选择模型,对所述第三特征数据进行贪心选择,从而有效去除非正交的非时间相关特征。这样,既可以有效去除样本中的噪声,又能够降低样本用户的特征维度,避免样本用户数量过少、特征维度过大造成的过稀疏,还可以在分类过程中能够减小样本用户间的距离,使得分类结果更加清晰,从而提高所述预测模型的准确性和泛化能力。
图5示出根据本公开实施例对预测模型进行训练的流程图。
如图5所示,所述步骤S103包括以下步骤S501-S502。
在步骤S501中,基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数。
根据本公开的实施例,所述基模型为以下任意一种模型:逻辑回归模型、xgboost模型、xgboost+LR模型、item2vec模型。
在步骤S502中,基于所述各个基模型的模型参数,确定所述多个基模型的组合系数。根据本公开的实施例,通过多个不同类型的基模型的组合,通常能够获得比单一模型更显著的泛化能力能。
根据本公开的实施例,可以将所述多个样本用户的所述特定非时间相关特征、所述时间相关特征以及所述样本用户的标签按照时间划分为训练集和预测集。例如,所述训练数据包括多个样本用户前40天的特征数据和样本用户的标签,可以将所述多个样本用户前40天至前11天的所述特定非时间相关特征、所述时间相关特征及其标签作为训练集,并将所述多个样本用户前10天的所述特定非时间相关特征、所述时间相关特征及其标签作为测试集。这样,通过设置训练集和测试集,可以有效避免训练后的所述预测模型出现过拟合情况。
图6示出根据本公开实施例训练item2vec模型的流程图。
如图6所示,当所述多个基模型包括item2vec模型时,所述步骤S401包括以下步骤S601-S604。
在步骤S601中,获取所述多个样本用户的物品向量和评价矩阵,所述物品向量描述与所述多个样本用户有关的物品,所述评价矩阵描述所述多个样本用户对所述物品的评价。
在步骤S602中,基于所述多个样本用户的物品向量和评价矩阵,获取各个所述样本用户的用户向量。
在步骤S603中,根据所述用户向量,确定所述样本用户之间的两两相似度。
在步骤S604中,根据所述样本用户之间的两两相似度,确定所述item2vec模型的模型参数。
根据本公开的实施例,所述物品与对所述用户分类的目的相关对象。例如,假设所述预测模型用于对不同饮食偏好的用户进行分类,则所述物品可以为菜品;假设所述预测模型用于对不同购物偏好的用户进行分类,则所述物品可以为商品;假设所述预测模型用于对不同视频喜好的用户进行分类,则所述物品可以为视频。
根据本公开的实施例,所述物品向量包括任意一个样本用户的历史订单中存在的物品,其中,出现在同一样本用户的历史订单中的物品视为正向样例。例如,样本用户A的历史订单中存在的物品w1和w2,样本用户B的历史订单中存在的物品w1、w3和w4,样本用户C的历史订单中存在的物品w1、w2和w4,则所述物品向量W=[w1、w2、w3、w4]。
根据本公开的实施例,评价矩阵用于反映各个样本用户对各个物品的喜好程度。例如,各个样本用户对于各个物品的下单次数、评分等特征。
根据本公开的实施例,用户向量用于反映所对应的样本用户对各个物品的偏好程度,例如,假设物品向量W=[w1、w2、w3、w4],样本用户A所对应的用户向量VA=[2,1,0,0]表示样本用户A对物品w1的偏好程度为2,对物品w2的偏好程度为1;样本用户B所对应的用户向量VB=[1,0,3,2]表示样本用户B对物品w1的偏好程度为1,对物品w3的偏好程度为3,对物品w4的偏好程度为2;样本用户C所对应的用户向量VC=[3,1,0,2]表示样本用户C对物品w1的偏好程度为3,对物品w2的偏好程度为1,对物品w4的偏好程度为2。
根据本公开的实施例,根据所述用户向量,可以通过余弦相似度确定所述样本用户之间的两两相似度。例如,样本用户A所对应的用户向量VA,样本用户B所对应的用户向量VB,所述用户向量VA和用户向量VB的余弦相似度可以通过以下公式获得:
其中,所述similarity为-1到1的值,当similarity=1时表示样本用户A和样本用户B对于物品的喜好完全相同,当similarity=-1时表示样本用户A和样本用户B对于物品的喜好完全相反。
根据本公开的实施例,可以基于所述多个样本用户的训练集合测试集的,确定一个相似度阈值作为所述item2vec模型的模型参数,以作为用户分类的标准之一。
根据本公开的实施例,在获取训练数据时,样本用户的数量通常较少,而物品的数量较多,通过基于item2vec模型的协同过滤方法和物品向量来获取用户向量,即通过利用物品间的相似程度获取用户的相似程度,以避免特征过于稀疏而造成的预测模型准确性和泛化能力较差。
图7示出根据本公开实施例使用训练后的预测模型对待分类用户进行分类的流程图。
如图7所示,所述步骤S104包括以下步骤S701-S702。
在步骤S701中,获取所述待分类用户的时间相关特征和特定非时间相关特征。
在步骤S702中,基于所述待分类用户的时间相关特征和特定非时间相关特征,通过所述训练后的预测模型,确定所述待分类用户的标签。
例如,假设时间相关特征包括下单频次和下单间隔,特定非时间相关特征Y={yp|1≤p≤P},为了对待分类用户进行分类,可以先获取所述待分类用户的下单频次和下单间隔和特定非时间相关特征Y={yp|1≤p≤P},以所述待分类用户的下单频次和下单间隔和特定非时间相关特征Y作为输入,通过训练后的预测模型,确定所述待分类用户的标签。
图8示出根据本公开的实施例的用户分类装置800的结构框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。
如图8所示,所述用户分类装置800包括获取模块801、筛选模块802、训练模块803和分类模块804。
所述获取模块801被配置为获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;
所述筛选模块802被配置为对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征;
所述训练模块803被配置为基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;
所述分类模块804被配置为使用训练后的预测模型对待分类用户进行分类。
其特征在于,所述时间相关特征,包括通过滑窗法对用户行为数据进行处理后获取的时间相关特征。
根据本公开的实施例,所述对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,包括:
对所述特征数据中的非时间相关特征进行有放回的随机抽样T次,获取T个第一特征数据,所述第一特征数据包括多个所述非时间相关特征,T为正整数;
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据;
基于所述T个第二特征数据,得到所述特定非时间相关特征。
根据本公开的实施例,所述基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据,包括:
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,得到所述第一特征数据中各个非时间相关特征的权重;
基于所述权重,确定所述第一特征数据中的各个非时间相关特征相对应的顺序;
所述第二特征数据包括所述顺序满足选择条件的非时间相关特征。
根据本公开的实施例,所述基于所述T个第二特征数据,得到所述特定非时间相关特征,包括:
基于所述T个第二特征数据,确定中间特征的出现次数,其中,所述中间特征为任意一个所述第二特征数据中所包括的非时间相关特征,所述中间特征的出现次数为包含所述中间特征的第二特征数据个数;
基于所述第二特征的出现次数,确定第三特征数据;
基于所述特征选择模型,对所述第三特征进行贪心选择,确定所述特定非时间相关特征。
根据本公开的实施例,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练,包括:
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数;
基于所述各个基模型的模型参数,确定所述多个基模型的组合系数。
根据本公开的实施例,当所述多个基模型包括item2vec模型时,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数,包括:
获取所述多个样本用户的物品向量和评价矩阵,所述物品向量描述与所述多个样本用户有关的物品,所述评价矩阵描述所述多个样本用户对所述物品的评价;
基于所述多个样本用户的物品向量和评价矩阵,获取各个所述样本用户的用户向量;
根据所述用户向量,确定所述样本用户之间的两两相似度;
根据所述样本用户之间的两两相似度,确定所述item2vec模型的模型参数。
根据本公开的实施例,所述基模型为以下任意一种模型:
逻辑回归模型、xgboost模型、xgboost+LR模型、item2vec模型。
根据本公开的实施例,所述使用训练后的预测模型对待分类用户进行分类,包括:
获取所述待分类用户的时间相关特征和特定非时间相关特征;
基于所述待分类用户的时间相关特征和特定非时间相关特征,通过所述训练后的预测模型,确定所述待分类用户的标签。
图9示出根据本公开的实施例的电子设备900的结构框图。
如图9所示,所述电子设备900包括存储器901和处理器902。所述存储器901用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器902执行以实现以下方法步骤:
获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;
对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征;
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;
使用训练后的预测模型对待分类用户进行分类。
根据本公开的实施例,所述时间相关特征,包括通过滑窗法对用户行为数据进行处理后获取的时间相关特征。
根据本公开的实施例,所述对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,包括:
对所述特征数据中的非时间相关特征进行有放回的随机抽样T次,获取T个第一特征数据,所述第一特征数据包括多个所述非时间相关特征,T为正整数;
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据;
基于所述T个第二特征数据,得到所述特定非时间相关特征。
根据本公开的实施例,所述基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据,包括:
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,得到所述第一特征数据中各个非时间相关特征的权重;
基于所述权重,确定所述第一特征数据中的各个非时间相关特征相对应的顺序;
所述第二特征数据包括所述顺序满足选择条件的非时间相关特征。
根据本公开的实施例,所述基于所述T个第二特征数据,得到所述特定非时间相关特征,包括:
基于所述T个第二特征数据,确定中间特征的出现次数,其中,所述中间特征为任意一个所述第二特征数据中所包括的非时间相关特征,所述中间特征的出现次数为包含所述中间特征的第二特征数据个数;
基于所述第二特征的出现次数,确定第三特征数据;
基于所述特征选择模型,对所述第三特征进行贪心选择,确定所述特定非时间相关特征。
根据本公开的实施例,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练,包括:
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数;
基于所述各个基模型的模型参数,确定所述多个基模型的组合系数。
根据本公开的实施例,当所述多个基模型包括item2vec模型时,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数,包括:
获取所述多个样本用户的物品向量和评价矩阵,所述物品向量描述与所述多个样本用户有关的物品,所述评价矩阵描述所述多个样本用户对所述物品的评价;
基于所述多个样本用户的物品向量和评价矩阵,获取各个所述样本用户的用户向量;
根据所述用户向量,确定所述样本用户之间的两两相似度;
根据所述样本用户之间的两两相似度,确定所述item2vec模型的模型参数。
根据本公开的实施例,所述基模型为以下任意一种模型:
逻辑回归模型、xgboost模型、xgboost+LR模型、item2vec模型。
根据本公开的实施例,所述使用训练后的预测模型对待分类用户进行分类,包括:
获取所述待分类用户的时间相关特征和特定非时间相关特征;
基于所述待分类用户的时间相关特征和特定非时间相关特征,通过所述训练后的预测模型,确定所述待分类用户的标签。
图10示出适于用来实现根据本公开实施例的用户分类方法的计算机系统1000的结构示意图。
如图10所示,计算机系统1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1009加载到随机访问存储器(RAM)1003中的程序而执行上述实施例中的各种处理。在RAM1003中,还存储有系统1000操作所需的各种程序和数据。CPU1001、ROM1002以及RAM1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在其可读介质上的计算机程序,所述计算机程序包含用于执行上述数据管理和/或访问方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种可读存储介质,该可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的可读存储介质;也可以是单独存在,未装配入设备中的可读存储介质。可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (23)
1.一种用户分类方法,其特征在于,包括:
获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;
对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,以降低样本的特征维度;
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;
使用训练后的预测模型对待分类用户进行分类;
其中,所述对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,包括:
对所述特征数据中的非时间相关特征进行有放回的随机抽样T次,获取T个第一特征数据,所述第一特征数据包括多个所述非时间相关特征,T为正整数;
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据;
基于所述T个第二特征数据,得到所述特定非时间相关特征。
2.根据权利要求1所述的方法,其特征在于,所述时间相关特征,包括通过滑窗法对用户行为数据进行处理后获取的时间相关特征。
3.根据权利要求1所述的方法,其特征在于,所述基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据,包括:
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,得到所述第一特征数据中各个非时间相关特征的权重;
基于所述权重,确定所述第一特征数据中的各个非时间相关特征相对应的顺序;
所述第二特征数据包括所述顺序满足选择条件的非时间相关特征。
4.根据权利要求1所述的方法,其特征在于,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练,包括:
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数;
基于所述各个基模型的模型参数,确定所述多个基模型的组合系数。
5.根据权利要求4所述的方法,其特征在于,当所述多个基模型包括item2vec模型时,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数,包括:
获取所述多个样本用户的物品向量和评价矩阵,所述物品向量描述与所述多个样本用户有关的物品,所述评价矩阵描述所述多个样本用户对所述物品的评价;
基于所述多个样本用户的物品向量和评价矩阵,获取各个所述样本用户的用户向量;
根据所述用户向量,确定所述样本用户之间的两两相似度;
根据所述样本用户之间的两两相似度,确定所述item2vec模型的模型参数。
6.根据权利要求4所述的方法,其特征在于,所述基模型为以下任意一种模型:
逻辑回归模型、xgboost模型、xgboost+LR模型、item2vec模型。
7.根据权利要求1所述的方法,其特征在于,所述使用训练后的预测模型对待分类用户进行分类,包括:
获取所述待分类用户的时间相关特征和特定非时间相关特征;
基于所述待分类用户的时间相关特征和特定非时间相关特征,通过所述训练后的预测模型,确定所述待分类用户的标签。
8.一种用户分类装置,其特征在于,包括:
获取模块,被配置为获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;
筛选模块,被配置为对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,以降低样本的特征维度;
训练模块,被配置为基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;
分类模块,被配置为使用训练后的预测模型对待分类用户进行分类;
其中,所述对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,包括:
对所述特征数据中的非时间相关特征进行有放回的随机抽样T次,获取T个第一特征数据,所述第一特征数据包括多个所述非时间相关特征,T为正整数;
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据;
基于所述T个第二特征数据,得到所述特定非时间相关特征。
9.根据权利要求8所述的装置,其特征在于,所述时间相关特征,包括通过滑窗法对用户行为数据进行处理后获取的时间相关特征。
10.根据权利要求8所述的装置,其特征在于,所述基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据,包括:
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,得到所述第一特征数据中各个非时间相关特征的权重;
基于所述权重,确定所述第一特征数据中的各个非时间相关特征相对应的顺序;
所述第二特征数据包括所述顺序满足选择条件的非时间相关特征。
11.根据权利要求8所述的装置,其特征在于,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练,包括:
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数;
基于所述各个基模型的模型参数,确定所述多个基模型的组合系数。
12.根据权利要求11所述的装置,其特征在于,当所述多个基模型包括item2vec模型时,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数,包括:
获取所述多个样本用户的物品向量和评价矩阵,所述物品向量描述与所述多个样本用户有关的物品,所述评价矩阵描述所述多个样本用户对所述物品的评价;
基于所述多个样本用户的物品向量和评价矩阵,获取各个所述样本用户的用户向量;
根据所述用户向量,确定所述样本用户之间的两两相似度;
根据所述样本用户之间的两两相似度,确定所述item2vec模型的模型参数。
13.根据权利要求11所述的装置,其特征在于,所述基模型为以下任意一种模型:
逻辑回归模型、xgboost模型、xgboost+LR模型、item2vec模型。
14.根据权利要求8所述的装置,其特征在于,所述使用训练后的预测模型对待分类用户进行分类,包括:
获取所述待分类用户的时间相关特征和特定非时间相关特征;
基于所述待分类用户的时间相关特征和特定非时间相关特征,通过所述训练后的预测模型,确定所述待分类用户的标签。
15.一种电子设备,其特征在于,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤:
获取训练数据,其中,所述训练数据包括多个样本用户的特征数据和所述样本用户的标签,所述特征数据包括时间相关特征和非时间相关特征;
对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,以降低样本的特征维度;
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练;
使用训练后的预测模型对待分类用户进行分类;
其中,所述对所述特征数据中的非时间相关特征进行筛选,得到特定非时间相关特征,包括:
对所述特征数据中的非时间相关特征进行有放回的随机抽样T次,获取T个第一特征数据,所述第一特征数据包括多个所述非时间相关特征,T为正整数;
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据;
基于所述T个第二特征数据,得到所述特定非时间相关特征。
16.根据权利要求15所述的电子设备,其特征在于,所述时间相关特征,包括通过滑窗法对用户行为数据进行处理后获取的时间相关特征。
17.根据权利要求15所述的电子设备,其特征在于,所述基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,筛选各个所述第一特征数据中的非时间相关特征,获取T个第二特征数据,包括:
基于特征选择模型、所述多个样本用户的第一特征数据以及所述样本用户的标签,得到所述第一特征数据中各个非时间相关特征的权重;
基于所述权重,确定所述第一特征数据中的各个非时间相关特征相对应的顺序;
所述第二特征数据包括所述顺序满足选择条件的非时间相关特征。
18.根据权利要求15所述的电子设备,其特征在于,所述基于所述T个第二特征数据,得到所述特定非时间相关特征,包括:
基于所述T个第二特征数据,确定中间特征的出现次数,其中,所述中间特征为任意一个所述第二特征数据中所包括的非时间相关特征,所述中间特征的出现次数为包含所述中间特征的第二特征数据个数;
基于所述第二特征的出现次数,确定第三特征数据;
基于所述特征选择模型,对所述第三特征进行贪心选择,确定所述特定非时间相关特征。
19.根据权利要求15所述的电子设备,其特征在于,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征对预测模型进行训练,包括:
基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数;
基于所述各个基模型的模型参数,确定所述多个基模型的组合系数。
20.根据权利要求19所述的电子设备,其特征在于,当所述多个基模型包括item2vec模型时,所述基于所述多个样本用户的所述特定非时间相关特征和所述时间相关特征训练多个基模型,确定各个基模型的模型参数,包括:
获取所述多个样本用户的物品向量和评价矩阵,所述物品向量描述与所述多个样本用户有关的物品,所述评价矩阵描述所述多个样本用户对所述物品的评价;
基于所述多个样本用户的物品向量和评价矩阵,获取各个所述样本用户的用户向量;
根据所述用户向量,确定所述样本用户之间的两两相似度;
根据所述样本用户之间的两两相似度,确定所述item2vec模型的模型参数。
21.根据权利要求19所述的电子设备,其特征在于,所述基模型为以下任意一种模型:
逻辑回归模型、xgboost模型、xgboost+LR模型、item2vec模型。
22.根据权利要求15所述的电子设备,其特征在于,所述使用训练后的预测模型对待分类用户进行分类,包括:
获取所述待分类用户的时间相关特征和特定非时间相关特征;
基于所述待分类用户的时间相关特征和特定非时间相关特征,通过所述训练后的预测模型,确定所述待分类用户的标签。
23.一种可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-7任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910942263.7A CN112580681B (zh) | 2019-09-30 | 2019-09-30 | 用户分类方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910942263.7A CN112580681B (zh) | 2019-09-30 | 2019-09-30 | 用户分类方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580681A CN112580681A (zh) | 2021-03-30 |
CN112580681B true CN112580681B (zh) | 2022-02-01 |
Family
ID=75116795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910942263.7A Expired - Fee Related CN112580681B (zh) | 2019-09-30 | 2019-09-30 | 用户分类方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580681B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875781A (zh) * | 2018-05-07 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种标签分类方法、装置、电子设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030084066A1 (en) * | 2001-10-31 | 2003-05-01 | Waterman Scott A. | Device and method for assisting knowledge engineer in associating intelligence with content |
CN107273454B (zh) * | 2017-05-31 | 2020-11-03 | 北京京东尚科信息技术有限公司 | 用户数据分类方法、装置、服务器和计算机可读存储介质 |
CN108304468B (zh) * | 2017-12-27 | 2021-12-07 | 中国银联股份有限公司 | 一种文本分类方法以及文本分类装置 |
CN108288139B (zh) * | 2018-01-29 | 2021-03-16 | 北京星选科技有限公司 | 资源分配方法及装置 |
CN108416003B (zh) * | 2018-02-27 | 2021-12-21 | 百度在线网络技术(北京)有限公司 | 一种图片分类方法和装置、终端、存储介质 |
CN109166012B (zh) * | 2018-09-21 | 2021-05-28 | 苏州创旅天下信息技术有限公司 | 针对行程预定类用户的分类及信息推送的方法和装置 |
CN110188796A (zh) * | 2019-04-25 | 2019-08-30 | 博彦科技股份有限公司 | 用户识别方法、装置、存储介质和处理器 |
-
2019
- 2019-09-30 CN CN201910942263.7A patent/CN112580681B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875781A (zh) * | 2018-05-07 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 一种标签分类方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112580681A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199428B (zh) | 商品推荐方法、装置、存储介质及计算机设备 | |
CN106651057B (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN109684538A (zh) | 一种基于用户个人特征的推荐方法及推荐系统 | |
CN105320766A (zh) | 信息推送方法和装置 | |
CN109145245A (zh) | 预测点击率的方法、装置、计算机设备及存储介质 | |
CN107832338B (zh) | 一种识别核心产品词的方法和系统 | |
CN109753601A (zh) | 推荐信息点击率确定方法、装置及电子设备 | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
CN112468853B (zh) | 电视资源推荐方法、装置、计算机设备及存储介质 | |
CN110489649A (zh) | 标签关联内容的方法及装置 | |
CN111225009A (zh) | 用于生成信息的方法和装置 | |
CN115545832A (zh) | 商品搜索推荐方法及其装置、设备、介质 | |
CN114357184B (zh) | 事项推荐方法及相关装置、电子设备和存储介质 | |
CN113220974B (zh) | 点击率预测模型训练、搜索召回方法、装置、设备及介质 | |
CN107239495A (zh) | 基于关系链权重的商品以及搜索排序展示方法 | |
CN112464106B (zh) | 对象推荐方法及装置 | |
CN112258285A (zh) | 一种内容推荐方法及装置、设备、存储介质 | |
CN113792952A (zh) | 用于生成模型的方法和装置 | |
CN112580681B (zh) | 用户分类方法、装置、电子设备及可读存储介质 | |
CN116010700B (zh) | 一种基于知识图谱的用户画像方法 | |
CN110852078A (zh) | 生成标题的方法和装置 | |
CN115168700A (zh) | 一种基于预训练算法的信息流推荐方法、系统及介质 | |
CN114971766A (zh) | 商品推荐方法及其装置、设备、介质、产品 | |
CN115392992A (zh) | 商品推荐方法、终端设备及计算机可读存储介质 | |
CN111353101A (zh) | 一种数据推送方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220201 |
|
CF01 | Termination of patent right due to non-payment of annual fee |