CN110287418B

CN110287418B - 数据处理及倾向特征值识别方法、装置、电子设备

Info

Publication number: CN110287418B
Application number: CN201910563740.9A
Authority: CN
Inventors: 刘鑫鑫
Original assignee: Rajax Network Technology Co Ltd
Current assignee: Rajax Network Technology Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2021-10-19
Anticipated expiration: 2039-06-26
Also published as: CN110287418A

Abstract

本公开实施例公开了一种数据处理及倾向特征值识别方法、装置、电子设备。该数据处理方法包括：获取样本数据；其中，所述样本数据包括样本对象所提供的产品类别的多个样本特征；所述样本特征包括用户针对所述产品类别下的产品所产生的行为数据；根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值；根据所述样本数据和所述倾向特征值对倾向特征值识别模型进行训练。使得该倾向特征值识别模型能够从用户的行为数据学习到能够影响用户对产品和/或服务等对象的倾向特征值的各个特征的权重，进而可以根据这些特征的权重识别出用户的真实需求，能够应用到检索等技术领域，提高检索结果的准确率。

Description

数据处理及倾向特征值识别方法、装置、电子设备

技术领域

本公开涉及计算机技术领域，具体涉及一种数据处理及倾向特征值识别方法、装置、电子设备。

背景技术

随着互联网技术的发展，越来越多的用户通过线上平台获取产品和/服务等对象。而线上平台由于所经营的产品和/或服务种类繁多，用户在搜索产品和/或服务时难免会由于命中太多不需要的搜索结果而导致用户的使用体验下降的问题。因此，如何通过分析用户的真实需求而提高用户在线上平台的使用体验是目前亟需解决的问题之一。

发明内容

本公开实施例提供一种数据处理及倾向特征值识别方法、装置、电子设备及存储介质。

第一方面，本公开实施例中提供了一种数据处理方法，包括：

获取样本数据；其中，所述样本数据包括样本对象所提供的产品类别的多个样本特征；所述样本特征包括用户针对所述产品类别下的产品所产生的行为数据；

根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值；

根据所述样本数据和所述倾向特征值对倾向特征值识别模型进行训练。

结合第一方面，本公开在第一方面的第一种实现方式中，多个所述样本特征包括以下至少两个：

用户在预设时间段内对所述产品类别下的产品的评价数据；

用户在预设时间段内对所述样本对象的评价数据；

用户在预设时间段内对所述产品类别下的产品的下单量；

用户在预设时间段内对所述产品类别下的产品的点击量；

用户在预设时间段内购买所述产品类别下的产品的价格；

用户在预设时间段内的不同经营时段购买所述产品类别下的产品的价格；

用户在预设时间段内的不同经营时段对所述产品类别下的产品的下单量；

用户在预设时间段内的不同经营时段对所述产品类别下的产品的点击量；

在预设时间段内对所述产品类别下的产品的最早购买时间距离当前时间的间隔时长；

在预设时间段内对所述产品类别下的产品的最早点击时间距离当前时间的间隔时长；

在预设时间段内对所述产品类别下的产品的最近购买时间距离当前时间的间隔时长；

在预设时间段内对所述产品类别下的产品的最近点击时间距离当前时间的间隔时长。

结合第一方面和/或第一方面的第一种实现方式，本公开在第一方面的第二种实现方式中，获取样本数据之后，还包括：

在所述样本数据对应的多个样本特征中特征缺失个数超过预定数量时，将所述样本数据剔除；和/或

在所述样本数据对应的多个样本特征中特征缺失个数不超过预定数量时，利用热卡填充方式填充缺失的所述样本特征；和/或

将所述样本特征进行特征归一化。

结合第一方面、第一方面的第一种实现方式和/或第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，将所述样本特征进行特征归一化，包括：

利用排序归一化对所述样本特征进行特征归一化。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和/或第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值，包括：

根据用户对所述产品类别下的产品的下单量以及用户对所述产品类别下的产品的评价分数确定用户对所述产品类别的倾向特征值。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和/或第一方面的第四种实现方式，本公开在第一方面的第五种实现方式中，根据用户对所述产品类别下的产品的下单量以及用户对所述产品类别下的产品的评价分数确定用户对所述产品类别的倾向特征值，包括：

根据用户对所述产品类别下产品的下单量确定所述产品类别的第一排名；

根据用户对所述产品类别下产品的评价分数确定所述产品类别的第二排名；

对所述第一排名和第二排名加权后确定用户对所述产品类别的倾向特征值。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和/或第一方面的第五种实现方式，本公开在第一方面的第六种实现方式中，所述样本对象提供的产品类别为所述样本对象的主营类别。

第二方面，本公开实施例中提供了一种倾向特征值识别方法，包括：

获取待识别产品类别的多个特征数据；其中，所述特征数据包括用户针对所述待识别产品类别下的产品所产生的行为数据；

利用预先训练好的识别模型对所述多个特征数据进行识别，以得到用户对所述待识别产品类别的倾向特征值；其中，所述倾向特征值识别模型利用第一方面所述的方法训练。

第三方面，本公开实施例中提供了一种数据处理装置，包括：

第一获取模块，被配置为获取样本数据；其中，所述样本数据包括样本对象所提供的产品类别的多个样本特征；所述样本特征包括用户针对所述产品类别下的产品所产生的行为数据；

确定模块，被配置为根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值；

训练模块，被配置为根据所述样本数据和所述倾向特征值对倾向特征值识别模型进行训练。

第四方面，本公开实施例中提供了一种倾向特征值识别装置，包括：

第二获取模块，被配置为获取待识别产品类别的多个特征数据；其中，所述特征数据包括用户针对所述待识别产品类别下的产品所产生的行为数据；

识别子模块，被配置为利用预先训练好的识别模型对所述多个特征数据进行识别，以得到用户对所述待识别产品类别的倾向特征值；其中，所述倾向特征值识别模型利用第三方面所述的装置训练。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，数据处理装置或倾向特征值识别装置的结构中包括存储器和处理器，所述存储器用于存储一条或多条支持数据处理装置或倾向特征值识别装置执行上述第一方面或第二方面的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述数据处理装置或倾向特征值识别装置还可以包括通信接口，用于数据处理装置或倾向特征值识别装置与其他设备或通信网络通信。

第五方面，本公开实施例提供了一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤：

结合第五方面，本公开在第五方面的第一种实现方式中，多个所述样本特征包括以下至少两个：

用户在预设时间段内对所述产品类别下的产品的评价数据；

用户在预设时间段内对所述样本对象的评价数据；

用户在预设时间段内对所述产品类别下的产品的下单量；

用户在预设时间段内对所述产品类别下的产品的点击量；

用户在预设时间段内购买所述产品类别下的产品的价格；

结合第五方面和/或第五方面的第一种实现方式，本公开在第五方面的第二种实现方式中，获取样本数据之后，所述一条或多条计算机指令还被所述处理器执行以实现以下方法步骤：

将所述样本特征进行特征归一化。

结合第五方面、第五方面的第一种实现方式和/或第五方面的第二种实现方式，本公开在第五方面的第三种实现方式中，将所述样本特征进行特征归一化，包括：

利用排序归一化对所述样本特征进行特征归一化。

结合第五方面、第五方面的第一种实现方式、第五方面的第二种实现方式和/或第五方面的第三种实现方式，本公开在第五方面的第四种实现方式中，根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值，包括：

结合第五方面、第五方面的第一种实现方式、第五方面的第二种实现方式、第五方面的第三种实现方式和/或第五方面的第四种实现方式，本公开在第五方面的第五种实现方式中，根据用户对所述产品类别下的产品的下单量以及用户对所述产品类别下的产品的评价分数确定用户对所述产品类别的倾向特征值，包括：

结合第五方面、第五方面的第一种实现方式、第五方面的第二种实现方式、第五方面的第三种实现方式、第五方面的第四种实现方式和/或第五方面的第五种实现方式，本公开在第五方面的第六种实现方式中，所述样本对象提供的产品类别为所述样本对象的主营类别。

第六方面，本公开实施例提供了一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤：

利用预先训练好的识别模型对所述多个特征数据进行识别，以得到用户对所述待识别产品类别的倾向特征值；其中，所述倾向特征值识别模型利用第五方面所述的电子设备训练。

第七方面，本公开实施例提供了一种计算机可读存储介质，用于存储数据处理装置和/或倾向特征值识别装置所用的计算机指令，其包含用于执行上述任一方法所涉及的计算机指令。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开实施例在训练倾向特征值识别模型的过程中，针对每个产品类别会收集多方面的样本特征，这些样本特征包括用户对产品类别产生的各种行为数据；同时还根据这些样本特征确定用户对该产品类别的倾向特征值，进而根据产品类别的多个样本特征和倾向特征值训练出倾向特征值识别模型，使得该倾向特征值识别模型能够从用户的行为数据学习到能够影响用户对产品和/或服务等对象的倾向特征值的各个特征的权重，进而可以根据这些特征的权重识别出用户的真实需求，能够应用到检索等技术领域，提高检索结果的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的数据处理方法的流程图；

图2示出根据图1所示实施方式的利用评价分数确定倾向特征值部分的流程图；

图3示出根据本公开一实施方式的倾向特征值识别方法的流程图；

图4示出根据本公开一实施方式的数据处理装置的结构框图；

图5示出根据图4所示实施方式的利用评价分数确定倾向特征值部分的结构框图；

图6示出根据本公开一实施方式的倾向特征值识别装置的结构框图；

图7是适于用来实现根据本公开一实施方式的数据处理方法的电子设备的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出根据本公开一实施方式的数据处理方法的流程图。如图1所示，所述数据处理方法包括以下步骤：

在步骤S101中，获取样本数据；其中，所述样本数据包括样本对象所提供的产品类别的多个样本特征；所述样本特征包括用户针对所述产品类别下的产品所产生的行为数据；

在步骤S102中，根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值；

在步骤S103中，根据所述样本数据和所述倾向特征值对所述倾向特征值识别模型进行训练。

本实施例中，样本对象可以是提供线上产品的提供者，例如外卖点餐平台的各个店铺。样本对象所提供的产品可以是任何种类的产品，例如外卖点餐平台上的菜品、电商平台上的各种服装、各种生活用品、各种家居用品等等。产品类别为样本对象所提供产品的类别，例如外卖点餐平台上的产品类别可以包括但不限于餐饮类下的各种菜系(例如地方菜系、西餐、中餐等)、各种菜式(例如牛排、披萨、火锅、家常菜等)等；电商平台上的负服装所涉及的上衣、外套、裤子、裙子等产品类别。

产品类别可以根据线上平台的已有分类确定，在收集样本特征时，可以针对线上平台已有的分类体系，针对同一样本对象(例如外卖点餐平台中的同一个店铺)，从每个产品类别下收集该样本对象提供的各种产品对应的用户行为数据，进而提取出多个样本特征。

为了训练倾向特征值识别模型，可以收集线上平台多个样本对象的样本数据，一个样本对象可以对应一个样本数据，也可以对应多个样本数据，也即一个样本对象提供多少个产品类别的产品，就可以针对该样本对象收集多少条样本数据。每个样本数据对应一个样本对象所提供的一个产品类别，而一个样本数据包括的样本特征为一个样本对象所提供的一个产品类别下的多个产品所对应的用户行为数据，由于用户行为数据可以分为多种不同的行为数据，因此一个样本数据可以包括多个样本特征。用户针对产品所产生的行为数据可以包括显性行为数据，也可以包括隐性行为数据，相应地，样本特征也可以包括显性特征和隐性特征。例如，用户对产品或者样本对象的评价数据为显性行为数据，相对应的样本特征也为显性特征；而用户对产品或样本对象的点击量、产品的下单量等为隐性行为数据(这是因为可以从点击量和下单量推导出用户对该产品的倾向特征值)，因此相对应的样本特征为隐性特征。

在收集了样本对象所提供的产品类别下的各个样本特征之后，可以根据部分样本特征确定出用户对该样本对象所提供的各个产品类别的倾向特征值。倾向特征值可以理解为样本对象提供的多个产品类别中，用户对每个产品类别的倾向程度(或偏好程度)，例如用户经常点击某一样本对象提供的某一产品类别下的一个或多个产品，并且还多次购买过这个产品类别下的产品，则可以认为该用户对该产品类别的倾向特征值较高，反之，用户几乎不点击另一产品类别下的产品，也没有购买过另一产品类别下的产品，则可以认为该用户对该产品类别的倾向特征值不高。

在一些实施例中，可以从多个样本特征中挑选出最能体现用户对产品类别的倾向特征值的一个或多个特征，通过统计概率的方式可以计算得到用户对样本对象所提供的产品类别的倾向特征值。例如可以通过统计最能体现用户倾向特征值的评价数据和下单量得到用户对某一产品类别的倾向特征值。通过这种方式，可以针对样本对象计算得到训练模型所需要的标签数据，而无需人工进行标注，既能节省成本，又能提高模型训练的效率。

本实施例中，倾向特征值识别模型可以采用xgboost模型、GBDT模型、神经网络模型等。一个样本数据包括一个样本对象所提供的一个产品类别的多个样本特征，每个样本特征被量化之后组合而成的向量作为需求识别模型的输入数据，而根据该样本数据得到的倾向特征值为训练需求识别模型的标签数据。每个迭代循环过程中，一个样本数据输入至倾向特征值识别模型，并得到倾向特征值识别模型的输出结果后，可以将该输出结果与该倾向特征值进行比较，进而更新该倾向特征值识别模型的模型参数，以使得倾向特征值识别模型的输出结果与样本数据对应的倾向特征值更加接近。经过大量样本数据的训练，倾向特征值识别模型的模型参数被不断更新，在训练结束后，倾向特征值识别模型能够针对输入数据给出一个比较准确的输出结果。

以xgboost模型为例，训练时针对XGBClassifier函数需要配置的相应参数包括：learning_rate(学习率)、n_estimators(树的个数)、max_depth(树的深度)、min_child_weight、seed(随机种子数)、subsample(随机采样训练样本时训练实例的子采样比，也即随机选择多少样本)、colsample_bytree(生成树时进行的列采样)、gamma(树的叶子节点上作进一步分区所需的最小损失减少，越大越保守，一般选取0.1、0.2)、reg_lambda(控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合)。xgboost模型训练过程为已有技术，在此不再赘述。

本公开实施例在训练倾向特征值识别模型的过程中，针对每个产品类别会收集多方面的样本特征，这些样本特征包括用户对产品类别下的产品所产生的各种行为数据；同时还根据这些样本特征确定用户对该产品类别的倾向特征值，进而根据产品类别的多个样本特征和倾向特征值训练出倾向特征值识别模型，使得该倾向特征值识别模型能够从用户的行为数据学习到能够影响用户对产品和/或服务等对象的倾向特征值的各个特征的权重，进而可以根据这些特征的权重识别出用户的真实需求，能够应用到检索等技术领域，提高检索结果的准确率。

在本实施例的一个可选实现方式中，多个样本特征可以是用户在预设时间段内产生的行为数据中得到的，例如在近三个月内用户产生的行为数据。

在本实施例的一个可选实现方式中，多个所述样本特征包括以下至少之一：用户在预设时间段内对所述产品类别下的产品的评价数据(例如，购买该产品类别下的所有产品从用户处得到的好评数、差评数、中评数、评价分数等)；用户在预设时间段内对所述样本对象的评价数据(例如用户对提供该产品类别的样本对象的好评数、差评数、中评数、评价分数等)；用户在预设时间段内对所述产品类别下的产品的下单量(例如用户在样本对象提供的该产品类别下对各个产品的下单总量)；用户在预设时间段内对所述产品类别下的产品的点击量(例如用户在样本对象提供的该产品类别下对各个产品的点击总量)；用户在预设时间段内购买所述产品类别下的产品的价格(例如用户针对样本对象所提供的该产品类别下的产品每个订单所花费的平均价格)；用户在预设时间段内的不同经营时段购买所述产品类别下的产品的价格(例如用户在不同经营时段，针对样本对象所提供的该产品类别下的产品每个订单所花费的平均价格，不同经营时段可以根据实际情况划分，例如对于外卖点餐平台，可以划分早餐、午餐、下午茶、晚餐、夜宵等五个不同的经营时段)；用户在预设时间段内的不同经营时段对所述产品类别下的产品的下单量(例如用户对样本对象所提供的该产品类别下各个产品在不同经营时段内统计的下单量)；用户在预设时间段内的不同经营时段对所述产品类别下的产品的点击量(例如用户对样本对象所提供的该产品类别下各个产品在不同经营时段内统计的点击量)；在预设时间段内对所述产品类别下的产品的最早购买时间距离当前时间的间隔时长(例如样本对象所提供的该产品类别下某一产品最早被购买的时间点距离当前时间的间隔时长)；在预设时间段内对所述产品类别下的产品的最早点击时间距离当前时间的间隔时长(例如样本对象所提供的该产品类别下某一产品最早被点击的时间点距离当前时间的间隔时长)；在预设时间段内对所述产品类别下的产品的最近购买时间距离当前时间的间隔时长(例如样本对象所提供的该产品类别下某一产品最晚被购买的时间点也即最近一次购买某个产品的时间点距离当前时间的间隔时长)；在预设时间段内对所述产品类别下的产品的最近点击时间距离当前时间的间隔时长(例如样本对象所提供的该产品类别下某一产品最晚被点击的时间点也即最近一次点击某个产品的时间点距离当前时间的间隔时长)。

在本实施例的一个可选实现方式中，步骤S101，即获取样本数据的步骤之后，所述方法还包括：

将所述样本特征进行特征归一化。

该可选的实现方式中，样本特征缺失可以理解为该样本特征对应的值为0。在收集样本数据时，由于样本特征对应的是用户产生的行为数据，对于某个或者某些样本对象所提供的产品类别而言，用户对该产品类别下的产品所产生的行为数据很少，从中几乎没有具有学习价值的信息时，可以将这条样本数据剔除，以避免无意义的训练流程。

而对有些样本对象而言，用户对其所提供的产品类别下的产品产生了一定数量的行为数据，但是由于上线时间较短或者其他原因，导致有些行为数据缺失，为了达到更好的训练效果，可以通过热卡填充方式填充缺失的样本特征。热卡填充方式的原理是在完整数据中找到一个与它最相似的对象，然后用这个相似对象的样本特征来进行填充。也即从其他样本数据中寻找最相似的样本数据，并利用该最相似的样本数据对应的样本特征值来填充该样本数据中缺失的样本特征值。

由于不同的样本特征其统计范围不同，为了将这些不同样本特征组合成起来形成输入数据，可以将样本特征进行特征归一化，例如将这些样本特征的值进行线性变换后映射到[0,1]之间。

在本实施例的一个可选实现方式中，所述将所述样本特征进行特征归一化的步骤，进一步包括：

利用排序归一化对所述样本特征进行特征归一化。

该可选的实现方式中，对某个样本特征进行归一化时，可以将收集到的所有样本数据中该样本特征对应的值进行排序，并根据排序位置进行归一化。例如针对样本特征X，所收集到的样本数据的数量为n，将所有样本数据中的X值进行排序；假如X_ij表示样本数据i中的样本特征X在所有样本数据中排第j位，则该样本数据i中的样本特征X归一化后的结果为j/n。

在本实施例的一个可选实现方式中，步骤S102，即根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值的步骤，进一步包括：

在该可选的实现方式中，由于用户对产品类别下的下单量和评价分数能够直接反应用户对该产品类别的倾向特征值。因此对于样本数据，可以直接使用这两个特征确定用户对该产品类别的倾向特征值。例如，某个样本数据中产品类别下的产品下单量和好评数都较多，则可以认为用户对该产品类别的倾向特征值较高，而某个样本数据中产品类别下的产品下单量和好评数都较少，则用户对该产品类别的倾向特征值则会较低。

可以理解的是，在针对样本数据确定倾向特征值时，利用的是用户的下单量和好评分数两个特征。但是在模型训练的时候除了这两个特征之外，输入数据中还可以包括其他特征，以便倾向特征值识别模型能够从其他特征中学习到有用的信息，也即对用户倾向特征值有影响的信息。通过这种方式训练得到的倾向特征值识别模型即使针对在一段时间内没有用户好评分数和下单量的产品类别，也能够较为准确的识别出用户对其的倾向特征值。

在本实施例的一个可选实现方式中，如图2所示，所述根据用户对所述产品类别下的产品的下单量以及用户对所述产品类别下的产品的评价分数确定用户对所述产品类别的倾向特征值的步骤，进一步包括以下步骤：

在步骤S201中，根据用户对所述产品类别下产品的下单量确定所述产品类别的第一排名；

在步骤S202中，根据用户对所述产品类别下产品的评价分数确定所述产品类别的第二排名；

在步骤S203中，对所述第一排名和第二排名加权后确定用户对所述产品类别的倾向特征值。

该可选的实现方式中，可以分别根据用户的下单量和评价分数对收集到的样本数据中的产品类别进行排名，分别得到第一排名和第二排名；并根据第一排名和第二排名的加权值确定出用户对当前样本数据的产品类别的倾向特征值。第一排名和第二排名的权重值可以两者排名顺序的高低来确定。

例如，针对m个样本数据中的m个产品类别，其对应的下单量进行排序后为：d1，d2，di，…dm，di表示产品类别i的下单量排名，根据公式Di＝di/m*100可以将用户对产品类别的下单量排名归一化到[0,100]之间，Di为产品类别i归一化后的下单量排名。

针对样本数据中的m个产品类别，其对应的好评分数进行排序后为：p1，p2，pi，…pm，pi表示产品类别i的好评分数排名，根据公式Pi＝pi/m*100可以将用户对产品类别的好评分数排名归一化到[0,100]之间，Pi为产品类别i归一化后的好评分数。

倾向特征值则可以根据上述下单量排名和好评分数排名加权确定，如C＝Di*di/(di+pi)+Pi*pi(di+pi)，C为用户对产品类别i的倾向特征值。

在本实施例的一个可选实现方式中，所述样本对象提供的产品类别为所述样本对象的主营类别。

该可选的实现方式中，样本对象可以为线上平台的商户，而样本数据中该样本对象所提供的产品类别可以是该商户的主营类别。例如，在外卖点餐平台中，可以包括上百种主营类别，每个商户对应有一个主营类别，用户对商户主营的倾向特征值可以在一定层面上反应用户对该主营类别的偏好程度。用户在线上平台进行搜索时，可以根据用户对商户主营的偏好程度为用户提供搜索结果，这样能够提高用户的搜索速度，为用户提供更好的使用体验。例如，响应于用户对产品的查询请求，可以根据用户对该产品所属产品类别的倾向特征值对查询结果进行排序。

图3示出根据本公开一实施方式的倾向特征值识别方法的流程图。如图3所示，所述倾向特征值识别方法包括以下步骤：

在步骤S301中，获取待识别产品类别的多个特征数据；其中，所述特征数据包括用户针对所述待识别产品类别下的产品所产生的行为数据；

在步骤S302中，利用预先训练好的倾向特征值识别模型对所述多个特征数据进行识别，以得到用户对所述待识别产品类别的倾向特征值。

本实施例中，产品类别可为某个待识别对象所提供产品的类别，例如外卖点餐平台上的产品类别可以包括但不限于餐饮类下的各种菜系(例如地方菜系、西餐、中餐等)、各种菜式(例如牛排、披萨、火锅、家常菜等)等；电商平台上的负服装所涉及的上衣、外套、裤子、裙子等产品类别。

倾向特征值可以理解为待识别对象提供的多个产品类别中，用户对每个产品类别的倾向程度(或偏好程度)。为了确定用户对某个待识别对象所提供的产品类别的倾向特征值，可以收集该待识别对象所提供的产品类别下用户对各产品产生的行为数据，并基于这些行为数据提取出多个特征数据。用户针对产品所产生的行为数据可以包括显性行为数据，也可以包括隐性行为数据，相应地，特征数据也可以包括显性特征和隐性特征。例如，用户对产品或者待识别对象的评价数据为显性行为数据，相对应的特征数据也为显性特征；而用户对产品或待识别对象的点击量、产品的下单量等为隐性行为数据(这是因为可以从点击量和下单量推导出用户对该产品的倾向特征值)，因此相对应的特征数据为隐性特征。

关于倾向特征值识别模型以及其他细节可参见上述数据处理方法，在此不再赘述。

在本实施例的一个可选实现方式中，待识别产品类别的多个特征数据可以是用户在预设时间段内产生的行为数据，例如在近三个月内用户产生的行为数据。

在本实施例的一个可选实现方式中，多个特征数据包括以下至少之一：用户在预设时间段内对待识别产品类别下的产品的评价数据(例如，购买该待识别产品类别下的所有产品从用户处得到的好评数、差评数、中评数、评价分数等)；用户在预设时间段内对待识别对象的评价数据(例如用户对提供该待识别产品类别的待识别对象的好评数、差评数、中评数、评价分数等)；用户在预设时间段内对待识别产品类别下的产品的下单量(例如用户在待识别对象提供的该待识别产品类别下对各个产品的下单总量)；用户在预设时间段内对待识别产品类别下的产品的点击量(例如用户在待识别对象提供的该待识别产品类别下对各个产品的点击总量)；用户在预设时间段内购买待识别产品类别下的产品的价格(例如用户针对待识别对象所提供的该待识别产品类别下的产品每个订单所花费的平均价格)；用户在预设时间段内的不同经营时段购买待识别产品类别下的产品的价格(例如用户在不同经营时段，针对待识别对象所提供的该待识别产品类别下的产品每个订单所花费的平均价格，不同经营时段可以根据实际情况划分，例如对于外卖点餐平台，可以划分早餐、午餐、下午茶、晚餐、夜宵等五个不同的经营时段)；用户在预设时间段内的不同经营时段对待识别产品类别下的产品的下单量(例如用户对待识别对象所提供的该待识别产品类别下各个产品在不同经营时段内统计的下单量)；用户在预设时间段内的不同经营时段对待识别产品类别下的产品的点击量(例如用户对待识别对象所提供的该待识别产品类别下各个产品在不同经营时段内统计的点击量)；在预设时间段内对待识别产品类别下的产品的最早购买时间距离当前时间的间隔时长(例如待识别对象所提供的该待识别产品类别下某一产品最早被购买的时间点距离当前时间的间隔时长)；在预设时间段内对待识别产品类别下的产品的最早点击时间距离当前时间的间隔时长(例如待识别对象所提供的该待识别产品类别下某一产品最早被点击的时间点距离当前时间的间隔时长)；在预设时间段内对待识别产品类别下的产品的最近购买时间距离当前时间的间隔时长(例如待识别对象所提供的该待识别产品类别下某一产品最晚被购买的时间点也即最近一次购买某个产品的时间点距离当前时间的间隔时长)；在预设时间段内对待识别产品类别下的产品的最近点击时间距离当前时间的间隔时长(例如待识别对象所提供的该待识别产品类别下某一产品最晚被点击的时间点也即最近一次点击某个产品的时间点距离当前时间的间隔时长)。

在本实施例的一个可选实现方式中，待识别产品类别可以是待识别对象的主营类别。

在本实施例的一个可选实现方式中，所述待识别产品类别的多个样本特征中可以不包括用户对该产品类别下产品的好评数据和下单量。由于在倾向特征值识别模型训练的时候除了用户对该产品类别下产品的好评数据和下单量这两个特征之外，训练数据中还包括其他特征，以便倾向特征值识别模型能够从其他特征中学习到有用的信息，也即对用户倾向特征值有影响的信息。因此，通过这种方式训练得到的倾向特征值识别模型即使针对在一段时间内没有用户好评分数和下单量的产品类别，也能够较为准确的识别出用户对其的倾向特征值。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图4示出根据本公开一实施方式的数据处理装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图4所示，所述数据处理装置包括：

第一获取模块401，被配置为获取样本数据；其中，所述样本数据包括样本对象所提供的产品类别的多个样本特征；所述样本特征包括用户针对所述产品类别下的产品所产生的行为数据；

确定模块402，被配置为根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值；

训练模块403，被配置为根据所述样本数据和所述倾向特征值对倾向特征值识别模型进行训练。

在本实施例的一个可选实现方式中，所述第一获取模块401之后，所述装置还包括：

剔除子模块，被配置为在所述样本数据对应的多个样本特征中特征缺失个数超过预定数量时，将所述样本数据剔除；和/或

填充子模块，被配置为在所述样本数据对应的多个样本特征中特征缺失个数不超过预定数量时，利用热卡填充方式填充缺失的所述样本特征；和/或

第一归一化子模块，被配置为将所述样本特征进行特征归一化。

在本实施例的一个可选实现方式中，所述第一归一化子模块，包括：

第二归一化子模块，被配置为利用排序归一化对所述样本特征进行特征归一化。

在本实施例的一个可选实现方式中，所述确定模块，包括：

第一确定子模块，被配置为根据用户对所述产品类别下的产品的下单量以及用户对所述产品类别下的产品的评价分数确定用户对所述产品类别的倾向特征值。

在本实施例的一个可选实现方式中，如图5所示，所述第一确定子模块，包括：

第二确定子模块501，被配置为根据用户对所述产品类别下产品的下单量确定所述产品类别的第一排名；

第三确定子模块502，被配置为根据用户对所述产品类别下产品的评价分数确定所述产品类别的第二排名；

第四确定子模块503，被配置为对所述第一排名和第二排名加权后确定用户对所述产品类别的倾向特征值。

图6示出根据本公开一实施方式的倾向特征值识别装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图6所示，所述倾向特征值识别装置包括：

第二获取模块601，被配置为获取待识别产品类别的多个特征数据；其中，所述特征数据包括用户针对所述待识别产品类别下的产品所产生的行为数据；

识别子模块602，被配置为利用预先训练好的识别模型对所述多个特征数据进行识别，以得到用户对所述待识别产品类别的倾向特征值；其中，所述倾向特征值识别模型利用上述数据处理装置训练。

关于倾向特征值识别模型以及其他细节可参见上述对数据处理装置，在此不再赘述。

本公开实施方式还提供了一种电子设备，如图7所示，包括至少一个处理器701；以及与至少一个处理器701通信连接的存储器702；其中，存储器702存储有可被至少一个处理器701执行的指令，指令被至少一个处理器701执行以实现：

其中，多个所述样本特征包括以下至少两个：

用户在预设时间段内对所述产品类别下的产品的评价数据；

用户在预设时间段内对所述样本对象的评价数据；

用户在预设时间段内对所述产品类别下的产品的下单量；

用户在预设时间段内对所述产品类别下的产品的点击量；

用户在预设时间段内购买所述产品类别下的产品的价格；

其中，获取样本数据之后，所述一条或多条计算机指令还被所述处理器执行以实现以下方法步骤：

将所述样本特征进行特征归一化。

其中，将所述样本特征进行特征归一化，包括：

利用排序归一化对所述样本特征进行特征归一化。

其中，根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值，包括：

其中，根据用户对所述产品类别下的产品的下单量以及用户对所述产品类别下的产品的评价分数确定用户对所述产品类别的倾向特征值，包括：

其中，所述样本对象提供的产品类别为所述样本对象的主营类别。

本公开实施例还提供了一种电子设备，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现以下方法步骤：

利用预先训练好的识别模型对所述多个特征数据进行识别，以得到用户对所述待识别产品类别的倾向特征值；其中，所述倾向特征值识别模型利用图7所示的电子设备训练。

具体地，处理器701、存储器702可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器701通过运行存储在存储器702中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现本公开实施例中的上述方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储航运网络运输的历史数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，电子设备可选地包括通信组件703，存储器702可选地包括相对于处理器701远程设置的存储器，这些远程存储器可以通过通信组件703连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器702中，当被一个或者多个处理器701执行时，执行本公开实施例中的上述方法。

上述产品可执行本公开实施方式所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本公开实施方式所提供的方法。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据处理方法，其特征在于，包括：

根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值，所述部分样本特征为从多个样本特征中挑选出的最能体现用户对产品类别的倾向特征值的一个或多个特征；

2.根据权利要求1所述的方法，其特征在于，多个所述样本特征包括以下至少两个：

用户在预设时间段内对所述产品类别下的产品的评价数据；

用户在预设时间段内对所述样本对象的评价数据；

用户在预设时间段内对所述产品类别下的产品的下单量；

用户在预设时间段内对所述产品类别下的产品的点击量；

用户在预设时间段内购买所述产品类别下的产品的价格；

3.根据权利要求1或2所述的方法，其特征在于，获取样本数据之后，还包括：

将所述样本特征进行特征归一化。

4.根据权利要求3所述的方法，其特征在于，将所述样本特征进行特征归一化，包括：

利用排序归一化对所述样本特征进行特征归一化。

5.根据权利要求1或2所述的方法，其特征在于，根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值，包括：

6.根据权利要求5所述的方法，其特征在于，根据用户对所述产品类别下的产品的下单量以及用户对所述产品类别下的产品的评价分数确定用户对所述产品类别的倾向特征值，包括：

7.根据权利要求1或2所述的方法，其特征在于，所述样本对象提供的产品类别为所述样本对象的主营类别。

8.一种倾向特征值识别方法，其特征在于，包括：

利用预先训练好的识别模型对所述多个特征数据进行识别，以得到用户对所述待识别产品类别的倾向特征值；其中，所述倾向特征值识别模型利用权利要求1-7任一项所述的方法训练。

9.一种数据处理装置，其特征在于，包括：

确定模块，被配置为根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值，所述部分样本特征为从多个样本特征中挑选出的最能体现用户对产品类别的倾向特征值的一个或多个特征；

10.一种倾向特征值识别装置，其特征在于，包括：

识别子模块，被配置为利用预先训练好的识别模型对所述多个特征数据进行识别，以得到用户对所述待识别产品类别的倾向特征值；其中，所述倾向特征值识别模型利用权利要求9所述的装置训练。

11.一种电子设备，其特征在于，包括存储器和处理器；其中，

12.根据权利要求11所述的电子设备，其特征在于，多个所述样本特征包括以下至少两个：

用户在预设时间段内对所述产品类别下的产品的评价数据；

用户在预设时间段内对所述样本对象的评价数据；

用户在预设时间段内对所述产品类别下的产品的下单量；

用户在预设时间段内对所述产品类别下的产品的点击量；

用户在预设时间段内购买所述产品类别下的产品的价格；

13.根据权利要求11或12所述的电子设备，其特征在于，获取样本数据之后，所述一条或多条计算机指令还被所述处理器执行以实现以下方法步骤：

将所述样本特征进行特征归一化。

14.根据权利要求13所述的电子设备，其特征在于，将所述样本特征进行特征归一化，包括：

利用排序归一化对所述样本特征进行特征归一化。

15.根据权利要求11或12所述的电子设备，其特征在于，根据所述样本数据中的部分样本特征确定用户对所述样本对象提供的所述产品类别的倾向特征值，包括：

16.根据权利要求11或12所述的电子设备，其特征在于，根据用户对所述产品类别下的产品的下单量以及用户对所述产品类别下的产品的评价分数确定用户对所述产品类别的倾向特征值，包括：

17.根据权利要求11或12所述的电子设备，其特征在于，所述样本对象提供的产品类别为所述样本对象的主营类别。

18.一种电子设备，其特征在于，包括存储器和处理器；其中，

利用预先训练好的识别模型对所述多个特征数据进行识别，以得到用户对所述待识别产品类别的倾向特征值；其中，所述倾向特征值识别模型利用权利要求11-17任一项所述的电子设备训练。

19.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-8任一项所述的方法。