CN109934619A

CN109934619A - 用户画像标签建模方法、装置、电子设备及可读存储介质

Info

Publication number: CN109934619A
Application number: CN201910116074.4A
Authority: CN
Inventors: 吕兵
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-02-13
Filing date: 2019-02-13
Publication date: 2019-06-25

Abstract

本发明公开了一种用户画像标签建模方法、装置、电子设备及可读存储介质。所述方法，包括：获取训练样本数据；所述训练样本数据包括多个画像标签的画像标签样本数据、用户特征样本数据；根据所述用户特征样本数据以及所述画像标签样本数据，训练预设训练模型，得到用户画像标签学习模型；其中，所述预设训练模型的损失函数是基于各个画像标签的损失函数确定。解决了现有的用户画像标签建模方法预测准确率不高，且开发成本与计算资源以及维护成本太大的技术问题。取得了提高画像标签预测准确性同时降低开发维护成本的有益效果。

Description

用户画像标签建模方法、装置、电子设备及可读存储介质

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种用户画像标签建模方法、装置、电子设备及可读存储介质。

背景技术

相比传统的线下会员管理、问卷调查等，大数据技术使得企业能够通过互联网更便利地获取用户多方面的信息，更精准地了解用户的行为习惯、消费习惯等。通过大数据挖掘得出的用户画像可以应用在企业的精准营销和定向市场推广活动中。其中，用户画像是指根据用户的属性、用户偏好、用户行为等信息而抽象出来的标签化用户模型，标签是通过对用户信息分析而来的高度精炼的特征标识。用户画像的标签开发一般使用统计分析、策略计算和机器学习等方法。

而其中的机器学习方法是近年来开始流行的用户画像的标签开发方法，譬如用户的性别属于二分类问题，则可以使用逻辑回归、决策树等分类算法；年龄值的预测属于回归问题，则可以使用回归算法；还有用户的城市偏好可以看做排序的问题，则可以使用排序相关算法；等等。其中，用户画像的每个标签需要有特定标签的样本，再使用解决对应问题的算法训练和预测，这就需要对每个标签单独开发一个模型。

但是现有的用户画像的标签开发方法仍然存在以下问题：第一方面，标签的训练样本不够，目前用户画像标签的样本大多来自于调查问卷，用户注册信息，日志规则提取的数据等，而样本不充分会导致对应模型的预测准确率不高。第二方面，用户画像的标签众多，如果对用户基础属性的每个标签都单独进行建模挖掘，那么模型训练的开发成本与计算资源太大，而且后期线上预测的计算资源和维护成本也较大。

发明内容

本发明提供一种用户画像标签建模方法、装置、电子设备及可读存储介质，以部分或全部解决现有技术中用户画像标签建模过程相关的上述问题。

依据本发明第一方面，提供了一种用户画像标签建模方法，包括：

获取训练样本数据；所述训练样本数据包括多个画像标签的画像标签样本数据、用户特征样本数据；

根据所述用户特征样本数据以及所述画像标签样本数据，训练预设训练模型，得到用户画像标签学习模型；

其中，所述预设训练模型的损失函数是基于各个画像标签的损失函数确定。

根据本发明的第二方面，提供了一种用户画像标签获取方法，包括：

获取目标用户的用户特征数据；

根据所述用户特征数据，通过预设的用户画像标签学习模型，获取所述目标用户的用户画像标签；

其中，所述用户画像标签学习模型为通过前述的用户画像标签建模方法构建得到。

根据本发明的第三方面，提供了一种用户画像标签建模装置，包括：

训练数据收集模块，用于获取训练样本数据；所述训练样本数据包括多个画像标签的画像标签样本数据、用户特征样本数据；

标签学习模型训练模块，用于根据所述用户特征样本数据以及所述画像标签样本数据，训练预设训练模型，得到用户画像标签学习模型；

根据本发明的第四方面，提供了一种用户画像标签获取装置，包括：

用户特征数据获取模块，用于获取目标用户的用户特征数据；

用户画像标签获取模块，用于根据所述用户特征数据，通过预设的用户画像标签学习模型，获取所述目标用户的用户画像标签；

根据本发明的第五方面，提供了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现前述的用户画像标签建模方法。

根据本发明的第六方面，提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述的用户画像标签建模方法。

根据本发明的用户画像标签建模方法，可以获取训练样本数据；所述训练样本数据包括多个画像标签的画像标签样本数据、用户特征样本数据；根据所述用户特征样本数据以及所述画像标签样本数据，训练预设训练模型，得到用户画像标签学习模型；其中，所述预设训练模型的损失函数是基于各个画像标签的损失函数确定。由此解决了现有的用户画像标签建模方法预测准确率不高，且开发成本与计算资源以及维护成本太大的技术问题。取得了提高画像标签预测准确性同时降低开发维护成本的有益效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种用户画像标签建模方法的步骤流程图；

图2示出了根据本发明一个实施例的一种用户画像标签建模方法的步骤流程图；

图3示出了根据本发明一个实施例的一种基于DNN构建的预设训练模型的示意图；

图4示出了根据本发明一个实施例的一种用户画像标签建模装置的结构示意图；以及

图5示出了根据本发明一个实施例的一种用户画像标签建模装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

详细介绍本发明实施例提供的一种用户画像标签建模方法。

参照图1，示出了本发明实施例中一种用户画像标签建模方法的步骤流程图。

步骤110，获取训练样本数据，所述训练样本数据包括多个画像标签的画像标签样本数据、用户特征样本数据。

在本发明实施例中，为了解决现有的用户画像标签建模方法存在的问题，主要进行两方面的改进。第一，针对单个标签挖掘时样本不足的问题，通过融合多个标签的样本，进行数据增大和扩充，使训练得到的模型准确率更高；第二，使用一个多任务模型同时挖掘多个用户画像标签，代替传统的多个单任务模型，从而降低开发成本，节约计算资源，同时减轻后续的维护成本。

因此，在本发明实施例中，首先需要获取训练样本数据。而且，训练样本数据包括多个画像标签的画像标签样本数据和用户特征样本数据。在本发明实施例中，可以通过任何可用方法获取训练样本数据，对此本发明实施例不加以限定。而且，训练样本数据中的画像标签样本数据中可以包括多种画像标签的画像标签样本数据，其中的画像标签可以根据需求进行预先设置，对此本发明实施例不加以限定。例如画像标签可以包括年龄标签、性别标签、职业标签、收入水平标签等等，具体包含的画像标签可以根据需求进行预先设定，对此本发明实施例不加以限定。

例如，从前期数据调研分析中发现，用户画像的很多标签有内部关联性的，譬如收入水平标签与常驻城市标签和职业标签而言，常驻在北京的用户收入水平要高于常驻在济南的用户，职业为白领的收入水平高于职业为学生的收入水平，而且有无小孩标签与年龄标签及职业标签也有一定相关性。因此，在本发明实施例中，可以同时选取性别标签、年龄标签、职业标签、有无小孩标签、收入水平标签和常驻城市标签等等有关联性的用户画像标签进行联合训练。

其中，首先是可以收集各个画像标签样本数据所对应的标注样本，再从基于日志解析后的数据仓库建设的特征库中，取出相应用户的用户特征样本数据。具体地，可以通过用户在相关平台中绑卡支付的加密身份证数据获得相应用户的性别标签与年龄标签的画像标签样本数据。可以从最近预设时间段内的美团与点评等平台的调查问卷，客服人员电话回访等方式收集的用户数据，以及用户在平台的注册信息，得到相应用户的职业标签、有无小孩标签、收入水平标签和常驻城市标签的画像标签样本数据。

而在获取得到相应用户的画像标签样本数据之后，则可以进一步从预设的特征库中匹配得到相应用户的用户特征样本数据，例如，可以根据用户标识，从预设的特征库中匹配得到相应用户的用户特征样本数据，等等。其中，用户特征样本数据中具体包含的特征类型也可以根据需求进行预先设置，对此本发明实施例不加以限定。

例如，可以设置用户特征样本数据中包含以下特征类型：一是用户的基本属性特征，包括用户的一些注册信息与设备信息等；二是偏好统计类特征，主要是用户在美团等平台中的如美食、丽人、旅游等各个品类上的收藏评论打分等；三是浏览特征，包括用户在各APP(Application，应用程序)和页面上浏览的次数、时间、频次占比等；四是下单信息特征，如在外卖、酒店、旅行、大交通等业务线下各个时间段的订单数等；五是定位信息特征，包括用户在历史一段时间(例如，过去半年、一个月、一周等)内浏览和定位某城市的次数及占比、用户在城市出现的最大时间窗口等；六是上下文特征，指选取特定对应的时间日期信息和地点信息等，例如是否为节假日、工作单位、家庭住址，等等。

步骤120，根据所述用户特征样本数据以及所述画像标签样本数据，训练预设训练模型，得到用户画像标签学习模型；其中，所述预设训练模型的损失函数是基于各个画像标签的损失函数确定。

在获取得到训练样本数据之后，则可以基于训练样本数据对预设的训练模型进行训练，从而得到针对训练样本数据中对应的全部用户画像标签的学习模型。具体的，可以根据所述用户特征样本数据以及所述画像标签样本数据，训练所述预设训练模型，从而得到用户画像标签学习模型。而且，为了能够得到对应训练样本数据中的全部画像标签的学习模型，需要将预设训练模型中的损失函数设置为损失函数是基于各个画像标签的损失函数确定。也即基于各个画像标签的损失函数，确定预设训练模型的损失函数。此时的画像标签可以理解为上述的画像标签。

具体的预设训练模型的损失函数与各个各个画像标签的损失函数之间的对应关系可以根据需求进行预先设置，对此本发明实施例不加以限定。例如，可以为各个画像标签的损失函数的加权和，或者是各个画像标签的损失函数的乘积，等等。

而且，预设训练模型的结构以及类型等也可以根据需求进行预先设置，对此本发明实施例也不加以限定。

而且，根据各个画像标签对应的分类模型不同，又可以分别设置各个画像标签对应的损失函数类型。例如，对于上述的性别标签、有无小孩标签均只有两个选项，因此可以设置为二分类，职业标签和收入水平标签也可以设置为多分类，那么其损失函数可以设置为分类损失函数即交叉熵损失函数：而年龄标签则可以设置为回归任务，其损失函数可以设置为回归损失函数即平方损失函数：那么，此时预设训练模型的损失函数为：其中，y表示训练样本数据中相应画像标签的真实值， f(x,w)表示经模型输出的估计值，x是训练样本数据中相应的用户特征样本数据，λ表示各个画像标签的预设权重，w是该预设训练模型的参数，i＝1表示 N个训练样本数据中的第一组数据。训练的目标是求解预设训练模型的最优参数而且该损失函数可以根据任务重要程度来自适应调整系数λ，使得训练得到的模型更加鲁棒。

需要说明的是，在本发明实施例中，各个画像标签的损失函数类型可以根据需求进行预先设置，对此本发明实施例不加以限定。整个多任务的预设训练模型的损失函数是多个单任务的画像标签的损失函数的之和，并且可以根据任务的重要性或者样本量的多少进行加权求和。

根据本发明的用户画像标签建模方法，可以获取训练样本数据；所述训练样本数据包括多个画像标签的画像标签样本数据、用户特征样本数据；根据所述用户特征样本数据以及所述画像标签样本数据，训练预设训练模型，得到用户画像标签学习模型；其中，所述预设训练模型的损失函数是基于各个画像标签的损失函数确定。由此提高了画像标签预测准确性同时降低了开发维护成本。

实施例二

详细介绍本发明实施例提供的一种用户画像标签建模方法。

参照图2，示出了本发明实施例中一种用户画像标签建模方法的步骤流程图。

步骤210，基于用户基础数据获取所述画像标签样本数据。

在本发明实施例中，为了确定训练样本数据中各个用户的画像标签样本数据，则可以先基于用户基础数据获取相应用户的画像标签样本数据。其中的用户基础数据可以包括用户通过平台绑卡支付的加密身份证数据、调查问卷数据、电话回访数据、用户注册信息数据，等等。具体的可以根据需求预先设置用户基础数据所包含的具体内容，对此本发明实施例不加以限定。

例如，如果需要获取的画像标签样本数据中包含的画像画像标签为上述的年龄标签、性别标签、职业标签、收入水平标签，那么则可以通过平台绑卡支付用户的加密身份证数据获得相应用户的性别标签与年龄标签的样本。从调查问卷，客服人员电话回访等方式收集的用户数据，以及用户在平台的注册信息数据，得到相应用户的职业标签、有无小孩标签、收入水平标签和常驻城市标签的样本，等等。

步骤220，从预设的特征数据库中获取与所述画像标签样本数据匹配的用户特征样本数据。

而且，为了提高训练得到的画像标签学习模型的准确性，需要提高训练样本数据的数据丰富性，那么则需要收集较多的训练样本数据，因此在本发明实施例中，为了获取较多的训练样本数据，同时避免在获取训练样本数据期间耗费较多的时间，可以预先基于日志解析后的数据仓库构建一特征数据库，那么在获取得到画像标签样本数据之后，则可以直接从预设的特征数据库中获取与相应的画像标签样本数据匹配的用户特征样本数据。具体的匹配方式可以根据需求进行预先设置，对此本发明实施例不加以限定。

例如，可以用户标识为参考，根据画像标签样本数据对应的用户标识，从特征数据库中获取与相应的用户标识匹配的用户特征样本数据，即为与相应的画像标签样本数据匹配的用户特征样本数据。

当然，在本发明实施例中，也可以不预先设置特征数据库，而是分别获取画像标签样本数据以及用户特征样本数据，具体的可以基于日志解析后的数据等可参考数据，分别检索出相应用户的用户特征样本数据。很明显，由于在特征数据库中是预先处理好的特征数据，因此此时的效率会低于在预设的特征数据库中直接检索的速度。

可选地，在本发明实施例中，所述用户基础数据包括加密身份证数据、调查回访数据、用户注册信息中的至少一种；所述画像标签包括性别标签、年龄标签、职业标签、收入水平标签、常驻城市标签、有无子女标签中的至少两种；所述用户特征样本数据包括用基础属性特征、偏好统计特征、浏览特征、下单信息特征、定位信息特征、上下文特征中的至少一种。

步骤230，针对每个画像标签，按照所述画像标签对应的标签备选项，根据所述画像标签样本数据确定所述画像标签样本数据的标签备选项取值。

在本发明实施例中，由于收集得到画像标签样本数据比较杂乱，那么为了保证训练后的用户画像标签学习模型输出结果的表述一致性，可以在训练之前，对训练样本数据进行初步处理，使其满足训练需求。具体的，可以按照各个画像标签对应的标签备选项，根据各个画像标签样本数据确定相应画像标签样本数据的标签备选项取值。其中，在本发明实施例中，可以根据需求预先设置各个画像标签对应的标签备选项，对此本发明实施例不加以限定。

例如，对于上述的性别标签，可以设置性别标签对应的标签备选项为0 和1，其中性别为男作为正例，标签备选项取值y＝1，性别为女作为负例，标签备选项取值y＝0；可以上述的有无小孩标签对应的标签备选项为0和1，其中有小孩作为正例，标签备选项取值y＝1，无小孩作为负例，标签备选项取值y＝0；职业标签可以划分为学生、白领和其他三个类别，可分别设置各类别对应的标签备选项取值为y＝1，2，3；收入水平标签可以按照预设给定区间划分高中低三个类别，可分别设置各类别对应的标签备选项取值为y＝1， 2，3；将年龄标签对应的标签备选项设置为相应的年龄取值；对于常驻城市标签，则可以设置用户对应常驻城市的数据作为正例，标签备选项取值y＝1，用户的其他城市(排除常驻城市)作为负例，标签备选项取值y＝0。

步骤240，根据所述用户特征样本数据，以及所述画像标签样本数据对应的标签备选项取值训练所述预设训练模型，得到所述用户画像标签学习模型。

在确定各个画像标签样本数据对应的标签备选项取值之后，在基于训练样本数据训练预设训练模型时，则可以根据用户特征样本数据，以及所述画像标签样本数据对应的标签备选项取值，训练所述预设训练模型，得到所述用户画像标签学习模型。

例如，对于训练样本数据中针对某一用户A的用户特征样本数据以及画像标签样本数据，假设根据上述的标签备选项取值，用户A的画像标签样本数据中各个画像标签以及画像标签的标签备选项取值分别如下：

年龄标签的标签备选项取值为20，性别标签的标签备选项取值为1，职业标签的标签备选项取值为1，收入水平的标签备选项取值为1，有无小孩的标签备选项取值为0，那么在利用该用户A的训练样本数据对预设训练模型进行训练时，则可以根据其用户特征样本数据，以及用户A的上述各个画像标签的标签备选项取值，训练预设训练模型中的各个参数。

步骤250，根据测试样本数据，对所述用户画像标签学习模型进行至少一次迭代优化。

经上述步骤训练后得到的用户画像标签学习模型的准确性并不能确定，因此在本发明实施例中，还可以进一步根据测试样本数据，对所述用户画像标签学习模型进行至少一次迭代优化。而且测试样本数据中同样可以包括画像标签测试数据、用户特征测试数据，其中，画像标签测试数据的获取过程与前述的画像标签样本数据获取过程类似，用户特征测试数据的获取过程与前述的用户特征样本数据获取过程类似，在此不加以赘述。

其中，每次迭代优化过程包括：

S1，利用所述用户画像标签学习模型预测第一测试用户的用户画像标签；

为了判断初步训练后的用户画像标签学习模型的准确度是否满足要求，在后续迭代优化过程中，则可以先利用当前训练得到的用户画像标签学习模型预测第一测试用户的用户画像标签。其中的第一测试用户可以为测试样本数据中的部分数据或者是全部数据对应的用户。那么在利用当前训练得到的用户画像标签学习模型预测第一测试用户的用户画像标签之后，则可以基于测试样本数据中相应用户的画像标签测试数据，以及用户画像标签学习模型预测得到的用户画像标签，进而得到用户画像标签学习模型对应的各个画像标签的准确率。

其中，经预测的画像标签的准确率可以为与实际值一致的预测值数量a，与总预测值数量b的比值，也即a/b，其中的实际值即为相应用户的画像标签测试数据中相应画像标签的实际值。

例如，假设利用所述用户画像标签学习模型预测第一测试用户P1、P2、 P3和P4的用户画像标签得到的预测结果分别为：

第一测试用户P1：性别标签预测值为1，年龄标签预测值为20，职业标签预测值为1，收入标签预测值为2，有无孩子标签预测值为0；

第一测试用户P2：性别标签预测值为1，年龄标签预测值为30，职业标签预测值为3，收入标签预测值为3，有无孩子标签预测值为1；

第一测试用户P3：性别标签预测值为0，年龄标签预测值为32，职业标签预测值为2，收入标签预测值为2，有无孩子标签预测值为1；

第一测试用户P4：性别标签预测值为0，年龄标签预测值为25，职业标签预测值为2，收入标签预测值为1，有无孩子标签预测值为1；

而第一测试用户P1、P2、P3、P4的画像标签测试数据中各个画像标签的实际值为

第一测试用户P1：性别标签实际值为1，年龄标签实际值为20，职业标签实际值为1，收入标签实际值为1，有无孩子标签实际值为0；

第一测试用户P2：性别标签实际值为1，年龄标签实际值为30，职业标签实际值为2，收入标签实际值为3，有无孩子标签实际值为0；

第一测试用户P3：性别标签实际值为0，年龄标签实际值为35，职业标签实际值为2，收入标签实际值为2，有无孩子标签实际值为1；

第一测试用户P4：性别标签实际值为1，年龄标签实际值为28，职业标签实际值为2，收入标签实际值为1，有无孩子标签实际值为0；

那么，可以得到各个画像标签的准确率分别为：性别标签准确率为3/4，也即75％；年龄标签准确率为2/4，也即50％；职业标签准确率为3/4，也即 75％；收入标签准确率为3/4，也即75％；有无孩子标签准确率为2/4，也即 50％。

S2，根据所述用户画像标签中所述画像标签的准确率与基准准确率的差值，调整所述画像标签的预设权重。其中，所述基准准确率为基于所述训练样本数据，分别针对每个所述画像标签训练得到的单独标签学习模型的准确率。

如前述，在现有相关技术中一般是针对每个画像标签进行单独建模训练，而在本发明实施例中，则是利用一个预设训练模型针对多个画像标签进行同时训练，那么为了避免本方案的准确率低于现有单独训练的形式，保证本方案的准确性，在优化训练过程中，可以根据用户画像标签中所述画像标签的准确率与基准准确率的差值，调整所述画像标签的预设权重。其中，所述基准准确率为基于所述训练样本数据，分别针对每个所述画像标签训练得到的单独标签学习模型的准确率。

例如，针对性别标签的单独标签学习模型，即可以为利用训练样本数据中的用户特征样本数据作为输入，以所述训练样本数据中的画像标签样本数据的性别标签数据作为输出训练得到；而针对年龄标签的单独标签学习模型，即可以为利用训练样本数据中的用户特征样本数据作为输入，以所述训练样本数据中的画像标签样本数据的年龄标签数据作为输出训练得到；等等。

根据所述用户画像标签中所述画像标签的准确率与基准准确率的差值，调整所述画像标签的预设权重，具体的调整策略可以根据需求进行预先设置，对此本发明实施例不加以限定。

例如，可以设置调整策略为将准确率与基准准确率的差值为负数的画像标签的预设权重调高，从而使得在后续优化过程中将误差缩小；而对于准确率与基准准确率的差值为非负数的画像标签的预设权重则可以不作调整。例如，对于上述的年龄标签，如果基于训练后的用户画像标签学习模型预测的年龄标签准确率为50％，而年龄标签的基准准确率为70％，那么此时针对年龄标签的将准确率与基准准确率的差值为-20％，此时则需要调高年龄标签的预设权重。

其中，如果基于当前训练后的用户画像标签学习模型预测的画像标签的准确率和基准准确率的差值为负值，则可以认为相应画像标签的预测结果负向，而如果当前训练后的用户画像标签学习模型预测的画像标签的准确率和基准准确率的差值为正值，则可以认为相应画像标签的预测结果正向。

S3，利用所述训练样本数据重新训练所述用户画像标签学习模型，直至所述画像标签的准确率满足预设精度要求。

在调整各个画像标签的预设权重之后，则可以重新利用训练样本数据训练调整后的用户画像标签学习模型，直至所述画像标签的准确率满足预设精度要求。其中的预设精度要求可以根据需求进预先设置，对此本发明实施例不加以限定。例如，假设当前训练的用户画像标签学习模型为针对六个画像标签的学习模型，那么可以设置预设精度要求为有五个画像标签的预测结果正向，一个画像标签的预测结果略微负向，等等。

如果经过本次迭代后得到的用户画像标签学习模型的画像标签的准确率满足预设精度要求，则可以停止迭代优化，而如果经过本次迭代后得到的用户画像标签学习模型的画像标签的准确率不满足预设精度要求，则可以继续执行上述的步骤S1-S3，直至满足预设精度要求。

步骤260，获取针对新画像标签的新训练样本数据。

经上述步骤训练得到的针对各个画像标签的用户画像标签学习模型，可以在内部学习得到各个画像标签之间的相关性，而且训练后得到的用户画像标签学习模型的最后一层可以相当于一个分类器，除去最后一层的其它层中参数可以表征各个画像标签之间的相关性。因此在本发明实施例中，对于训练出来的用户画像标签学习模型中的前几层参数保存下来可以迁移，当需要挖掘用户新的画像标签时，则可以仅仅训练最后一层全连接层的参数，避免再次对整个模型完全训练，降低了开发成本。

那么，首先可以获取针对新画像标签的新训练样本数据。此时的新训练样本数据中可以包括前述的用户特征样本数据，以及针对新画像标签的画像标签样本数据。

步骤270，保留所述用户画像标签学习模型中前N-1层的参数，以所述新训练样本数据训练所述用户画像标签学习模型的最后一层参数，得到包含所述新画像标签的用户画像标签学习模型；其中，所述N为所述用户画像标签学习模型的总层数。

此时在针对新画像标签进行训练时，则可以保留已训练好的用户画像标签学习模型中前N-1层的参数，并且直接以所述新训练样本数据训练所述用户画像标签学习模型的最后一层参数，得到包含所述新画像标签的用户画像标签学习模型。其中，N为用户画像标签学习模型的总层数。此时训练得到的用户画像标签学习模型可以预测包括初始画像标签以及新画像标签在内的画像标签的值。

步骤280，根据所述用户画像标签学习模型预测目标用户的用户画像标签。

步骤290，根据所述用户画像标签，为所述目标用户推荐与所述用户画像标签匹配的个性化业务结果。

需要说明的是，在本发明实施例中，上述的步骤260-270，以及步骤 280-290均可以在步骤240之后，或者是步骤240之后的任一步骤之后执行，对此本发明实施例不加以限定。

在训练得到针对各个画像标签的用户画像标签学习模型之后，则可以基于用户画像标签学习模型预测目标用户的用户画像标签。具体的可以获取目标用户的用户特征数据，其与前述训练过程中所用的用户特征样本数据的获取方法一致，具体可以包含的数据类型也可以一致，当然也可以通过其他任何可用方法获取用户特征数据，对此本发明实施例不加以限定。

进而可以根据目标用户的用户画像标签，为所述目标用户推荐与所述用户画像标签匹配的个性化业务结果。具体的可以将用户画像标签应用在各个业务场景中，如个性化推荐、个性化搜索、个性化广告，个性化商业分析等等。

具体在个性化业务结果匹配中进行不同的召回策略：如当目标用户在常驻城市访问美团时，可以匹配推荐当地用户购买的热销商品，而当地热门景点等则可以不做推荐，因为从数据来看北京本地人爱去欢乐谷，外地人到北京更爱去长城、故宫。又如对女性用户推送丽人类优惠券信息，对有小孩用户推送亲子游乐的产品信息等等。具体的用户画像标签匹配的个性化业务结果可以根据需求进行预先设置，对此本发明实施例不加以限定。

可选地，在本发明实施例中，所述预设训练模型的损失函数为各个画像标签的损失函数的加权求和；所述预设训练模型包括深度神经网络模型；所述损失函数包括平方损失函数、交叉熵损失函数中的至少一种。

其中各个画像标签对应的权重可以根据需求进行预先设置，对此本发明实施例不加以限定。

例如，假设训练样本数据中的画像标签包括上述的性别标签、年龄标签、职业标签、有无小孩标签、收入水平标签和常驻城市标签，而且各个画像标签的预设权重依次为λ1、λ2、λ3、λ4和λ5，各个画像标签的损失函数依次为 L1、L2、L3、L4、和L5，那么此时可以设置预设训练模型的损失函数为： L＝λ1*L1+λ2*L2+λ3*L3+λ4*L4+λ5*L5。

在实际应用中，神经网络模型可以做到参数共享，而且在本发明实施例中，由于输入的样本特征数目较多，各个画像标签之间具有一定的关联性，此外深度神经网络模型的非线性表达能力很强，可以学习出标记之间的一些相关性，相关标签可以促进学习，并且相互协同训练，如收入水平与常驻城市等，提高了模型泛化能力和准确率。因此为了能够充分学习到各个画像标签之间的相关性，优选地使用深度神经网络(DeepNeuralNetwork，DNN)模型构建预设训练模型，其具有很好的非线性拟合。

如图3所示为一种基于DNN构建的预设训练模型的示意图。其中输入层可以为8000维，第一个隐含层可以为1024层，第二个隐含层可以为256 维，第三个隐含层可以为4维，最后一层为全连接层。而且对于每个画像标签的学习任务，全连接层分别可以有对应的任务节点。其中，性别为二分类，所以可以有两个节点；年龄为回归任务，只有一个节点；职业和收入水平都是多分类，如果按照上述的分别分为三类，那么则可以分别有三个节点；有无小孩是二分类，可以设置有两个节点；常驻城市可以使用诸如pairwise等排序算法，可以设置有两个节点。

当然，在本发明实施例中，预设训练模型中包含的层数以及各层的维度、各个画像标签对应的节点数量都可以根据需求进行预先设置，而且也可以利用决策树等其它任何可用的机器学习模型构建上述的额预设训练模型，对此本发明实施例均不加以限定。

第一方面，根据本发明的用户画像标签建模方法，可以获取训练样本数据；所述训练样本数据包括多个画像标签的画像标签样本数据、用户特征样本数据；根据所述用户特征样本数据以及所述画像标签样本数据，训练预设训练模型，得到用户画像标签学习模型；其中，所述预设训练模型的损失函数是基于各个画像标签的损失函数确定。由此提高了画像标签预测准确性同时降低了开发维护成本。

第二方面，在本发明实施例中，还可以基于用户基础数据获取所述画像标签样本数据；从预设的特征数据库中获取与所述画像标签样本数据匹配的用户特征样本数据。并且，所述用户基础数据包括加密身份证数据、调查回访数据、用户注册信息中的至少一种；所述画像标签包括性别标签、年龄标签、职业标签、收入水平标签、常驻城市标签、有无子女标签中的至少两种；所述用户特征样本数据包括用基础属性特征、偏好统计特征、浏览特征、下单信息特征、定位信息特征、上下文特征中的至少一种。所述预设训练模型包括深度神经网络模型；所述损失函数包括平方损失函数、交叉熵损失函数中的至少一种。从而可以获取各个画像标签之间的关联性，进一步提高画像标签预测的准确性。

第三方面，在本发明实施例中，还可以针对每个画像标签，按照所述画像标签对应的标签备选项，根据所述画像标签样本数据确定所述画像标签样本数据的标签备选项取值；根据所述用户特征样本数据，以及所述画像标签样本数据对应的标签备选项取值训练所述预设训练模型，得到所述用户画像标签学习模型。从而可以提高模型训练的效率以及训练得到的模型的准确性。

第四方面，在本发明实施例中，还可以根据测试样本数据，对所述用户画像标签学习模型进行至少一次迭代优化；其中，每次迭代优化过程包括：利用所述用户画像标签学习模型预测第一测试用户的用户画像标签；根据所述用户画像标签中所述画像标签的准确率与基准准确率的差值，调整所述画像标签的预设权重；利用所述训练样本数据重新训练所述用户画像标签学习模型，直至所述画像标签的准确率满足预设精度要求；其中，所述基准准确率为基于所述训练样本数据，分别针对每个所述画像标签训练得到的单独标签学习模型的准确率。进一步提高画像标签预测的准确性。

第五方面，在本发明实施例中，还可以获取针对新画像标签的新训练样本数据；保留所述用户画像标签学习模型中前N-1层的参数，以所述新训练样本数据训练所述用户画像标签学习模型的最后一层参数，得到包含所述新画像标签的用户画像标签学习模型；其中，所述N为所述用户画像标签学习模型的总层数。从而可以进一步降低了开发维护成本以及计算资源。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

详细介绍本发明实施例提供的一种用户画像标签建模装置。

参照图4，示出了本发明实施例中一种用户画像标签建模装置的结构示意图。

训练数据收集模块310，用于获取训练样本数据；所述训练样本数据包括多个画像标签的画像标签样本数据、用户特征样本数据；

标签学习模型训练模块320，用于根据所述用户特征样本数据以及所述画像标签样本数据，训练预设训练模型，得到用户画像标签学习模型；其中，所述预设训练模型的损失函数为各个画像标签的损失函数的加权求和。

实施例四

详细介绍本发明实施例提供的一种用户画像标签建模装置。

参照图5，示出了本发明实施例中一种用户画像标签建模装置的结构示意图。

训练数据收集模块410，用于获取训练样本数据；所述训练样本数据包括多个画像标签的画像标签样本数据、用户特征样本数据；

可选地，在本发明实施例中，所述训练数据收集模块410进一步可以包括：

标签数据获取子模块411，用于基于用户基础数据获取所述画像标签样本数据；

特征数据获取子模块412，用于从预设的特征数据库中获取与所述画像标签样本数据匹配的用户特征样本数据。

可选地，在本发明实施例中，所述用户基础数据包括加密身份证数据、调查回访数据、用户注册信息中的至少一种；所述画像标签样本数据包括性别标签数据、年龄标签数据、职业标签数据、收入水平标签数据、常驻城市标签数据、有无子女标签数据中的至少一种；所述用户特征样本数据包括用基础属性特征、偏好统计特征、浏览特征、下单信息特征、定位信息特征、上下文特征中的至少一种。

标签学习模型训练模块420，用于根据所述用户特征样本数据以及所述画像标签样本数据，训练预设训练模型，得到用户画像标签学习模型；其中，所述预设训练模型的损失函数是基于各个画像标签的损失函数确定。

可选地，在本发明实施例中，所述标签学习模型训练模块420进一步可以包括：

标签备选值确定子模块421，用于针对每个画像标签，按照所述画像标签对应的标签备选项，根据所述画像标签样本数据确定所述画像标签样本数据的标签备选项取值；

标签学习模型训练子模块422，用于根据所述用户特征样本数据，以及所述画像标签样本数据对应的标签备选项取值训练所述预设训练模型，得到所述用户画像标签学习模型。

模型优化模块430，用于根据测试样本数据，对所述用户画像标签学习模型进行至少一次迭代优化；

其中，每次迭代优化过程包括：

利用所述用户画像标签学习模型预测第一测试用户的用户画像标签；

根据所述用户画像标签中所述画像标签的准确率与基准准确率的差值，调整所述画像标签的预设权重；

利用所述训练样本数据重新训练所述用户画像标签学习模型，直至所述画像标签的准确率满足预设精度要求；

其中，所述基准准确率为基于所述训练样本数据，分别针对每个所述画像标签训练得到的单独标签学习模型的准确率。

新训练数据获取模块440，用于获取针对新画像标签的新训练样本数据；

新标签模型训练模型450，用于保留所述用户画像标签学习模型中前 N-1层的参数，以所述新训练样本数据训练所述用户画像标签学习模型的最后一层参数，得到包含所述新画像标签的用户画像标签学习模型；其中，所述N为所述用户画像标签学习模型的总层数。

标签预测模块460，用于根据所述用户画像标签学习模型预测目标用户的用户画像标签；

个性化业务匹配模块470，用于根据所述用户画像标签，为所述目标用户推荐与所述用户画像标签匹配的个性化业务结果。

可选地，在本发明实施例中，所述预设训练模型包括深度神经网络模型；所述损失函数包括平方损失函数、交叉熵损失函数中的至少一种。

本发明实施例中还公开了一种用户画像标签获取方法，包括：

获取目标用户的用户特征数据；

本发明实施例中还公开了一种用户画像标签获取装置，包括：

本发明实施例中还公开了一种电子设备，包括：

本发明实施例中还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述的用户画像标签建模方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用户画像标签建模设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种用户画像标签建模方法，其特征在于，包括：

获取训练样本数据，所述训练样本数据包括多个画像标签的画像标签样本数据、用户特征样本数据；

2.根据权利要求1所述的方法，其特征在于，所述获取训练样本数据的步骤，包括：

基于用户基础数据获取所述画像标签样本数据；

从预设的特征数据库中获取与所述画像标签样本数据匹配的用户特征样本数据。

3.根据权利要求2所述的方法，其特征在于，所述用户基础数据包括加密身份证数据、调查回访数据、用户注册信息中的至少一种；所述画像标签包括性别标签、年龄标签、职业标签、收入水平标签、常驻城市标签、有无子女标签中的至少两种；所述用户特征样本数据包括用基础属性特征、偏好统计特征、浏览特征、下单信息特征、定位信息特征、上下文特征中的至少一种。

4.根据权利要求1所述的方法，其特征在于，所述根据所述用户特征样本数据以及所述画像标签样本数据，训练所述预设训练模型，得到所述用户画像标签学习模型的步骤，包括：

针对每个画像标签，按照所述画像标签对应的标签备选项，根据所述画像标签样本数据确定所述画像标签样本数据的标签备选项取值；

根据所述用户特征样本数据，以及所述画像标签样本数据对应的标签备选项取值训练所述预设训练模型，得到所述用户画像标签学习模型。

5.根据权利要求1-4任一项所述的方法，其特征在于，在所述根据所述用户特征样本数据以及所述画像标签样本数据，训练所述预设训练模型，得到所述用户画像标签学习模型的步骤之后，还包括：

根据测试样本数据，对所述用户画像标签学习模型进行至少一次迭代优化；

其中，每次迭代优化过程包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，在所述根据所述用户特征样本数据以及所述画像标签样本数据，训练预设训练模型，得到用户画像标签学习模型的步骤之后，还包括：

获取针对新画像标签的新训练样本数据；

保留所述用户画像标签学习模型中前N-1层的参数，以所述新训练样本数据训练所述用户画像标签学习模型的最后一层参数，得到包含所述新画像标签的用户画像标签学习模型；

其中，所述N为所述用户画像标签学习模型的总层数。

7.根据权利要求1-4任一项所述的方法，其特征在于，在所述根据所述用户特征样本数据以及所述画像标签样本数据，训练预设训练模型，得到用户画像标签学习模型的步骤之后，还包括：

根据所述用户画像标签学习模型预测目标用户的用户画像标签；

根据所述用户画像标签，为所述目标用户推荐与所述用户画像标签匹配的个性化业务结果。

8.根据权利要求1-4任一项所述的方法，其特征在于，所述预设训练模型的损失函数为各个画像标签的损失函数的加权求和；所述预设训练模型包括深度神经网络模型；所述损失函数包括平方损失函数、交叉熵损失函数中的至少一种。

9.一种用户画像标签获取方法，其特征在于，包括：

获取目标用户的用户特征数据；

其中，所述用户画像标签学习模型为通过权利要求1-8中的任一项所述的用户画像标签建模方法构建得到。

10.一种用户画像标签建模装置，其特征在于，包括：

训练数据收集模块，用于获取训练样本数据，所述训练样本数据包括多个画像标签的画像标签样本数据、用户特征样本数据；

11.根据权利要求10所述的装置，其特征在于，所述训练数据收集模块，包括：

标签数据获取子模块，用于基于用户基础数据获取所述画像标签样本数据；

特征数据获取子模块，用于从预设的特征数据库中获取与所述画像标签样本数据匹配的用户特征样本数据。

12.根据权利要求11所述的装置，其特征在于，所述用户基础数据包括加密身份证数据、调查回访数据、用户注册信息中的至少一种；所述画像标签样本数据包括性别标签数据、年龄标签数据、职业标签数据、收入水平标签数据、常驻城市标签数据、有无子女标签数据中的至少一种；所述用户特征样本数据包括用基础属性特征、偏好统计特征、浏览特征、下单信息特征、定位信息特征、上下文特征中的至少一种。

13.根据权利要求10所述的装置，其特征在于，所述标签学习模型训练模块，包括：

标签备选值确定子模块，用于针对每个画像标签，按照所述画像标签对应的标签备选项，根据所述画像标签样本数据确定所述画像标签样本数据的标签备选项取值；

标签学习模型训练子模块，用于根据所述用户特征样本数据，以及所述画像标签样本数据对应的标签备选项取值训练所述预设训练模型，得到所述用户画像标签学习模型。

14.根据权利要求10-13任一项所述的装置，其特征在于，还包括：

模型优化模块，用于根据测试样本数据，对所述用户画像标签学习模型进行至少一次迭代优化；

其中，每次迭代优化过程包括：

15.根据权利要求10-13任一项所述的装置，其特征在于，还包括：

新训练数据获取模块，用于获取针对新画像标签的新训练样本数据；

新标签模型训练模型，用于保留所述用户画像标签学习模型中前N-1层的参数，以所述新训练样本数据训练所述用户画像标签学习模型的最后一层参数，得到包含所述新画像标签的用户画像标签学习模型；

其中，所述N为所述用户画像标签学习模型的总层数。

16.根据权利要求10-13任一项所述的装置，其特征在于，还包括：

标签预测模块，用于根据所述用户画像标签学习模型预测目标用户的用户画像标签；

个性化业务匹配模块，用于根据所述用户画像标签，为所述目标用户推荐与所述用户画像标签匹配的个性化业务结果。

17.根据权利要求10-13任一项所述的装置，其特征在于，所述预设训练模型的损失函数为各个画像标签的损失函数的加权求和；所述预设训练模型包括深度神经网络模型；所述损失函数包括平方损失函数、交叉熵损失函数中的至少一种。

18.一种用户画像标签获取装置，其特征在于，包括：

19.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8中的任一项所述的用户画像标签建模方法。

20.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1-8中的任一项所述的用户画像标签建模方法。