CN108510336B

CN108510336B - 用于确定用户数据信息的方法、装置、电子设备和存储介质

Info

Publication number: CN108510336B
Application number: CN201710101503.1A
Authority: CN
Inventors: 邵佳帅; 李海涛; 陈海勇
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-02-23
Filing date: 2017-02-23
Publication date: 2021-11-12
Anticipated expiration: 2037-02-23
Also published as: CN108510336A

Abstract

提供一种用于确定用户数据信息的方法，包括：产生具有年龄属性的标签；基于标签和所述第一用户中的至少一部分与标签有关的购买记录，产生训练特征向量并对模型进行训练；基于第二用户与标签有关的购买记录，产生多个平移特征向量，每个平移特征向量对应于一个数据信息；将多个平移特征向量中的每一个输入到经过上述训练的模型，以计算出输出结果最高的平移特征向量；以及将与输出结果最高的平移特征向量相对应的数据信息确定为第二用户的数据信息。

Description

用于确定用户数据信息的方法、装置、电子设备和存储介质

技术领域

本发明涉及互联网技术领域，具体涉及一种用于确定用户数据信息的方法、装置、电子设备和存储介质。

背景技术

在电子商务网站飞速发展的大环境下，针对的客户的精细化营销变得越来越重要。在针对母婴品类营销时，能知道孩子的年龄非常重要。因为如果知道孩子的年龄，我们就可以给客户推荐更精准的商品，从而促进客户消费，增加客户体验。

发明内容

有鉴于此，根据本发明的第一方面，提供一种用于确定用户数据信息的方法，包括：产生具有年龄属性的标签；基于所述标签和所述第一用户中的至少一部分与所述标签有关的购买记录，产生训练特征向量并对模型进行训练；

基于第二用户与所述标签有关的购买记录，产生多个平移特征向量，每个平移特征向量对应于一个数据信息；将所述多个平移特征向量中的每一个输入到经过上述训练的模型，以计算出输出结果最高的平移特征向量；以及将与输出结果最高的平移特征向量相对应的数据信息确定为第二用户的数据信息。

在一个实施例中，产生具有年龄属性的标签可以包括：提取第一用户购买过的特定类别的商品；基于购买时间和第一用户的数据信息，统计每个商品被各年龄段购买的次数m、占比n和被所有第一用户购买的总次数t，其中n＝m/t；选出每个商品购买年龄段占比最高的n，并且相应的m和t分别大于特定阈值；针对每个年龄段，按占比n从高到低的顺序，从每个年龄段中选择若干个商品；以及从所述若干个商品中提取具有年龄属性的标签。

在一个实施例中，所述训练特征向量和所述平移特征向量可以基于在具有相同长度的时间段内的标签购买记录而产生，并且其列号由标签id和标签出现月份在所述时间段内的相对位置来确定，列的值是所述标签当月出现的次数或占比。

在一个实施例中，所述训练特征向量包括正例特征和负例特征，所述方法还可以包括：当所述时间段和第一用户的数据信息对齐时，产生正例特征；以及当所述时间段相对于第一用户的数据信息平移时，产生负例特征。

在一个实施例中，所述方法还可以还包括：设定阈值，并且仅当输出结果不低于阈值时才确定第二用户的数据信息。

在一个实施例中，所述阈值可以基于对第一用户中的另一部分用户的测试来确定。

根据本发明的第二方面，还提供一种用于确定用户数据信息的装置，包括：标签产生单元，被配置为产生具有年龄属性的标签；模型训练单元，被配置为基于所述标签和所述第一用户中的至少一部分与所述标签有关的购买记录，产生训练特征向量并对模型进行训练；平移单元，被配置为基于第二用户与所述标签有关的购买记录，产生多个平移特征向量，每个平移特征向量对应于一个数据信息；计算单元，被配置为将所述多个平移特征向量中的每一个输入到经过上述训练的模型，以计算出输出结果最高的平移特征向量；以及确定单元，被配置为将与输出结果最高的平移特征向量相对应的数据信息确定为第二用户的数据信息。

根据本发明的第三方面，还提供一种电子设备。所述电子设备包括：存储器，被配置为存储可执行指令；以及处理器，被配置为执行存储器中存储的可执行指令，以执行上述第一方面的方法。

根据本发明的第四方面，还提供一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于被计算机执行，使得所述计算机执行上述第一方面的方法。

通过用户在电商网站上的行为，包括购买、浏览、关注、添加购物车、评论等等，建模向量模型，预测出该用户的小孩在哪年哪月出生，从而对该用户进行更精准的推荐营销工作。并且，本发明通过标签的方式，将SKU(商品)信息转换为标签信息。所以在预测时，只要购买过这些标签即可，这样可以扩大预测范围，更多更准确地预测用户的孩子的年龄。

附图说明

根据结合示例性附图对示例性实施例的以下描述，本发明的其他细节、方面和优点将变得显而易见，在附图中：

图1是示出根据本发明实施例的确定孩子年龄的方法的总体流程图；

图2是示出根据本发明实施例的从商品标题中挖掘标签的示例的流程图；

图3示出了根据本发明实施例提取出的一部分标签的示例；

图4示出了根据本发明实施例的被转换为标签特征的用户购买信息；

图5是示出根据本发明实施例的产生训练数据的过程的示意图；

图6是示出根据本发明实施例的对模型进行训练时的截屏图；

图7是示出根据本发明实施例的执行用户生日信息确定时的截屏图；

图8是示出根据本发明实施例的用于确定用户数据信息的方法的流程图；

图9是示出根据本发明实施例的用于确定用户数据信息的装置的框图；以及

图10是示出根据本发明实施例的电子设备的框图。

具体实施方式

以下对本发明的示例性实施例做出说明，其中包括本发明实施例的各种细节以有助于理解，应当将它们认为仅仅是示例性的。因此，本领域的技术人员应当认识到，可对本文描述的实施例做出各种修改和改变，而不脱离本发明的范围和精神。

本发明总体上提供了一种用于获取用户数据信息的方法。一般来说，这些数据信息可以与用户在电商网站上购买的商品的适用时段有关。例如，数据信息可以是用户的孩子生日信息，从而用户在购买商品时选择了与孩子年龄相适应的商品。再例如，数据信息可以是用户自身的年龄信息，从而用户可以在购买商品时选择与自己年龄相适应的商品。以下仅用于说明目的，以数据信息是用户孩子的生日信息来说明，但不限于此。

对于孩子的年龄，现在电商网站一般采用鼓励用户去网站填写孩子生日的方式。比如在网站的母婴品类页面建立一个“宝宝档案”的填写框。用户看到了会去填写孩子的生日。这样的方式虽然准确率较高，但是去填写孩子生日信息的用户非常少，远达不到营销目的。还有通过用户购买某一件母婴用品的时间来推测孩子的年龄，比如用户在2016年5月10号买了一罐1段奶粉，而1段奶粉的适用年龄是0至6个月，从而推测该孩子的年龄为0至6个月。

对于第一种技术，在网站上添加填写生日的填写框来获取生日信息，准确率较高，一般超过90％，但是覆盖用户特别特别少，远不足以达到营销目的。

通过用户购买的某一件商品的时间以及该商品的适用年龄段来推测孩子的年龄段虽然可行，但是在准确率和召回率都不令人满意。并且，在用户发生多次购买不同的商品时，这些商品所适用的年龄段是互斥的，无法做出合理的判断。

图1是示出根据本发明实施例的用于确定孩子年龄的方法100的总体流程图，以下详细说明。

步骤101：母婴年龄标签挖掘

首先从商品标题中挖掘出能有年龄区分度的标签，具体如图2所示。图2示出了根据本发明实施例的从商品标题中挖掘标签的示例。

步骤201，获取种子用户(在网站上填写过孩子生日的用户，例如约50万)填写的生日信息，可以按照常规方法划分成几个年龄段，计算用户在购买母婴商品时属于以下哪个年龄段：例如，-9～-1个月、0～3个月、3～6个月、6～12个月、1～3岁、3～6岁、其他。去掉其他这个类别的用户。

步骤202，提取所有(例如50万)种子用户购买过的所有母婴类商品(例如，近三个月内)。

步骤203，统计每个商品被各个年龄段购买的次数m、占比n和被全部50万种子用户购买的总次数t，其中，n＝m/t。

步骤204，从在步骤203中选出每个商品购买年龄段占比最高n，购买次数m和全部50万种子用户购买的总次数t。

步骤205，取m＞50并且t＞200。可以理解，这一步的目的是过滤掉购买数量太少缺少分析价值的商品。

步骤206，对各个年龄段分组，每个组有若干个商品，对于商品的该年龄段占比n由高到低排序并取出top 200个商品。

步骤207，人工从各个年龄段的top商品中选出产品词和具有年龄属性的标签。例如：标题“【京东超市】好奇Huggies金装婴儿纸尿裤新生儿NB70+10片【0-5kg】”选出产品词“纸尿裤”和年龄属性标签“年龄属性标签。

作为示例，试验中共挖掘出476个标签。图3示出了提取出的一部分标签的示例。可以看出，这些标签明确或隐含地具有年龄属性。

步骤102：提取种子用户数据及清洗

种子用户指的是在网站上填写过孩子生日的用户，这部分用户虽少(例如约50万)，但是通过分析种子用户在网站上的行为后，转化为标签进行建模，就可以预测出其他没有填写孩子生日用户的孩子年龄。

首选针对种子用户，从数据库中提取这部分用户对母婴品类商品的购买记录。具体形式为用户购买的商品id、商品的标题、购买月份，购买次数。

步骤103：购买、浏览等信息转化为标签特征

根据步骤102得到的购买数据，通过步骤101得到的标签对步骤102的商品标题进行匹配，匹配到的记录例如如下：用户名，购买的标签，购买月份，购买次数。

例如，用户“小明”在2016年5月购买商品“【京东超市】好奇Huggies金装婴儿纸尿裤新生儿NB70+10片【0-5kg】”-次。由此，根据在步骤101中的标签，匹配到标签“纸尿裤”“裤”““纸尿并记录，如图4所示。

步骤104：训练数据构建和特征平移

由于标签的权重用人工指定有可能不准确，所以采用模型的方法来训练和预测。这里采用的gbdt模型。因此，需要构建训练数据。训练数据分别为正例特征和负例特征两部分。

对于所有种子用户，随机选出3/4的用户用来训练模型，其余1/4的用户用来验证模型的准确率，稍后如步骤106所述。对于待测试的1/4种子用户来说，我们是假设不知道他们孩子的真实年龄。然后根据模型去预测年龄，最终检验算法的准确率。

以下详细描述如何产生训练数据。首先，对步骤101所得到的标签进行编码，例如，由于标签共计476个，所以编号为1～476，编号和标签为一对一的关系。其次，按照步骤103，得到用户每个月的购买标签和购买次数。

然后，构建用户特征的特征长度，选择例如12个月，比如从怀孕9个月到宝宝出生后3个月的所有标签购买记录。即，特征的总长度为12*476。用户子在怀孕第一个月购买的标签序号(或列号)记为1～476，第二个月购买的标签序号记为477～2*476，依次类推。

因为我们知道种子用户的宝宝的生日，所以可以通过生日判断购买时间相对于生日具体是-9个月到+3个月中的哪个月，由此，构建出12个月的特征。此为正例特征。

例如，如图5所示，比如拥有一个用户45个月的历史购买行为，时间从2012年9月1日截止到2016年5月31日，如502所示。并且已知该用户的孩子的生日是2015年7月，如503所示。如上文所述，特征长度是-9至+3的12个月，如501所示。因此，可以基于如图5中用户特征501与用户历史记录502对齐的那部分时间段内的标签购买记录来产生正例特征。注意，此时用户特征和用户购买历史记录对齐，即当前位置，用户特征501对应于2014年11月至2015年10月，进而根据这段时间内的标签购买来产生正例特征。

下面我们通过用户特征平移的方式来构建负例特征。

当用户特征501向左或向右平移时，如箭头504和505所示。我们利用与之对应的时间段中的标签购买来产生负例特征。通过这种方式，得到用户特征的所有平移结果以及所对应的偏移量。偏移量指从当前的月份算起，向左或向右移动了几次。用正负数表示即可。向左是负数，向右是正数。对于所有向左平移和向右平移得到的特征，都作为负例特征。

例如，如果偏移量是-10，仅向左平移10个月，得到相应的用户特征501’，如图5所示。则采用种子用户在2014年1月至2014年12月这段时间内的标签购买来产生负例特征。

最后，还可以将所有的正例特征和负例特征的序号值(或列值)转换为概率形式，即，该标签在12个月各个月份的占比，范围从0～1，其总加和为1。

步骤105：gbdt模型训练

由步骤104得到的正例特征和负例特征混合到一起构成了训练集合。并且，正例特征的结果标记为1，负例特征的结果标记为0。

gbdt模型的实现使用现有的开源工具xgboost完成。配置好训练参数后，即可开始训练。训练参数如图6所示。

训练指令：xgboost mushroom.conf。训练完毕后会得到一个二进制的特征文件0800.model，即模型文件。

步骤106：gbdt测试集预测

对种子用户剩余的1/4用户进行预测，通过步骤104得到的剩余的1/4用户的正例集合和负例集合。对所有集合进行预测，得到每个特征的预测结果，为0～1的一个数字。并且，由于我们知道这1/4的种子用户的孩子的生日信息，可以将正例特征的结果标记为1，负例特征的结果标记为0。

假设预测结果大于a的标为1，其他标为0。通过已知的正确结果，就能算出的准确率。

准确率＝预测结果大于a且正确的特征行数/预测结果大于a的特征行数

召回率＝预测结果大于a的特征行数/所有测试集正例特征行数

调整a值，使得准确率在理想范围内，并且召回率在合理范围内。本实验的a值为0.08，准确率在87％，召回率56％。保留a值，以后进行预测时使用的阈值。

步骤107：提取全站用户数据及清洗

按照步骤102的方法，从数据库中提取所有用户对母婴商品的购买记录，保存用户名、商品id、商品名称、购买月份、购买次数。

步骤108：购买、浏览等信息转化为标签特征

按照步骤103的方法，把全站的用户购买行为，转化为对母婴标签的购买行为。

步骤109：特征平移

按照与步骤104中产生负例特征类似的方法，对待预测用户的用户特征进行平移，但这里需要再计算出平移后对应的生日年月。平移方式与步骤104中产生负例特征类似，所不同的是针对待预测的用户，用户特征从当前时间开始，而在步骤104中负例特征是从正例特征的时间(即和真实生日信息对齐)开始。

例如，数据截止到2016年5月，那么从2016年5月向前数12个月作为特征是，那么孩子的大小应该为3个月，所以对应的生日应为2016年2月。所以，特征向左平移一下，特征的含义为2016年4月往前数12个月作为特征，孩子的大小为3个月，所以对应的生日应为2016年1月。所以，特征向左平移一下，生日就要像前推移一个月；向右平移一下，生日就要向后推移一个月。这样，记录下所有用户平移前后的特征和对应的出生年月。

步骤110：gbdt测试集预测

预测步骤109得到全站用户特征和平移特征，xgboost预测命令如图7所示：

xgboost mushroom.conf task＝pred model_in＝0800.model

得到预测结果，为0～1的一个数值。

步骤111：阈值判断及结果输出

由步骤109得到的用户特征和出身年月，结合步骤110得到的每条特征的概率值(注意，该特征并非真实生日的概率)。就可以预测出孩子的生日。具体操作如下：

计算每个用户的所有平移前后特征预测结果中概率值最大的那一条，保存用户名、预测值和出生年月。

判断预测值是否大于步骤106得到的阈值a，如果大于则输出该用户的用户名和宝宝出生年月。

由此，用户孩子年龄预测完毕。

图8示出了根据本发明实施例的用于确定用户数据信息的方法800的示例。所述方法800包括：步骤801，产生具有年龄属性的标签；步骤802，基于所述标签和所述第一用户中的至少一部分与所述标签有关的购买记录，产生训练特征向量并对模型进行训练；步骤803，基于第二用户与所述标签有关的购买记录，产生多个平移特征向量，每个平移特征向量对应于一个数据信息；步骤804，将所述多个平移特征向量中的每一个输入到经过上述训练的模型，以计算出输出结果最高的平移特征向量；以及步骤805，将与输出结果最高的平移特征向量相对应的数据信息确定为第二用户的数据信息。

在一个实施例中，步骤801还可以包括：提取第一用户购买过的特定类别的商品；基于购买时间和第一用户的数据信息，统计每个商品被各年龄段购买的次数m、占比n和被所有第一用户购买的总次数t，其中n＝m/t；选出每个商品购买年龄段占比最高的n，并且相应的m和t分别大于特定阈值；针对每个年龄段，按占比n从高到低的顺序，从每个年龄段中选择若干个商品；以及从所述若干个商品中提取具有年龄属性的标签。

在一个实施例中，所述训练特征向量和所述平移特征向量可以基于在具有相同长度的时间段内的标签购买记录而产生，并且其列号可以由标签id和标签出现月份在所述时间段内的相对位置来确定，列的值可以是所述标签当月出现的次数或占比。

在一个实施例中，所述训练特征向量可以包括正例特征和负例特征，所述方法还包括：当所述时间段和种子用户的生日信息对齐时，产生正例特征；以及当所述时间段相对于种子用户的生日信息平移时，产生负例特征。

在一个实施例中，所述方法还可以包括：设定阈值，并且仅当输出结果不低于阈值时才确定用户生日信息。其中，所述阈值可以基于对所有种子用户中的另一部分种子用户的测试来确定。

图9是示出根据本发明实施例的用于确定用户数据信息的装置900的框图。装置900可以包括：标签产生单元901，被配置为产生具有年龄属性的标签；模型训练单元902，被配置为基于所述标签和所述第一用户中的至少一部分与所述标签有关的购买记录，产生训练特征向量并对模型进行训练；平移单元903，被配置为基于第二用户与所述标签有关的购买记录，产生多个平移特征向量，每个平移特征向量对应于一个数据信息；计算单元904，被配置为将所述多个平移特征向量中的每一个输入到经过上述训练的模型，以计算出输出结果最高的平移特征向量；以及确定单元905，被配置为将与输出结果最高的平移特征向量相对应的数据信息确定为第二用户的数据信息。

在一个实施例中，所述标签产生单元901还可以被配置为：提取第一用户购买过的特定类别的商品；基于购买时间和第一用户的数据信息，统计每个商品被各年龄段购买的次数m、占比n和被所有第一用户购买的总次数t，其中n＝m/t；选出每个商品购买年龄段占比最高的n，并且相应的m和t分别大于特定阈值；针对每个年龄段，按占比n从高到低的顺序，从每个年龄段中选择若干个商品；以及从所述若干个商品中提取具有年龄属性的标签。

在一个实施例中，所述训练特征向量包括正例特征和负例特征，所述模型训练单元902还可以被配置为：当所述时间段和第一用户的数据信息对齐时，产生正例特征；以及当所述时间段相对于第一用户的数据信息平移时，产生负例特征。

在一个实施例中，所述确定单元905还可以被配置为：设定阈值，并且仅当输出结果不低于阈值时才确定第二用户的数据信息。

图10是示出根据本发明实施例的电子设备1000的框图。电子设备1000包括处理器1006(例如，微处理器(μ例)、数字信号处理器(DSP)等)。处理器1006可以是用于执行本文描述的流程的不同动作的单一处理单元或者是多个处理单元。电子设备1000还可以包括用于从其他实体接收信号的输入单元1002、以及用于向其他实体提供信号的输出单元1004。输入单元1002和输出单元1004可以被布置为单一实体或者是分离的实体。

此外，电子设备1000可以包括具有非易失性或易失性存储器形式的至少一个可读存储介质1008，例如是电可擦除可编程只读存储器(EEPROM)、闪存、和/或硬盘驱动器。可读存储介质1008包括计算机程序1010，该计算机程序1010包括代码/计算机可读指令，其在由电子设备1000中的处理器1006执行时使得电子设备1000可以执行例如上面结合图1至9所描述的流程及其任何变形。

计算机程序1010可被配置为具有例如计算机程序模块1010A～1010E(仅作为示例，可以更多或更少)架构的计算机程序代码。因此，装置1000的计算机程序中的代码包括：模块1010A，用于…。计算机程序中的代码还包括：模块1010B，用于…。计算机程序中的代码还包括：模块1010C，用于…，诸如此类。

尽管上面结合图10所公开的实施例中的代码手段被实现为计算机程序模块，其在处理器1006中执行时使得电子设备1000执行上面结合图1至9所描述的动作，然而在备选实施例中，该代码手段中的至少一项可以至少被部分地实现为硬件电路。

通过本发明可以准确地预测出用户孩子出生的年月，知道用户孩子的年龄后就推荐更精准的商品。具体地，可以通过网站上的推荐系统、邮件推送、海报、微信推送、优惠券等方式把商品推荐给用户，不仅大大的增加了购物体验，缩短了整个下单流程，也对母婴品类的GMV有很大贡献。并且，本发明通过标签的方式，将sku(商品)信息转换为标签信息。所以在预测时，只要购买过这些标签即可，这样可以扩大预测范围，更多更准确地预测用户的孩子的年龄。

以上的详细描述通过使用示意图、流程图和/或示例，已经阐述了检查方法和系统的众多实施例。在这种示意图、流程图和/或示例包含一个或多个功能和/或操作的情况下，本领域技术人员应理解，这种示意图、流程图或示例中的每一功能和/或操作可以通过各种结构、硬件、软件、固件或实质上它们的任意组合来单独和/或共同实现。在一个实施例中，本发明的实施例所述主题的若干部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、或其他集成格式来实现。然而，本领域技术人员应认识到，这里所公开的实施例的一些方面在整体上或部分地可以等同地实现在集成电路中，实现为在一台或多台计算机上运行的一个或多个计算机程序(例如，实现为在一台或多台计算机系统上运行的一个或多个程序)，实现为在一个或多个处理器上运行的一个或多个程序(例如，实现为在一个或多个微处理器上运行的一个或多个程序)，实现为固件，或者实质上实现为上述方式的任意组合，并且本领域技术人员根据本公开，将具备设计电路和/或写入软件和/或固件代码的能力。此外，本领域技术人员将认识到，本公开所述主题的机制能够作为多种形式的程序产品进行分发，并且无论实际用来执行分发的信号承载介质的具体类型如何，本公开所述主题的示例性实施例均适用。信号承载介质的示例包括但不限于：可记录型介质，如软盘、硬盘驱动器、紧致盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器等；以及传输型介质，如数字和/或模拟通信介质(例如，光纤光缆、波导、有线通信链路、无线通信链路等)。

根据本公开各种实施例的模块或程序模块可以包括上述元件中的至少一个元件，并且可以省略一些元件，或可以添加其他额外的元件。可以通过顺序、并行、迭代或启发方式来执行由模块、程序模块或其他元件执行的操作。另外，一些操作可以按另一种顺序来执行，或者可以省略一些操作，或者可以增加其他操作。

尽管参考本公开各实施例示出并描述了本公开，但是本领域技术人员将理解：在不脱离由所附权利要求及其等同物、而非详细的说明书和实施例所限定的本公开的精神和范围的前提下，可以在其中进行形式和细节上的各种改变。

Claims

1.一种用于确定用户数据信息的方法，包括：

产生具有婴幼儿年龄属性的标签，其中，包括提取第一用户购买过的特定类别的商品；基于购买时间和第一用户的数据信息，统计每个商品被各年龄段购买的次数m、占比n和被所有第一用户购买的总次数t，其中n＝m/t；选出每个商品购买年龄段占比最高的n，并且相应的m和t分别大于特定阈值；针对每个年龄段，按占比n从高到低的顺序，从每个年龄段中选择若干个商品；以及从所述若干个商品中提取具有婴幼儿年龄属性的标签；

基于所述标签和所述第一用户中的至少一部分与所述标签有关的购买记录，产生训练特征向量并对模型进行训练；

基于第二用户与所述标签有关的购买记录，产生多个平移特征向量，每个平移特征向量对应于一个数据信息；

将所述多个平移特征向量中的每一个输入到经过上述训练的模型，以计算出输出结果最高的平移特征向量；以及

将与输出结果最高的平移特征向量相对应的数据信息确定为第二用户的数据信息。

2.根据权利要求1所述的方法，其中，所述训练特征向量和所述平移特征向量基于在具有相同长度的时间段内的标签购买记录而产生，并且其列号由标签id和标签出现月份在所述时间段内的相对位置来确定，列的值是所述标签当月出现的次数或占比。

3.根据权利要求2所述的方法，其中，所述训练特征向量包括正例特征和负例特征，所述方法还包括：

当所述时间段和第一用户的数据信息对齐时，产生正例特征；以及

当所述时间段相对于第一用户的数据信息平移时，产生负例特征。

4.根据权利要求1所述的方法，还包括：设定阈值，并且仅当输出结果不低于阈值时才确定第二用户的数据信息。

5.根据权利要求4所述的方法，其中，所述阈值基于对第一用户中的另一部分用户的测试来确定。

6.一种用于确定用户数据信息的装置，包括：

标签产生单元，被配置为产生具有婴幼儿年龄属性的标签，其中，包括提取第一用户购买过的特定类别的商品；基于购买时间和第一用户的数据信息，统计每个商品被各年龄段购买的次数m、占比n和被所有第一用户购买的总次数t，其中n＝m/t；选出每个商品购买年龄段占比最高的n，并且相应的m和t分别大于特定阈值；针对每个年龄段，按占比n从高到低的顺序，从每个年龄段中选择若干个商品；以及从所述若干个商品中提取具有婴幼儿年龄属性的标签；

模型训练单元，被配置为基于所述标签和所述第一用户中的至少一部分与所述标签有关的购买记录，产生训练特征向量并对模型进行训练；

平移单元，被配置为基于第二用户与所述标签有关的购买记录，产生多个平移特征向量，每个平移特征向量对应于一个数据信息；

计算单元，被配置为将所述多个平移特征向量中的每一个输入到经过上述训练的模型，以计算出输出结果最高的平移特征向量；以及

确定单元，被配置为将与输出结果最高的平移特征向量相对应的数据信息确定为第二用户的数据信息。

7.根据权利要求6所述的装置，其中，所述训练特征向量和所述平移特征向量基于在具有相同长度的时间段内的标签购买记录而产生，并且其列号由标签id和标签出现月份在所述时间段内的相对位置来确定，列的值是所述标签当月出现的次数或占比。

8.根据权利要求6所述的装置，其中，所述训练特征向量包括正例特征和负例特征，所述模型训练单元还被配置为：

9.根据权利要求6所述的装置，其中，所述确定单元还被配置为：设定阈值，并且仅当输出结果不低于阈值时才确定第二用户的数据信息。

10.根据权利要求9所述的装置，其中，所述阈值基于对第一用户中的另一部分用户的测试来确定。

11.一种电子设备，包括：

存储器，被配置为存储可执行指令；以及

处理器，被配置为执行存储器中存储的可执行指令，以执行如权利要求1至5中任一项所述的方法。

12.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于被计算机执行，使得所述计算机执行如权利要求1至5中任一项所述的方法。