CN108470285B

CN108470285B - 用于获取用户数据信息的方法、装置、电子设备和存储介质

Info

Publication number: CN108470285B
Application number: CN201710101502.7A
Authority: CN
Inventors: 邵佳帅; 李海涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-02-23
Filing date: 2017-02-23
Publication date: 2021-11-12
Anticipated expiration: 2037-02-23
Also published as: CN108470285A

Abstract

提供一种用于获取用户数据信息的方法，包括：获取第一用户的数据信息；根据第一用户中的至少一部分用户的数据信息和行为记录信息，生成种子向量；根据所生成的种子向量，计算种子向量的中心点；根据第二用户在一段时间内的行为记录信息，生成多个平移向量，其中每个所述平移向量对应于一个数据信息；计算多个平移向量中的每一个与种子向量的中心点的相似度，以确定具有最高相似度的平移向量；以及将与具有最高相似度的平移向量相对应的数据信息确定为第二用户的数据信息。本发明预测出用户的孩子的生日信息，从而对该用户进行更精准的推荐营销工作。

Description

用于获取用户数据信息的方法、装置、电子设备和存储介质

技术领域

本发明涉及互联网技术领域，具体涉及一种用于获取用户数据信息的方法、装置、电子设备和存储介质。

背景技术

在电子商务网站飞速发展的大环境下，针对的客户的精细化营销变得越来越重要。在针对特定种类的商品进行营销推广时，例如，在针对母婴品类商品进行营销推广时，如果能知道宝宝的年龄信息，将能够大大提高产品推荐的精准度、提升推广的转化率，为用户推荐更符合自身需求的商品，从而给用户带来更好的购物体验。

而现有技术中，获取或预测用户或其宝宝年龄信息的方式较为单一，主要包括：通过用户自主填报，或者，通过用户购买的某件商品所适用的宝宝大小来反推宝宝年龄。

在实现本发明的过程中，发明人发现现有技术存在如下技术问题：用户自主填报的比例太低；通过某件商品反推宝宝年龄的准确度不够高，当用户购买了多件适用于不同年龄段宝宝的商品的情况下，难以准确预测出宝宝年龄。因此，需要一种能够更准确可靠预测出宝宝年龄的方法及装置，以向用户推荐更精准的商品。

发明内容

有鉴于此，根据本发明的第一方面，一种用于获取用户数据信息的方法，包括：获取第一用户的数据信息；根据所述第一用户中的至少一部分用户的数据信息和行为记录信息，生成种子向量；根据所生成的种子向量，计算所述种子向量的中心点；根据第二用户在一段时间内的行为记录信息，生成多个平移向量，其中，每个所述平移向量对应于一个数据信息；计算所述多个平移向量中的每一个与所述种子向量的中心点的相似度，以确定具有最高相似度的平移向量；以及将与所述具有最高相似度的平移向量相对应的数据信息确定为所述第二用户的数据信息。

在一个实施例中，所述行为记录信息可以包括商品id、行为类型、行为时间和行为次数中的至少一项。

在一个实施例中，所述种子向量和所述平移向量的列号可以基于商品id、行为类型和行为时间来确定，列的数值为对应的归一化的行为次数。

在一个实施例中，可以通过计算所有种子向量的加权平均来计算种子向量中心点。

在一个实施例中，所述相似度可以是余弦相似度。

在一个实施例中，所述方法还可以包括：设定阈值，并且仅当最高相似度不低于所述阈值时才确定用户个人信息。

在一个实施例中，所述阈值可以基于对第一用户中的另一部分用户的测试来确定。

在一个实施例中，所述数据信息可以是与用户有关的生日信息或年龄信息。

根据本发明的第二方面，提供一种用于获取用户数据信息的装置，包括：获取单元，被配置为获取第一用户的数据信息；种子向量生成单元，被配置为根据所述第一用户中的至少一部分用户的数据信息和行为记录信息，生成种子向量；中心点计算单元，被配置为根据生成的种子向量来计算种子向量的中心点；平移向量生成单元，被配置为根据第二用户在一段时间内的行为记录信息，生成多个平移向量，其中每个平移向量对应于一个数据信息；相似度计算单元，被配置为计算所述多个平移向量中的每一个与所述种子向量的中心点的相似度，以确定具有最高相似度的平移向量；以及确定单元，被配置为将与具有最高相似度的平移向量相对应的数据信息确定为所述第二用户的数据信息。

根据本发明的第三方面，还提供一种电子设备。所述电子设备包括：存储器，被配置为存储可执行指令；以及处理器，被配置为执行存储器中存储的可执行指令，以执行如上述第一方面的方法。

根据本发明的第四方面，还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于被计算机执行，使得所述计算机执行如上述第一方面所述的方法。

通过用户在电商网站上的行为，包括购买、浏览、关注、添加购物车、评论等等，建模向量模型，预测出该用户的小孩在哪年哪月出生，从而对该用户进行更精准的推荐营销工作。

附图说明

根据结合示例性附图对示例性实施例的以下描述，本发明的其他细节、方面和优点将变得显而易见，在附图中：

图1是示出根据本发明实施例的用于获取用户数据信息的方法的总体流程图；

图2A示出了根据本发明实施例的记录在数据库中与母婴商品有关的用户行为记录的示例；

图2B示出了根据本发明实施例的用户向量所涉及的需要分析的时间段；

图3是示出根据本发明实施例的平移向量产生过程的示意图；

图4是示出根据本发明实施例的用于获取用户数据信息的方法的流程图；

图5是示出根据本发明实施例的用于获取用户数据信息的装置的框图；以及

图6是示出根据本发明实施例的电子设备的框图。

具体实施方式

以下对本发明的示例性实施例做出说明，其中包括本发明实施例的各种细节以有助于理解，应当将它们认为仅仅是示例性的。因此，本领域的技术人员应当认识到，可对本文描述的实施例做出各种修改和改变，而不脱离本发明的范围和精神。

本发明总体上提供了一种用于获取用户数据信息的方法。一般来说，这些数据信息可以与用户在电商网站上购买的商品的适用时段有关。例如，数据信息可以是用户的孩子生日信息，从而用户在购买商品时选择了与孩子年龄相适应的商品。再例如，数据信息可以是用户自身的年龄信息，从而用户可以在购买商品时选择与自己年龄相适应的商品。以下仅用于说明目的，以数据信息是用户孩子的生日信息来说明，但不限于此。

为了获取用户宝宝的年龄信息，现有电商网站一般会鼓励用户主动填写宝宝的生日信息，这种方式所获取的信息准确率高，但是覆盖范围比较小，很少用户会主动将宝宝的生日信息上报给网站运营方，因此，这种方式很难达到有效的营销目的。

除此之外，还可以通过用户购买某一件或某几件商品的时间及所适用的年龄段来推测宝宝的年龄，比如用户在2016年5月10号买了一罐1段奶粉，而1段奶粉的适用年龄是0至6个月，从而推测该孩子的年龄为0至6个月。这种方式获得的年龄信息准确度不够高，可能原因在于：一、用户可能会提前囤货；二、当购买了多件适用年龄不同的商品时，难以准确作出判断；三、有些商品适用年龄段跨度较大，比如3段奶粉的适用年龄是1至3岁，那宝宝的年龄区间为1至3岁。因此，要想仅仅通过某件或者某几件商品的购买情况来判断宝宝的年龄，存在较大的局限性。

图1是示出根据本发明实施例的用于获取用户数据信息的方法100的总体流程图，其中，数据信息可以是例如用户孩子的生日信息。以下详细说明。

步骤101：种子用户数据提取以及加工

种子用户指的是在电商网站上填写过孩子生日信息的用户，这部分用户虽少(例如50万)，但是通过分析种子用户在网站上的行为后进行向量建模，就可以预测出其他没有填写孩子生日用户的孩子年龄。其中，可以通过用户主动填报的方式、用户问卷调查的方式或其他任何方式来获取种子用户的孩子的生日信息。

具体地，针对种子用户从例如数据库中提取这部分用户与母婴品类商品相关的行为记录信息，包括但不限于购买、浏览、关注、购物车、评论等。具体形式为用户购买的商品id、购买时间、行为类型和行为次数，如图2A所示，其示出了记录在数据库中与母婴商品有关的用户行为记录。

步骤102：群向量构建

可以通过用户向量来构建群向量。群向量可以被理解为表示一段时间内与例如某类商品(如母婴产品)有关的用户行为的用户向量的集合。所以，首先我们构建每个用户的用户向量。对于每一个用户，可以采用例如怀孕9个月加上宝宝出生后的12个月，一共21个月的购物行为作为用户向量，如图2B所示，其示出了用户向量所涉及的需要分析的一段时间。本领域技术人员应当理解，用户向量的时间范围不限于从-9月到出生后的12个月，可以根据需要而灵活设置。

接下来，对这段时间范围内的各种用户行为进行编码，以产生用户向量。例如，在电商网站上可以一共有10万件母婴商品，并且参与构建用户向量的行为可以包括购买、浏览、购物车、关注四种。因此，用户每个月的行为的向量空间大小可以是4*100000，每个用户的总向量空间的大小可以是21*4*100000。

作为示例，首先，对商品进行编码。针对10万个商品，将其编号为1-100000，每个数字代表一件商品。也就是说商品及其编码是一对一的关系。其次，根据种子用户所填写的年龄，按照怀孕9个月和生宝宝后12个月的行为和行为次数，按照月划分，分别计算出每个月的所有行为。比如，针对用户在-9个月对10万个商品进行的购买、浏览、购物车、关注的四种行为，购买的记为1-100000，浏览的记为100001-200000，购物车的记为200001-300000，关注的记为300001-400000。针对-8个月的行为，其被编码为从400001-800000。由此，每个月向量往后累加4*100000＝40万。依此类推，直到840万全部构建完。这是一个很稀疏的向量，实际有数值的列可能很少。

举个例子，某一个母婴商品的序号为5，一个用户在-5个月时候对该商品浏览了5次，则与该行为相对应的列号为4*4*100000+200005＝1800005，次数为5。其中，代表该用户的第1800005列的数值为5，4*4*100000中的4*4代表前面已经发生的4个月向量和每个月向量的行为有4种。

这样一个用户的基础向量就构建完了。接下来还可以把向量中的数值归一化。这样做的目的在于，基础向量中体现的是该用户对一件商品购买在各个月的分布情况。如果采用的是绝对值，那么有的用户买的特别多，有的用户买的特别少，对计算结果会产生很大的差异性。归一化的方式是：对于同一件商品的同一种行为，对行为次数加和后，求出每个月行为的占比。举个例子，某个用户在-9月购买了编号为105的商品5次，-8月购买了编号为105的商品1次。那么归一化结果为第105列为5/6，第400105列为1/6。

由此，可以得到每个种子用户最终的用户向量，因为种子用户的孩子的生日信息是已知的。并且，可以基于此获得种子用户的群向量。

步骤三：群向量中心点计算

群向量的中心点可以是例如所有或一部分用户向量的加和求平均。根据本公开的实施例，对于所有种子用户，随机选出例如3/4的用户用来构建群向量，其余1/4的用户用来验证模型的准确率。

首先，随机选取种子用户(例如50万)中的3/4作为计算群向量中心点的基础数据，余下1/4；然后如上述步骤102来计算3/4种子用户的用户向量，并将所有列分别加和求平均，即得到群向量的中心点。某种意义上，可以将群向量中心点理解为在一段时间范围内与母婴产品有关的标准行为模板，用于后续比较，稍后详述。

步骤104：用户向量平移

为验证模型，我们假设不知道待测试的1/4种子用户的孩子的真实生日信息。然后根据他们的用户向量计算去预测生日信息，最终检验算法的准确率和召回率。

本发明提出了一种利用平移来产生的用户向量(以下也可称为平移向量)来预测用户的生日信息的方法。具体地，首先，我们按月统计用户历史中所有与母婴商品有关的行为，如步骤101；其次，以如步骤102所述的大小为21个月的滑动窗口进行平移，得到用户的多个待预测向量；最后，按照如步骤102所述的编码方式构建相应的用户向量，得到平移向量。

图3是示出根据本发明实施例的平移向量产生过程的示意图。例如，拥有一个用户45个月的历史购买行为，时间是从2012年9月1日至2016年5月31日，如302所示。在开始平移前，假设用户向量301(从-9月到+12月)的右侧和用户购买历史302的右侧对齐，偏移量为0。然后，将用户向量301以月为单位向左或向右平移，就可以得到多个待预测向量，根据平移后的向量301与用户购买历史重叠的部分中的用户行为(比如购买、浏览、购物车、评论等)，进行编码以构建相应的用户向量，具体可以按照如步骤102的编码方式。

在一个实施例中，设置用户向量301向左平移的范围使得用户向量301的左侧不超出用户购买历史302的左侧，向右平移的范围使得用户向量与用户购买历史302至少有一个月重叠。以上平移的范围仅是示例，本领域技术人员能够根据需要灵活地改变或设置用户向量的平移范围。由此，那么该用户所对应的平移向量数量为45+21-1＝65个。一般地，如果用户有N个月的历史行为记录，那么通过平移得到平移向量的数目可以是(N-1)+(21-1)+1＝N+20个。

通过这种方式，得到用户向量的所有平移向量以及所对应的偏移量。偏移量指从当前的月份算起，向左或向右移动了几次。用正负数表示即可。例如，向左是负数，向右是正数。

步骤105：计算平移的用户向量与群向量中心夹角值

由步骤104得到了所有平移向量。现在需要计算用户的平移后得到的每个用户向量与步骤103得到的群向量中心点的相似度，相似度越高说明该用户处于该年龄段的概率越大。

在一个实施例中，相似度计算可以采用余弦夹角计算方式，计算如下：

本领域技术人员可以理解，计算向量的相似度的方式不限于此。

步骤106：取用户的最大夹角值

由步骤105得到了用户的所有平移向量与群向量中心点的夹角值。针对每一个用户，可以取出该用户所计算出的最大夹角值和相应的平移月份偏移量。

步骤107：转换成生日

根据用户最大夹角值的偏移量即可计算出用户孩子的生日月份，该生日作为预测结果。比如得到用户最大夹角值的向量是从2016年5月往左移动了3个月得到的。那么该用户的孩子生日应该为，2016年5月减去12个月，再减去3个月。减去12个月的含义是，如果与群向量-9-12个月的计算结果最相似，代表了用户刚好经历群向量所代表的时间段，所以孩子此时应该已经满12个月，所以出生日期要往前推一个月。又因为向量向左平移了3个月，所有还要再减去3个月，所以得到孩子的生日为2015年2月。依次类推，得到所有待测试用户(例如，另外1/4的种子用户)孩子的生日。

步骤108：准确率和召回率评估

因为事先就知道待测试的1/4用户的真实生日，通过对比，就可以得到预测的准确率。通过设置余弦夹角值的阈值，我们可以得到预测精度较高的一部分用户，同时也可以计算召回率。例如，夹角值的阈值为0.1，那么：

准确率＝大于0.1阈值的所有目标用户中预测对的用户数/大于0.1阈值的所有目标用户

召回率＝大于0.1阈值的所有目标用户树/所有目标用户数

可以通过对数据的准确率和召回率的要求，挑选出合适的阈值。一般来说，准确率越高，阈值就越高，召回率就越低。当夹角值阈值是0.1时，发明人所自测的准确率是80％，召回率是50％。

以下步骤109至步骤113涉及对生日信息未知的用户的预测。

步骤109：目标用户数据的提取及加工

按照步骤101的方法，从数据库中提取所有目标用户对母婴商品的行为记录信息，包括购买、浏览、关注、购物车、评论等。具体形式为用户购买的商品id，购买月份，行为类型，行为次数。

步骤110：用户向量平移

针对所有用户，类似步骤102和步骤104的工作，得到所有目标用户的平移向量和对应的偏移量。这里，与之前的步骤104至步骤108中的目标用户(另外的1/4种子用户)唯一的区别就是现在不知道当前这批用户的孩子的真实生日信息。

步骤111：计算平移向量与群向量中心夹角值

类似步骤105，计算所有目标用户的平移向量与群向量中心点的余弦夹角值。

步骤112：取用户夹角最大值并判断是否满足阈值

类似步骤106，得到用户最大夹角值，并可以根据步骤108得到的阈值，判断是否满足阈值。如果满足输出偏移量，不满足不输出。

步骤113和步骤114：转换成生日并输出结果

由步骤112得到的用户偏移量，根据如步骤107的逻辑算出生日，并保存结果或输出。由此，得到了这些有过母婴商品行为记录的用户的孩子年龄预测结果。

图4是示出根据本发明实施例的用于获取用户数据信息(例如，与用户有关的生日信息，比如孩子的生日信息)的方法400的流程图。所述方法400包括：步骤401，获取第一用户的数据信息；步骤402，根据所述第一用户中的至少一部分用户的数据信息和行为记录信息，生成种子向量；步骤403，根据所生成的种子向量，计算所述种子向量的中心点；步骤404，根据第二用户在一段时间内的行为记录信息，生成多个平移向量，其中，每个所述平移向量对应于一个数据信息；步骤405，计算所述多个平移向量中的每一个与所述种子向量的中心点的相似度，以确定具有最高相似度的平移向量；以及步骤406，将与所述具有最高相似度的平移向量相对应的数据信息确定为所述第二用户的数据信息。

在一个实施例中，所述种子向量和平移向量的列号可以基于商品id、行为类型和行为时间来确定，列的数值可以是对应的归一化的行为次数。

在一个实施例中，可以通过计算所有种子向量的加权平均来计算种子向量中心点，其中，所述相似度可以是余弦相似度。

在一个实施例中，所述方法400还可以包括设定阈值，并且仅当最高相似度不低于所述阈值时才确定数据信息。所述阈值可以基于对种子用户中的另一部分种子用户的测试来确定。

图5示出了根据本发明实施例的用于获取用户数据信息的装置500，包括：获取单元501，被配置为获取第一用户的数据信息；种子向量生成单元502，被配置为根据所述第一用户中的至少一部分用户的数据信息和行为记录信息，生成种子向量；中心点计算单元503，被配置为根据生成的种子向量来计算种子向量的中心点；平移向量生成单元504，被配置为根据第二用户在一段时间内的行为记录信息，生成多个平移向量，其中每个平移向量对应于一个数据信息；相似度计算单元505，被配置为计算所述多个平移向量中的每一个与所述种子向量的中心点的相似度，以确定具有最高相似度的平移向量；以及确定单元506，被配置为将与具有最高相似度的平移向量相对应的数据信息确定为所述第二用户的数据信息。

在一个实施例中，中心点计算单元503还可以被配置为通过计算所有种子向量的加权平均来计算所述种子向量的中心点。

在一个实施例中，所述相似度可以是余弦相似度。

在一个实施例中，确定单元506还可以被配置为设定阈值，并且仅当最高相似度不低于所述阈值时才确定数据信息。

图6是示出根据本发明实施例的电子设备600的框图。电子设备600包括处理器606(例如，微处理器(μP)、数字信号处理器(DSP)等)。处理器606可以是用于执行本文描述的流程的不同动作的单一处理单元或者是多个处理单元。电子设备600还可以包括用于从其他实体接收信号的输入单元602、以及用于向其他实体提供信号的输出单元604。输入单元602和输出单元604可以被布置为单一实体或者是分离的实体。

此外，电子设备600可以包括具有暂态或非暂态存储器形式的至少一个可读存储介质608，例如是电可擦除可编程只读存储器(EEPROM)、闪存、和/或硬盘驱动器。可读存储介质608包括计算机程序610，该计算机程序610包括代码/计算机可读指令，其在由电子设备600中的处理器606执行时使得电子设备600可以执行例如上面结合图1至5所描述的流程及其任何变形。

计算机程序610可被配置为具有例如计算机程序模块610A～610E架构的计算机程序代码。因此，在例如设备100中使用电子设备600时的示例实施例中，电子设备600的计算机程序中的代码包括：模块610A，用于…。计算机程序中的代码还包括：模块610B，用于…。计算机程序中的代码还包括：模块610C，用于…，诸如此类。应当理解，可以包括比图6所示更多或更少的计算机程序模块。

尽管上面结合图6所公开的实施例中的代码手段被实现为计算机程序模块，其在处理器606中执行时使得电子设备600执行上面结合图1至5所描述的动作，然而在备选实施例中，该代码手段中的至少一项可以至少被部分地实现为硬件电路。

通过本发明，可以准确预测出用户孩子出生的年月，知道用户孩子的生日信息后，可以更精准地推荐商品。具体地，可以通过网站上的推荐系统、邮件推送、促销海报、微信推送、优惠券等方式把商品推荐给用户。这样不仅大大的增加了购物体验，缩短了下单流程，也对母婴品类的GMV有很大贡献。

以上的详细描述通过使用示意图、流程图和/或示例，已经阐述了检查方法和系统的众多实施例。在这种示意图、流程图和/或示例包含一个或多个功能和/或操作的情况下，本领域技术人员应理解，这种示意图、流程图或示例中的每一功能和/或操作可以通过各种结构、硬件、软件、固件或实质上它们的任意组合来单独和/或共同实现。在一个实施例中，本发明的实施例所述主题的若干部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、或其他集成格式来实现。然而，本领域技术人员应认识到，这里所公开的实施例的一些方面在整体上或部分地可以等同地实现在集成电路中，实现为在一台或多台计算机上运行的一个或多个计算机程序(例如，实现为在一台或多台计算机系统上运行的一个或多个程序)，实现为在一个或多个处理器上运行的一个或多个程序(例如，实现为在一个或多个微处理器上运行的一个或多个程序)，实现为固件，或者实质上实现为上述方式的任意组合，并且本领域技术人员根据本公开，将具备设计电路和/或写入软件和/或固件代码的能力。此外，本领域技术人员将认识到，本公开所述主题的机制能够作为多种形式的程序产品进行分发，并且无论实际用来执行分发的信号承载介质的具体类型如何，本公开所述主题的示例性实施例均适用。信号承载介质的示例包括但不限于：可记录型介质，如软盘、硬盘驱动器、紧致盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器等；以及传输型介质，如数字和/或模拟通信介质(例如，光纤光缆、波导、有线通信链路、无线通信链路等)。

根据本公开各种实施例的模块或程序模块可以包括上述元件中的至少一个元件，并且可以省略一些元件，或可以添加其他额外的元件。可以通过顺序、并行、迭代或启发方式来执行由模块、程序模块或其他元件执行的操作。另外，一些操作可以按另一种顺序来执行，或者可以省略一些操作，或者可以增加其他操作。

尽管参考本公开各实施例示出并描述了本公开，但是本领域技术人员将理解：在不脱离由所附权利要求及其等同物、而非详细的说明书和实施例所限定的本公开的精神和范围的前提下，可以在其中进行形式和细节上的各种改变。

Claims

1.一种用于获取用户数据信息的方法，包括：

获取第一用户的数据信息；

根据所述第一用户中的至少一部分用户的数据信息和行为记录信息，生成种子向量，其中，所述种子向量表示所述至少一部分用户在第一时间段内的所述行为记录信息的分布情况；

根据所生成的种子向量，计算所述种子向量的中心点；

根据第二用户在第二时间段内的行为记录信息，将所述第一时间段按照预设单位在所述第二时间段内平移至少一次，将每次平移后所述第二时间段与所述第一时间段重叠的部分所对应的所述第二用户的所述行为记录信息，生成一个平移向量，其中，每个所述平移向量对应于一个预测的第二用户的数据信息；

计算每个所述平移向量与所述种子向量的中心点之间的相似度，以确定具有最高相似度的平移向量；以及

将与所述具有最高相似度的平移向量相对应的所述预测的第二用户的数据信息确定为所述第二用户的数据信息。

2.根据权利要求1所述的方法，其中，所述行为记录信息包括商品id、行为类型、行为时间和行为次数中的至少一项。

3.根据权利要求2所述的方法，其中，所述种子向量和所述平移向量的列号基于商品id、行为类型和行为时间来确定，列的数值为对应的归一化的行为次数。

4.根据权利要求1所述的方法，其中，通过计算所有种子向量的加权平均来计算所述种子向量的中心点。

5.根据权利要求1所述的方法，其中，所述相似度是余弦相似度。

6.根据权利要求1所述的方法，还包括：设定阈值，并且仅当最高相似度不低于所述阈值时才确定数据信息。

7.根据权利要求6所述的方法，其中，所述阈值基于对第一用户中的另一部分用户的测试来确定。

8.根据权利要求1至7中任一项所述的方法，其中，所述数据信息是与用户有关的生日信息或年龄信息。

9.一种用于获取用户数据信息的装置，包括：

获取单元，被配置为获取第一用户的数据信息；

种子向量生成单元，被配置为根据所述第一用户中的至少一部分用户的数据信息和行为记录信息，生成种子向量，其中，所述种子向量表示所述至少一部分用户在第一时间段内的所述行为记录信息的分布情况；

中心点计算单元，被配置为根据所生成的种子向量来计算种子向量的中心点；

平移向量生成单元，被配置为根据第二用户在第二时间段内的行为记录信息，将所述第一时间段按照预设单位在所述第二时间段内平移至少一次，将每次平移后所述第二时间段与所述第一时间段重叠的部分所对应的所述第二用户的所述行为记录信息，生成一个平移向量，其中，每个所述平移向量对应于一个预测的第二用户数据信息；

相似度计算单元，被配置为计算每个所述平移向量与所述种子向量的中心点之间的相似度，以确定具有最高相似度的平移向量；以及

确定单元，被配置为将与具有最高相似度的平移向量相对应的所述预测的第二用户的数据信息确定为所述第二用户的数据信息。

10.根据权利要求9所述的装置，其中，所述行为记录信息包括商品id、行为类型、行为时间和行为次数中的至少一项。

11.根据权利要求10所述的装置，其中，所述种子向量和所述平移向量的列号基于商品id、行为类型和行为时间来确定，列的数值为对应的归一化的行为次数。

12.根据权利要求9所述的装置，其中，中心点计算单元还被配置为通过计算所有种子向量的加权平均来计算所述种子向量的中心点。

13.根据权利要求9所述的装置，其中，所述相似度是余弦相似度。

14.根据权利要求9所述的装置，其中，确定单元还被配置为设定阈值，并且仅当最高相似度不低于所述阈值时才确定数据信息。

15.根据权利要求14所述的装置，其中，所述阈值基于对第一用户中的另一部分用户的测试来确定。

16.根据权利要求9至15中任一项所述的装置，其中，所述数据信息是与用户有关的生日信息或年龄信息。

17.一种电子设备，包括：

存储器，被配置为存储可执行指令；以及

处理器，被配置为执行存储器中存储的可执行指令，以执行如权利要求1至8中任一项所述的方法。

18.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于被计算机执行，使得所述计算机执行如权利要求1至8中任一项所述的方法。