CN110457361A

CN110457361A - 特征数据获取方法、装置、计算机设备和存储介质

Info

Publication number: CN110457361A
Application number: CN201910603746.4A
Authority: CN
Inventors: 侯晓龙; 任俊松
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-11-15
Anticipated expiration: 2039-07-05
Also published as: CN110457361B

Abstract

本申请涉及大数据处理，提供了一种特征数据获取方法、装置、计算机设备和存储介质。所述方法包括：获取历史数据，对历史数据预处理，得到离线数据，根据离线数据得到预设特征对应的离线数据序列，将离线数据序列写入数据库中；获取第一时间点，第一时间点是离线数据序列写入数据库完成时的时间点，将第一时间点作为目标时间戳；获取第二当前系统时间点，将第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据增量数据得到预设特征对应的实时数据序列；从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列。采用本方法能够使得到的特征数据更加精确。

Description

特征数据获取方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种特征数据获取方法、装置、计算机设备和存储介质。

背景技术

机器学习都是通过历史数据在离线的情况下训练各种模型比如，传统的推荐模型一般通过集群使用hadoop MapReduce对用户行为数据每间隔一天进行一次离线训练，这些方法无法满足实时推荐的需求。目前。对于实时性的推荐需求，通过实时特征的更新方式通常是T+1(数据从产生到使用需要经过一个日终跑批，数据汇总得到的结果最多也只能是日报)的离线更新方式，即当天的数据无法得到实时的更新，导致得到的特征数据滞后性比较高，尤其是在新闻咨询场景，实时性要求更高，特征数据滞后性比较高导致特征数据精确性较低，影响特征数据的使用效果。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高特征数据精确性的特征数据获取方法、装置、计算机设备和存储介质。

一种特征数据获取方法，所述方法包括：

获取历史数据，对历史数据预处理，得到离线数据，根据离线数据得到预设特征对应的离线数据序列，将所述离线数据序列写入数据库中；

获取第一时间点，第一时间点是离线数据序列写入数据库完成时的时间点，将第一时间点作为目标时间戳；

获取第二当前系统时间点，将第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据增量数据得到预设特征对应的实时数据序列；

从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列。

在其中一个实施例中，获取第二当前系统时间点，将第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据增量数据得到预设特征对应的实时数据序列，包括：

当第二当前系统时间点在目标时间戳之前时，获取第一时间段的第一增量数据，第二时间段的第二增量数据和第三时间段的第三增量数据；

根据第一增量数据、第二增量数据和第三增量数据得到预设特征对应的第一实时数据序列。

当第二当前系统时间点在目标时间戳之后时，获取第二时间段的第二增量数据、第三时间段的第三增量数据和第四时间段的第四增量数据；

根据第二增量数据、第三增量数据和第四增量数据得到预设特征对应的第二实时数据序列。

在其中一个实施例中，从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列，包括：

当实时数据序列长度小于预设序列长度时，根据实时数据序列长度和预设序列长度计算目标序列长度；

从离线数据序列中依次选择目标序列长度的目标离线数据序列；

根据目标离线数据序列和实时数据序列得到预设序列长度的第一特征数据序列，并将第一特征数据序列存储到数据库中。

当实时数据序列长度未小于预设序列长度时，从实时数据序列中依次选择预设序列长度的目标实时数据序列；

将目标实时数据序列作为第二特征数据序列，将第二特征数据序列存储到数据库中。

在其中一个实施例中，在从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列之后，还包括：

根据特征数据序列得到特征向量，将特征向量输入到推荐模型中，得到输出向量；推荐模型是根据离线数据序列使用深度神经网络算法训练得到的；

根据输出向量得到推荐序列，将推荐序列发送到对应的推荐终端进行显示。

在其中一个实施例中，在根据输出向量得到推荐序列，将推荐序列发送到对应的推荐终端进行显示之后，还包括：

将特征向量作为推荐模型的输入，将输出向量作为推荐模型的标签进行训练，当达到预设条件时，得到更新的推荐模型。

一种特征数据获取装置，装置包括：

离线数据获取模块，用于获取历史数据，对历史数据预处理，得到离线数据，根据离线数据得到预设特征对应的离线数据序列，将所述离线数据序列写入数据库中；

时间戳确定模块，用于获取第一时间点，第一时间点是离线数据序列写入数据库完成时的时间点，将第一时间点作为目标时间戳；

实时数据获取模块，用于获取第二当前系统时间点，将第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据增量数据得到预设特征对应的实时数据序列；

特征数据得到模块，用于从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取历史数据，对历史数据预处理，得到离线数据，根据离线数据得到预设特征对应的离线数据序列，将离线数据序列写入数据库中；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述特征数据获取方法、装置、计算机设备和存储介质，通过历史数据获取到离线数据序列，然后将第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据该增量数据得到实时数据序列，然后从离线数据序列和实时数据序列中选取预设序列长度的数据序列得到特征数据序列，能够使得到的特征数据序列更加精确。

附图说明

图1为一个实施例中特征数据获取方法的应用场景图；

图2为一个实施例中特征数据获取方法的流程示意图；

图3为一个实施例中得到第一实时数据序列的流程示意图；

图4为一个实施例中得到第二实时数据序列的流程示意图；

图5为一个实施例中得到第一特征数据序列的流程示意图；

图6为一个实施例中得到第二特征数据序列的流程示意图；

图7为一个实施例中使用特征数据序列进行推荐的流程示意图；

图8为一个具体实施例中得到特征数据序列的示意图；

图9为一个实施例中特征数据获取装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的特征数据获取方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。服务器104通过终端102获取历史数据，对历史数据预处理，得到离线数据，服务器104根据离线数据得到预设特征对应的离线数据序列，将所述离线数据序列写入数据库中；服务器104获取第一时间点，第一时间点是离线数据序列写入数据库完成时的时间点，将第一时间点作为目标时间戳；服务器104获取第二当前系统时间点，将第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据增量数据得到预设特征对应的实时数据序列；服务器104从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种特征数据获取方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，获取历史数据，对历史数据预处理，得到离线数据，根据离线数据得到预设特征对应的离线数据序列，将离线数据序列写入数据库中。

其中，对历史数据预处理是指对历史数据进行数据清洗，包括检测数据的一致性，处理无效只和缺失值。预设特征是指预先设置好要获取用户数据的用户特征。

具体地，服务器获取到历史数据，对历史数据进行数据清洗，将清洗后的历史数据作为离线数据。然后根据该离线数据得到预设特征对应的离线数据序列，并将得到的离线数据序列写入数据库中。

S204，获取第一时间点，第一时间点是离线数据序列写入数据库完成时的时间点，将第一时间点作为目标时间戳。

其中，第一时间点是指服务器将离线数据序列写入数据库完成时的时间点，该目标时间戳用于标识该数据库是否新增新的数据。若系统当前时间点超过目标时间戳，则说明数据库写入离线数据序列完成，若系统当前时间点未超过目标时间戳，则说明数据库写入离线数据序列还未完成。

具体地，，服务器获取第一时间点，该第一时间点是离线数据序列写入数据库完成时的时间点，将第一系统时间点作为目标时间戳。

S206，获取第二当前系统时间点，将第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据增量数据得到预设特征对应的实时数据序列。

其中，第二当前系统时间点是指获取实时数据的当前系统时间点。增量数据是指离线数据序列写入数据库时，服务器获取到的数据，该数据是暂时存储在服务器队列中的。比如，昨天的数据在今天7点才会完成写入数据库，此时，今天产生的数据就为增量数据。时间关系是指第二系统时间点和目标时间戳的先后关系，比如，目标时间戳为7点整，第二系统时间点为6点整，则时间关系为第二系统时间点在目标时间戳之前。若目标时间戳为7点整，第二系统时间点为8点整，则时间关系为第二系统时间点在目标时间戳之后。

具体地，服务器获取第二当前系统时间点，将第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据增量数据得到预设特征对应的实时数据序列。

S208，从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列。

其中，预设序列长度是预先设置好的特征数据序列的长度。

具体地，服务器从离线数据序列和实时数据序列按照序列顺序依次选取预设序列长度的数据序列，优先从实时数据序列中进行选取，当实时数据序列全部被选择时，再从离线数据序列中进行选取。将选取的数据序列作为特征数据序列。

在上述实施例中，通过历史数据获取到离线数据序列，然后根据第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据该增量数据得到实时数据序列，然后从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列，能够使得到的特征数据序列更加精确。

在一个实施例中，如图3所示，步骤S206即获取第二当前系统时间点，将第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据增量数据得到预设特征对应的实时数据序列，包括步骤：

S302，当第二当前系统时间点在目标时间戳之前时，获取第一时间段的第一增量数据，第二时间段的第二增量数据和第三时间段的第三增量数据。

其中，第一时间段是指第二当前系统时间点的前天，比如，第二当前系统时间点是10月2日的7点整，则第一时间段就是9月31日的0点到24点整。第二时间段是指第二当前系统时间点的昨天，比如第二当前系统时间点是10月2日的7点整，则第二时间段就是10月1日的0点到24点整。第三时间段是指今天从起始到目标时间戳的时间段。比如，第二当前系统时间点是10月2日的7点整，则第三时间段就是10月2日的0点到目标时间戳8点。

具体地，当第二当前系统时间点在目标时间戳之前时，说明离线数据序列还未完全写入到数据库中。此时，服务器从数据队列中获取在第一时间段得到的第一增量数据，第二时间段得到的第二增量数据和第三时间段得到的第三增量数据。

S304，根据第一增量数据、第二增量数据和第三增量数据得到预设特征对应的第一实时数据序列。

其中，第一实时数据序列是离线数据序列写入数据库还未完成时得到的实时数据序列。

具体地，服务器根据第一增量数据、第二增量数据和第三增量数据得到预设特征对应的第一实时数据序列，该数据序列是以时间为顺序的。比如，用户点击特征为预设特征，第一增量数据中用户点击的商品为D，第二增量数据中用户点击的商品为E，第三增量数据中用户点击的商品为F，则得到的点击特征的实时数据序列为(D，E，F)。

在上述实施例中，通过根据第二当前系统时间点在目标时间戳之前时，通过获取各个时间段的增量数据来得到实时数据序列，提高了得到终止特征数据序列的精确性。

在一个实施例中，如图4所示，步骤S206即获取第二当前系统时间点，将第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的，根据增量数据得到预设特征对应的实时数据序列，包括步骤：

S402，当第二当前系统时间点在目标时间戳之后时，获取第二时间段的第二增量数据、第三时间段的第三增量数据和第四时间段的第四增量数据。

其中，第四时间段是指目标时间戳到第二当前系统时间点的时间段。比如，目标时间戳是8点，第二当前系统时间点是10月2日的10点，则第二时间段为10月1日的0点到24点，第三时间段为10月2日的0点到8点，第四时间段为10月2日8点到10点的时间段。

具体地，当第二当前系统时间点在目标时间戳之后时，说明离线数据序列已完全写入到数据库中。此时，服务器从数据队列中获取第二时间段的第二增量数据、第三时间段的第三增量数据和第四时间段的第四增量数据。

S404，根据第二增量数据、第三增量数据和第四增量数据得到预设特征对应的第二实时数据序列。

其中，第二实时数据序列是离线数据序列写入数据库完成后时得到的实时数据序列。

具体地，服务器根据第二增量数据、第三增量数据和第四增量数据得到预设特征对应的第二实时数据序列。比如，用户购买特征为预设特征，第二增量数据中用户购买的商品为E，第三增量数据中用户点击的商品为F，第三增量数据中用户购买的商品为G，则得到的购买特征的实时数据序列为(G，F，E)。

在上述实施例中，当第二当前系统时间点在目标时间戳之后时，获取到第二增量数据、第三增量数据和第四增量数据，根据第二增量数据、第三增量数据和第四增量数据得到实时数据序列，提高了得到用户实时特征数据的精确性。

在一个实施例中，如图5所示，步骤S208，即从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列，包括步骤：

S502，当实时数据序列长度小于预设序列长度时，根据实时数据序列长度和预设序列长度计算目标序列长度。

其中，序列长度是指该数据序列包括数据的数量。

具体地，服务器将每个预设特征对应的实时数据序列长度与每个预设特征对应的预设序列长度进行比较，当实时数据序列长度小于预设序列长度时，根据实时数据序列长度和预设序列长度计算目标序列长度，即将预设序列长度减去实时数据序列长度得到目标序列长度。比如，购买特征的实时数据序列为(G，F，E)，则该实时数据序列长度为3。预设序列长度是指预先设置好特征数据序列的长度，可以是6。则实时数据序列长度为3小于预设序列长度6，此时计算6减去3就得到目标序列长度为3。

S504，从离线数据序列中依次选择目标序列长度的目标离线数据序列。

具体地，服务器从离线数据序列中按照时间顺序依次选择目标序列长度的数据作为目标离线数据序列。比如，若购买特征的离线数据序列为(D，C，B，A)。则从该离线数据序列中选择(D，C，B)作为目标离线数据序列。

S506，根据目标离线数据序列和实时数据序列得到预设序列长度的第一特征数据序列，并将第一特征数据序列存储到数据库中。

其中，第一特征数据序列是指当实时数据序列长度小于预设序列长度时得到的特征数据序列。

具体的，服务器将得到的目标离线数据序列和实时数据序列按时间顺序组合得到第一特征数据序列，该第一特征数据序列的长度为预先设置好的序列长度。比如，根据实时数据序列为(G，F，E)，目标离线数据序列(D，C，B)，得到的第一特征数据序列为(G，F，E，D，C，B)。

在上述实施例中，当实时数据序列长度小于预设序列长度，通过获取到目标序列长度的目标离线数据序列，根据实时数据序列和目标离线数据序列得到特征数据序列，能够满足需要，方便后续使用。

在一个实施例中，如图6所示，步骤S208即从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列，包括步骤：

S602，当实时数据序列长度未小于预设序列长度时，从实时数据序列中依次选择预设序列长度的目标实时数据序列。

具体地，当实时数据序列长度未小于即小于或者等于该预先设置好的训练长度时，服务器从实时数据序列中按照时间顺序依次选择预设序列长度的数据，作为目标实时数据序列。例如：实时数据序列为(G，F，E)，长度为3，若，预设序列长度为2，则得到的目标实施数据序列为(G，F)

S604，将目标实时数据序列作为第二特征数据序列，将第二特征数据序列存储到数据库中。

其中，第二特征数据序列是指当实时数据序列长度未小于预设序列长度得到的特征数据序列。

具体地，服务器将得到的目标实时数据序列作为第二特征数据序列，并将得到的第二特征数据序列存储到数据库中。

在上述实施例中，通过当实时数据序列长度未小于预设序列长度时，从实时数据序列中依次选择预设序列长度的目标实时数据序列，将目标实时数据序列作为第二特征数据序列，将第二特征数据序列存储到数据库中，得到了更加精确的特征数据序列，便于后续的使用。

在一个实施例中，如图7所示，在步骤S208之后，即在从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列之后，还包括步骤：

S702，根据特征数据序列得到特征向量，将特征向量输入到推荐模型中，得到输出向量；推荐模型是根据离线数据序列使用深度神经网络算法训练得到的。

其中，特征向量是根据所有预设特征对应的特征数据序列得到的向量。

具体地，服务器根据各个预设特征对应的特征数据序列得到各个预设特征对应的特征向量，再将各个预设特征对应的特征向量组合得到最终的特征向量，将该最终的特征向量输入到已训练的推荐模型中，得到输出向量，

S704，根据输出向量得到推荐序列，将推荐序列发送到对应的推荐终端进行显示。

具体地，服务器根据预先设置好的输出向量和推荐序列的对应关系得到该输出向量对应的推荐序列，将该推荐序列推送到对应的推荐终端进行显示。在一个具体的实施例中，该推荐模型可以是商品推荐模型，该各个预设特征可以是用户商品特征，比如，用户点击商品特征，点击时间特征，商品属性特征，商品购买特征等等，则得到的特征向量就是根据用户商品特征数据序列得到的特征向量，得到的推荐序列就是商品推荐序列，将商品推荐序列推送到用户终端进行显示。在一个具体的实施中，可以是新闻推荐模型，则该各个预设特征可以是用户新闻特征，比如，新闻点击特征，新闻点击时间特征，新闻属性特征，新闻停留时间特征等等，则得到的特征向量就是根据用户新闻特征数据序列得到的特征向量，得到的推荐序列就是新闻推荐序列，将新闻推荐序列推送到用户终端进行显示。在一个具体的实施例中，可以训练出不同场景的推荐模型，并设置好场景标识对应的模型编码。当需要进行推荐时，获取推荐场景标识，根据推荐场景标识获取到对应的模型编码，得到相应场景的推荐模型，然后在根据推荐场景标识获取到对应的特征元数据配置文件，根据配置文件得到各个场景对应的特征，然后获取到特征对应的特征数据序列，得到特征向量，再使用推荐模型进行预测，得到推荐序列。比如商品推荐场景，新闻推荐场景等等。

在上述实施例中，通过特征数据序列得到特征向量，然后根据该特征向量在推荐模型中得到推荐序列，提高了得到推荐序列的实时性和精确性。

在一个实施例中，在步骤S704之后，即在根据输出向量得到推荐序列，将推荐序列发送到对应的推荐终端进行显示之后，还包括步骤：

具体地，服务器将该特征向量作为推荐模型的输入，将输出向量作为推荐模型的标签与历史特征向量和历史标签一起重新进行训练，当达到预设阈值或者达到最大跌代次数时，得到更新的推荐模型。在该实施例中，可以使用该特征向量和对应的输出向量作为推荐模型的训练数据再次进行训练，方便对推荐模型的更新。

在一个实施例中，在根据离线数据序列和实时数据序列得到特征数据序列之后，还包括步骤：根据预设特征和权重的映射关系得到各个预设特征对应的权重。将各个预设特征对应的权重和特征数据序列关联保存。在进行计算用户画像时，可以获取各个预设特征对应的特征数据序列和关联权重，根据特征数据序列和关联权重得到各个预设特征的用户画像特征向量，将该用户画像特征向量用户画像预测模型中，得到对应的模型输出，根据模型输出得到用户对应的画像。其中，该用户画像预测模型是根据历史画像特征数据和对应的画像标签使用深度神经网络算法经过训练得到的。

在一个具体的实施例中，要对用户进行商品推荐。如图8所示，此时，服务器获取到用户历史数据，具体来说，从互联网采集用户行为数据并对用户行为数据进行清洗，得到清洗后的用户行为数据，比如，用户ID，商品ID、行为类型、行为时间等。比如用户点击行为特征，该历史数据中用户点击了商品A，商品B，商品C。得到用户的点击数据序列C|B|A。并生成Hive结果表。此时，需要将历史数据存储到HBase数据库中。比如，用户的点击数据序列C|B|A在1月3号存储到数据库中。此时，服务器获取到存储完成时的时间点，将该时间点作为目标时间戳。然后通过实时数据流失处理系统(Spark Streaming)获取用户实时上报的数据，并从数据中解析得到用户行为数据存储到数据队列，比如，用户ID，商品ID、行为类型、行为时间等等。可以将在目标时间戳之前(时间戳更新未更新)的数据存储到一个数据队列1中，将目标时间戳之后(时间戳更新)的数据存储到另一个数据队列2中。即每天的数据会存储到两个数据队列中。

若当前系统时间为10月2日5点，而目标时间戳为7点，此时，服务器从队列中获取的实时数据序列为前天9月21日的全量数据(这里的全量数据是指包括前天存储在队列1和前天存储在队列2中所有数据)加昨天10月1日的全量数据(这里的全量数据是指包括昨天存储在队列1和前天存储在队列2中所有数据)再加今天10月2日的增量数据(这里的增量数据是指今天存储在队列1中的数据)。若，该实时数据序列中用户点击了商品D，商品E，商品F，则得到的用户点击特征的实时数据序列为D|E|F。最后得到用户点击特征的特征数据序列为F|D|E|C|B|A。并将特征数据序列F|D|E|C|B|A存储到HBase数据库中。

若当前系统时间为10月2日8点，而目标时间戳为7点，此时，服务器从队列中获取的实时数据序列为昨天10月1日的全量数据(这里的全量数据是指包括昨天存储在队列1和前天存储在队列2中所有数据)再加今天10月2日的增量数据(这里的增量数据是指今天存储在队列1中和队列2中的所有数据)。然后根据实时数据序列和离线数据序列得到特征数据序列，将特征序列存储到HBase数据库中。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种特征数据获取装置900，包括：离线数据获取模块902、时间戳确定模块904、实时数据获取模块906和特征数据得到模块908，其中：

离线数据获取模块902，用于获取历史数据，对历史数据预处理，得到离线数据，根据离线数据得到预设特征对应的离线数据序列，将所述离线数据序列写入数据库中；

时间戳确定模块904，用于获取第一时间点，第一时间点是离线数据序列写入数据库完成时的时间点，将第一时间点作为目标时间戳；

实时数据获取模块904，用于获取第二当前系统时间点，根据第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据增量数据得到预设特征对应的实时数据序列；

特征数据得到模块906，用于从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列。

在一个实施例中，实时数据获取模块906，包括：

第一增量数据获取模块，用于当第二当前系统时间点在目标时间戳之前时，获取第一时间段的第一增量数据，第二时间段的第二增量数据和第三时间段的第三增量数据；

第一数据得到模块，用于根据第一增量数据、第二增量数据和第三增量数据得到预设特征对应的第一实时数据序列。

在一个实施例中，实时数据获取模块906，包括：

第四增量数据获取模块，用于当第二当前系统时间点在目标时间戳之后时，获取第二时间段的第二增量数据、第三时间段的第三增量数据和第四时间段的第四增量数据；

第二数据得到模块，用于根据第二增量数据、第三增量数据和第四增量数据得到预设特征对应的第二实时数据序列。

在一个实施例中，特征数据得到模块906，包括：

目标长度计算模块，用于当实时数据序列长度小于预设序列长度时，根据实时数据序列长度和预设序列长度计算目标序列长度；

目标数据选择模块，用于从离线数据序列中依次选择目标序列长度的目标离线数据序列；

第一特征数据得到模块，用于根据目标离线数据序列和实时数据序列得到预设序列长度的第一特征数据序列，并将第一特征数据序列存储到数据库中。

在一个实施例中，特征数据得到模块906，包括：

目标实时数据选择模块，用于当实时数据序列长度未小于预设序列长度时，从实时数据序列中依次选择预设序列长度的目标实时数据序列；

第二特征数据得到模块，用于将目标实时数据序列作为第二特征数据序列，将第二特征数据序列存储到数据库中。

在一个实施例中，特征数据获取装置900，还包括：

推荐计算模块，用于根据特征数据序列得到特征向量，将特征向量输入到推荐模型中，得到输出向量；推荐模型是根据离线数据序列使用深度神经网络算法训练得到的；

推荐模块，用于根据输出向量得到推荐序列，将推荐序列发送到对应的推荐终端进行显示。

在一个实施例中，特征数据获取装置900，还包括：

模型更新模块，用于将特征向量作为推荐模型的输入，将输出向量作为推荐模型的标签进行训练，当达到预设条件时，得到更新的推荐模型

关于特征数据获取装置的具体限定可以参见上文中对于特征数据获取方法的限定，在此不再赘述。上述特征数据获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储实时数据和离线数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种特征数据获取方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取历史数据，对历史数据预处理，得到离线数据，根据离线数据得到预设特征对应的离线数据序列，将所述离线数据序列写入数据库中；获取第一时间点，第一时间点是离线数据序列写入数据库完成时的时间点，将第一时间点作为目标时间戳；获取第二当前系统时间点，根据第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据增量数据得到预设特征对应的实时数据序列；从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当第二当前系统时间点在目标时间戳之前时，获取第一时间段的第一增量数据，第二时间段的第二增量数据和第三时间段的第三增量数据；根据第一增量数据、第二增量数据和第三增量数据得到预设特征对应的第一实时数据序列。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当第二当前系统时间点在目标时间戳之后时，获取第二时间段的第二增量数据、第三时间段的第三增量数据和第四时间段的第四增量数据；根据第二增量数据、第三增量数据和第四增量数据得到预设特征对应的第二实时数据序列。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当实时数据序列长度小于预设序列长度时，根据实时数据序列长度和预设序列长度计算目标序列长度；从离线数据序列中依次选择目标序列长度的目标离线数据序列；根据目标离线数据序列和实时数据序列得到预设序列长度的第一特征数据序列，并将第一特征数据序列存储到数据库中。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当实时数据序列长度未小于预设序列长度时，从实时数据序列中依次选择预设序列长度的目标实时数据序列；将目标实时数据序列作为第二特征数据序列，将第二特征数据序列存储到数据库中。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据特征数据序列得到特征向量，将特征向量输入到推荐模型中，得到输出向量；推荐模型是根据离线数据序列使用深度神经网络算法训练得到的；根据输出向量得到推荐序列，将推荐序列发送到对应的推荐终端进行显示。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将特征向量作为推荐模型的输入，将输出向量作为推荐模型的标签进行训练，当达到预设条件时，得到更新的推荐模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取历史数据，对历史数据预处理，得到离线数据，根据离线数据得到预设特征对应的离线数据序列，将所述离线数据序列写入数据库中；获取第一时间点，第一时间点是离线数据序列写入数据库完成时的时间点，将第一时间点作为目标时间戳；获取第二当前系统时间点，将第二当前系统时间点和目标时间戳的时间关系进行比较，根据比较结果得到对应的时间段，获取时间段内的增量数据，根据增量数据得到预设特征对应的实时数据序列；从离线数据序列和实时数据序列中选取预设序列长度的数据序列，得到特征数据序列。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当第二当前系统时间点在目标时间戳之前时，获取第一时间段的第一增量数据，第二时间段的第二增量数据和第三时间段的第三增量数据；根据第一增量数据、第二增量数据和第三增量数据得到预设特征对应的第一实时数据序列。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当第二当前系统时间点在目标时间戳之后时，获取第二时间段的第二增量数据、第三时间段的第三增量数据和第四时间段的第四增量数据；根据第二增量数据、第三增量数据和第四增量数据得到预设特征对应的第二实时数据序列。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当实时数据序列长度小于预设序列长度时，根据实时数据序列长度和预设序列长度计算目标序列长度；从离线数据序列中依次选择目标序列长度的目标离线数据序列；根据目标离线数据序列和实时数据序列得到预设序列长度的第一特征数据序列，并将第一特征数据序列存储到数据库中。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当实时数据序列长度未小于预设序列长度时，从实时数据序列中依次选择预设序列长度的目标实时数据序列；将目标实时数据序列作为第二特征数据序列，将第二特征数据序列存储到数据库中。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据特征数据序列得到特征向量，将特征向量输入到推荐模型中，得到输出向量；推荐模型是根据离线数据序列使用深度神经网络算法训练得到的；根据输出向量得到推荐序列，将推荐序列发送到对应的推荐终端进行显示。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将特征向量作为推荐模型的输入，将输出向量作为推荐模型的标签进行训练，当达到预设条件时，得到更新的推荐模型

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种特征数据获取方法，所述方法包括：

获取历史数据，对所述历史数据预处理，得到离线数据，根据所述离线数据得到预设特征对应的离线数据序列，将所述离线数据序列写入数据库中；

获取第一时间点，所述第一时间点是所述离线数据序列写入所述数据库完成时的时间点，将所述第一时间点作为目标时间戳；

获取第二当前系统时间点，将所述第二当前系统时间点和所述目标时间戳进行比较，根据比较结果得到对应的时间段，获取所述时间段内的增量数据，根据所述增量数据得到所述预设特征对应的实时数据序列；

从所述离线数据序列和所述实时数据序列中选取预设序列长度的数据序列，得到特征数据序列。

2.根据权利要求1所述的方法，其特征在于，所述获取第二当前系统时间点，将所述第二当前系统时间点和所述目标时间戳进行比较，根据比较结果得到对应的时间段，获取所述时间段内的增量数据，根据所述增量数据得到所述预设特征对应的实时数据序列，包括：

当所述第二当前系统时间点在所述目标时间戳之前时，获取第一时间段的第一增量数据，第二时间段的第二增量数据和第三时间段的第三增量数据；

根据所述第一增量数据、第二增量数据和第三增量数据得到所述预设特征对应的第一实时数据序列。

3.根据权利要求1所述的方法，其特征在于，所述获取第二当前系统时间点，将所述第二当前系统时间点和所述目标时间戳进行比较，根据比较结果得到对应的时间段，获取所述时间段内的增量数据，根据所述增量数据得到所述预设特征对应的实时数据序列，包括：

当所述第二当前系统时间点在所述目标时间戳之后时，获取第二时间段的第二增量数据、第三时间段的第三增量数据和第四时间段的第四增量数据；

根据所述第二增量数据、第三增量数据和第四增量数据得到所述预设特征对应的第二实时数据序列。

4.根据权利要求1所述的方法，其特征在于，从所述离线数据序列和所述实时数据序列中选取预设序列长度的数据序列，得到特征数据序列，包括：

当所述实时数据序列长度小于预设序列长度时，根据实时数据序列长度和预设序列长度计算目标序列长度；

从所述离线数据序列中依次选择目标序列长度的目标离线数据序列；

根据所述目标离线数据序列和所述实时数据序列得到所述预设序列长度的第一特征数据序列，并将所述第一特征数据序列存储到数据库中。

5.根据权利要求1所述的方法，其特征在于，从所述离线数据序列和所述实时数据序列中选取预设序列长度的数据序列，得到特征数据序列，包括：

当所述实时数据序列长度未小于预设序列长度时，从所述实时数据序列中依次选择预设序列长度的目标实时数据序列；

将所述目标实时数据序列作为第二特征数据序列，将所述第二特征数据序列存储到数据库中。

6.根据权利要求1所述的方法，其特征在于，在所述从所述离线数据序列和所述实时数据序列中选取预设序列长度的数据序列，得到特征数据序列之后，还包括：

根据所述特征数据序列得到特征向量，将所述特征向量输入到推荐模型中，得到输出向量；所述推荐模型是根据所述离线数据序列使用深度神经网络算法训练得到的；

根据所述输出向量得到推荐序列，将推荐序列发送到对应的推荐终端进行显示。

7.根据权利要求6所述的方法，其特征在于，在所述根据所述输出向量得到推荐序列，将推荐序列发送到对应的推荐终端进行显示之后，还包括：

将所述特征向量作为所述推荐模型的输入，将所述输出向量作为所述推荐模型的标签进行训练，当达到预设条件时，得到更新的推荐模型。

8.一种特征数据获取装置，其特征在于，所述装置包括：

离线数据获取模块，用于获取历史数据，对所述历史数据预处理，得到离线数据，根据所述离线数据得到预设特征对应的离线数据序列，将所述离线数据序列写入数据库中；

时间戳确定模块，用于获取第一时间点，所述第一时间点是所述离线数据序列写入所述数据库完成时的时间点，将所述第一时间点作为目标时间戳；

实时数据获取模块，用于获取第二当前系统时间点，将所述第二当前系统时间点和所述目标时间戳进行比较，根据比较结果得到对应的时间段，获取所述时间段内的增量数据，根据所述增量数据得到所述预设特征对应的实时数据序列；

特征数据得到模块，用于从所述离线数据序列和所述实时数据序列中选取预设序列长度的数据序列，得到特征数据序列。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。