CN113468434B

CN113468434B - 资源推荐方法、装置、可读介质以及设备

Info

Publication number: CN113468434B
Application number: CN202111035864.3A
Authority: CN
Inventors: 刘庆标
Original assignee: Beijing Sohu New Power Information Technology Co ltd
Current assignee: Beijing Sohu New Power Information Technology Co ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-12-24
Anticipated expiration: 2041-09-06
Also published as: CN113468434A

Abstract

本申请公开了一种资源推荐方法、装置、可读介质以及设备，该方法通过将目标用户当前的消费行为序列对应的向量以及目标资源的标识向量输入至多层感知器网络层中，将每一个行为资源对应的权重和消费行为序列对应的向量进行加权合并，得到并输出目标用户的喜好向量；将目标用户的喜好向量、目标资源的标识向量、以及与目标用户相关联的特征向量进行连接，得到输入向量；输入至多目标深度网络中，得到并输出每一个目标下的目标资源预测值，每一个目标下的目标资源预测值用于确定出是否向目标用户推荐目标资源。由于本申请中行为资源对应的权重说明了行为资源在预测目标用户对目标资源的喜好程度时的贡献度，因此对目标用户推荐的资源会更为准确。

Description

资源推荐方法、装置、可读介质以及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种资源推荐方法、装置、可读介质以及设备。

背景技术

现有技术中，为了提高用户与平台间的粘滞性，许多平台会通过用户的历史行为去预测出用户所喜好的资源，然后将预测出的用户所喜好的资源推荐给用户。其中，资源可以是商品、文章、视频等等。

然而，平台在对用户的历史行为进行挖掘时，挖掘得并不充分，没有考虑到用户的历史行为与用户当前所喜好的资源之间的相关性的强弱。用户不同的历史行为与用户当前所喜好的资源之间的相关性是不同的，例如在收集用户的历史点击视频的行为时，距离当前时间越近的行为与用户当前所喜好的视频之间的相关性较强，而距离当前时间较远的行为与用户当前所喜好的视频之间的相关性较弱。由于现有的资源推荐方法中，在使用用户的历史行为去预测用户所喜好的资源时，没有考虑到用户不同的历史行为与用户当前所喜好的资源之间的相关性的差异，导致推荐资源的准确度不高，影响了用户对平台的体验。

发明内容

基于上述现有技术的不足，本申请提出了一种资源推荐方法、装置、可读介质以及设备，以实现在确定是否向目标用户推荐目标资源时，考虑不同行为资源在预测目标用户对所述目标资源的喜好程度时的贡献度，得到准确的用于说明目标用户对目标资源的喜好程度的目标用户的喜好向量。

本申请第一方面公开了一种资源推荐方法，包括：

构建目标用户当前的消费行为序列；其中，所述目标用户当前的消费行为序列由所述目标用户最新的n个行为资源的标识按照交互时间顺序排列构成；n为正整数；所述行为资源为所述目标用户执行了交互行为的资源；

将所述目标用户当前的消费行为序列对应的向量以及目标资源的标识向量输入至预构建的多层感知器网络层中，由所述预构建的多层感知器网络层得到每一个所述行为资源对应的权重，并对每一个所述行为资源对应的权重和所述目标用户当前的消费行为序列对应的向量进行加权合并计算，得到并输出所述目标用户的喜好向量和所述目标资源的标识向量；其中，所述目标用户的喜好向量用于说明所述目标用户对所述目标资源的喜好程度；所述行为资源对应的权重用于说明所述行为资源在预测所述目标用户对所述目标资源的喜好程度时的贡献度；

将所述目标用户的喜好向量、所述目标资源的标识向量、以及每一个与目标用户相关联的特征向量进行连接，连接得到输入向量；

将所述输入向量输入至预构建的多目标深度网络中，由预构建的每一个所述目标深度网络分别得到并输出所述目标深度网络对应的目标下的目标资源预测值；其中，所述目标为用于反映对资源的喜好程度的业务指标；每一个所述目标下的目标资源预测值用于确定出是否向所述目标用户推荐所述目标资源。

可选地，在上述资源推荐方法中，所述与目标用户相关联的特征向量，包括：所述目标用户的特征向量、所述行为资源的特征向量、所述目标资源的特征向量以及所述目标用户与所述行为资源之间的交互特征向量；其中，所述与目标用户相关联的特征向量由目标用户画像、资源画像以及目标用户上下文行为画像生成得到；所述目标用户画像用于说明所述目标用户的基本信息以及所述目标用户对资源执行的交互行为信息；所述资源画像用于说明资源的基本信息；所述目标用户上下文行为画像用于说明所述目标用户对资源执行交互行为时的场景信息。

可选地，在上述资源推荐方法中，所述将所述目标用户的喜好向量、所述目标资源的标识向量、以及每一个与目标用户相关联的特征向量进行连接，连接得到输入向量之后，还包括：

将所述输入向量输入至预构建的深度注意力网络共享层，由所述预构建的深度注意力网络共享层中的网络共享层输出多个维度相同的处理后向量，并由所述预构建的深度注意力网络共享层中的每一个注意力机制加权层分别对所述多个维度相同的处理后向量进行加权合并，由每一个所述注意力机制加权层得到并输出处理后的输入向量；

其中，所述将所述输入向量输入至预构建的多目标深度网络中，由预构建的每一个所述目标深度网络分别得到并输出所述目标深度网络对应的目标下的目标资源预测值，包括：

针对每一个所述注意力机制加权层输出的处理后的输入向量，将所述处理后的输入向量输入至预构建的与所述注意力机制加权层相对应的目标深度网络中，由预构建的与所述注意力机制加权层相对应的目标深度网络得到并输出所述目标深度网络对应的目标下的目标资源预测值。

可选地，在上述资源推荐方法中，所述预构建的多层感知器网络层、所述预构建的多目标深度网络以及所述预构建的深度注意力网络共享层的构建过程，包括：

构建训练数据集；其中，所述训练数据集中，包括：多个用户的历史消费行为序列、以及所述用户的每一个目标下的训练资源实际值；其中，所述用户的历史消费行为序列由所述用户在历史时间段中的m个历史行为资源的标识按照交互时间顺序排列构成；m为正整数；

针对所述训练数据集中的每一个所述用户，将所述用户的历史消费行为序列对应的向量以及所述训练资源的标识向量分别输入至待构建的多层感知器网络层中，由所述待构建的多层感知器网络层得到每一个所述历史行为资源对应的权重，并对每一个所述历史行为资源对应的权重和所述用户的历史消费行为序列对应的向量进行加权合并计算，得到并输出所述用户的喜好向量和所述训练资源的标识向量；其中，所述用户的喜好向量用于说明所述用户对所述训练资源的喜好程度；

将所述用户的喜好向量、所述训练资源的标识向量、以及与每一个所述历史行为资源相关联的特征向量进行连接，得到历史输入向量；

将所述历史输入向量输入至待构建的深度注意力网络共享层，由所述待构建的深度注意力网络共享层中的网络共享层输出多个维度相同的处理后历史向量，并由所述待构建的深度注意力网络共享层中的每一个注意力机制加权层分别对所述多个维度相同的处理后历史向量进行加权合并，由每一个所述注意力机制加权层分别得到并输出处理后的历史输入向量；

针对每一个所述注意力机制加权层输出的处理后的历史输入向量，将所述处理后的历史输入向量输入至与所述注意力机制加权层相对应的待构建目标深度网络中，由与所述注意力机制加权层相对应的待构建目标深度网络得到并输出所述待构建目标深度网络对应的目标下的训练资源预测值；

根据每一个所述用户的每一个所述目标下的训练资源预测值与训练资源实际值之间的误差，对所述待构建的多层感知器网络层、所述待构建的深度注意力网络共享层、以及每一个所述待构建目标深度网络中的权值不断调整，直至调整后的每一个所述待构建目标深度网络所输出的所述待构建目标深度网络对应的目标下的训练资源预测值与训练资源实际值之间的误差满足预设的收敛条件，将所述调整后的所述待构建的多层感知器网络层确定为预构建的多层感知器网络层、将所述调整后的所述待构建的深度注意力网络共享层确定为预构建的深度注意力网络共享层以及将调整后的每一个待构建目标深度网络确定为每一个预构建的目标深度网络。

可选地，在上述资源推荐方法中，所述将所述输入向量输入至预构建的多目标深度网络中，由预构建的每一个所述目标深度网络分别得到并输出所述目标深度网络对应的目标下的目标资源预测值之后，还包括：

针对每一个所述目标，通过所述目标对应的分数评估规则，根据所述目标下的目标资源预测值确定出所述目标下的目标资源预估推荐值；

针对每一个所述目标，将所述目标下的目标资源预估推荐值与所述目标对应的业务权重值相乘，计算得到所述目标下的目标资源实际推荐值；

将每一个所述目标下的目标资源实际推荐值相加，计算得到所述目标资源的融合推荐值；其中，所述目标资源的融合推荐值用于说明所述目标资源对于所述目标用户的推荐程度。

可选地，在上述资源推荐方法中，所述目标用户当前的消费行为序列的构建方法，包括：

获取目标用户的用户行为日志；

从所述用户行为日志中，确定出目标用户画像和目标用户上下文行为画像；其中，所述目标用户画像用于说明所述目标用户的基本信息以及所述目标用户对资源执行的交互行为信息；所述目标用户上下文行为画像用于说明所述目标用户对资源执行交互行为时的场景信息；所述目标用户上下文行为画像中记录有所述目标用户产生交互行为的时间；

利用所述目标用户上下文行为画像，从所述目标用户画像中筛选出属于最新的预设时间段内的所述目标用户对资源执行的交互行为信息，并从所述属于最新的预设时间段内的目标用户对资源执行的交互行为信息中确定出所述目标用户在所述最新的预设时间段内的多个行为资源；

根据所述目标用户在所述最新的预设时间段内的多个行为资源中的行为资源类别比例和行为资源对应的交互时间，从所述目标用户在所述最新的预设时间段内的多个行为资源中，筛选出所述目标用户最新的n个行为资源；

将筛选出的所述目标用户最新的n个行为资源的标识，按照交互时间顺序进行排列，得到所述目标用户当前的消费行为序列。

本申请第二方面公开了一种资源推荐装置，包括：

第一构建单元，用于构建目标用户当前的消费行为序列；其中，所述目标用户当前的消费行为序列由所述目标用户最新的n个行为资源的标识按照交互时间顺序排列构成；n为正整数；所述行为资源为所述目标用户执行了交互行为的资源；

第一输出单元，用于将所述目标用户当前的消费行为序列对应的向量以及目标资源的标识向量输入至预构建的多层感知器网络层中，由所述预构建的多层感知器网络层得到每一个所述行为资源对应的权重，并对每一个所述行为资源对应的权重和所述目标用户当前的消费行为序列对应的向量进行加权合并计算，得到并输出所述目标用户的喜好向量和所述目标资源的标识向量；其中，所述目标用户的喜好向量用于说明所述目标用户对所述目标资源的喜好程度；所述行为资源对应的权重用于说明所述行为资源在预测所述目标用户对所述目标资源的喜好程度时的贡献度；

连接单元，用于将所述目标用户的喜好向量、所述目标资源的标识向量、以及每一个与目标用户相关联的特征向量进行连接，连接得到输入向量；

第二输出单元，用于将所述输入向量输入至预构建的多目标深度网络中，由预构建的每一个所述目标深度网络分别得到并输出所述目标深度网络对应的目标下的目标资源预测值；其中，所述目标为用于反映对资源的喜好程度的业务指标；每一个所述目标下的目标资源预测值用于确定出是否向所述目标用户推荐所述目标资源。

可选地，在上述资源推荐装置中，所述与目标用户相关联的特征向量，包括：所述目标用户的特征向量、所述行为资源的特征向量、所述目标资源的特征向量以及所述目标用户与所述行为资源之间的交互特征向量；其中，所述与目标用户相关联的特征向量由目标用户画像、资源画像以及目标用户上下文行为画像生成得到；所述目标用户画像用于说明所述目标用户的基本信息以及所述目标用户对资源执行的交互行为信息；所述资源画像用于说明资源的基本信息；所述目标用户上下文行为画像用于说明所述目标用户对资源执行交互行为时的场景信息。

可选地，在上述资源推荐装置中，还包括：

第三输出单元，用于将所述输入向量输入至预构建的深度注意力网络共享层，由所述预构建的深度注意力网络共享层中的网络共享层输出多个维度相同的处理后向量，并由所述预构建的深度注意力网络共享层中的每一个注意力机制加权层分别对所述多个维度相同的处理后向量进行加权合并，由每一个所述注意力机制加权层得到并输出处理后的输入向量；

其中，所述第二输出单元，包括：

第一输出子单元，用于针对每一个所述注意力机制加权层输出的处理后的输入向量，将所述处理后的输入向量输入至预构建的与所述注意力机制加权层相对应的目标深度网络中，由预构建的与所述注意力机制加权层相对应的目标深度网络得到并输出所述目标深度网络对应的目标下的目标资源预测值。

可选地，在上述资源推荐装置中，还包括：

第二构建单元，用于构建训练数据集；其中，所述训练数据集中，包括：多个用户的历史消费行为序列、以及所述用户的每一个目标下的训练资源实际值；其中，所述用户的历史消费行为序列由所述用户在历史时间段中的m个历史行为资源的标识按照交互时间顺序排列构成；m为正整数；

第二输出子单元，用于针对所述训练数据集中的每一个所述用户，将所述用户的历史消费行为序列对应的向量以及所述训练资源的标识向量分别输入至待构建的多层感知器网络层中，由所述待构建的多层感知器网络层得到每一个所述历史行为资源对应的权重，并对每一个所述历史行为资源对应的权重和所述用户的历史消费行为序列对应的向量进行加权合并计算，得到并输出所述用户的喜好向量和所述训练资源的标识向量；其中，所述用户的喜好向量用于说明所述用户对所述训练资源的喜好程度；

连接子单元，用于将所述用户的喜好向量、所述训练资源的标识向量、以及与每一个所述历史行为资源相关联的特征向量进行连接，得到历史输入向量；

第三输出子单元，用于将所述历史输入向量输入至待构建的深度注意力网络共享层，由所述待构建的深度注意力网络共享层中的网络共享层输出多个维度相同的处理后历史向量，并由所述待构建的深度注意力网络共享层中的每一个注意力机制加权层分别对所述多个维度相同的处理后历史向量进行加权合并，由每一个所述注意力机制加权层分别得到并输出处理后的历史输入向量；

第四输出单元，用于针对每一个所述注意力机制加权层输出的处理后的历史输入向量，将所述处理后的历史输入向量输入至与所述注意力机制加权层相对应的待构建目标深度网络中，由与所述注意力机制加权层相对应的待构建目标深度网络得到并输出所述待构建目标深度网络对应的目标下的训练资源预测值；

调整单元，用于根据每一个所述用户的每一个所述目标下的训练资源预测值与训练资源实际值之间的误差，对所述待构建的多层感知器网络层、所述待构建的深度注意力网络共享层、以及每一个所述待构建目标深度网络中的权值不断调整，直至调整后的每一个所述待构建目标深度网络所输出的所述待构建目标深度网络对应的目标下的训练资源预测值与训练资源实际值之间的误差满足预设的收敛条件，将所述调整后的所述待构建的多层感知器网络层确定为预构建的多层感知器网络层、将所述调整后的所述待构建的深度注意力网络共享层确定为预构建的深度注意力网络共享层以及将调整后的每一个待构建目标深度网络确定为每一个预构建的目标深度网络。

可选地，在上述资源推荐装置中，还包括：

第一确定单元，用于针对每一个所述目标，通过所述目标对应的分数评估规则，根据所述目标下的目标资源预测值确定出所述目标下的目标资源预估推荐值；

第一计算单元，用于针对每一个所述目标，将所述目标下的目标资源预估推荐值与所述目标对应的业务权重值相乘，计算得到所述目标下的目标资源实际推荐值；

第二计算单元，用于将每一个所述目标下的目标资源实际推荐值相加，计算得到所述目标资源的融合推荐值；其中，所述目标资源的融合推荐值用于说明所述目标资源对于所述目标用户的推荐程度。

可选地，在上述资源推荐装置中，还包括：

获取单元，用于获取目标用户的用户行为日志；

第二确定单元，用于从所述用户行为日志中，确定出目标用户画像和目标用户上下文行为画像；其中，所述目标用户画像用于说明所述目标用户的基本信息以及所述目标用户对资源执行的交互行为信息；所述目标用户上下文行为画像用于说明所述目标用户对资源执行交互行为时的场景信息；所述目标用户上下文行为画像中记录有所述目标用户产生交互行为的时间；

第三确定单元，用于利用所述目标用户上下文行为画像，从所述目标用户画像中筛选出属于最新的预设时间段内的所述目标用户对资源执行的交互行为信息，并从所述属于最新的预设时间段内的目标用户对资源执行的交互行为信息中确定出所述目标用户在所述最新的预设时间段内的多个行为资源；

筛选单元，用于根据所述目标用户在所述最新的预设时间段内的多个行为资源中的行为资源类别比例和行为资源对应的交互时间，从所述目标用户在所述最新的预设时间段内的多个行为资源中，筛选出所述目标用户最新的n个行为资源；

排列单元，用于将筛选出的所述目标用户最新的n个行为资源的标识，按照交互时间顺序进行排列，得到所述目标用户当前的消费行为序列。

本申请第三方面公开了一种计算机可读介质，其中，所述程序被处理器执行时实现如上述第一方面中任一所述的方法。

本申请第四方面公开了一种资源推荐设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。

从上述技术方案可以看出，本申请实施例提出的资源推荐方法中，通过构建目标用户当前的消费行为序列，然后将目标用户当前的消费行为序列对应的向量以及目标资源的标识向量输入至预构建的多层感知器网络层中，由预构建的多层感知器网络层得到每一个行为资源对应的权重，并对每一个行为资源对应的权重和目标用户当前的消费行为序列对应的向量进行加权合并计算，得到并输出目标用户的喜好向量和目标资源的标识向量。其中，目标用户当前的消费行为序列由目标用户最新的n个行为资源的标识按照交互时间顺序排列构成，目标用户的喜好向量用于说明目标用户对目标资源的喜好程度，行为资源对应的权重用于说明目行为资源在预测目标用户对目标资源的喜好程度时的贡献度，即反映了目标用户不同的行为资源与目标用户对当前的目标资源的喜好程度之间的相关性，因此通过行为资源对应的权重所计算出的目标用户的喜好向量会更为准确的反映出目标用户对目标资源的喜好程度，并且本申请将目标用户的喜好向量、目标资源的标识向量、以及与每一个行为资源相关联的特征向量进行连接，得到的输入向量之后，还将输入向量输入至预构建的多目标深度网络中，由预构建的每一个目标深度网络分别得到并输出目标深度网络对应的目标下的目标资源预测值，由于本申请中是通过每一个目标下的目标资源预测值来确定出是否向目标用户推荐目标资源，而不是通过单个目标下的目标资源预测值来确定是否向目标用户推荐目标资源的，且本申请的输入向量中也考虑到了目标用户不同的行为资源对于当前目标资源的喜好程度的贡献度，因此本申请实施例中对于是否向目标用户推荐目标资源的预测结果相较于现有技术而言更为准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提出的一种资源推荐方法的流程示意图；

图2为本申请实施例提出的一种目标用户当前的消费行为序列的构建方法的流程示意图；

图3为本申请实施例提出的另一种资源推荐方法的流程示意图；

图4为本申请实施例提出的一种预构建的多层感知器网络层、所预构建的多目标深度网络以及预构建的深度注意力网络共享层的构建过程的流程示意图；

图5为本申请实施例提出的一种资源推荐装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，本申请实施例公开了一种资源推荐方法，具体包括以下步骤：

S101、构建目标用户当前的消费行为序列，其中目标用户当前的消费行为序列由目标用户最新的n个行为资源的标识按照交互时间顺序排列构成，n为正整数，行为资源为目标用户执行了交互行为的资源。

目标用户指的是需要向其推送资源的用户。目标用户当前的消费行为序列是目标用户在最近一段时间内（或者说最新的预设时间段内）按照交互时间顺序排列的n个行为资源的标识的序列，其中n为正整数。行为资源特指目标用户执行了交互行为的资源，即与目标用户产生了交互行为的资源。而资源可以是文章、新闻、视频、音乐、商品、图片等平台为用户所提供的信息内容。交互行为可以是点击、收藏、购买、浏览、评论、点击不感兴趣等等对资源所产生的行为。行为资源的标识则可以是行为资源的资源标识号、资源序号或者资源序列号等等。行为资源的标识是行为资源所特有的、唯一的。

消费行为序列可以是按照交互时间又近至远的顺序排列，也可以是按照交互时间由远至近的顺序排列。目标用户当前的消费行为序列可以体现出目标用户当前对不同行为资源的喜好程度（或者感兴趣程度），交互时间离当前的时间越近的行为资源，目标用户对该行为资源的喜好程度越高，交互时间越远的行为资源，则喜好程度越低，因此，构建出的目标用户当前的消费行为序列，能够在一定程度上反映目标用户在最近一段时间内对不同资源的感兴趣程度。

可选地，参阅图2，在本申请一具体实施例中，目标用户当前的消费行为序列的构建方法，包括：

S201、获取目标用户的用户行为日志。

其中，目标用户的用户行为日志用于说明目标用户的基本信息、目标用户所执行的交互行为、行为资源以及交互时间。具体的，平台不断记录目标用户所执行的交互行为、交互行为对应的行为资源的标识以及交互时间到用户行为日志中。而目标用户的基本信息也记录于用户行为日志中，当目标用户的基本信息出现变更时，也更新记录到用户行为日志中，目标用户的基本信息主要指的是目标用户的年龄、职业、手机号、性别、爱好等等可以体现目标用户特征的信息。

可选地，在本申请一具体实施例中，用户行为日志中还记录有交互时目标用户所使用的网络类型、手机型号、用户所在地等等。

S202、从用户行为日志中，确定出目标用户画像和目标用户上下文行为画像，其中，目标用户画像用于说明目标用户的基本信息以及目标用户对资源执行的交互行为信息，目标用户上下文行为画像用于说明目标用户对资源执行交互行为时的场景信息，目标用户上下文行为画像中记录有目标用户产生交互行为的时间。

从步骤S201中获取的目标用户的用户行为日志中，清洗计算出目标用户画像和目标用户上下文行为画像。目标用户画像用于说明目标用户的基本信息以及目标用户对资源执行的交互行为信息，目标用户对资源执行的交互行为信息主要包括目标用户所执行的交互行为和交互行为对应的行为资源。目标用户的基本信息主要指的是目标用户的年龄、职业、手机号、性别、爱好等等可以体现目标用户特征的信息。目标用户上下文行为画像用于说明目标用户对资源执行交互行为时的场景信息，主要包括有目标用户产生交互行为的时间，还可以包括有交互时目标用户所使用的网络类型、手机型号、用户所在地等等。

S203、利用目标用户上下文行为画像，从目标用户画像中筛选出属于最新的预设时间段内的目标用户对资源执行的交互行为信息，并从属于最新的预设时间段内的目标用户对资源执行的交互行为信息中确定出目标用户在最新的预设时间段内的多个行为资源。

由于目标用户上下文行为画像中记录有目标用户产生交互行为的时间，因此结合目标用户上下文行为画像中所记录的目标用户产生交互行为的时间，可以从目标用户画像中筛选出属于最新的预设时间段内的目标用户对资源执行的交互行为信息。而目标用户对资源执行的交互行为信息中包括有目标用户执行了交互行为的资源（即行为资源），因此从属于最新的预设时间段内的目标用户对资源执行的交互行为信息中可以确定出目标用户在最新的预设时间段内的多个行为资源。

S204、根据目标用户在最新的预设时间段内的多个行为资源中的行为资源类别比例和行为资源对应的交互时间，从目标用户在最新的预设时间段内的多个行为资源中，筛选出目标用户最新的n个行为资源。

预先存储好不同行为资源所属的行为资源类别，进而可以知道目标用户在最新的预设时间段内的每一个行为资源所属的行为资源类别，进而可以计算出最新的预设时间段内的多个行为资源中的行为资源类别比例。最新的预设时间段内的多个行为资源中的行为资源类别比例等于各个行为资源类别下的行为资源个数的比值。然后按照行为资源类别比例和行为资源对应的交互时间，从目标用户在最新的预设时间段内的多个行为资源中，筛选出目标用户最新的n个行为资源，筛选出的n个行为资源的行为资源类别比例与目标用户在最新的预设时间段内的多个行为资源中的行为资源类别比例保持一致。具体的，首先使用n和行为资源类别比例计算各个行为资源类别比例下的个数，然后按照行为资源对应的交互时间将各个行为资源类别下的行为资源删除到计算出的个数，删除规则为按照交互时间由远至今删除，即保留下交互时间离当前最近的行为资源。

举例说明，目标用户在最新的预设时间段内共有100个行为资源，总共包含3个类别，其中50个是类别A，30个是类别B，20个是类别C，因此行为资源类别比例为“类别A：类别B：类别C=5：3：2”，当需要筛选出50个资源时（即n=50），那么计算出来类别A需保留的个数

个，类别B需保留的个数

个，类别C需保留的个数

个。因此需要将原本类别A的50个行为资源筛选出交互时间离当前最近的25个，类别B的30个行为资源筛选出交互时间离当前最近的15个，类别C的20个行为资源筛选出交互时间离当前最近的10个。

本申请实施例中，在不改变行为资源类别比例的情况下，筛选出n个最新的行为资源，通过筛选的方式减少了后续的计算量，且由于行为资源类别比例不变，筛选出的行为资源不会影响到后续的计算效果。

S205、将筛选出的目标用户最新的n个行为资源的标识，按照交互时间顺序进行排列，得到目标用户当前的消费行为序列。

S102、将目标用户当前的消费行为序列对应的向量以及目标资源的标识向量输入至预构建的多层感知器网络层中，由预构建的多层感知器网络层得到每一个行为资源对应的权重，并对每一个行为资源对应的权重和目标用户当前的消费行为序列对应的向量进行加权合并计算，得到并输出目标用户的喜好向量和目标资源的标识向量，其中，目标用户的喜好向量用于说明目标用户对目标资源的喜好程度，行为资源对应的权重用于说明行为资源在预测目标用户对目标资源的喜好程度时的贡献度。

其中，目标资源是需要预测是否应向目标用户进行推送的资源。预构建的多层感知器网络层可以理解为是训练好的多层感知器网络层。目标用户当前的消费行为序列对应的向量可以通过对用户当前的消费行为序列进行序列特征转化的方式得到，同样的，目标资源的标识向量也可以通过对目标资源的标识进行序列特征转化的方式得到。具体的，可以首先将平台中所有资源的标识进行独热编码处理，然后将目标资源的标识和目标用户当前的消费行为序列进行深度学习，最终生成目标资源的标识向量和目标用户当前的消费行为序列对应的向量。

目标用户当前的消费行为序列对应的向量以及目标资源的标识向量输入至预构建的多层感知器网络层中之后，多层感知器网络层中的逻辑回归（Softmax logicalregression）层会输出每一个行为资源对应的权重，而行为资源对应的权重用于说明行为资源在预测目标用户对目标资源的喜好程度时的贡献度（或者说行为资源在预测当前目标用户对目标资源的喜好程度时的相关性），然后预构建的多层感知器网络层会对每一个行为资源对应的权重和目标用户当前的消费行为序列对应的向量进行加权合并计算，得到并输出目标用户的喜好向量和目标资源的标识向量。其中，Softmax层输出每一个行为资源的权重，指的是目标用户当前的消费行为序列中的每一个行为资源的权重。

具体的，目标用户产生过交互行为的多个行为资源中，只有部分行为资源与当前目标用户对目标资源的喜好程度是强相关关系的，即在预测目标用户对目标资源的喜好程度时具有较大的贡献度，而另一部分行为资源与当前目标用户对目标资源的喜好程度是弱相关的，在预测目标用户对目标资源的喜好程度时的贡献度较低。而预构建的多层感知器网络层中的softmax通过学习各个行为资源在预测目标用户对目标资源的喜好程度时的贡献度，得到每一个行为资源对应的权重。

通过对每一个行为资源对应的权重和目标用户当前的消费行为序列对应的向量进行加权合并计算所得到的目标用户的喜好向量，相较于现有技术更能够准确的说明目标用户对目标资源的喜好程度。现有技术中，在使用用户的历史行为去预测用户所喜好的资源时，没有考虑到用户不同的历史行为与用户当前所喜好的资源之间的相关性的差异，导致最终预测出的用户对目标资源的喜好程度时并不准确。举例说明，比如用户在一个月前点击过娱乐类视频，在昨天点击过体育类视频，现有技术中会认为娱乐类视频和体育类视频的与用户当前所喜好的资源之间的相关性都是相同的，即认为用户对娱乐类视频和体育类视频均一样感兴趣。然而，实际考虑到时间因素，用户仅在一个月前点击了娱乐类视频，距离当前的时间点较远，与用户当前所喜好的资源之间的相关性是较弱的，即用户当前所喜好的视频为体育类视频的概率会大于娱乐类视频的概率。

而本申请实施例中，将目标用户当前的消费行为序列对应的向量以及目标资源的标识向量输入至预构建的多层感知器网络层中后，可以得到每一个行为资源对应的权重，而行为资源对应的权重又能够说明行为资源在预测目标用户对目标资源的喜好程度时的贡献度，进而使得预构建的多层感知器网络层对每一个行为资源对应的权重和目标用户当前的消费行为序列对应的向量进行加权合并计算所得到的目标用户的喜好向量，相较于现有技术能够更准确的反映出目标用户的喜好向量用于说明目标用户对目标资源的喜好程度。

需要说明的是，目标用户的喜好向量所说明的目标用户对目标资源的喜好程度越高，那么最终预测出向目标用户推荐该目标资源的概率就会越大。

S103、将目标用户的喜好向量、目标资源的标识向量、以及每一个与目标用户相关联的特征向量进行连接，连接得到输入向量。

与目标用户相关联的特征向量能够反映出目标用户自身的特征、与目标用户之间产生了交互行为的行为资源自身的特征、需要预测是否应向目标用户推荐的目标资源自身的特征、以及目标用户所产生的交互行为的特征等等一系类在预测是否应向目标用户推荐目标资源的场景中与目标用户相关联的特征。

可选地，在本申请一具体实施例中，与目标用户相关联的特征向量，包括：目标用户的特征向量、行为资源的特征向量、目标资源的特征向量以及目标用户与行为资源之间的交互特征向量。其中，行与目标用户相关联的特征向量由目标用户画像、资源画像以及目标用户上下文行为画像生成得到，目标用户画像用于说明目标用户的基本信息以及目标用户对资源执行的交互行为信息，资源画像用于说明资源的基本信息，目标用户上下文行为画像用于说明目标用户对资源执行交互行为时的场景信息。

具体的，通过目标用户的用户行为日志可以计算出目标用户画像和目标用户上下文行为画像，而资源画像则由资源数据源生成，资源数据源中存储有平台中各个资源的基本信息。其中，目标用户画像和目标用户上下文行为画像与图2示出的实施例所提及的相同，此处不再赘述。而资源画像中说明的资源的基本信息可以有所有资源各自所属的资源类别、资源的标识、资源的名称、资源的各种属性等等。

可选地，从目标用户画像、资源画像以及目标用户上下文行为画像中得到每一个与目标用户相关联的特征向量的过程为：首先对目标用户画像、资源画像以及目标用户上下文行为画像中的各个类别型特征中的空缺值填充众数或填充默认值，对各个连续性特征中的空缺值填充0或均值，然后将空值填充后的类型特征和连续性特征通过独热编码生成特征向量，对于目标用户画像和资源画像中的文本内容，则可利用自然语言处理模型，进行嵌入，生成特征向量。对于目标用户画像中的目标用户对资源执行的交互行为信息，可以进行分类融合，生成类别行为权重特征向量，同时将类别行为权重特征向量进行聚类生成对应的类别特征向量，而针对目标用户上下文行为画像中的手机型号、地理位置等场景信息，对目标用户进行用户群体分类，生成对应的类别特征向量。上述处理之后所得到的特征向量中，总共包括有目标用户的特征向量、行为资源的特征向量、目标资源的特征向量以及目标用户与行为资源之间的交互特征向量。其中，目标用户的特征向量用于说明目标用户的特征，行为资源的特征向量用于说明行为资源的特征，目标用户与行为资源之间的交互特征向量用于说明目标用户与行为资源之间的交互行为的特征。

S104、将输入向量输入至预构建的多目标深度网络中，由预构建的每一个目标深度网络分别得到并输出目标深度网络对应的目标下的目标资源预测值，其中目标为用于反映对资源的喜好程度的业务指标，每一个目标下的目标资源预测值用于确定出是否向目标用户推荐目标资源。

由于输入向量是由目标用户的喜好向量、目标资源的标识向量、以及每一个与目标用户相关联的特征向量所连接构成的，因此输入向量中携带有预构建的多层感知器网络层所预测出的目标用户对目标资源的喜好程度的信息、还携带有目标资源、以及与目标用户相关联的各种特征信息，因此将输入向量输入到预构建的每一个目标深度网络中之后，针对每一个目标深度网络，该目标深度网络能够根据目标用户对目标资源的喜好程度、目标资源、以及与目标用户相关联的各种特征信息，预测出目标用户在目标深度网络对应的目标下的目标资源预测值，目标下的目标资源预测值能够反映目标用户在该目标下对目标资源的喜好程度。目标指的是用于反映对资源的喜好程度的业务指标，例如若资源指的是商品，那么目标可以是点击率、浏览时间、购买率等等业务指标。预测出的点击率越高、浏览时间越长、购买率越高，那么自然通过每一个目标下的目标资源预测值所确定出的是否向目标用户推荐目标资源的结果就会越侧重于向目标用户推荐该目标资源。

现有技术中，在预测是否向用户推荐某个资源的场景中，通常是使用单目标模型来进行预测。但是单个目标预测推荐的方式容易出现过拟合情况，造成所得到的是否进行推荐的结果并不准确的后果，例如，仅以点击率这一单个目标的模型来预测是否向用户推荐某资源时，最终向用户所推荐的资源会更侧重于用户对资源的标题的感兴趣程度，并不是用户实际所喜好的资源，用户在点开推送的资源后，可能并不会选择继续浏览，久而久之平台给用户带来的体验较差。

而本申请实施例中，通过将输入向量输入至预构建的多目标深度网络中，由预构建的每一个目标深度网络分别得到并输出目标深度网络对应的目标下的目标资源预测值，其中目标为用于反映对资源的喜好程度的业务指标，每一个目标下的目标资源预测值用于确定出是否向目标用户推荐目标资源。由于不同目标所表达的资源的喜好程度是不同的（如购物场景中，购买表达的喜好程度要高于点击、浏览所表达的喜好程度），因此通过预构建的多目标深度网络所得到的多个目标下的目标资源预测值来确定出是否向目标用户推荐目标资源会更为准确，而不会出现单个目标过拟合情况，会给用户带来更好的推荐效果。

可选地，在本申请一具体实施例中，执行步骤S103之后，还包括：

将输入向量输入至预构建的深度注意力网络共享层，由预构建的深度注意力网络共享层中的网络共享层输出多个维度相同的处理后向量，并由预构建的深度注意力网络共享层中的每一个注意力机制加权层分别对多个维度相同的处理后向量进行加权合并，由每一个注意力机制加权层得到并输出处理后的输入向量。其中，执行步骤S104时，包括：针对每一个注意力机制加权层输出的处理后的输入向量，将处理后的输入向量输入至预构建的与注意力机制加权层相对应的目标深度网络中，由预构建的与注意力机制加权层相对应的目标深度网络得到并输出目标深度网络对应的目标下的目标资源预测值。

为了从步骤S103中得到的输入向量中提取出更有效的信息，可以将输入向量输入至预构建的深度注意力网络共享层中进行处理，以增加输入向量的复杂度，提取出更有效的信息，得到并输出处理后的输入向量。

具体的，预构建的深度注意力网络共享层由网络共享层和多个注意力机制加权层组成。每一个注意力机制加权层与预构建的每一个目标深度网络之间一一对应。网络共享层由多个子网络构成，多个子网络的内部可以一样，也可以不一样，但每一个子网络所输出的向量的维度都是一致的。将输入向量输入至预构建的深度注意力网络共享层之后，网络共享层中的每一个子网络分别输出维度相同的处理后向量。

并且，预构建的深度注意力网络共享层中的每一个注意力机制加权层将步骤S103得到的输入向量送入至sofmax层，学习到了网络共享层中每一个子网络的权重，进而可以对每一个子网络输出的维度相同的处理后向量进行加权合并处理，由每一个注意力机制加权层得到并输出处理后的输入向量。其中，处理后的输入向量是一个注意力加权后的向量。

处理后的输入向量相较于步骤S103中的输入向量更为复杂，具有的有效信息也更多，进而使得在执行步骤S104时，最终所得到的每一个目标深度网络对应的目标下的目标资源预测值会更为准确。具体的，执行步骤S104时，针对每一个注意力机制加权层输出的处理后的输入向量，将处理后的输入向量输入至预构建的与注意力机制加权层相对应的目标深度网络中，由预构建的与注意力机制加权层相对应的目标深度网络得到并输出目标深度网络对应的目标下的目标资源预测值。由于多个目标共享相同的子网络的输入，仅仅是与每个子网络合并的权重不同，相当于变相的对网络共享层施加了正则化，避免偏向于单个目标，进而对多个目标进行了平衡。

可选地，参阅图3，在本申请一具体实施例中，执行步骤S104之后，还包括：

S301、针对每一个目标，通过目标对应的分数评估规则，根据所述目标下的目标资源预测值确定出目标下的目标资源预估推荐值。

预先配置好每一个目标对应的分数评估规则。目标对应的分数评估规则规定了目标下的目标资源预测值与目标下的目标资源预估推荐值之间的关系，因此在步骤S104得到每一个目标下的目标资源预测值之后，可针对每一个目标，根据该目标下的目标资源预测值，通过目标对应的分数评估规则，确定出目标下的目标资源预估推荐值。目标下的目标资源预估推荐值用于说明该目标资源在该目标下的推荐程度。

举例说明，若在视频场景中，具有点击率和完播率这两个目标，针对某个目标视频，在点击率下的目标视频预测值为10%，完播率下的目标视频预测值为50%。而点击率对应的分数评估规则为，点击率在0至5%之间的，对应的点击率下的目标视频预估推荐值为3分，而点击率在5%至10%之间的，点击率下的目标视频预估推荐值为4分，点击率在11%至20%之间的，点击率下的目标视频预估推荐值为5分，点击率在20%至50%之间的，点击率下的目标视频预估推荐值为6分，点击率在51%至70%之间的，点击率下的目标视频预估推荐值为7分，点击率在71%至100%之间的，点击率下的目标视频预估推荐值为10分。而完播率对应的分数规则为：完播率在0至30%之间的，完播率下的目标视频预估推荐值为3分，完播率在31%至50%之间的，完播率下的目标视频预估推荐值为5分，完播率在51%至70%之间的，完播率下的目标视频预估推荐值为7分，完播率在71%至100之间的，完播率下的目标视频预估推荐值为10分。进而根据分数规则，针对某个目标视频，在点击率下的目标视频预测值为10%，完播率下的目标视频预测值为50%，可以得出，该目标视频的点击率目标下的目标资源预估推荐值为4分，完播率下的目标视频预估推荐值为5分。

S302、针对每一个目标，将目标下的目标资源预估推荐值与目标对应的业务权重值相乘，计算得到目标下的目标资源实际推荐值。

目标对应的业务权重值用于说明该目标在评估目标资源的推荐值中的重要程度。在本申请实施例中，是通过多个目标来评估目标资源的推荐值的。而不同场景下所侧重的目标是不同的。例如广告场景下，目标资源为某个广告，而广告相较于完播率更注重点击率，因此预设置的点击率对应的业务权重值则大于完播率对应的业务权重值。然后再针对每一个目标，将目标下的目标资源预估推荐值与目标对应的业务权重值相乘，计算得到目标下的目标资源实际推荐值。

S303、将每一个目标下的目标资源实际推荐值相加，计算得到目标资源的融合推荐值，其中，目标资源的融合推荐值用于说明目标资源对于目标用户的推荐程度。

得到目标资源的融合推荐值之后，再按照目标资源的融合推荐值选取出实际要推送的资源。例如，可以是从多个目标资源的融合推荐值中，选取出融合推荐值最大的K个目标资源，将K个目标资源推送给目标用户。又例如，可以是判断目标资源的融合推荐值是否大于推荐阈值，若大于推荐阈值，则向目标用户推荐该目标资源。

可选地，在本申请一具体实施例中，预构建的多层感知器网络层、预构建的多目标深度网络以及预构建的深度注意力网络共享层可以是通过联合训练得到的，具体的，参阅图4，预构建的多层感知器网络层、所预构建的多目标深度网络以及预构建的深度注意力网络共享层的构建过程，包括以下步骤：

S401、构建训练数据集，其中训练数据集中，包括：多个用户的历史消费行为序列、以及用户的每一个目标下的训练资源实际值，用户的历史消费行为序列由用户在历史时间段中的m个历史行为资源的标识按照交互时间顺序排列构成，m为正整数。

其中，训练资源可以有多个。用户的历史消费行为序列与目标用户的消费行为序列的构建过程相似，此处不再赘述。每一个目标下的训练资源实际值可以通过在历史时间段之后采集得到。举例说明，例如可以收集多个用户在上个月的历史消费行为序列，以及收集多个用户在上个月结束之后的每一个目标下的训练资源实际值，通过多个用户的历史消费行为序列、以及用户的每一个目标下的训练资源实际值构建出训练数据集。目标下的训练资源实际值代表着训练资源在该目标下的实际值。例如若该目标为点击率，那么在上个月结束之后，若平台向用户推送了该训练资源，而用户没有点击该训练资源，那么点击率下的训练资源实际值为0。若平台向用户推送了该训练资源，而用户点击了该训练资源，那么点击率下的训练资源实际值为100%。

需要说明的是，训练数据集中的数据越多，则最终训练出的预构建的多层感知器网络层、预构建的多目标深度网络以及预构建的深度注意力网络共享层的准确度会越高。

S402、针对训练数据集中的每一个用户，将用户的历史消费行为序列对应的向量以及训练资源的标识向量分别输入至待构建的多层感知器网络层中，由待构建的多层感知器网络层得到每一个历史行为资源对应的权重，并对每一个历史行为资源对应的权重和用户的历史消费行为序列对应的向量进行加权合并计算，得到并输出用户的喜好向量和训练资源的标识向量，其中，用户的喜好向量用于说明用户对训练资源的喜好程度。

其中，待构建的多层感知器网络层可以预先使用多个用户的历史消费行为序列、训练资源的标识向量以及每一个用户对训练资源的实际喜好程度对多层感知器网络层进行预训练得到。用户对训练资源的实际喜好程度通过用户实际是否有点击训练资源来决定。具体的，针对每一个用户，将用户的历史消费行为序列对应的向量以及训练资源的标识向量分别输入至待构建的多层感知器网络层中，由待构建的多层感知器网络层得到每一个历史行为资源对应的权重，并对每一个历史行为资源对应的权重和用户的历史消费行为序列对应的向量进行加权合并计算，得到并输出用户的喜好向量和训练资源的标识向量，然后利用与用户的喜好向量所说明的用户对训练资源的喜好程度与用户对训练资源的实际喜好程度之间的误差，不断调整多层感知器网络层，直至调整后的多层感知器网络层所输出的用户的喜好向量与用户对训练资源的实际喜好程度之间的误差满足收敛条件，则将调整后的多层感知器网络层确定为待构建的多层感知器网络层。通过预先训练的方式所得到的待构建的多层感知器网络层，能够在执行图4的构建过程中节省对待构建的多层感知器网络层的运算量，以达到快速构建的目的。

S403、将用户的喜好向量、训练资源的标识向量、以及与每一个历史行为资源相关联的特征向量进行连接，得到历史输入向量。

其中，训练过程中执行的步骤S403与图1示出的步骤S103的原理和执行过程是相似的，可参见，此处不再赘述。

S404、将历史输入向量输入至待构建的深度注意力网络共享层，由待构建的深度注意力网络共享层中的网络共享层输出多个维度相同的处理后历史向量，并由待构建的深度注意力网络共享层中的每一个注意力机制加权层分别对多个维度相同的处理后历史向量进行加权合并，由每一个注意力机制加权层分别得到并输出处理后的历史输入向量。

其中，训练过程中执行的步骤S404与上述提及的“将输入向量输入至预构建的深度注意力网络共享层，由预构建的深度注意力网络共享层中的网络共享层输出多个维度相同的处理后向量，并由预构建的深度注意力网络共享层中的每一个注意力机制加权层分别对多个维度相同的处理后向量进行加权合并，由每一个注意力机制加权层得到并输出处理后的输入向量”原理和执行过程是相似的，可参见，此处不再赘述。

S405、针对每一个注意力机制加权层输出的处理后的历史输入向量，将处理后的历史输入向量输入至与注意力机制加权层相对应的待构建目标深度网络中，由与注意力机制加权层相对应的待构建目标深度网络得到并输出待构建目标深度网络对应的目标下的训练资源预测值。

其中，训练过程中执行的步骤S405与上述提及的“针对每一个注意力机制加权层输出的处理后的输入向量，将处理后的输入向量输入至预构建的与注意力机制加权层相对应的目标深度网络中，由预构建的与注意力机制加权层相对应的目标深度网络得到并输出目标深度网络对应的目标下的目标资源预测值”的执行过程和原理相似，此处不再赘述。

S406、根据每一个用户的每一个目标下的训练资源预测值与训练资源实际值之间的误差，对待构建的多层感知器网络层、待构建的深度注意力网络共享层、以及每一个待构建目标深度网络中的权值不断调整，直至调整后的每一个待构建目标深度网络所输出的待构建目标深度网络对应的目标下的训练资源预测值与训练资源实际值之间的误差满足预设的收敛条件，将调整后的待构建的多层感知器网络层确定为预构建的多层感知器网络层、将调整后的待构建的深度注意力网络共享层确定为预构建的深度注意力网络共享层以及将调整后的每一个待构建目标深度网络确定为每一个预构建的目标深度网络。

每一个用户的每一个目标下的训练资源预测值与训练资源实际值之间存在误差，因此可以通过调整在得到目标下的训练资源预测值过程中所涉及到的待构建的多层感知器网络层、待构建的深度注意力网络共享层、以及每一个待构建目标深度网络中的权值，以使得调整后的每一个待构建目标深度网络所输出的待构建目标深度网络对应的目标下的训练资源预测值与训练资源实际值之间的误差不断减小，直至调整后的每一个待构建目标深度网络所输出的待构建目标深度网络对应的目标下的训练资源预测值与训练资源实际值之间的误差满足预设的收敛条件，则将调整后的待构建的多层感知器网络层确定为预构建的多层感知器网络层、将调整后的待构建的深度注意力网络共享层确定为预构建的深度注意力网络共享层以及将调整后的每一个待构建目标深度网络确定为每一个预构建的目标深度网络。

本申请实施例提出的资源推荐方法中，通过构建目标用户当前的消费行为序列，然后将目标用户当前的消费行为序列对应的向量以及目标资源的标识向量输入至预构建的多层感知器网络层中，由预构建的多层感知器网络层得到每一个行为资源对应的权重，并对每一个行为资源对应的权重和目标用户当前的消费行为序列对应的向量进行加权合并计算，得到并输出目标用户的喜好向量和目标资源的标识向量。其中，目标用户当前的消费行为序列由目标用户最新的n个行为资源的标识按照交互时间顺序排列构成，目标用户的喜好向量用于说明目标用户对目标资源的喜好程度，行为资源对应的权重用于说明目行为资源在预测目标用户对目标资源的喜好程度时的贡献度，即反映了目标用户不同的行为资源与目标用户对当前的目标资源的喜好程度之间的相关性，因此通过行为资源对应的权重所计算出的目标用户的喜好向量会更为准确的反映出目标用户对目标资源的喜好程度，并且本申请将目标用户的喜好向量、目标资源的标识向量、以及与每一个行为资源相关联的特征向量进行连接，得到的输入向量之后，还将输入向量输入至预构建的多目标深度网络中，由预构建的每一个目标深度网络分别得到并输出目标深度网络对应的目标下的目标资源预测值，由于本申请中是通过每一个目标下的目标资源预测值来确定出是否向目标用户推荐目标资源，而不是通过单个目标下的目标资源预测值来确定是否向目标用户推荐目标资源的，且本申请的输入向量中也考虑到了目标用户不同的行为资源对于当前目标资源的喜好程度的贡献度，因此本申请实施例中对于是否向目标用户推荐目标资源的预测结果相较于现有技术而言更为准确。

参阅图5，基于上述本申请实施例提出的资源推荐方法，本申请实施例对应公开了一种资源推荐装置，包括：第一构建单元501、第一输出单元502、连接单元503以及第二输出单元504。

第一构建单元501，用于构建目标用户当前的消费行为序列，其中，目标用户当前的消费行为序列由目标用户最新的n个行为资源的标识按照交互时间顺序排列构成，n为正整数，行为资源为目标用户执行了交互行为的资源。

第一输出单元502，用于将目标用户当前的消费行为序列对应的向量以及目标资源的标识向量输入至预构建的多层感知器网络层中，由预构建的多层感知器网络层得到每一个行为资源对应的权重，并对每一个行为资源对应的权重和目标用户当前的消费行为序列对应的向量进行加权合并计算，得到并输出目标用户的喜好向量和目标资源的标识向量，其中目标用户的喜好向量用于说明目标用户对目标资源的喜好程度，行为资源对应的权重用于说明行为资源在预测目标用户对目标资源的喜好程度时的贡献度。

连接单元503，用于将目标用户的喜好向量、目标资源的标识向量、以及每一个与目标用户相关联的特征向量进行连接，连接得到输入向量。

可选地，在本申请一具体实施例中，与目标用户相关联的特征向量，包括：目标用户的特征向量、行为资源的特征向量、目标资源的特征向量以及目标用户与所述行为资源之间的交互特征向量。其中，与目标用户相关联的特征向量由目标用户画像、资源画像以及目标用户上下文行为画像生成得到，目标用户画像用于说明目标用户的基本信息以及目标用户对资源执行的交互行为信息，资源画像用于说明资源的基本信息，目标用户上下文行为画像用于说明目标用户对资源执行交互行为时的场景信息。

第二输出单元504，用于将输入向量输入至预构建的多目标深度网络中，由预构建的每一个目标深度网络分别得到并输出目标深度网络对应的目标下的目标资源预测值。其中，目标为用于反映对资源的喜好程度的业务指标，每一个目标下的目标资源预测值用于确定出是否向目标用户推荐目标资源。

可选地，在本申请一具体实施例中，还包括：

第三输出单元，用于将输入向量输入至预构建的深度注意力网络共享层，由预构建的深度注意力网络共享层中的网络共享层输出多个维度相同的处理后向量，并由预构建的深度注意力网络共享层中的每一个注意力机制加权层分别对多个维度相同的处理后向量进行加权合并，由每一个注意力机制加权层得到并输出处理后的输入向量。

其中，第二输出单元504，包括：

第一输出子单元，用于针对每一个注意力机制加权层输出的处理后的输入向量，将处理后的输入向量输入至预构建的与注意力机制加权层相对应的目标深度网络中，由预构建的与注意力机制加权层相对应的目标深度网络得到并输出目标深度网络对应的目标下的目标资源预测值。

可选地，在本申请一具体实施例中，还包括：第二构建单元、第二输出子单元、连接子单元、第三输出子单元、第四输出单元以及调整单元。

第二构建单元，用于构建训练数据集，其中训练数据集中，包括：多个用户的历史消费行为序列、以及用户的每一个目标下的训练资源实际值，用户的历史消费行为序列由用户在历史时间段中的m个历史行为资源的标识按照交互时间顺序排列构成，m为正整数。

第二输出子单元，用于针对训练数据集中的每一个用户，将用户的历史消费行为序列对应的向量以及训练资源的标识向量分别输入至待构建的多层感知器网络层中，由待构建的多层感知器网络层得到每一个历史行为资源对应的权重，并对每一个历史行为资源对应的权重和用户的历史消费行为序列对应的向量进行加权合并计算，得到并输出用户的喜好向量和训练资源的标识向量，其中用户的喜好向量用于说明用户对训练资源的喜好程度。

连接子单元，用于将用户的喜好向量、训练资源的标识向量、以及与每一个历史行为资源相关联的特征向量进行连接，得到历史输入向量。

第三输出子单元，用于将历史输入向量输入至待构建的深度注意力网络共享层，由待构建的深度注意力网络共享层中的网络共享层输出多个维度相同的处理后历史向量，并由待构建的深度注意力网络共享层中的每一个注意力机制加权层分别对多个维度相同的处理后历史向量进行加权合并，由每一个所述注意力机制加权层分别得到并输出处理后的历史输入向量。

第四输出单元，用于针对每一个注意力机制加权层输出的处理后的历史输入向量，将处理后的历史输入向量输入至与注意力机制加权层相对应的待构建目标深度网络中，由与注意力机制加权层相对应的待构建目标深度网络得到并输出待构建目标深度网络对应的目标下的训练资源预测值。

调整单元，用于根据每一个用户的每一个所述目标下的训练资源预测值与训练资源实际值之间的误差，对待构建的多层感知器网络层、待构建的深度注意力网络共享层、以及每一个待构建目标深度网络中的权值不断调整，直至调整后的每一个待构建目标深度网络所输出的待构建目标深度网络对应的目标下的训练资源预测值与训练资源实际值之间的误差满足预设的收敛条件，将调整后的待构建的多层感知器网络层确定为预构建的多层感知器网络层、将调整后的待构建的深度注意力网络共享层确定为预构建的深度注意力网络共享层以及将调整后的每一个待构建目标深度网络确定为每一个预构建的目标深度网络。

可选地，在本申请一具体实施例中，还包括：第一确定单元、第一计算单元以及第二计算单元。

第一确定单元，用于针对每一个目标，通过目标对应的分数评估规则，根据所述目标下的目标资源预测值确定出目标下的目标资源预估推荐值。

第一计算单元，用于针对每一个目标，将目标下的目标资源预估推荐值与目标对应的业务权重值相乘，计算得到目标下的目标资源实际推荐值。

第二计算单元，用于将每一个目标下的目标资源实际推荐值相加，计算得到目标资源的融合推荐值，其中，目标资源的融合推荐值用于说明目标资源对于目标用户的推荐程度。

可选地，在本申请一具体实施例中，还包括：获取单元、第二确定单元、第三确定单元、筛选单元以及排列单元。

获取单元，用于获取目标用户的用户行为日志。

第二确定单元，用于从用户行为日志中，确定出目标用户画像和目标用户上下文行为画像，其中目标用户画像用于说明目标用户的基本信息以及目标用户对资源执行的交互行为信息，目标用户上下文行为画像用于说明目标用户对资源执行交互行为时的场景信息，目标用户上下文行为画像中记录有目标用户产生交互行为的时间。

第三确定单元，用于利用目标用户上下文行为画像，从目标用户画像中筛选出属于最新的预设时间段内的目标用户对资源执行的交互行为信息，并从属于最新的预设时间段内的目标用户对资源执行的交互行为信息中确定出目标用户在最新的预设时间段内的多个行为资源。

筛选单元，用于根据目标用户在最新的预设时间段内的多个行为资源中的行为资源类别比例和行为资源对应的交互时间，从目标用户在最新的预设时间段内的多个行为资源中，筛选出目标用户最新的n个行为资源。

排列单元，用于将筛选出的目标用户最新的n个行为资源的标识，按照交互时间顺序进行排列，得到目标用户当前的消费行为序列。

上述本申请实施例公开的资源推荐装置中的各个单元具体的原理和执行过程，与上述本申请实施例公开的资源推荐方法相同，可参见上述本申请实施例公开的资源推荐方法中相应的部分，这里不再进行赘述。

本申请实施例提出的资源推荐装置中，通过第一构建单元501构建目标用户当前的消费行为序列，然后第一输出单元502将目标用户当前的消费行为序列对应的向量以及目标资源的标识向量输入至预构建的多层感知器网络层中，由预构建的多层感知器网络层得到每一个行为资源对应的权重，并对每一个行为资源对应的权重和目标用户当前的消费行为序列对应的向量进行加权合并计算，得到并输出目标用户的喜好向量和目标资源的标识向量。其中，目标用户当前的消费行为序列由目标用户最新的n个行为资源的标识按照交互时间顺序排列构成，目标用户的喜好向量用于说明目标用户对目标资源的喜好程度，行为资源对应的权重用于说明目行为资源在预测目标用户对目标资源的喜好程度时的贡献度，即反映了目标用户不同的行为资源与目标用户对当前的目标资源的喜好程度之间的相关性，因此通过行为资源对应的权重所计算出的目标用户的喜好向量会更为准确的反映出目标用户对目标资源的喜好程度，并且连接单元503将目标用户的喜好向量、目标资源的标识向量、以及与每一个行为资源相关联的特征向量进行连接，得到的输入向量之后，第二输出单元504还将输入向量输入至预构建的多目标深度网络中，由预构建的每一个目标深度网络分别得到并输出目标深度网络对应的目标下的目标资源预测值，由于本申请中是通过每一个目标下的目标资源预测值来确定出是否向目标用户推荐目标资源，而不是通过单个目标下的目标资源预测值来确定是否向目标用户推荐目标资源的，且本申请的输入向量中也考虑到了目标用户不同的行为资源对于当前目标资源的喜好程度的贡献度，因此本申请实施例中对于是否向目标用户推荐目标资源的预测结果相较于现有技术而言更为准确。

本申请实施例公开了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如上述各实施例任一所述的资源推荐方法。

本申请实施例公开一种资源推荐设备，包括：一个或多个处理器，存储装置，其上存储有一个或多个程序。当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上述各实施例任一所述的资源推荐方法。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种资源推荐方法，其特征在于，包括：

构建目标用户当前的消费行为序列；其中，所述目标用户当前的消费行为序列由所述目标用户最新的预设时间段内的n个行为资源的标识按照交互时间顺序排列构成；n为正整数；所述行为资源为所述目标用户执行了交互行为的资源；

将所述输入向量输入至预构建的多目标深度网络中，由预构建的每一个所述目标深度网络分别得到并输出所述目标深度网络对应的目标下的目标资源预测值；其中，所述目标为用于反映对资源的喜好程度的业务指标；每一个所述目标下的目标资源预测值用于确定出是否向所述目标用户推荐所述目标资源；

所述将所述目标用户的喜好向量、所述目标资源的标识向量、以及每一个与目标用户相关联的特征向量进行连接，连接得到输入向量之后，还包括：

2.根据权利要求1所述的方法，其特征在于，所述与目标用户相关联的特征向量，包括：所述目标用户的特征向量、所述行为资源的特征向量、所述目标资源的特征向量以及所述目标用户与所述行为资源之间的交互特征向量；其中，所述与目标用户相关联的特征向量由目标用户画像、资源画像以及目标用户上下文行为画像生成得到；所述目标用户画像用于说明所述目标用户的基本信息以及所述目标用户对资源执行的交互行为信息；所述资源画像用于说明资源的基本信息；所述目标用户上下文行为画像用于说明所述目标用户对资源执行交互行为时的场景信息。

3.根据权利要求1所述的方法，其特征在于，所述预构建的多层感知器网络层、所述预构建的多目标深度网络以及所述预构建的深度注意力网络共享层的构建过程，包括：

4.根据权利要求1至3中任一所述的方法，其特征在于，所述将所述输入向量输入至预构建的多目标深度网络中，由预构建的每一个所述目标深度网络分别得到并输出所述目标深度网络对应的目标下的目标资源预测值之后，还包括：

5.根据权利要求1所述的方法，其特征在于，所述目标用户当前的消费行为序列的构建方法，包括：

获取目标用户的用户行为日志；

6.一种资源推荐装置，其特征在于，包括：

第一构建单元，用于构建目标用户当前的消费行为序列；其中，所述目标用户当前的消费行为序列由所述目标用户最新的预设时间段内的n个行为资源的标识按照交互时间顺序排列构成；n为正整数；所述行为资源为所述目标用户执行了交互行为的资源；

第二输出单元，用于将所述输入向量输入至预构建的多目标深度网络中，由预构建的每一个所述目标深度网络分别得到并输出所述目标深度网络对应的目标下的目标资源预测值；其中，所述目标为用于反映对资源的喜好程度的业务指标；每一个所述目标下的目标资源预测值用于确定出是否向所述目标用户推荐所述目标资源；

其中，所述第二输出单元，包括：

7.根据权利要求6所述的装置，其特征在于，所述与目标用户相关联的特征向量，包括：所述目标用户的特征向量、所述行为资源的特征向量、所述目标资源的特征向量以及所述目标用户与所述行为资源之间的交互特征向量；其中，所述与目标用户相关联的特征向量由目标用户画像、资源画像以及目标用户上下文行为画像生成得到；所述目标用户画像用于说明所述目标用户的基本信息以及所述目标用户对资源执行的交互行为信息；所述资源画像用于说明资源的基本信息；所述目标用户上下文行为画像用于说明所述目标用户对资源执行交互行为时的场景信息。

8.一种计算机可读介质，其特征在于，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1至5中任一所述的方法。

9.一种资源推荐设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一所述的方法。