CN112417290A

CN112417290A - 书籍排序推送模型的训练方法、电子设备及存储介质

Info

Publication number: CN112417290A
Application number: CN202011373709.8A
Authority: CN
Inventors: 王海璐
Original assignee: Ireader Technology Co Ltd
Current assignee: Ireader Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-26

Abstract

本发明公开了一种书籍排序推送模型的训练方法、电子设备及存储介质，该方法包括：获取阅读用户对应于交互时段的交互书籍列表，对各个交互书籍进行正负标注以得到第一训练样本集；根据第一训练样本集生成预训练模型以及对应于预训练模型的样本向量和样本权重；根据第一训练样本集中的各个交互书籍的交互深度信息，将各个交互书籍组合为多个训练样本组，根据各个训练样本组中包含的训练样本的交互深度信息的比较结果标注各个训练样本组，得到第二训练样本集；通过第二训练样本集以及对应于预训练模型的样本向量和样本权重，对预训练模型进行微调，得到书籍排序推送模型。该方式能够考虑不同书籍之间的交互深度的不同，使推送结果更加准确。

Description

书籍排序推送模型的训练方法、电子设备及存储介质

技术领域

本发明涉及计算机领域，具体涉及一种书籍排序推送模型的训练方法、电子设备及存储介质。

背景技术

电子书形式的书籍由于具有获取方便等优势，受到了大量用户的喜爱。书籍阅读平台大多是按照书籍全文的相似度进行书籍推荐的。现有技术中，一般是将与用户曾经阅读过的书籍在书籍内容上具有较高相似度的若干个书籍作为推荐书籍并向用户展现。

但是，发明人在实现本发明的过程中发现，上述推荐方式至少存在以下缺陷：由于书籍属于长交互的业务对象，因此，各个交互书籍所对应的交互深度往往各不相同，通过交互深度能够反映用户对于书籍的偏好程度。然而，现有的书籍推送模型无法根据用户对于不同书籍的交互深度信息进行准确推荐。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的书籍排序推送模型的训练及书籍排序推送方法、电子设备及存储介质。

根据本发明的一个方面，提供了一种书籍排序推送模型的训练方法，包括：

获取阅读用户对应于交互时段的交互书籍列表，对所述交互书籍列表中的各个交互书籍进行正负标注以得到第一训练样本集；

根据所述第一训练样本集生成预训练模型以及对应于所述预训练模型的样本向量和样本权重；

根据所述第一训练样本集中的各个交互书籍的交互深度信息，将所述第一训练样本集中的各个交互书籍组合为多个训练样本组，根据各个训练样本组中包含的至少两个训练样本的交互深度信息的比较结果标注各个训练样本组，得到第二训练样本集；

通过所述第二训练样本集以及所述对应于所述预训练模型的样本向量和样本权重，对所述预训练模型进行微调，将微调后的预训练模型作为所述书籍排序推送模型。

根据本发明的另一个方面，提供了一种书籍排序推送方法，其中，该方法基于上述的书籍排序推送模型实现。

根据本发明的另一个方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：基于上述的书籍排序推送模型实现书籍排序推送方法。

根据本发明的另一个方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行上述的方法。

在本发明提供的书籍排序推送模型的训练方法、电子设备及存储介质中，根据第一训练样本集中的各个交互书籍的交互深度信息，将第一训练样本集中的各个交互书籍组合为多个训练样本组，根据各个训练样本组中包含的至少两个训练样本的交互深度信息的比较结果标注各个训练样本组，得到第二训练样本集，进而根据第二训练样本集对已经得到的预训练模型进行微调，从而使最终的书籍排序推送模型适应于书籍推送的业务场景，能够充分考虑不同书籍之间的交互深度的不同，进而使推送结果更加准确。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明一个实施例提供的书籍排序推送模型的训练方法的流程图；

图2示出了本发明另一个实施例提供的书籍排序推送模型的训练方法的流程图；

图3示出了根据本发明另一个实施例的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

图1示出了本发明一个实施例提供的书籍排序推送模型的训练及书籍排序推送方法的流程图。如图1所示，该方法包括以下步骤：

步骤S110：获取阅读用户对应于交互时段的交互书籍列表，对交互书籍列表中的各个交互书籍进行正负标注以得到第一训练样本集。

其中，交互时段是指由起始时间段以及结束时间段界定的一段时间，在该交互时段内持续监测用户行为，根据监测结果获取该阅读用户对应于该交互时段的交互书籍列表。其中，交互书籍列表用于存储该阅读用户在该交互时段内产生过交互的至少一本电子书。其中，所谓产生过交互包括：用户针对该电子书触发过点击操作、查找操作、浏览操作等各种预设类型的交互操作，交互操作的种类和数量可由本领域技术人员根据业务场景灵活设定。

由于交互书籍列表中包含多本电子书，而用户对于不同电子书的交互情况各不相同，根据用户对交互书籍列表中的各个交互书籍的交互情况对交互书籍列表中的各个交互书籍进行正负标注，从而得到第一训练样本集。具体的，可以将交互时长大于预设时长的交互书籍标记为正样本，并将交互时长不大于预设时长的交互书籍标记为负样本。本发明不限定正负标注的具体实现方式。

步骤S120：根据第一训练样本集生成预训练模型以及对应于预训练模型的样本向量和样本权重。

具体的，通过第一训练样本集进行模型训练操作，得到预训练模型。并且，在预训练过程中，能够学习到对应于预训练模型的样本向量和样本权重等模型参数信息。其中，预训练模型可基于各种神经网络模型实现。样本向量可以为样本的embedding向量，样本权重可以为基于注意力机制确定的注意力权重。

步骤S130：根据第一训练样本集中的各个交互书籍的交互深度信息，将第一训练样本集中的各个交互书籍组合为多个训练样本组，根据各个训练样本组中包含的至少两个训练样本的交互深度信息的比较结果标注各个训练样本组，得到第二训练样本集。

具体的，分别获取第一训练样本集中的各个交互书籍的交互深度信息，根据交互深度信息将第一训练样本集中的各个交互书籍组合为多个训练样本组。其中，一个训练样本组包含至少两个训练样本，计算一个训练样本组包含的至少两个训练样本的交互深度信息之间的比较结果，根据计算结果对各个训练样本组进行标注。由此可见，各个训练样本组的标注结果用于表达训练样本组内包含的至少两个训练样本之间的交互深度信息的比较情况。相应的，与基于单样本的第一训练样本集不同，第二训练样本集是基于样本组的。因此，通过样本组能够反映不同训练样本之间的交互深度信息之间的差异性。

步骤S140：通过第二训练样本集以及对应于预训练模型的样本向量和样本权重，对预训练模型进行微调，将微调后的预训练模型作为书籍排序推送模型。

具体的，通过第二训练样本集对预训练模型进行微调，在微调过程中，使用步骤S120中得到的对应于预训练模型的样本向量和样本权重对第二训练样本集进行训练，以使预训练模型作用于第二训练样本集，从而将微调后的预训练模型作为书籍排序推送模型。由于第二训练样本集是基于样本组实现的，能够反映多个训练样本对应的交互深度信息之间的差异性，因此，通过第二训练样本集重新训练后得到的书籍排序推送模型能够结合用户对于不同书籍的交互深度的不同而实现多样化的准确推送。

由此可见，在本发明提供的书籍排序推送模型的训练方法中，根据第一训练样本集中的各个交互书籍的交互深度信息，将第一训练样本集中的各个交互书籍组合为多个训练样本组，根据各个训练样本组中包含的至少两个训练样本的交互深度信息的比较结果标注各个训练样本组，得到第二训练样本集，进而根据第二训练样本集对已经得到的预训练模型进行微调，从而使最终的书籍排序推送模型适应于书籍推送的业务场景，能够充分考虑不同书籍之间的交互深度的不同，进而使推送结果更加准确。

实施例二

图2示出了本发明另一个实施例提供的书籍排序推送模型的训练方法的流程图。如图2所示，该方法包括以下步骤：

步骤S210：获取阅读用户对应于交互时段的交互书籍列表。

其中，阅读用户通过用户标识(如用户ID)进行唯一标识，交互时段由起始时间点以及结束时间点确定。根据阅读用户在交互时段内的阅读行为信息即可确定该阅读用户对应于交互时段的交互书籍列表。其中，交互书籍列表用于存储该阅读用户在该交互时段内产生过交互的至少一本电子书。其中，所谓产生过交互包括：用户针对该电子书触发过点击操作、查找操作、浏览操作等各种预设类型的交互操作，交互操作的种类和数量可由本领域技术人员根据业务场景灵活设定。例如，在本实施例中，为了确保样本的全面性，可以使交互操作涵盖各种类型的用户操作，包括点击、下载等各种行为。

步骤S220：对交互书籍列表中的各个交互书籍进行正负标注以得到第一训练样本集。

由于交互书籍列表中包含多本电子书，而用户对于不同电子书的交互情况各不相同，根据用户对交互书籍列表中的各个交互书籍的交互情况对交互书籍列表中的各个交互书籍进行正负标注，从而得到第一训练样本集。具体的，针对交互书籍列表中的每本交互书籍，监测该交互书籍在预设时长内的交互情况，根据监测结果进行标记。其中，预设时长可以为三天或七天。发明人在实现本发明的过程中发现，由于书籍属于长交互的业务对象，因此，用户与一本书之间需要持续交互多次，仅凭短期(如一天)内的交互情况无法确定用户对于该书的兴趣偏好。所以，考虑到书籍的长交互特点，针对一个交互书籍，持续监测用户在预设时长内针对该交互书籍触发的交互操作的交互时长以及交互类型，根据监测结果将交互书籍标记为正样本或负样本。例如，将用户下载后未进行阅读的交互书籍标记为负样本，将用户下载后阅读超过预设时长的交互书籍标记为正样本。根据正负标注后的交互书籍得到第一训练样本集。

步骤S230：根据第一训练样本集生成预训练模型以及对应于预训练模型的样本向量和样本权重。

具体的，通过第一训练样本集进行模型训练操作，得到预训练模型。并且，在预训练过程中，能够学习到对应于预训练模型的样本向量和样本权重等模型参数信息。其中，预训练模型可基于各种神经网络模型实现，例如，可以基于深度兴趣网络实现。样本向量可以为样本的embedding向量，样本权重可以为基于注意力机制确定的注意力权重。具体实施时，通过模型网络层的学习过程，能够学习到样本向量以及样本权重等各类模型参数信息。

在本实施例中，在根据第一训练样本集生成预训练模型以及对应于预训练模型的样本向量和样本权重时，通过第一类排序算法训练预训练模型。其中，第一类排序算法为基于单样本的排序算法，例如，可以为Pointwise算法。相应的，第一训练样本集根据单样本确定。另外，预训练模型包括：网络层以及全连接层；其中，网络层用于确定对应于预训练模型的样本向量和样本权重，相应的，全连接层基于第一类排序算法实现。

步骤S240：根据第一训练样本集中的各个交互书籍的交互深度信息，将第一训练样本集中的各个交互书籍组合为多个训练样本组，根据各个训练样本组中包含的至少两个训练样本的交互深度信息的比较结果标注各个训练样本组，得到第二训练样本集。

首先，分别获取第一训练样本集中的各个交互书籍的交互深度信息。其中，各个交互书籍的交互深度信息根据与各个交互书籍相对应的交互时长和/或交互类型确定。其中，交互时长包括：阅读类交互时长。交互类型包括：浏览类型、下载类型、付费类型等多种类型，本发明对此不作限定。

接下来，根据交互深度信息将第一训练样本集中的各个交互书籍组合为多个训练样本组。其中，一个训练样本组包含至少两个训练样本，计算一个训练样本组包含的至少两个训练样本的交互深度信息之间的比较结果，根据计算结果对各个训练样本组进行标注。例如，当训练样本组为训练样本对时，若在前的训练样本的交互深度值大于在后的训练样本的交互深度值，则该训练样本对的标注结果为正；若在后的训练样本的交互深度值大于在前的训练样本的交互深度值，则该训练样本对的标注结果为负。由此可见，各个训练样本组的标注结果用于表达训练样本组内包含的至少两个训练样本之间的交互深度信息的比较情况。相应的，与基于单样本的第一训练样本集不同，第二训练样本集是基于样本组的。因此，通过样本组能够反映不同训练样本之间的交互深度信息之间的差异性。具体实施时，第二训练样本集可以根据样本对或样本列表确定。

步骤S250：通过第二训练样本集以及对应于预训练模型的样本向量和样本权重，对预训练模型进行微调，将微调后的预训练模型作为书籍排序推送模型。

具体的，通过第二训练样本集对预训练模型进行微调，在微调过程中，使用已经得到的对应于预训练模型的样本向量和样本权重对第二训练样本集进行训练，以使预训练模型作用于第二训练样本集，从而将微调后的预训练模型作为书籍排序推送模型。由于第二训练样本集是基于样本组实现的，能够反映多个训练样本对应的交互深度信息之间的差异性，因此，通过第二训练样本集重新训练后得到的书籍排序推送模型能够结合用户对于不同书籍的交互深度的不同而实现多样化的准确推送。

在本实施例中，通过第二类排序算法对预训练模型进行微调。具体地，在网络层共享对应于预训练模型的样本向量和样本权重，在全连接层通过第二类排序算法对第二训练样本集进行训练。其中，第二类排序算法为基于样本对或样本列表的排序算法。例如，第二类排序算法包括：Pairwise算法、和/或Listwise算法。

综上可知，通过本实施例中的训练方法，能够根据第二训练样本集对已经得到的预训练模型进行微调，从而使最终的书籍排序推送模型适应于书籍推送的业务场景，能够充分考虑不同书籍之间的交互深度的不同，进而使推送结果更加准确。其中，先通过基于单样本实现的第一训练样本集以及第一类排序算法训练出模型的各项参数，然后，基于样本组实现的第二训练样本集以及第二类排序算法对预训练模型进行微调，该方式能够防止直接使用第二训练样本集进行训练时因样本稀疏而导致的过拟合问题，从而实现较佳的排序预测效果。

为了便于理解，下面以一个具体示例为例，详细描述本实施例的具体实现细节：

首先，针对每个阅读用户，获取该阅读用户在交互时段内的交互书籍列表。为了确保样本的全面性，需要针对多个用户，持续在多个交互时段内获取交互书籍列表。因此，为了区分不同用户以及不同的交互时段，交互书籍列表的列表标识需要包含用户标识以及时段信息，其中，用户标识可以为阅读用户的用户ID，时段信息通过起始时间点以及结束时间点共同标识。因此，每个作为样本的阅读用户在一段交互时段内的交互书籍列表中至少包含一本交互书籍。然后，针对交互书籍列表中包含的每本交互书籍，监测用户在预设时长内针对该交互书籍产生的交互时长和/或交互类型。其中，预设时长可以为三天或七天，由于一本书的阅读耗时较长，因此，需要将预设时长设置的稍长一些，通过持续监测用户在预设时长内针对该交互书籍触发的各次交互行为的交互时长以及交互类型，确定用户对应于该交互书籍的交互深度信息。例如，交互时长越长，交互深度值越大；又如，还可以预先针对各类交互行为，分别设置不同的权重，从而针对各次交互行为按照交互类型进行加权操作，根据加权结果确定交互深度值，比如，以下交互类型的权重依次递减：付费类交互类型、下载类型、加入书架类型、浏览免费章节类型等。

针对交互书籍列表中的各个交互书籍进行正负标注以得到第一训练样本集。具体标注时，可以根据交互深度值的高低，将交互深度值大于预设值的交互书籍所对应的训练样本标注为正样本，而将交互深度值小于预设值的交互书籍所对应的训练样本标注为负样本，从而构建第一训练样本集。其中，第一训练样本集中的每个训练样本的样本特征信息包括：阅读用户的用户属性特征(如年龄、性别、阅读偏好等)、交互书籍的书籍特征(如书籍分类、书籍名称等)。由于第一训练样本集中的每个训练样本的标注结果非正即负，因此，第一训练样本集中的每个训练样本是相互独立的，也就是说，第一训练样本集是基于单样本实现的。

将标注后的第一训练样本集输入深度兴趣模型，以学习模型的各项网络参数。其中，深度兴趣模型包括：输入层、网络层、以及全连接层。其中，输入层用于输入上述的第一训练样本集。网络层进一步包括向量模块以及注意力模块。向量模块也叫embedding层，用于学习各个训练样本的embedding向量，把最原始的高纬度、稀疏的数据转换成低纬度的实值表示(dense vecteor)。注意力模块也叫attention层，用于基于注意力机制学习各个训练样本的embedding向量的注意力权重。具体地，针对当前的候选书籍，去局部的激活相关的历史交互书籍，使得和当前候选书籍相关性越高的交互书籍的注意力权重越高，从而使相关性高的交互书籍能够主导本次预测过程。全连接层用于学习特征之间的非线性关系，具体根据Pointwise算法学习各个embedding向量之间的关系，以便最终得到预测结果。其中，Pointwise算法是基于0、1的算法。通过Pointwise算法实现的深度兴趣模型能够很好地拟合各种参数，从而使网络层得到的embedding向量以及注意力权重更加符合业务需求。通过Pointwise算法进行训练后得到的深度兴趣模型即为预训练模型。

发明人在实现本发明的过程中发现，由于Pointwise算法仅仅基于0或1的标注结果，因此，样本之间非正即负，无法反映多个正样本之间在交互深度方面的差异性。然而，在正样本中，多数为交互时长很短的书籍，Pointwise算法对于交互时长短的书籍的拟合性较高，然而，对于交互时长较长的交互书籍的拟合性则不理想。因此，为了使模型能够基于交互深度的差异性进行精准预测，以拟合交互时长较长的样本，在本示例中，在预训练模型的基础上进一步构建第二训练样本集，并基于Pairwise算法对预训练模型进行微调。

具体的，挑选第一训练样本集中包含的正样本，将属于正样本的各个训练样本进行两两组合，以组合为多个训练样本对。其中，在构建训练样本对时，可以将多个正样本按照交互深度值进行排序，然后，将排序后得到的各个正样本进行两两组合，以得到多个训练样本对。具体地，考虑到Pointwise算法对于交互时长较长的样本拟合性不佳的特性，可以筛选交互深度值大于预设深度阈值的若干正样本，并根据筛选出的正样本构建训练样本对，以便于重点学习交互时长较长的样本的特性。另外，在根据筛选出的正样本构建训练样本对时，为了保证每个训练样本对中的两个训练样本之间的差异性符合预设范围，可以进一步针对初次筛选出的正样本进行二次筛选，以便将筛选出的交互深度值之间的差值属于预设区间的两个训练样本构成一组训练样本对。例如，若两个训练样本的交互深度值之间的差值恰好属于该预设区间，则将该两个训练样本作为一组训练样本对。其中，预设区间的区间下限以及区间上限可由本领域技术人员灵活设定。通过该方式，可以避免将两个差异很小的训练样本作为一组样本对，或将两个差别迥异的训练样本作为一组样本对，从而更好地学习样本间的规律性。例如，假设训练样本一和训练样本二构成一个样本对，则根据训练样本一和训练样本二的交互深度值之间的比较结果来标记该样本对的正负。由此可见，通过训练样本对的形式能够表达样本之间在交互深度方面的差异性。相应的，基于第二训练样本集，使用Pairwise算法对预训练模型进行微调，从而得到最终的书籍排序推送模型。具体的，在微调过程中，直接利用通过Pointwise算法训练出的样本向量以及样本权重，即：模型的网络层直接利用Pointwise算法得到的网络参数即可，并在模型的全连接层通过Pairwise算法对输入的第二训练样本集进行训练，以得到最终的预测结果。

其中，发明人在实现本发明的过程中发现，由于Pairwise算法利用的样本对数量较少，因此，训练过程容易导致过拟合的问题，为了解决上述问题，在本示例中，使Pairwise算法能够共享Pointwise算法得到的权值信息，通过权值共享的方式使网络层参数更加合理，进而防止Pairwise算法过拟合的问题。由此可见，通过Pointwise算法执行预训练，并利用Pairwise算法微调的方式，能够学习到样本之间的排序关系，使模型的最优解从二分类问题转换为排序问题，从而能够根据用户对于不同书籍的交互深度的不同而进行准确推荐，使传统的深度兴趣模型能够与书籍推送业务场景相匹配。

另外，在上述示例中，在构建训练样本时，需要确定与交互书籍列表中的各个交互书籍相对应的书籍样本特征信息。其中，书籍样本特征信息用于描述由各个交互书籍构成的书籍样本的特征，具体包括多种维度的特征。具体实施时，通过以下方式确定与交互书籍列表中的各个交互书籍相对应的书籍样本特征信息：首先，根据交互书籍列表中的各个交互书籍确定模型的第一输入数据；然后，分别获取与各个交互书籍相对应的多维度标签信息，将多维度标签信息确定为模型的第二输入数据；最后，针对第一输入数据以及第二输入数据进行池化处理，得到与各个交互书籍相对应的书籍样本特征信息。由此可见，模型具有两个输入维度，或者说，模型具有两个输入层，分别为用于输入第一输入数据的第一输入层、以及用于输入第二输入数据的第二输入层。其中，对于一个阅读用户而言，由于该阅读用户的兴趣是多样化的，因此，对应于该阅读用户的交互书籍列表中包含的交互书籍的数量为多个，相应的，针对该阅读用户构建的第一输入数据包含多个维度，每个维度分别对应于一个交互书籍。由此可见，第一输入数据包括以下信息中的至少一项：用于标识该阅读用户的用户标识信息、用于标识预设时段的时段信息(例如通过时段起始时间以及时段结束时间确定)、用于标识对应的交互书籍的书籍特征信息。其中，书籍特征信息包括：书籍名称、书籍类型等。对于每一个交互书籍而言，由于书籍具有多分类的业务特点，例如，一本书可能同时属于科幻类型、长篇类型、男频类型等多种分类类型，因此，为了准确描述一本交互书籍的书籍特征信息，分别获取与各个交互书籍相对应的多维度标签信息，将多维度标签信息确定为模型的第二输入数据。由此可见，对于一个交互书籍的书籍特征而言，具有多维度标签信息，该多维度标签信息可以为多维度分类标签信息。由此可见，不仅第一输入数据是多维的，且第二输入数据也是多维的，通过两级多维输入数据能够准确描述一个用户对应的多个交互书籍以及每个交互书籍的多分类特征。由于本实施例在传统的神经网络模型的基础上增加了一层输入层，因此，为了能够融合两层输入层的信息，需要针对第一输入数据以及第二输入数据进行池化处理，具体地，可以针对第一输入数据以及第二输入数据进行平均池化处理，即：执行average pooling操作。通过pooling操作，能够融合两类输入数据，从而得到对应于各个交互书籍的书籍样本特征信息。本示例在构建书籍样本特征信息时，充分考虑了书籍多分类的特点，从而使样本特征更加准确全面。

另，本示例在计算样本向量对应的样本权重(即样本向量的注意力权重)时，根据与各个书籍样本向量相对应的交互书籍的交互深度信息，确定与各个书籍样本向量相对应的注意力权重。其中，根据交互深度信息确定与各个书籍样本向量相对应的注意力权重是指：在通过注意力机制确定各个书籍样本向量相对应的注意力权重时，考虑不同交互书籍的交互深度信息的差异性，从而根据交互书籍的交互深度信息的不同，为各个交互书籍设置不同的注意力权重。具体地，在深度兴趣网络中，需要通过注意力机制(即attention机制)学习各个书籍样本向量的权重信息，该权重信息用于反映书籍样本向量与待预测的候选书籍之间的相关性，相关性越高的书籍样本向量的权重越大。在本示例中，通过以下实现方式中的至少一种确定与各个书籍样本向量相对应的注意力权重：

在一种可选的实现方式中，将与各个书籍样本向量相对应的交互书籍的交互深度信息转换为交互深度权重，通过该交互深度权重对与各个书籍样本向量相对应的注意力权重进行修正处理，以得到最终的注意力权重。该修正处理可以包括加权式修正、微调式修正等多种处理方式。例如，首先，获取与各个书籍样本向量相对应的交互书籍的交互深度信息，对交互深度信息进行归一化处理，得到与交互深度信息相对应的交互深度权重；然后，获取由注意力模块确定的与各个书籍样本向量相对应的原始注意力权重，根据与各个书籍样本向量相对应的原始注意力权重以及与各个书籍样本向量相对应的交互深度权重，共同确定与各个书籍样本向量相对应的注意力权重。其中，归一化处理方式包括：根据贝塔分布函数(即beta函数)对交互深度信息进行归一化处理，通过贝塔分布函数，能够实现交互深度信息的均匀分布。另外，在根据与各个书籍样本向量相对应的原始注意力权重以及与各个书籍样本向量相对应的交互深度权重，共同确定与各个书籍样本向量相对应的注意力权重时，根据与各个书籍样本向量相对应的原始注意力权重以及与各个书籍样本向量相对应的交互深度权重的乘积，确定与各个书籍样本向量相对应的注意力权重。其中，深度兴趣网络包括网络层，网络层又进一步包括embedding层以及attention层，其中，embedding层用于学习与各个书籍样本特征信息相对应的书籍样本向量，attention层用于学习各个书籍样本向量的注意力权重，所谓原始注意力权重是指由attention层根据输入内容得到的权重计算结果。其中，attention层的输入内容主要包括：待预测的书籍所对应的向量以及交互书籍的书籍样本向量。由此可见，通过在原始注意力权重的基础上乘以交互深度权重，能够使各个交互书籍的书籍样本向量的权重计算结果随交互深度的不同而不同，从而给予交互深度值较高的书籍样本更高的权重，进而使推荐结果更加准确。

在又一种可选的实现方式中，将与各个书籍样本向量相对应的交互书籍的交互深度信息作为上述的attention层的输入内容，从而使注意力权重融合交互深度信息确定。例如，将与各个书籍样本向量相对应的交互书籍的交互深度信息作为注意力模块的附加输入信息，以供注意力模块结合附加输入信息确定与各个书籍样本向量相对应的注意力权重。具体地，在该方式中，attention层的输入内容除包括待预测的书籍所对应的向量以及交互书籍的书籍样本向量之外，进一步包含交互书籍的交互深度信息。其中，该交互深度信息可以为通过上文提到的方式进行归一化后的数值，也可以为其他形式的表示方式，本发明对此不做限定。总之，该方式通过在注意力模块是输入内容中增加交互深度信息，从而使注意力模块得到的注意力权重融合交互深度信息的影响。该方式同样能够使各个交互书籍的书籍样本向量的权重计算结果随交互深度的不同而不同，从而给予交互深度值较高的书籍样本更高的权重，进而使推荐结果更加准确。

上述的两种方式既可以单独使用，也可以结合使用。当二者结合使用时，一方面，将交互深度信息作为注意力模块的输入内容，用于计算原始注意力权重；另一方面，在计算得到的原始注意力权重的基础上，进一步根据交互深度信息进行修正，从而使交互深度信息能够与模块深度融合，从而增强交互深度信息的影响程度。具体实施时，可根据具体的业务场景灵活选择实现方式。

另外，本发明又一实施例还提供了一种书籍排序推送方法，该方法基于上述的书籍排序推送模型实现。具体地，获取待预测用户对应于交互时段的交互书籍列表，根据交互书籍列表确定用户的历史兴趣信息。然后，获取待推送的候选书籍列表，将候选书籍列表以及交互书籍列表对应的特征数据输入训练后的书籍排序推送模型，根据书籍排序推送模型的输出结果对候选书籍列表中的各个候选书籍进行排序，从而根据排序结果实现书籍推送。由于书籍排序推送模型是基于用户对于各个书籍的交互深度建立的，因而能够充分考虑不同书籍之间的交互深度的不同，进而使推送结果更加准确。

实施例三

本申请实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的书籍排序推送模型的训练及书籍排序推送方法。

可执行指令具体可以用于使得处理器执行以下操作：

在一种可选的实现方式中，所述可执行指令使所述处理器执行以下操作：

通过第一类排序算法训练所述预训练模型；

通过第二类排序算法对所述预训练模型进行微调。

在一种可选的实现方式中，所述第一类排序算法为基于单样本的排序算法，所述第二类排序算法为基于样本对或样本列表的排序算法；

在一种可选的实现方式中，所述第一类排序算法包括：Pointwise算法；并且，所述第二类排序算法包括：Pairwise算法、和/或Listwise算法。

在一种可选的实现方式中，所述预训练模型包括：网络层以及全连接层；其中，所述网络层用于确定所述对应于所述预训练模型的样本向量和样本权重，且所述全连接层基于所述第一类排序算法实现；

则所述所述可执行指令使所述处理器执行以下操作：

在网络层共享所述对应于所述预训练模型的样本向量和样本权重，在全连接层通过所述第二类排序算法对所述第二训练样本集进行训练。

在一种可选的实现方式中，所述交互时段由起始时间点以及结束时间点确定；且所述各个交互书籍的交互深度信息根据与各个交互书籍相对应的交互时长和/或交互类型确定。

在一种可选的实现方式中，所述第一训练样本集根据单样本确定；并且，所述第二训练样本集根据样本对或样本列表确定。

在又一种可选的实现方式中，可执行指令具体可以用于使得处理器执行以下操作：基于上述的书籍排序推送模型实现书籍排序推送方法。

实施例四

图3示出了根据本发明另一个实施例的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图3所示，该电子设备可以包括：处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。

其中：处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304，用于与其它设备比如客户端或其它服务器等的网元通信。处理器302，用于执行程序310，具体可以执行上述书籍排序推送模型的训练及书籍排序推送方法实施例中的相关步骤。

具体地，程序310可以包括程序代码，该程序代码包括计算机操作指令。

处理器302可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器306，用于存放程序310。存储器306可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序310具体可以用于使得处理器302执行以下操作：

通过第一类排序算法训练所述预训练模型；

通过第二类排序算法对所述预训练模型进行微调。

则所述所述可执行指令使所述处理器执行以下操作：

另外，本发明实施例还提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：基于上述的书籍排序推送模型实现书籍排序推送方法。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明还公开了A1.一种书籍排序推送模型的训练方法，包括：

A2.根据A1所述的方法，其中，所述根据所述第一训练样本集生成预训练模型以及对应于所述预训练模型的样本向量和样本权重包括：通过第一类排序算法训练所述预训练模型；

所述对所述预训练模型进行微调包括：通过第二类排序算法对所述预训练模型进行微调。

A3.根据A2所述的方法，其中，所述第一类排序算法为基于单样本的排序算法，所述第二类排序算法为基于样本对或样本列表的排序算法。

A4.根据A3所述的方法，其中，所述第一类排序算法包括：Pointwise算法；并且，所述第二类排序算法包括：Pairwise算法、和/或Listwise算法。

A5.根据A1-4任一所述的方法，其中，所述预训练模型包括：网络层以及全连接层；其中，所述网络层用于确定所述对应于所述预训练模型的样本向量和样本权重，且所述全连接层基于所述第一类排序算法实现；

则所述通过所述第二训练样本集以及所述对应于所述预训练模型的样本向量和样本权重，对所述预训练模型进行微调包括：

A6.根据A1-5任一所述的方法，其中，所述交互时段由起始时间点以及结束时间点确定；且所述各个交互书籍的交互深度信息根据与各个交互书籍相对应的交互时长和/或交互类型确定。

A7.根据A1-6任一所述的方法，其中，所述第一训练样本集根据单样本确定；并且，所述第二训练样本集根据样本对或样本列表确定。

A8.一种书籍排序推送方法，其中，该方法基于A1-7任一所述的书籍排序推送模型实现。

B9.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

B10.根据B9所述的电子设备，其中，所述可执行指令使所述处理器执行以下操作：

通过第一类排序算法训练所述预训练模型；

通过第二类排序算法对所述预训练模型进行微调。

B11.根据B10所述的电子设备，其中，所述第一类排序算法为基于单样本的排序算法，所述第二类排序算法为基于样本对或样本列表的排序算法；

B12.根据B11所述的电子设备，其中，所述第一类排序算法包括：Pointwise算法；并且，所述第二类排序算法包括：Pairwise算法、和/或Listwise算法。

B13.根据B9-12任一所述的电子设备，其中，所述预训练模型包括：网络层以及全连接层；其中，所述网络层用于确定所述对应于所述预训练模型的样本向量和样本权重，且所述全连接层基于所述第一类排序算法实现；

则所述可执行指令使所述处理器执行以下操作：

B14.根据B9-13任一所述的电子设备，其中，所述交互时段由起始时间点以及结束时间点确定；且所述各个交互书籍的交互深度信息根据与各个交互书籍相对应的交互时长和/或交互类型确定。

B15.根据B9-14任一所述的电子设备，其中，所述第一训练样本集根据单样本确定；并且，所述第二训练样本集根据样本对或样本列表确定。

C16.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：基于A1-7任一所述的书籍排序推送模型实现书籍排序推送方法。

C17.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-8任一所述的方法。

Claims

1.一种书籍排序推送模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述第一训练样本集生成预训练模型以及对应于所述预训练模型的样本向量和样本权重包括：通过第一类排序算法训练所述预训练模型；

3.根据权利要求2所述的方法，其中，所述第一类排序算法为基于单样本的排序算法，所述第二类排序算法为基于样本对或样本列表的排序算法。

4.根据权利要求3所述的方法，其中，所述第一类排序算法包括：Pointwise算法；并且，所述第二类排序算法包括：Pairwise算法、和/或Listwise算法。

5.根据权利要求1-4任一所述的方法，其中，所述预训练模型包括：网络层以及全连接层；其中，所述网络层用于确定所述对应于所述预训练模型的样本向量和样本权重，且所述全连接层基于所述第一类排序算法实现；

6.根据权利要求1-5任一所述的方法，其中，所述交互时段由起始时间点以及结束时间点确定；且所述各个交互书籍的交互深度信息根据与各个交互书籍相对应的交互时长和/或交互类型确定。

7.根据权利要求1-6任一所述的方法，其中，所述第一训练样本集根据单样本确定；并且，所述第二训练样本集根据样本对或样本列表确定。

8.一种书籍排序推送方法，其中，该方法基于权利要求1-7任一所述的书籍排序推送模型实现。

9.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-8任一所述的方法。