CN114090401A

CN114090401A - 处理用户行为序列的方法及装置

Info

Publication number: CN114090401A
Application number: CN202111283645.7A
Authority: CN
Inventors: 朱文文; 贾凡; 任然; 陈鸿; 吴军; 胡忆桐; 俞超
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-02-25

Abstract

本说明书实施例提供一种处理用户行为序列的方法及装置，在处理用户行为序列的方法中，获取N个样本用户各自的用户行为序列，并对其进行数据增强，得到多个正样本对和多个负样本对。每个正样本对包括按照不同业务，对同一用户行为序列进行拆分所得到的两个子序列。每个负样本对包括来自不同用户行为序列的两个子序列。将各正/负样本对输入神经网络模型，该神经网络模型包括相同的两个子模型，用于处理输入样本对中的两个子序列，以得到各自的行为向量。对于任意的正/负样本对，根据其中的两个子序列各自的行为向量，计算对应的距离。以最小化各正样本对的距离，最大化各负样本的距离为目标，更新神经网络模型，以用于处理待分析的用户行为序列。

Description

处理用户行为序列的方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及一种处理用户行为序列的方法及装置。

背景技术

在许多场景下，需要对用户行为序列进行分析和处理。用户行为序列，是用户在日常操作使用中产生的一系列点击、访问、购买等事件的发生过程，可表示为事件集合的时间序列，它蕴含了用户的细粒度习惯偏好等特点，是用户级别机器学习模型的重要特征来源之一。然而，行为序列数据本身是表征空间巨大的变长时间序列，要从中抽取固定维度、有代表性、能够用于分类回归等问题的特征向量还需经过一定处理。一般来说，将用户行为序列处理为特征向量的处理过程，常采用人工特征工程，或是特定场景下基于标签(label)的监督学习的方式。可以理解，人工特征工程耗费极大的人力和时间，且效果严重依赖于人工的业务经验和效率。而监督学习的方式，则需要获得特定业务场景下标注好的标签。例如，如果要基于用户行为序列分析用户账户是否被盗，就需要大量的样本行为序列，以及这些样本行为序列对应的用户事实上是否为被盗账户的标签。而许多业务场景下，由于标签难以获得而常常面临标签缺乏的问题，导致难以进行监督学习。

因此，希望能有改进的方案，更为有效地对用户行为序列进行处理，以得到适于后续分析的特征向量。

发明内容

本说明书一个或多个实施例描述了一种处理用户行为序列的方法及装置，其中采用包含两个相同子模型的神经网络模型，将用户行为序列处理为特征向量，该神经网络模型基于对比学习的方法训练得到，不依赖于业务标签，从而可以高效实现用户行为序列的处理。

第一方面，提供了一种处理用户行为序列的方法，包括：

获取N个样本用户各自的用户行为序列；

分别对各个用户行为序列进行数据增强，得到训练样本集；所述训练样本集包括多个正样本对和多个负样本对；其中的每个正样本对至少包括按照不同业务，对同一用户行为序列进行拆分所得到的两个子序列；每个负样本对至少包括按照不同业务，分别对至少两个用户行为序列进行拆分所得到的若干子序列中，来自不同用户行为序列的两个子序列；

将各正样本对和各负样本对输入神经网络模型，所述神经网络模型包括具有相同网络结构和网络参数的两个子模型，用于处理输入样本对中的两个子序列，以得到各自对应的行为向量；

对于任意的正样本对或负样本对，根据其中的两个子序列各自对应的行为向量，计算对应的距离；

以最小化所述各正样本对中两个子序列间的距离，最大化所述各负样本对中两个子序列间的距离为目标，更新所述神经网络模型，以用于处理待分析的用户行为序列。

第二方面，提供了一种处理用户行为序列的装置，包括：

获取单元，用于获取N个样本用户各自的用户行为序列；

增强单元，用于分别对各个用户行为序列进行数据增强，得到训练样本集；所述训练样本集包括多个正样本对和多个负样本对；其中的每个正样本对至少包括按照不同业务，对同一用户行为序列进行拆分所得到的两个子序列；每个负样本对至少包括按照不同业务，分别对至少两个用户行为序列进行拆分所得到的若干子序列中，来自不同用户行为序列的两个子序列；

输入单元，用于将各正样本对和各负样本对输入神经网络模型，所述神经网络模型包括具有相同网络结构和网络参数的两个子模型，用于处理输入样本对中的两个子序列，以得到各自对应的行为向量；

计算单元，用于对于任意的正样本对或负样本对，根据其中的两个子序列各自对应的行为向量，计算对应的距离；

更新单元，用于以最小化所述各正样本对中两个子序列间的距离，最大化所述各负样本对中两个子序列间的距离为目标，更新所述神经网络模型，以用于处理待分析的用户行为序列。

第三方面，提供了一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

本说明书一个或多个实施例提供的处理用户行为序列的方法及装置，为了有效地将用户行为序列处理为特征向量，设计了包含具有相同网络结构和网络参数的两个子模型的神经网络模型，并基于对比学习的方法来训练神经网络模型。对比学习的方法不依赖于任务业务场景，因此训练的神经网络模型具有很好的泛化性。此外，对比学习的方法无需人工标注标签，从而可以大大提升神经网络模型的训练效率。训练好的神经网络模型，即可用于将待处理的用户行为序列转换为有代表性的特征向量。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出在一个实施例中神经网络模型的结构示意图；

图3示出根据一个实施例的训练神经网络模型的方法流程图；

图4a示出根据一个实施例进行数据增强的示意图；

图4b示出根据另一个实施例进行数据增强的示意图；

图4c示出根据再一个实施例进行数据增强的示意图；

图5为本说明书一个实施例提供的神经网络模型微调方法流程图；

图6示出根据一个实施例的处理用户行为序列的装置示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

多数情况下，服务平台通常会为用户提供不同场景下的多种服务(如，生活缴费、餐饮、社交、理财、公益等)。在用户使用这些服务的过程中，服务平台可以采集用户的行为序列。这些行为序列通常蕴含了用户的细粒度习惯偏好等特点。因此，理解用户行为背后的用户习惯偏好，将有助于更好地服务用户。换句话说，对用户行为进行更深入的理解，将有助于让用户行为更好地反哺用户本身。

目前基于上下文内容理解的语言模型来处理用户行为，其核心思想是：将用户行为序列类比文本序列内容，用神经网络模型对用户行为进行高维度抽象，流程简单，且有依据，但随着现有业务的复杂性增加，多场景的行为序列耦合结构无法完整刻画行为背后的用户。

为此，本申请的发明人提出，可以先构造多个正样本对和多个负样本对，然后基于对比学习的方法，来训练用于处理用户行为序列的神经网络模型。

通过本说明书提供的方案，针对掺杂噪声的用户行为序列，也可以准确理解行为背后的用户习惯偏好。以下从总体上对该方案进行说明。

图1为本说明书披露的一个实施例的实施场景示意图。如图1所示，在本说明书的实施例中，构建一个神经网络模型，用于将用户行为序列<X₁，X₂，…，X_N>转换为特征向量S。该神经网络模型包含具有相同网络结构和网络参数的两个子模型，用于处理从用户行为序列中提取到的两个子序列，以得到各自对应的行为向量。应理解，通过对该两个行为向量进行整合，即可得到上述特征向量S。这里神经网络模型的具体结构和处理过程将在后续详细描述。

需要说明，上述神经网络模需要进行训练才能得到理想的特征向量S。以下对该训练过程进行说明。

具体地，可以采集多个样本用户的用户行为序列，并对其进行数据增强，以得到训练样本集。这里的训练样本集包括多个正样本对和多个负样本对，其中的正样本对至少包括按照不同业务，对同一用户行为序列进行拆分所得到的两个子序列。负样本对至少包括按照不同业务，分别对至少两个用户行为序列进行拆分所得到的若干子序列中，来自不同用户行为序列的两个子序列；

然后，基于训练样本集训练神经网络模型。具体地，对于任意的正样本对或负样本对，将其中的两个子序列分别输入神经网络模型的两个子模型，并通过该两个子模型分别输出对应的行为向量。根据这两个行为向量，计算该正样本对或负样本对中两个子序列之间的距离。最后，以最小化各正样本对中两个子序列间的距离，最大化各负样本对中两个子序列间的距离为目标，更新神经网络模型，以实现其参数调整和训练。

在以上过程中，基于对比学习的方法来训练神经网络模型，以得到用户行为序列的特征向量。这个过程无需人工特征工程的干预。并且，可以看到，对比学习的方法不依赖于任务业务场景，因此训练的神经网络模型具有很好的泛化性。此外，对比学习的方法无需人工标注标签，从而可以大大提升神经网络模型的训练效率。训练好的神经网络模型，即可用于将待处理的用户行为序列转换为有代表性的特征向量。

以上是对本方案的总体说明，以下进行详细说明。

首先描述神经网络模型的构成和处理过程。

图2示出在一个实施例中神经网络模型的结构示意图。如图2所示，用于处理用户行为序列的神经网络模型，包含具有相同网络结构和网络参数的两个子模型，用于处理各自接收的两个子序列(即从用户行为序列提取到的子序列)。这里的每个子模型可以包括嵌入层和注意力层，其中在任意的第一子模型的嵌入层，根据接收的子序列中各个行为的行为特征以及位置编码，得到多个嵌入向量。在该第一子模型的注意力层，对多个嵌入向量加以不同的权重，得到对应的行为向量。最后，通过对两个子模型各自输出的行为向量V1和V2进行整合，即可得到最终输出的特征向量S。

以上结合图2描述了，将用户行为序列<X₁，X₂，…，X_N>转换为特征向量S的过程。在处理得到上述特征向量的过程中，神经网络模型中涉及大量的参数，例如嵌入层的嵌入矩阵，注意力层的线性变换矩阵等等，这些参数都需要通过训练而确定。

下面描述对图2的神经网络模型进行训练的过程。

图3示出根据一个实施例的训练神经网络模型的方法流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图3所示，该训练过程至少包括以下步骤。

步骤302，获取N个样本用户各自的用户行为序列。

其中，每个用户行为序列包括，按照时间顺序排列的、对应样本用户依次执行的m个用户行为。其中，该m个用户行为相互之间的时间间隔小于预定间隔时间(如，15分钟)。

需要说明，在实际应用中，对应于每个样本用户的用户行为序列的数目通常为一个或多个。在本说明书中，为简单起见，将针对每个样本用户获取对应的一个用户行为序列。也就是说，在本说明书的以下描述中，样本用户与用户行为序列之间是一一对应的。

步骤304，分别对各个用户行为序列进行数据增强，得到训练样本集。

这里的训练样本集包括多个正样本对和多个负样本对。

在一个示例中，其中的每个正样本对至少包括按照不同业务，对同一用户行为序列进行拆分所得到的两个子序列。每个负样本对至少包括按照不同业务，分别对至少两个用户行为序列进行拆分所得到的若干子序列中，来自不同用户行为序列的两个子序列。

图4a示出根据一个实施例进行数据增强的示意图。如图4a所示，用户行为序列包括按照时间顺序排列的、用户依次执行的8个用户行为，其中每个用户行为通过方框示出。现假设其中的第1个和第5-8个用户行为对应于第一业务(如，购买基金)，以及第2-4个用户行为对应于第二业务(如，花呗还款)。那么在按照不同业务对用户行为序列进行拆分时，可以得到两个子序列，其中的一个子序列由第1和第5-8个用户行为构成，另一个子序列由第2-4个用户行构成。

应理解，当用户行为序列中还包含对应于第三业务的用户行为时，还可以拆分得到再一个子序列。

需要说明，在同一用户行为序列中，通常会耦合多个业务的用户行为，这些用户行为是相互独立但又交叉在一起的，因此，通过上述数据增强方法，可以对同一用户行为序列中的用户行为进行解耦，进而可以捕捉用户不同场景下的兴趣偏好。也即通过该种行为序列的数据增强方法，所述训练的模型可以到学习到业务相关性。

在针对各个用户行为序列进行如图4a所示的数据增强之后，或者，在按照不同业务，针对各个用户行为序列进行拆分之后，可以基于来自同一用户行为序列(即同一用户)的两个子序列形成正样本对，基于来自不同用户行为序列(即不同用户)的两个子序列形成负样本对。

在另一个示例中，上述正样本对还可以包括对同一用户行为序列进行等分所得到的两个子序列。每个负样本对还包括分别对至少两个用户行为序列进行等分所得到的若干子序列中，来自不同用户行为序列的两个子序列。

图4b示出根据另一个实施例进行数据增强的示意图。如图4b所示，用户行为序列包括按照时间顺序排列的、用户依次执行的8个用户行为，其中每个用户行为通过方框示出。在一个例子中，在对该用户行为序列进行等分之后，也即在按照虚线所示的位置对用户行为序列进行分割之后，基于前4个用户行为可以形成一个子序列，基于后4个用户行为可以形成另一个子序列。

应理解，图4b只是一种示例性说明，在实际应用中，也可以通过随机确定分割位置的方式，来对用户行为序列进行拆分。比如，将前3个用户行为作为一个子序列，将后5个用户行为作为另一个子序列。或者，也可以只获取用户行为序列中的一部分用户行为。比如，将第2-3个用户行为作为一个子序列，将第4-7个用户行为作为另一个子序列等等，本说明书对此不作限定。

发明人认为，用户的同一行为序列中各用户行为具有潜在的一致性。原因是，尽管同一用户在不同时间执行了不同的操作，但其背后的本质是他相似的资金流动性，收入期望和个性偏好。这些属性在短期内无法更改，有些甚至会终身陪伴用户。基于此，发明人设计了上述数据增强方法。

应理解，当两个子序列来自同一用户行为序列(即同一用户)时，由于其是相似的，因此它们可以作为正样本对存在。相反地，将来自不同用户行为序列(即不同用户)的两个子序列作为负样本对。通过该种行为序列的形成方法，所述训练的模型可以到学习每个用户背后的货币流动性，收入期望和个性偏好。

在还一个示例中，上述正样本对还可以包括对同一用户行为序列进行两次随机遮蔽所得到的两个子序列。每个负样本对还包括分别对至少两个用户行为序列进行若干次随机遮蔽所得到的若干子序列中，来自不同用户行为序列的两个子序列。

图4c示出根据再一个实施例进行数据增强的示意图。图4c中，用户行为序列包括按照时间顺序排列的、用户依次执行的8个用户行为，其中每个用户行为通过方框示出。在一个例子中，假设针对用户行为序列执行两次随机遮蔽，其中，第一次遮蔽位置2、4、5和7上的用户行为，得到一个子序列，第二次遮蔽位置1、3、5和6上的用户行为，得到另一个子序列。

应理解，当还对用户行为序列执行一次随机遮蔽时，还可以得到再一个子序列。

在针对各个用户行为序列进行如图4c所示的数据增强之后，或者，在针对每个用户行为序列进行至少两次随机遮蔽之后，可以基于来自同一用户行为序列(即同一用户)的两个子序列形成正样本对，基于来自不同用户行为序列(即不同用户)的两个子序列形成负样本对。

需要说明，用户经常会产生一些毫无意义或异常的点击。因此需要找到一种可以解决这些噪声且没有稳定性因素的解决方案。经研究发现，掩蔽方法可以提高模型的鲁棒性，因此本方案中将基于掩蔽方法，对用户行为序列进行增强。

总上，本说明书实施例通过对用户行为序列进行数据增强，来获取训练样本集的方法，可以促进对不同用户在不同场景下的行为理解和洞察。进一步地，基于通过数据增强获取的训练样本集，所训练的模型可以更准确地执行搜索或推荐等任务，这可以大大提升用户体验。

步骤306，将各正样本对和各负样本对输入神经网络模型。

其中，该神经网络模型包括具有相同网络结构和网络参数的两个子模型，用于处理输入样本对中的两个子序列，以得到各自对应的行为向量。

在一个示例中，上述两个子模型可以均为bert模型。

在另一个示例中，上述两个子模型可以均为Transformer编码器。

以Transformer编码器为例来说，其可以包括嵌入层和注意力层。上述处理输入样本对中的两个子序列具体可以包括：对于输入样本对中的第一序列，在对应的第一子模型的嵌入层，根据第一序列中各个行为的行为特征以及位置编码，得到多个嵌入向量。在对应的第一子模型的注意力层，对多个嵌入向量加以不同的权重，得到对应的行为向量。

步骤308，对于任意的正样本对或负样本对，根据其中的两个子序列各自对应的行为向量，计算对应的距离。

这里的距离可以包括但不限于以下任一项：余弦相似度、欧氏距离、曼哈顿距离以及皮尔逊相关系数等等。

步骤310，以最小化各正样本对中两个子序列间的距离，最大化各负样本对中两个子序列间的距离为目标，更新神经网络模型，以用于处理待分析的用户行为序列。

具体地，可以是根据各正样本对中两个子序列间的距离、各负样本对中两个子序列间的距离，以及对比损失函数，确定预测损失。然后根据预测损失，更新神经网络模型。

在一个例子中，上述对比损失函数可以如下：

其中，i为第i个样本对，

和

为第i个样本对中的两个子序列，W为模型参数，

为第i个样本对中两个子序列之间的距离，L_D()和L_S()均为关于距离的函数，Y为标志符。具体地，如果第i个样本对为正样本对，那么Y＝0，否则Y＝1。

在一个具体例子中，

在该例子中，上述对比损失函数L的含义具体可以为：对于正样本对，则最小化其中的两个子序列之间的距离；对于负样本对，如果其中的两个子序列之间的距离小于最大阈值距离m，那么增大该距离，否则不做优化。

至此就训练得到了用于处理用户行为序列的神经网络模型，基于该神经网络模型进行用户行为序列的处理可以同上所述，本说明书在此不复赘述。

综合以上，本说明书实施例提供的方案，为了有效地将用户行为序列处理为特征向量，设计了包含具有相同网络结构和网络参数的两个子模型的神经网络模型，并基于对比学习的方法来训练神经网络模型。对比学习的方法不依赖于任务业务场景，因此训练的神经网络模型具有很好的泛化性。此外，对比学习的方法无需人工标注标签，从而可以大大提升神经网络模型的训练效率。训练好的神经网络模型，即可用于将待处理的用户行为序列转换为有代表性的特征向量。

需要说明，用户行为背后隐藏着用户这个主体，直接地模仿自然语言模型中处理文本的方法来处理用户行为序列，忽略了背后用户的存在。因此，本方案基于对比学习的方法，将用户行为序列从用户的粒度上区分开来。

此外，对于通过本说明书实施例所训练得到的神经网络模型，在结合具体预测任务对其进行微调之后，就可以快速有效地执行下游任务预测。以下针对该微调过程进行说明。

图5为本说明书一个实施例提供的神经网络模型微调方法流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图5所示，该微调方法至少包括以下步骤。

步骤502，获取目标用户的目标行为序列。

这里的目标行为序列可以包括按照时间顺序排列的、对应样本用户依次执行的m个用户行为。其中，该m个用户行为相互之间的时间间隔小于预定间隔时间(如，15分钟)。

步骤504，对目标行为序列进行拆分，得到两个子目标序列。

在一个示例中，可以按照不同业务，对目标行为序列进行拆分，以得到两个子目标序列。

在另一个示例中，也可以对目标行为序列进行等分，来获取两个子目标序列。

在还一个示例中，以可以通过对目标行为序列进行两次随机遮蔽，来获取两个子目标序列。

步骤506，将两个子目标序列输入更新后的神经网络模型，得到对应的两个目标行为向量。

即将两个子目标序列分别输入更新后的神经网络模型的两个子模型，通过该两个子模型的输出得到两个目标行为向量。

步骤508，将两个目标行为向量相整合后输入业务预测模型，并根据业务预测模型的输出以及目标用户的标签值，对更新后的神经网络模型进行微调。

上述将两个目标行为向量相整合可以包括：对两个目标行为向量进行拼接。

当然，在实际应用中，也可以通过对对两个目标行为向量进行求和、求平均或者求加权平均实现两者的整合。

此外，上述业务预测模型可以用于对目标用户进行人脸识别，或者，用于向目标用户推荐服务或商品。应理解，当业务预测模型用于对目标用户进行人脸识别时，目标用户的标签值可以用于指示目标用户是否为合法用户。而当业务预测模型用于向目标用户推荐服务或商品时，目标用户的标签值可以用于指示对应服务或商品的标识。

总而言之，在结合具体的预测任务(即人脸识别，服务或商品推荐)对神经网络模型进行微调之后，基于该神经网络模型可以得到目标用户在特定业务场景下的特征向量，进而基于其可以进行相应的业务预测。也就是说，通过本说明书实施例所训练的神经网络模型，其可以灵活应用到不同的业务场景，进而可以节约模型训练成本。

与上述处理用户行为序列的方法对应地，本说明书一个实施例还提供的一种处理用户行为序列的装置，如图6所示，该装置可以包括：

获取单元602，用于获取N个样本用户各自的用户行为序列。

增强单元604，用于分别对各个用户行为序列进行数据增强，得到训练样本集。该训练样本集包括多个正样本对和多个负样本对，其中的每个正样本对至少包括按照不同业务，对同一用户行为序列进行拆分所得到的两个子序列。每个负样本对至少包括按照不同业务，分别对至少两个用户行为序列进行拆分所得到的若干子序列中，来自不同用户行为序列的两个子序列。

可选地，上述每个正样本对还可以包括对同一用户行为序列进行等分所得到的两个子序列。每个负样本对还可以包括分别对至少两个用户行为序列进行等分所得到的若干子序列中，来自不同用户行为序列的两个子序列。

可选地，上述每个正样本对还可以包括对同一用户行为序列进行两次随机遮蔽所得到的两个子序列。每个负样本对还可以包括分别对至少两个用户行为序列进行随机遮蔽所得到的若干子序列中，来自不同用户行为序列的两个子序列。

输入单元606，用于将各正样本对和各负样本对输入神经网络模型，该神经网络模型包括具有相同网络结构和网络参数的两个子模型，用于处理输入样本对中的两个子序列，以得到各自对应的行为向量。

在一个示例中，上述两个子模型均为Transformer编码器，该Transformer编码器包括嵌入层和注意力层。

输入单元606具体用于：

对于输入样本对中的第一序列，在对应的第一子模型的嵌入层，根据第一序列中各个行为的行为特征以及位置编码，得到多个嵌入向量。在对应的第一子模型的注意力层，对多个嵌入向量加以不同的权重，得到对应的行为向量。

计算单元608，用于对于任意的正样本对或负样本对，根据其中的两个子序列各自对应的行为向量，计算对应的距离。

更新单元610，用于以最小化各正样本对中两个子序列间的距离，最大化各负样本对中两个子序列间的距离为目标，更新神经网络模型，以用于处理待分析的用户行为序列。

可选地，该装置还可以包括：拆分单元612和微调单元614。

获取单元602，还用于获取目标用户的目标行为序列。

拆分单元612，用于对目标行为序列进行拆分，得到两个子目标序列。

输入单元606，还用于将两个子目标序列输入更新后的神经网络模型，得到对应的两个目标行为向量。

微调单元614，用于将两个目标行为向量相整合后输入业务预测模型，并根据业务预测模型的输出以及目标用户的标签值，对更新后的神经网络模型进行微调。

其中，上述业务预测模型可以用于对目标用户进行人脸识别，或者，上述业务预测模型用于向目标用户推荐服务或商品。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的处理用户行为序列的装置，可以准确理解行为背后的用户习惯偏好，进而可以更准确地对用户行为序列进行向量表达。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3或图5所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3或图5所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种处理用户行为序列的方法，包括：

获取N个样本用户各自的用户行为序列；

2.根据权利要求1所述的方法，其中，每个正样本对还包括对同一用户行为序列进行等分所得到的两个子序列；每个负样本对还包括分别对至少两个用户行为序列进行等分所得到的若干子序列中，来自不同用户行为序列的两个子序列。

3.根据权利要求1所述的方法，其中，每个正样本对还包括对同一用户行为序列进行两次随机遮蔽所得到的两个子序列；每个负样本对还包括分别对至少两个用户行为序列进行随机遮蔽所得到的若干子序列中，来自不同用户行为序列的两个子序列。

4.根据权利要求1所述的方法，还包括：

获取目标用户的目标行为序列；

对所述目标行为序列进行拆分，得到两个子目标序列；

将所述两个子目标序列输入更新后的所述神经网络模型，得到对应的两个目标行为向量；

将所述两个目标行为向量相整合后输入业务预测模型，并根据所述业务预测模型的输出以及所述目标用户的标签值，对更新后的所述神经网络模型进行微调。

5.根据权利要求4所述的方法，其中，所述业务预测模型用于对所述目标用户进行人脸识别，或者，所述业务预测模型用于向所述目标用户推荐服务或商品。

6.根据权利要求1所述的方法，其中，所述两个子模型均为Transformer编码器，所述Transformer编码器包括嵌入层和注意力层；

所述处理输入样本对中的两个子序列，包括：

对于输入样本对中的第一序列，在对应的第一子模型的嵌入层，根据所述第一序列中各个行为的行为特征以及位置编码，得到多个嵌入向量；在对应的第一子模型的注意力层，对所述多个嵌入向量加以不同的权重，得到对应的行为向量。

7.一种处理用户行为序列的装置，包括：

获取单元，用于获取N个样本用户各自的用户行为序列；

8.根据权利要求7所述的装置，其中，每个正样本对还包括对同一用户行为序列进行等分所得到的两个子序列；每个负样本对还包括分别对至少两个用户行为序列进行等分所得到的若干子序列中，来自不同用户行为序列的两个子序列。

9.根据权利要求7所述的装置，其中，每个正样本对还包括对同一用户行为序列进行两次随机遮蔽所得到的两个子序列；每个负样本对还包括分别对至少两个用户行为序列进行随机遮蔽所得到的若干子序列中，来自不同用户行为序列的两个子序列。

10.根据权利要求7所述的装置，还包括：拆分单元和微调单元；

所述获取单元，还用于获取目标用户的目标行为序列；

所述拆分单元，用于对所述目标行为序列进行拆分，得到两个子目标序列；

所述输入单元，还用于将所述两个子目标序列输入更新后的所述神经网络模型，得到对应的两个目标行为向量；

所述微调单元，用于将所述两个目标行为向量相整合后输入业务预测模型，并根据所述业务预测模型的输出以及所述目标用户的标签值，对更新后的所述神经网络模型进行微调。

11.根据权利要求10所述的装置，其中，所述业务预测模型用于对所述目标用户进行人脸识别，或者，所述业务预测模型用于向所述目标用户推荐服务或商品。

12.根据权利要求7所述的装置，其中，所述两个子模型均为Transformer编码器，所述Transformer编码器包括嵌入层和注意力层；

所述输入单元具体用于：

13.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-6中任一项所述的方法。

14.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-6中任一项所述的方法。