CN113821720A

CN113821720A - 一种行为预测方法、装置及相关产品

Info

Publication number: CN113821720A
Application number: CN202110796095.2A
Authority: CN
Inventors: 张嘉荣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-12-21

Abstract

本申请实施例公开了一种行为预测方法、装置及相关产品。本申请涉及机器学习技术领域。方法中获取目标内容的特征序列和目标用户的N种历史行为序列，基于N种历史行为序列和目标内容的特征序列提取到共享特征提取结果，基于N种历史行为序列分别提取到一一对应的个性化特征提取结果。在对目标用户在目标内容任一种行为进行预测时，共同基于此前获得的共享特征提取结果和对应的历史行为序列的个性化特征提取结果获得预测结果。本方案考虑到各种历史行为序列在行为特征的差异，并针对性地进行了个性化的特征提取，不再仅仅基于共享特征提取结果执行对不同行为的预测。即便在待预测行为的相关度较低的场景下，也能够保证较高的预测准确性。

Description

一种行为预测方法、装置及相关产品

技术领域

本申请涉及机器学习技术领域，尤其涉及一种行为预测方法、装置及相关产品。

背景技术

随着互联网的快速发展，互联网上的内容越来越丰富，用户可以通过计算机设备在互联网上轻松接触到各种类型的内容，例如视频、书籍、商品、广告等。目前在许多互联网平台上，各式各样的内容已经呈现井喷之势。互联网平台的运营团队往往需要从海量内容中为用户提供其可能感兴趣的内容，因此海量的内容给运营团队带来了极大的挑战。内容推荐前执行的一个关键操作是对用户在待推荐的内容的多种行为(例如点击、订阅、评论、收藏等)进行预测。这一操作可以通过多任务学习来实现，多任务即对应于用户的多种行为。多任务学习是一种基于共享数据把多个相关的任务放在一起的一种机器学习方式。多任务学习将不同任务学习到相关领域的信息，然后基于这部分领域的信息在模型中进行共享，通过多个任务相互学习，相互共享，从而提升整个模型泛化能力与效果。

现有技术中，可以应用全空间多任务学习模型(Entire Space Multi-taskModel,ESMM)或者基于Hard参数共享的神经网络进行多任务学习。以上这两种多任务学习方式中，均是以同质化的特征经过参数共享的网络层后输入到单独的任务网络，从而对用户行为进行预测。以基于Hard参数共享的神经网络进行多任务学习为例，图1为该方案的模型架构图。如图1所示，基于共享底层网络的结构，不同任务间共用底部的隐层，再往上，每个任务A和B分别对应一个特征提取网络，然后将每个任务的特征提取网络的输出作为任务的输出。

结合图1不难发现，现有技术中，多任务学习模型的每个任务的输入特征基本一致，这与不同任务下用户的行为特征存在差异的特点相悖，导致模型预测结果的准确性较低。而这一准确性问题在任务相关度较低的学习场景下越发凸显。在预测用户的多种行为的方面，现有的多任务学习模型已经很难满足准确性的要求。因此，在进行多任务学习时，提升预测用户行为的准确性已成为当前领域亟待解决的技术问题。

发明内容

本申请实施例提供了一种行为预测方法、装置及相关产品，以提升多任务学习进行行为预测的准确性。

有鉴于此，本申请第一方面提供了一种行为预测方法，方法包括：

获取目标内容的特征序列；

获取目标用户的N种历史行为序列，N种历史行为序列与N种行为一一对应，历史行为序列指示了行为对象和行为顺序；行为对象为与目标内容具有相同内容类型的内容；N为大于1的整数；

基于N种历史行为序列和目标内容的特征序列进行共享特征提取处理，获得共享特征提取结果；

基于N种历史行为序列分别进行个性化特征提取处理，获得N种历史行为序列一一对应的N个个性化特征提取结果；

基于共享特征提取结果和目标历史行为序列对应的个性化特征提取结果预测目标用户在目标内容执行目标行为的概率；目标历史行为序列为N种历史行为序列中任意一种历史行为序列，目标行为为N种行为中与目标历史行为序列对应的行为。

本申请第二方面提供一种行为预测装置，装置包括：

第一获取单元，用于获取目标内容的特征序列；

第二获取单元，用于获取目标用户的N种历史行为序列，N种历史行为序列与N种行为一一对应，历史行为序列指示了行为对象和行为顺序；行为对象为与目标内容具有相同内容类型的内容；N为大于1的整数；

共享特征提取单元，用于基于N种历史行为序列和目标内容的特征序列进行共享特征提取处理，获得共享特征提取结果；

个性化特征提取单元，用于基于N种历史行为序列分别进行个性化特征提取处理，获得N种历史行为序列一一对应的N个个性化特征提取结果；

预测单元，用于基于共享特征提取结果和目标历史行为序列对应的个性化特征提取结果预测目标用户在目标内容执行目标行为；目标历史行为序列为N种历史行为序列中任意一种历史行为序列，目标行为为N种行为中与目标历史行为序列对应的行为

本申请第三方面提供一种计算机设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令，执行如上述第一方面的行为预测方法的步骤。

本申请第四方面提供一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行上述第一方面的行为预测方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中提供一种行为预测方法、装置和相关产品。在行为预测方法中需要获取目标内容的特征序列和目标用户的N种历史行为序列，这N种历史行为序列与要预测目标用户对目标内容的N种行为一一对应。在历史行为序列中指示了目标用户过往以对应的行为作用的行为对象和行为顺序，其中行为对象与目标内容类型相同。本申请中不但基于N种历史行为序列和目标内容的特征序列提取到共享特征提取结果，还基于N种历史行为序列分别提取到一一对应的个性化特征提取结果。在对目标用户在目标内容的N种行为中任一种行为进行预测时，共同结合此前获得的共享特征提取结果和对应的历史行为序列的个性化特征提取结果预测目标用户后续执行该种行为的概率。区别于已有技术，本方案中新颖的多任务学习方式重视各种历史行为序列在行为特征的差异，并针对性地进行了个性化的特征提取，不再仅仅基于共享特征提取结果对不同行为的概率预测。如此，即便在待预测行为的相关度较低的场景下也能够保证较高的预测准确性。

附图说明

图1为本申请提供的一种基于Hard参数共享的神经网络进行多任务学习的模型架构图；

图2为本申请提供的一种实际应用场景中行为预测方法的示意图；

图3为本申请实施例提供的一种行为预测方法的流程图；

图4为本申请实施例提供的一种多任务学习模型的结构示意图；

图5为本申请实施例提供的另一种基于多任务学习模型的行为预测方法的流程图；

图6为本申请实施例提供的另一种多任务学习模型的结构示意图；

图7为一种传统的MMoE模型的结构示意图；

图8为本申请实施例提供的一种共享特征处理模块仅包含一层门控共享网络层时门控共享网络层的结构示意图；

图9为本申请实施例提供的一种共享特征处理模块包含M层门控共享网络层的结构示意图；

图10为本申请实施例提供的又一种多任务学习模型的结构示意图；

图11为本申请实施例提供的又一种基于多任务学习模型的行为预测方法的流程图

图12为本申请实施例提供的一种对多任务学习模型进行训练的方法流程图；

图13为本申请实施例提供的一种行为预测装置的结构示意图；

图14为本发明实施例提供的服务器的结构示意图；

图15为本发明实施例提供的终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

多任务学习作为机器学习领域的研究热点，广受关注。在内容推荐场景中，对用户进行内容的个性化推荐受到用户行为的影响，通过多任务学习可以预测用户在内容的多种行为。当前主要使用的多任务学习方案包括ESMM和基于Hard参数共享的神经网络等，但是每个任务的输入特征基本一致，忽视了不用任务间行为特征差异的影响，导致多任务学习后，多种行为的预测准确性较低。在内容推荐场景中，用户行为预测准确性低，将影响内容推荐的准确性，导致用户难以在较短的时间内体验到其感兴趣的内容。

为了解决上述技术问题，本申请提出了一种行为预测方法、装置及相关产品。本方案的实施目的是对目标用户未来在目标内容的N种行为进行预测。基于目标用户的N种历史行为序列和目标内容的特征序列提取到共享特征提取结果，基于N种历史行为序列又分别提取到一一对应的个性化特征提取结果。在对目标用户在目标内容任一种行为进行预测时，共同基于此前获得的共享特征提取结果和对应的历史行为序列的个性化特征提取结果获得执行行为的概率的预测结果。本方案考虑到各种历史行为序列在行为特征的差异，并针对性地进行了个性化的特征提取，不再仅仅基于共享特征提取结果执行对不同行为的预测。即便在待预测行为的相关度较低的场景下，也能够保证较高的预测准确性。

以上提及的行为预测方法可以应用于处理设备上，该处理设备为具有行为预测功能的处理设备，例如可以是具有行为预测功能的终端设备或服务器。该方法由终端设备或服务器独立执行，也可以应用于终端设备和服务器通信的网络场景，通过终端设备和服务器配合运行。其中，终端设备可以为手机、台式计算机、个人数字助理(Personal DigitalAssistant，简称PDA)、平板电脑等设备。服务器可以理解为是应用服务器，也可以为Web服务器，在实际部署时，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

此外，本申请还涉及人工智能(Artificial Intelligence,AI)技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景，

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在本申请实施例中，处理设备可以通过自然语言处理等技术来获取行为预测所需的多种序列，包括目标内容的特征序列以及目标用户的N种历史行为序列。处理设备还可以通过机器学习技术对获取到的序列进行特征提取得到共享特征提取结果和个性化特征提取结果，基于共享特征提取结果和要预测的行为对应的个性化特征提取结果执行对该行为的预测任务，获得预测结果。

为了便于理解本申请提供的技术方案，接下来，将结合一种实际应用场景，对本申请实施例提供的行为预测方法进行介绍。需要说明的是，此场景仅为示例，不作为对行为预测方法的实际应用场景的限定。

参见图2为本申请实施例提供的一种实际应用场景中行为预测方法的示意图。在该实际应用场景中，处理设备为具有行为预测功能的服务器201。服务器201可以通过目标用户使用的终端设备202上安装的某一应用程序(Application,APP)获取目标内容的特征序列，并根据目标用户的历史操作，获取目标用户在该APP上在其他行为对象的N种历史行为序列。此处，其他的行为对象与目标内容具有相同的内容类型。例如，该APP为一短视频APP。目标内容和历史行为序列所涉及的行为对象均为短视频。用户的终端设备202可以向服务器201主动上传以上序列，服务器201也可以主动向终端设备202获取以上序列。

服务器201获取的目标视频的特征序列和目标用户的N种历史行为序列将作为预测目标用户在目标视频的N种行为的依据。此处，N种行为可以是点击、点赞、评论、收藏、转发等。基于内容类型的不同，此处要预测的N种行为也可能会存在相应的区别，具体不做限定。服务器201依据N种历史行为序列和目标视频的特征序列进行特征提取，获得共享特征提取结果；服务器201还依据N种历史行为序列分别进行特征提取，获得N种历史行为序列一一对应的N个个性化特征提取结果。以点击行为为例，服务器201根据目标用户的历史点击行为序列提取历史点击行为序列对应的个性化特征提取结果，再结合共享特征提取结果和历史点击行为序列对应的个性化特征提取结果，预测目标用户在目标视频的点击行为。其他行为的预测与点击行为的预测方式类似，此处不做赘述。如上描述，服务器201可以完成对目标用户在目标视频的多种行为的预测。预测结果可以是预测出的目标用户在目标视频的多种行为的概率，例如点击概率、点赞概率、评论概率等。预测结果中的概率越高，表示目标用户执行相应行为的可能性越大。由于对单个行为的预测考虑到了个性化特征的提取结果，并糅合了共享特征提取结果，因此在预测时不但可以兼顾不同行为间的联系，还着重关注到了行为特征之间的差异，使预测结果趋于更高的准确性。

接下来将结合附图，对本申请实施例提供的行为预测方法进行介绍。

参见图3为本申请实施例提供的一种行为预测方法的流程图。如图3所示该行为预测方法包括：

S301：获取目标内容的特征序列。

目标内容的特征序列能够以序列的形式将目标内容与其他同类型内容区分开。本申请实施例中，通过目标内容的特征序列便可以唯一地确定出要预测的该目标内容。

作为一示例，内容平台中目标内容所属内容类型下的所有内容处于一内容库中。以视频平台APP为例，所有视频处于以视频库中。为了唯一标识内容，可以为每一个内容分配一个编码，比如0000101和0000100代表不同的内容。编码可以通过特征序列的形式展现。如此，特征序列便可以唯一标识内容。

作为另一示例，特征序列中每一个位置代表一个特定的标签，1表示具备该位置上的标签，0表示不具备该位置上的标签。如此，也可以通过特征序列中每个位置上标签的有无，将目标内容唯一标识出来。每个位置上的标签可以由人为设定，例如内容的优质标签、搞笑类标签、新闻类标签、宠物类标签等。基于内容类型的不同，特征序列中标签的类型也可能存在差别。例如视频的特征标签的类型与书籍的特征标签的类型不完全重合。

S302：获取目标用户的N种历史行为序列，N种历史行为序列与N种行为一一对应，历史行为序列指示了行为对象和行为顺序。

N为大于1的整数，此处即是指要预测N种行为，便需要获取目标用户与上述种行为对应的历史行为序列。本申请实施例中，历史行为序列所指的行为对象为与目标内容具有相同内容类型的内容。例如，目标内容为视频，则历史行为序列便也是涉及视频的历史行为序列。例如，对视频的历史点击行为序列、历史评论行为序列等。历史行为序列的长度可以根据实际需求设置，例如取长度为5或10等。历史行为序列中指示了行为对象和行为顺序，作为示例，历史点击行为序列表示为[01 02 03 04 05]，则表示用户依次点击了标识为01、02、03、04和05这五个视频。目标用户的N种历史行为序列表征了目标用户过去对与目标内容同类型的其他内容的行为，故可以作为预测目标用户在目标内容的N种类型行为的依据。

需要说明，本申请中S301与S302可以一先一后执行，例如先执行S301后执行S302或者先执行S302后执行S302。此外，也可以同时执行S301和S302。故此出对两步骤的执行顺序不进行限定。

S303：基于N种历史行为序列和目标内容的特征序列进行共享特征提取处理，获得共享特征提取结果。

本方案中，共享特征提取结果作为N种行为预测的基础之一。本步骤具体实现时，可以通过神经网络结构中具有特征提取功能的网络层基于N种历史行为序列和目标内容的特征序列进行共享特征提取处理，获得共享特征提取结果。此处对于在提取共享特征时的网络层数、网络结构均不进行限定。共共享特征提取处理的目的是横向挖掘N种行为以及目标内容之间的特征关联。

S304：基于N种历史行为序列分别进行个性化特征提取处理，获得N种历史行为序列一一对应的N个个性化特征提取结果。

本方案中，每种历史行为序列对应的个性化特征提取结果作为预测该种行为的另一基础。本步骤具体实现时，可以通过神经网络结构中具有特征提取功能的网络层分别基于N种历史行为序列提取每种行为对应的个性化特征，得到个性化特征提取结果。此处对于在提取行为的个性化特征时的网络层数、网络结构均不进行限定。个性化特征提取处理的目的是独立挖掘一种行为的行为序列自身独具的特征。

S305：基于共享特征提取结果和目标历史行为序列对应的个性化特征提取结果预测目标用户在目标内容执行目标行为的概率。

本步骤中以多种待预测的行为中目标行为的预测为示例进行的说明。目标历史行为序列为N种历史行为序列中任意一种历史行为序列，目标行为为N种行为中与目标历史行为序列对应的行为。本申请实施例中，指导行为预测的个性化特征提取结果并不是在同质化的共享特征基础上提取得到的，而是从行为对应的历史行为序列提取获得，因此保留了诸多历史行为序列中特有的、区别于其他行为的特征。并且在行为预测中使用共享特征，因此，保留了对N种历史行为序列之间的关联的学习。基于共享特征提取结果和目标历史行为序列对应的个性化特征提取结果对目标用户在目标内容的目标行为进行预测，兼顾了行为的特性和行为间的关联，因此能够使目标行为的预测结果更加准确。

本申请实施例提供的行为预测方法可以通过一种新结构的多任务训练模型实现。以下结合图4所示的多任务学习模型和图5所示的基于基于多任务学习模型的行为预测方法流程图，对此方法进行介绍。

如图4所示的多任务学习模型包括：共享特征提取模块401、N个个性化特征提取模块402和N个预测模块403。其中，共享特征提取模块401包括N+1个输入端和N个输出端，个性化特征提取模块402包括一个输入端和一个输出端，预测模块403包括两个输入端和一个输出端。共享特征提取模块401的N+1个输入端中，N个用于输入历史行为特征序列，1个用于输入目标内容的特征序列；N个输出端则分别对应连接N个预测模块403的两个输入端之一。个性化特征提取模块402的输入端用户输入一种历史行为序列，输出端则连接到预测模块403的另一输入端。预测模块403的输出为对应行为的预测结果。

结合图4所示的多任务学习模型的结构，继续参见图5所示的方法流程，基于多任务学习模型进行行为预测的方法包括：

S501；获取目标内容的特征序列。

S502；获取目标用户的N种历史行为序列，N种历史行为序列与N种行为一一对应，历史行为序列指示了行为对象和行为顺序。

本实施例中S501-S502的实现方式与前述实施例中S301-S302的实现方式基本相同，此处不进行赘述。

在本申请实施例中，多任务学习模型中经过训练的共享特征提取模块401能够基于N种历史行为序列和目标内容的特征序列提取得到共享特征提取结果。经过训练的N个个性化特征提取模块402能够分别对N种历史行为序列进行特征提取，获得N种历史行为序列一一对应的N个个性化特征提取结果。经过训练的N个预测模块403能够各自基于共享特征提取结果和一种历史行为序列对应的个性化特征提取结果对目标用户在目标内容的这一行为。关于共享特征提取模块401、个性化特征提取模块402和预测模块403在该方法中执行操作的过程参见以下S503-S505。本申请实施例中所应用的多任务学习模型是经过训练得到的，由于模型的使用过程与模型的训练过程基本相仿，为便于理解，下文先介绍模型的结构以及各结构层的使用功能，待使用过程介绍完毕后，再说明模型的训练过程。

S503；通过多任务学习模型的共享特征提取模块对N种历史行为序列和目标内容的特征序列进行共享特征提取处理，获得共享特征提取结果。

S504；通过多任务学习模型的N个个性化特征提取模块分别对N种历史行为序列进行个性化特征提取处理，获得N种历史行为序列一一对应的N个个性化特征提取结果。

S505；基于共享特征提取结果和目标历史行为序列对应的个性化特征提取结果，通过多任务学习模型的目标预测模块预测目标用户在目标内容执行目标行为的概率。

在S505的介绍中，以目标预测模块的使用为示例进行阐述。其中，目标预测模块为多任务学习模型的N个预测模块403中与目标行为对应的预测模块。类似地，其他预测模块的功能均与目标预测模块的功能类似，不再一一赘述。

在以上实施例中，预测模块可以直接共享特征结果和历史行为序列的个性化特征提取结果进行行为预测。在另一种可能的实现方式中，多任务学习模型还对共享特征提取结果进行了处理，预测模块具体是基于处理结果以及个性化特征提取结果来进行行为预测。请参见图6所示的另一种多任务学习模型的结构示意图。

如图6所示的结构中，多任务学习模型包括：共享特征提取模块601、共享特征处理模块602、个性化特征提取模块603和预测模块604。其中，共享特征处理模块602衔接在共享特征提取模块601的输出端与预测模块604的输入端之间。共享特征处理模块602在该模型中的功能是对共享特征提取结果进行进一步的特征提取和调控，从而为N种行为分别生成对应的共享特征处理结果。仍以目标预测模块604为例，在此实现方式中，目标预测模块604根据共享特征处理模块602为目标行为生成的共享特征处理结果和目标历史行为序列对应的个性化特征提取结果，对目标用户在目标内容的目标行为进行预测，获得目标行为对应的预测结果。

多门控融合专家网络(Multi-gate Mixture-of-Experts,MMoE)多任务学习模型在共享底层网络的基础上叠加多个专家网络，使得不同任务能够提取到任务所需的强力特征。每个任务的门控网络通过对专家网网络的输出的权重控制，实现对不同专家网络的输出的选择性利用。图7为一种传统的MMoE模型的结构示意图。在图7中，A和B各自对应不同的任务。如图7所示，每一个门控网络调控所有专家网络(专家网络0、专家网络1、专家网络2)的权重，尽管通过专家网络和门控机制针对不同的任务学习到了不同的底层特征，但是模型结构中仍缺少基于历史行为序列针对性的行为差异化特征的挖掘。即MmoE模型难以做到个性化提取和共享的有效融合。本方案中，在共享特征处理模块602中对传统MmoE模型进行了改进，在共享特征处理模块602也采用了专家网络与门控机制。由共享特征处理模块602完成以共享特征提取结果为基础为不同的行为分别生成对应的共享特征提取结果的工作。

在共享特征处理模块602中至少包括一层门控共享网络层。每一层门控共享网络层均包括：共享专家网络、与N种行为一一对应的N个独立专家网络和N个独立门控网络。其中共享专家网络用于基于N种行为的方向对共享特征提取结果进行学习。也就是说，共享专家网络在学习特征时不以某个或某部分行为作为学习的偏向。与此相对的是独立专家网络，在本申请实施例中，独立专家网络用于基于对应的待预测行为的方向对共享特征提取结果进行学习。独立门控网络用于对对应的独立专家网络的输出以及共享专家网络的输出进行权重控制，为对应的待预测行为生成共享特征处理结果。图8为共享特征处理模块602仅包含一层门控共享网络层时，门控共享网络层的结构示意图。图8中A、B、C分别对应于不同的任务，由于每个任务是对不同的行为进行预测，因此A、B、C也分别对应不同的待预测的行为。

如图8所示，区别于图7中传统的MmoE模型结构，本方案共享特征处理模块602中每个门控网络不再对所有专家网络的输出进行权重控制，仅调控共享专家网络以及自身对应的一个独立专家网络的输出权重。在共享特征处理模块602的环节便开始做到任务共同学习与任务个性化学习的有效融合。最终，每一个独立门控网络的输出到相应的预测模块604的一个输入端。

为了提升不同任务间参数共享的充分程度，本申请实施例中，共享特征处理模块602还可以包括多层门控共享网络层。下面结合图9介绍共享特征处理模块602的另一实现方式。图9为共享特征处理模块602包含多层门控共享网络层的结构示意图，图9仅以3层为示例展示。实际应用中，可以包含M层，M为大于1的整数，对M取值不做限定。图9中A、B、C分别对应于不同的任务，由于每个任务是对不同的行为进行预测，因此A、B、C也分别对应不同的待预测的行为。

在图9所示的共享特征处理模块602的实现方式中，假设M＝3，自底向上分别为第1层至第3层门控共享网络层。区别于图8所示的结构，在该实现方式中，第1层至第M-1层门控共享网络层还包括共享门控网络；共享门控网络用于对同一门控共享网络层中的N个独立专家网络的输出以及共享专家网络的输出进行权重控制。也就是说，共享门控网络的控制对象要广于独立门控网络的控制对象。

通过共享特征处理模块602的M层门控共享网络层基于共享特征提取结果进行特征提取和调控，为N种行为分别生成对应的共享特征处理结果的过程如下，包括：

在第1层门控共享网络层中，将共享特征提取结果分别作为共享专家网络和N个独立专家网络的输入，通过共享专家网络和N个独立专家网络进行学习，并通过共享门控网络和N个独立门控网络进行权重控制；

以第L层指代第1层至第M-1层之间(含第1层和第M-1层)中任意一层，将第L层门控共享网络层中共享门控网络的输出作为第L+1层门控共享网络层中共享专家网络的输入，独立门控网络的输出将作为第L+1层门控共享网络层中独立专家网络的输入，直至到达第M层门控共享网络层；

在第M层门控共享网络层中，通过共享专家网络和N个独立专家网络进行学习，并通过N个独立门控网络进行权重控制，将N个独立门控网络输出的内容作为为N种行为生成的共享特征处理结果。

在本申请实施例中，通过在多任务学习模型的共享特征处理模块602中以多层门控共享网络层进行特征提取和调控，使不同任务间参数共享更加充分，从而有助于更加充分地学习不同任务间的关联特征，提升预测的准确性。

为了便于更加全面地理解本申请实施例使用的多任务学习模型的结构和工作机理，以下结合图10所示的多任务学习模型的结构和图11所示的基于多任务学习模型的行为预测方法流程图进行说明。

参见图10所示的多任务学习模型，其大致划分为共享特征提取模块601、共享特征处理模块602、个性化特征提取模块603和预测模块604。在共享特征提取模块601包括：N个第一嵌入层、第二嵌入层、第一特征提取层和连接层。在共享特征处理模块602设置了多层门控共享网络层。个性化特征提取模块603包括第三嵌入层和第二特征提取层。以下结合方法步骤的描述介绍每个模块中不同网络层的具体功能。

如图11所示的行为预测方法包括：

S1101：获取目标内容的特征序列，获取目标用户的基础特征序列获取目标用户的N种历史行为序列。

关于获取目标内容的特征序列和目标用户的N种历史行为序列的实现方式已经在前文介绍过，此处不做赘述。下面介绍获取目标用户的基础特征序列的实现方式。基础特征可以是用户的个人账户信息，例如，基础特征可以包括：性别、年龄、性别、教育程度、支付方式等等。用户在内容平台上对内容的一些行为背后也是受基础特征驱动的，目标用户的基础特征序列以序列形式展示基础特征，方便多任务学习模型进行学习处理。

S1102：通过共享特征提取模块的N个第一嵌入层分别将N种历史行为序列中对应的历史行为序列降低维度并稠密化处理，得到稠密行为特征；通过共享特征提取模块的第二嵌入层将目标内容的特征序列降低维度并稠密化处理，得到稠密内容特征；通过共享特征提取模块的第一特征提取层对基础特征序列进行特征提取得到目标用户的稠密基础特征。

如S1102介绍的，第一嵌入层、第二嵌入层和第一特征提取层各司其职，通过预先的训练具备了上文描述的各项功能。

S1103：通过共享特征提取模块的连接层根据N个第一嵌入层分别输出的稠密行为特征、第二嵌入层输出的稠密内容特征和第一特征提取层输出的稠密基础特征进行合并，获得共享特征提取结果。

连接层可以直接将N个第一嵌入层分别输出的稠密行为特征、第二嵌入层输出的稠密内容特征和第一特征提取层输出的稠密基础特征进行合并，也可以如图10所示地，利用共享特征提取模块601的特征挖掘层根据N个第一嵌入层分别输出的稠密行为特征、第二嵌入层输出的稠密内容特征和第一特征提取层输出的稠密基础特征进行合并，其后再通过连接层对特征挖掘层挖掘出的特征和稠密基础特征进行合并。特征挖掘层可以是transformer layer，其采用编码器-解码器的方式，输出目标用户的隐层特征，便于后续进一步的特征提取及挖掘。相较于传统的直接输入，引入transformer layer更能关注并聚焦用户的历史行为对当前行为的影响，并且比起普通的attention layer，transformerlayer更能够精准地捕捉用户的长序列特征。因此transformer layer在该多任务学习模型中的使用，有利于在多任务学习的基础上深度挖掘用户的兴趣，从而使行为预测结果更加准确。

在本申请实施例中，连接层对特征的合并操作就是深度学习中的concat操作，在本领域concat操作的实现属于成熟技术，此处不再对此过程赘述。

S1104：通过共享特征处理模块的多层门控共享网络层基于共享特征提取结果进行特征提取和调控，为N种行为分别生成对应的共享特征处理结果。

关于多层共享门控网络层的结构和功能已经在前文详细阐述，具体参见图9，此处不做赘述。

需要说明的是，共享特征处理结果可以直接给到对应的预测模块604，也可以如图10所示地，进入到一个第三特征提取层，由第三特征提取层进一步处理，实现对共享特征处理结果的特征提取。当然，第三特征提取层也是非必要的。多加一层该第三特征提取层可以有助于挖掘出更深层次的特征。第三特征提取层的输出给到预测模块604的输入。

S1105：通过个性化特征提取模块的第三嵌入层将N种历史行为序列中对应的历史行为序列降低维度并稠密化处理，得到序列个性化处理结果。

本申请实施例中，每个个性化特征提取模块603均具备第三嵌入层。对于历史行为序列中特征的个性化提取首先通过第三嵌入层实现。

本申请中，共享特征的提取和个性化特征的提取可以同步实施，因此图11仅为示例流程顺序，实际应用中S1105也可以在S1102之前执行或者同步执行，此处对执行顺序不进行限定。

S1106：通过个性化特征提取模块的第二特征提取层根据序列个性化处理结果进行特征提取，获得个性化特征提取结果。

第二特征提取层能够将第三嵌入层输出的序列个性化处理结果进一步深度挖掘和提取。在一种可能的实现方式中，第二特征提取层包括：一层transformer layer。前面已经介绍过transformer layer的优势，此处不再赘述。此外第二特征提取层也可以包括以下任意一种：多层感知器(Multilayer Perceptron,MLP)神经网络、深度网络与交叉网络(Deep&Cross Network,DCN)或deepfm结构。在图10所示的多任务学习模型中，第二特征提取层紧接在第三嵌入层之后，第三嵌入层输出的序列个性化处理结果先后经过第二特征提取层中的transformer layer和MLP，其中transformer layer也可以去掉。

S1107：基于共享特征处理结果和目标历史行为序列对应的个性化特征提取结果，通过多任务学习模型的目标预测模块预测目标用户在目标内容执行目标行为的概率。

在以上实施例中，能够通过结合共享特征处理结果和个性化特征提取结果两个特征提取路线，有效在行为预测时基于两路分别提取的特征进行综合预测，使多任务学习模型对于多种行为的预测更加准确。同时提升了多任务学习模型的泛化能力。

以上行为预测方法不但可以应用在目标对象对视频这一类型内容的行为预测上，还可以对目标用户在书籍、电子商品、广告、应用程序等内容的行为预测。此处对于目标内容的类型不做限定。在预测获得多个行为的预测结果后，本申请实施例提供的方法还可以进一步包括：

当根据对目标用户在目标内容的N种行为的预测结果确定目标内容符合推荐条件时，向目标用户推荐目标内容。

推荐条件与目标内容的类型相关。作为示例，目标内容的内容类型为视频时，设定推荐条件为点击概率超过0.5、点赞概率超过0.3。做为另一示例，目标内容的内容类型为商品时，设定推荐条件为点击概率超过0.5、购买概率超过0.15。此处对于推荐条件不做限定。也就是说，当目标内容符合推荐条件时，判断目标用户对该目标内容该兴趣的几率足够高，向其推荐该目标内容。具体的推荐方式不做限定。例如可以展示在当前浏览的页面上，或者弹出列表推荐的内容的列表等。

下面介绍本申请实施例中多任务学习模型的训练过程。

图12为本申请实施例提供的一种多任务学习模型的训练方法流程图。如图12所示的模型训练方法包括：

S1201：获取训练样本。

下面对训练样本进行介绍。此处提出训练样本仅代表一个训练样本，但是实际训练时可以准备训练样本集，训练样本集包括了多个规格类似的训练样本。以一个训练样本为例，训练样本包括样本目标对象的特征序列和用户的N种样本行为序列，N种样本行为序列与N种行为一一对应，样本行为序列指示了行为对象和行为顺序。样本目标对象和样本行为序列中指示的行为对象均与目标内容的内容类型相同。样本行为序列中行为的发生在用户对样本目标对象产生N种行为中任意一种之前。

需要说明的是，可以基于不同的内容类型分别训练多任务学习模型，例如为视频、书籍类的内容分别训练多任务学习模型，以供对用户在视频、书籍类内容的行为预测。

此外，训练样本还带有标签，训练样本的标签包括在N种样本行为序列之后用户在样本目标对象的N种行为的实际值。例如，训练样本的标签包括：点击(1)、点赞(0)、评论(1)、收藏(0)。其中括号中的实际值1表示发生了相应的行为，括号中的实际值0表示未发生相应的行为。

待训练模型至少包括共享特征提取模块、N个个性化特征提取模块和N个预测模块。即网络结构与训练完成的前述多任务学习模型基本一致，区别仅在于参数为训练完成。

S1202：通过待训练模型的共享特征提取模块对N种样本行为序列和样本目标对象的特征序列进行共享特征提取处理，获得样本共享特征提取结果。

S1203：通过待训练模型的N个个性化特征提取模块分别对N种样本行为序列进行个性化特征提取处理，获得N种样本行为序列一一对应的N个样本个性化特征提取结果。

S1204：基于样本共享特征提取结果和目标样本行为序列对应的样本个性化特征提取结果，通过待训练模型的N个预测模块中的目标预测模块预测用户在样本目标对象的目标行为的概率。

在S1204对预测模块的训练描述中，以目标预测模块为示例展开描述。其他预测模块也是类似地输入以及训练方式。目标样本行为序列为N种样本行为序列中任意一种样本行为序列。

S1205：判断待训练模型是否满足训练截止条件，如果否，则执行S1206，如果是，则进入S1207。

训练截止条件可以包括以下至少一种：

模型迭代次数超过预设阈值，或者模型整体损失小于预设损失值。

S1206：根据N种行为中同一种行为的预测结果与标签中的实际值之间的差别，对待训练模型的参数进行调整，再次进入S1201。

预测结果与标签中的实际值之间的差别可以通过损失函数衡量。

如果预先获得了训练样本集，则下一次迭代时，S1201具体是指从训练样本集中提取新的新的训练样本以训练模型。

S1207：完成训练获得多任务学习模型。

通过以上训练，能够得到满足训练截止条件的一套模型系数，这一条模型系数载入待训练模型的框架中，即获得训练好的多任务学习模型。该模型可以发挥前述实施例中介绍的功能。

目前，在多任务学习模型训练过程中，所采用的损失函数往往将各个任务的损失直接相加得到整体的损失。但是这种损失计算方式不够合理，因为不同任务的损失量级可能是不同的。这种损失计算方式将所有任务的损失统一，导致损失量级较大的任务能够在训练过程中学习较快，被拟合得充分些，而损失量级较小的任务则学习较慢，拟合存在不充分的问题。进而，产生了跷跷板效应。跷跷板效应即是：多任务学习中不同任务的损失量级很可能不一样，如果存在某个损失过大，模型会倾向于学习该损失下的这个任务，而减少对其它任务的权重的学习，导致任务存在某些任务过分拟合，某些子任务欠拟合的情况。

为了削弱跷跷板效应，使得各任务的学习更加均衡，本申请实施例中提出对损失函数进行优化。结合S1206进行介绍。

以上S1206中，根据N种行为中同一种行为的预测结果(即预测概率)与标签中的实际值之间的差别，对待训练模型的参数进行调整，具体可以包括：

通过预设损失函数获得N种行为分别对应的损失值。其中，预设损失函数用于衡量同一种行为的预测结果与标签中的实际值之间的差别。其后，根据目标行为在预设损失函数的损失值变化和曲线下面积(Aera Under Curve,AUC)的变化确定目标行为对应的动态权重。曲线为受试者工作特征(Receiver Operating Characteristics,ROC)曲线。其中，AUC具体是指ROC曲线和坐标轴围成的面积。接着，根据N种行为分别对应的损失值和动态权重得到待训练模型的动态损失值，此动态损失值用来表征模型的整体损失。最后，根据动态损失值对待训练模型的参数进行调整。

模型整体的动态损失函数表示如下，N种行为分别对应的损失值、动态权重和待训练模型的动态损失值满足以下公式：

公式(1)中，L表示动态损失值，l_i表示第i种行为(后文简称目标行为i)对应的损失值，w_i表示目标行为i对应的动态权重。w_i动态权重与行为对应的损失值和AUC相关。w_i动态权重的计算公式如下，本次训练目标行为对应的总变化系数、目标行为的预测任务的权重以及目标行为对应的动态权重满足如下关系：

在公式(2)中c_i(t-1)表示第t-1次迭代训练时的目标行为i的总变化系数。t-1为泛指的本次迭代。例如t-1＝20时，表示第20次迭代。t-2则表示前一次迭代。在公式(2)中，s_i为对目标行为i的预测任务的权重，该权重可以是预先分配的一个权重值，随着迭代，该权重s_i也会发生变化。

总变化系数的表达式如下，本次训练目标行为的总变化系数、第一变化系数和第二变化系数满足以下关系：

c_i(t-1)＝r_i(t-1)*y_i(t-1) 公式(3)

在公式(3)中，r_i(t-1)表示第t-1次迭代训练时目标行为i的第一变化系数，y_i(t-1)表示第t-1次迭代训练时目标行为i的第二变化系数。第一变化系数r_i(t-1)的表达公式和第二变化系数y_i(t-1)的表达公式分别参见公式(4)和公式(5)。本次训练中目标行为的第一变化系数、前一次训练时所述目标行为对应的损失值和本次训练所述目标行为对应的损失值满足公式(4)中的关系。本次训练中目标行为的第二变化系数、前一次训练时所述目标行为对应的AUC和本次训练所述目标行为对应的AUC满足公式(5)中的关系。

在公式(4)中，l_i(t-1)和l_i(t-2)分别表示第t-1次迭代和第t-2次迭代(即本次与前一次迭代)训练时目标行为i对应的损失值。在公式(5)中AUC_i(t-1)和AUC_i(t-2)分别表示第t-1次迭代和第t-2次迭代(即本次与前一次迭代)训练时目标行为i对应的AUC。

结合以上介绍的公式(1)-(5)可知，根据目标行为在预设损失函数的损失值变化和曲线下面积AUC的变化确定目标行为对应的动态权重，包括：

通过预设损失函数获得待训练模型的前一次训练时目标行为对应的损失值和AUC；根据前一次训练时目标行为对应的损失值和本次训练目标行为对应的损失值得到第一变化系数；以及，根据前一次训练时目标行为对应的AUC和本次训练目标行为对应的AUC得到第二变化系数；第一变化系数用于表征目标行为在预设损失函数的损失值变化；第二变化系数用于表征目标行为在AUC的变化；将目标行为的第一变化系数与第二变化系数相乘得到目标行为的总变化系数；根据总变化系数获得目标行为对应的动态权重。

结合公式(1)-(5)，在本申请实施例中，任务的损失值变动越大(第一变化系数越大)，AUC变动越大(第二变化系数越大)，任务的动态权重就越小，这是因为这一任务通过第一变化系数和第二变化系数可以发现训练的成效较好，本次迭代相比于前一次迭代，对该任务的学习更加完善。为此，任务的动态权重可以配置更小。反之，任务的损失值变动越小，AUC变动越小，表示本次训练对于该任务的训练效果不佳，需要配置更大的动态权重。

在本申请实施例中，通过引入基于AUC的动态损失优化方案，为不同的任务分别配以动态权重，使得不再以简单的损失叠加计算整体损失值，而是考虑到不同次的训练中单个任务损失和AUC变化的相对值。如此，便于更加合理、均衡地分配动态权重，实现多个任务的均衡训练进程，辅助克服跷跷板现象，实现多个任务件更加均衡的学习效果。通过优化多个任务的训练，能够有效平衡多个目标的优化，有效减少模型建立过程中的时间和精力投入。这种融合性的损失优化方案有利于提升模型的稳定性。

基于前述实施例提供的行为预测方法，相应地，本申请实施例还提供了一种行为预测装置。以下结合图13对该装置的实现方式进行介绍。

如图13所示的行为预测装置1300包括：

第一获取单元1301，用于获取目标内容的特征序列；

第二获取单元1302，用于获取目标用户的N种历史行为序列，N种历史行为序列与N种行为一一对应，历史行为序列指示了行为对象和行为顺序；行为对象为与目标内容具有相同内容类型的内容；N为大于1的整数；

共享特征提取单元1303，用于基于N种历史行为序列和目标内容的特征序列进行共享特征提取处理，获得共享特征提取结果；

个性化特征提取单元1304，用于基于N种历史行为序列分别进行个性化特征提取处理，获得N种历史行为序列一一对应的N个个性化特征提取结果；

预测单元1305，用于基于共享特征提取结果和目标历史行为序列对应的个性化特征提取结果预测目标用户在目标内容执行目标行为的概率；目标历史行为序列为N种历史行为序列中任意一种历史行为序列，目标行为为N种行为中与目标历史行为序列对应的行为。

区别于已有技术，本方案提出的行为预测装置1300重视各种历史行为序列在行为特征的差异，并针对性地进行了个性化的特征提取，不再仅仅基于共享特征提取结果执行对不同行为的预测。如此，即便在待预测行为的相关度较低的场景下，也能够保证较高的预测准确性。

在可能的实现方式中，行为预测装置1300还包括模型训练单元；

模型训练单元用于：

获取训练样本；训练样本包括样本目标对象的特征序列和用户的N种样本行为序列，N种样本行为序列与N种行为一一对应，样本行为序列指示了行为对象和行为顺序；样本目标对象和样本行为序列中指示的行为对象均与目标内容的内容类型相同；训练样本的标签包括在N种样本行为序列之后用户在样本目标对象的N种行为的实际值；

通过待训练模型的共享特征提取模块对N种样本行为序列和样本目标对象的特征序列进行共享特征提取处理，获得样本共享特征提取结果；

通过待训练模型的N个个性化特征提取模块分别对N种样本行为序列进行个性化特征提取处理，获得N种样本行为序列一一对应的N个样本个性化特征提取结果；

基于样本共享特征提取结果和目标样本行为序列对应的样本个性化特征提取结果，通过待训练模型的N个预测模块中与目标行为对应的目标预测模块预测用户在样本目标对象执行目标行为的概率；目标样本行为序列与目标行为对应；

当待训练模型未满足训练截止条件时，根据待训练模型预测的概率与标签中执行同一种行为的实际值之间的差别，对待训练模型的参数进行调整，直至训练截止条件满足。

其中，根据所述待训练模型预测的概率与所述标签中执行同一种行为的实际值之间的差别，对待训练模型的参数进行调整，包括：

通过预设损失函数获得N种行为分别对应的损失值；预设损失函数用于衡量同一种行为的预测结果与标签中的实际值之间的差别；根据目标行为在预设损失函数的损失值变化和曲线下面积AUC的变化确定目标行为对应的动态权重；曲线为受试者工作特征ROC曲线；根据N种行为分别对应的损失值和动态权重得到待训练模型的动态损失值；根据动态损失值对待训练模型的参数进行调整。

通过引入基于AUC的动态损失优化方案，为不同的任务分别配以动态权重，使得不再以简单的损失叠加计算整体损失值，而是考虑到不同次的训练中单个任务损失和AUC变化的相对值。如此，便于更加合理、均衡地分配动态权重，实现多个任务的均衡训练进程，辅助克服跷跷板现象，实现多个任务件更加均衡的学习效果。通过优化多个任务的训练，能够有效平衡多个目标的优化，有效减少模型建立过程中的时间和精力投入。这种融合性的损失优化方案有利于提升模型的稳定性。

本申请实施例还提供了一种计算机设备，下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。

图14是本申请实施例提供的一种服务器结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作系统941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

其中，CPU 922用于执行如下步骤：

获取目标内容的特征序列；

针对上文描述的行为预测方法，本申请实施例还提供了一种用于行为预测方法的终端设备，以使上述行为预测方法在实际中实现以及应用。

本申请实施例还提供了另一种行为预测设备，如图15所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：Personal Digital Assistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图15示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图15，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图15中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图15对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文缩写：LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，GPRS)、码分多址(英文全称：CodeDivision Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband CodeDivision Multiple Access,英文缩写：WCDMA)、长期演进(英文全称：Long TermEvolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(英文全称：Liquid Crystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-Emitting Diode，英文缩写：OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图15中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图15示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1080还具有以下功能：

获取目标内容的特征序列；

获取目标用户的N种历史行为序列，所述N种历史行为序列与N种行为一一对应，所述历史行为序列指示了行为对象和行为顺序；所述行为对象为与所述目标内容具有相同内容类型的内容；所述N为大于1的整数；

基于所述N种历史行为序列和所述目标内容的特征序列进行共享特征提取处理，获得共享特征提取结果；

基于所述N种历史行为序列分别进行个性化特征提取处理，获得所述N种历史行为序列一一对应的N个个性化特征提取结果；

基于所述共享特征提取结果和目标历史行为序列对应的个性化特征提取结果预测所述目标用户在目标内容执行目标行为的概率；所述目标历史行为序列为所述N种历史行为序列中任意一种历史行为序列，所述目标行为为所述N种行为中与所述目标历史行为序列对应的行为。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种行为预测方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种行为预测方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种行为预测方法，其特征在于，包括：

获取目标内容的特征序列；

2.根据权利要求1所述的方法，其特征在于，所述方法基于多任务学习模型实现；所述多任务学习模型包括：共享特征提取模块、N个个性化特征提取模块和N个预测模块；

所述基于所述共享特征提取结果和目标历史行为序列对应的个性化特征提取结果对所述目标用户在目标内容的目标行为进行预测，获得预测结果，包括：

基于所述共享特征提取模块提供的共享特征提取结果和所述N个个性化特征提取模块中目标历史行为序列对应的个性化特征提取模块提供的个性化特征提取结果，通过目标预测模块预测所述目标用户在目标内容执行目标行为的概率；所述目标预测模块为所述N个预测模块中与所述目标行为对应的预测模块。

3.根据权利要求2所述的方法，其特征在于，所述多任务学习模型还包括：共享特征处理模块；

所述基于所述共享特征提取模块提供的共享特征提取结果和所述N个个性化特征提取模块中目标历史行为序列对应的个性化特征提取模块提供的个性化特征提取结果，通过目标预测模块预测所述目标用户在目标内容执行目标行为的概率，包括：

通过所述共享特征处理模块基于所述共享特征提取结果进行特征提取和调控，为所述N种行为分别生成对应的共享特征处理结果；

通过所述目标预测模块根据所述目标行为对应的共享特征处理结果和所述目标历史行为序列对应的个性化特征提取结果，预测所述目标用户在目标内容执行目标行为的概率。

4.根据权利要求3所述的方法，其特征在于，所述共享特征处理模块包括至少一层门控共享网络层；所述门控共享网络层包括共享专家网络、与所述N种行为一一对应的N个独立专家网络和N个独立门控网络；

所述共享专家网络用于基于所述N种行为的方向对所述共享特征提取结果进行学习；所述独立专家网络用于基于对应的待预测行为的方向对所述共享特征提取结果进行学习；所述独立门控网络用于对对应的所述独立专家网络的输出以及所述共享专家网络的输出进行权重控制，为对应的待预测行为生成所述共享特征处理结果。

5.根据权利要求4所述的方法，其特征在于，所述至少一层门控共享网络层包括第1层至第M层门控共享网络层，所述M为大于1的整数；第1层至第M-1层门控共享网络层还包括共享门控网络；所述共享门控网络用于对同一所述门控共享网络层中的所述N个独立专家网络的输出以及所述共享专家网络的输出进行权重控制；

所述共享特征提取结果作为第1层门控共享网络层中所述共享专家网络和N个所述独立专家网络的输入；

在第L层门控共享网络层中，所述共享门控网络的输出作为第L+1层门控共享网络层中所述共享专家网络的输入，所述独立门控网络的输出作为所述第L+1层门控共享网络层中所述独立专家网络的输入；所述L取1至M-1之间的整数；

所述第M层门控共享网络层中所述N个独立门控网络的输出作为为所述N种行为生成的所述共享特征处理结果。

6.根据权利要求2所述的方法，其特征在于，所述多任务学习模型为通过以下方式训练获得：

获取训练样本；所述训练样本包括样本目标对象的特征序列和用户的N种样本行为序列，所述N种样本行为序列与所述N种行为一一对应，所述样本行为序列指示了行为对象和行为顺序；所述样本目标对象和所述样本行为序列中指示的行为对象均与所述目标内容的内容类型相同；所述训练样本的标签包括在所述N种样本行为序列之后所述用户在所述样本目标对象执行所述N种行为的实际值；

通过待训练模型的共享特征提取模块对所述N种样本行为序列和所述样本目标对象的特征序列进行共享特征提取处理，获得样本共享特征提取结果；

通过所述待训练模型的N个个性化特征提取模块分别对所述N种样本行为序列进行个性化特征提取处理，获得所述N种样本行为序列一一对应的N个样本个性化特征提取结果；

基于所述样本共享特征提取结果和目标样本行为序列对应的样本个性化特征提取结果，通过所述待训练模型的N个预测模块中的目标预测模块预测所述用户在所述样本目标对象执行所述目标行为的概率；所述目标样本行为序列与所述目标行为对应；

当所述待训练模型未满足训练截止条件时，根据所述待训练模型预测的概率与所述标签中执行同一种行为的实际值之间的差别，对所述待训练模型的参数进行调整，直至所述训练截止条件满足。

7.根据权利要求6所述的方法，其特征在于，所述根据所述待训练模型预测的概率与所述标签中执行同一种行为的实际值之间的差别，对所述待训练模型的参数进行调整，包括：

通过预设损失函数获得所述N种行为分别对应的损失值；所述预设损失函数用于衡量同一种行为的预测结果与所述标签中的实际值之间的差别；

根据所述目标行为在所述预设损失函数的损失值变化和曲线下面积AUC的变化确定所述目标行为对应的动态权重；所述曲线为受试者工作特征ROC曲线；

根据N种行为分别对应的损失值和动态权重得到所述待训练模型的动态损失值；

根据所述动态损失值对所述待训练模型的参数进行调整。

8.根据权利要求7所述的方法，其特征在于，所述根据所述目标行为在所述预设损失函数的损失值变化和曲线下面积AUC的变化确定所述目标行为对应的动态权重，包括：

通过所述预设损失函数获得所述待训练模型的前一次训练时所述目标行为对应的损失值和AUC；

根据前一次训练时所述目标行为对应的损失值和本次训练所述目标行为对应的损失值得到第一变化系数；以及，根据前一次训练时所述目标行为对应的AUC和本次训练所述目标行为对应的AUC得到第二变化系数；所述第一变化系数用于表征所述目标行为在所述预设损失函数的损失值变化；所述第二变化系数用于表征所述目标行为在AUC的变化；

将所述目标行为的第一变化系数与第二变化系数相乘得到所述目标行为的总变化系数；

根据所述总变化系数获得所述目标行为对应的动态权重。

9.根据权利要求2所述的方法，其特征在于，所述个性化特征提取模块包括第三嵌入层和第二特征提取层；

所述第三嵌入层用于将所述N种历史行为序列中对应的历史行为序列降低维度并稠密化处理，得到序列个性化处理结果；

所述第二特征提取层用于根据所述序列个性化处理结果进行特征提取，获得所述个性化特征提取结果。

10.根据权利要求2所述的方法，其特征在于，还包括：获取所述目标用户的基础特征序列；所述共享特征提取模块包括N个第一嵌入层、第二嵌入层、第一特征提取层和连接层；

所述N个第一嵌入层分别用于将所述N种历史行为序列中对应的历史行为序列降低维度并稠密化处理，得到稠密行为特征；

所述第二嵌入层用于将所述目标内容的特征序列降低维度并稠密化处理，得到稠密内容特征；

所述第一特征提取层用于对所述基础特征序列进行特征提取得到所述目标用户的稠密基础特征；

所述连接层用于根据N个所述第一嵌入层分别输出的稠密行为特征、所述第二嵌入层输出的所述稠密内容特征和所述第一特征提取层输出的所述稠密基础特征进行合并，获得所述共享特征提取结果。

11.根据权利要求10所述的方法，其特征在于，所述共享特征提取模块还包括特征挖掘层；

所述特征挖掘层用于根据所述N个第一嵌入层分别输出的稠密行为特征和所述第二嵌入层输出的所述稠密内容特征进行特征挖掘；

所述连接层具体用于对所述特征挖掘层挖掘出的特征和所述稠密基础特征进行合并，获得所述共享特征提取结果。

12.根据权利要求1-11任一项所述的方法，其特征在于，还包括：

当根据预测出的所述目标用户在所述目标内容执行N种行为的概率确定所述目标内容符合推荐条件时，向所述目标用户推荐所述目标内容。

13.一种行为预测装置，其特征在于，包括：

第一获取单元，用于获取目标内容的特征序列；

第二获取单元，用于获取目标用户的N种历史行为序列，所述N种历史行为序列与N种行为一一对应，所述历史行为序列指示了行为对象和行为顺序；所述行为对象为与所述目标内容具有相同内容类型的内容；所述N为大于1的整数；

共享特征提取单元，用于基于所述N种历史行为序列和所述目标内容的特征序列进行共享特征提取处理，获得共享特征提取结果；

个性化特征提取单元，用于基于所述N种历史行为序列分别进行个性化特征提取处理，获得所述N种历史行为序列一一对应的N个个性化特征提取结果；

预测单元，用于基于所述共享特征提取结果和目标历史行为序列对应的个性化特征提取结果预测所述目标用户在目标内容执行目标行为的概率；所述目标历史行为序列为所述N种历史行为序列中任意一种历史行为序列，所述目标行为为所述N种行为中与所述目标历史行为序列对应的行为。

14.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-13任一项所述的行为预测方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-13任一项所述的行为预测方法。