CN115080836A

CN115080836A - 基于人工智能的信息推荐方法、装置、电子设备及存储介质

Info

Publication number: CN115080836A
Application number: CN202110262452.7A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2022-09-20

Abstract

本申请提供了一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质；方法包括：对目标推荐信息进行特征提取，得到目标推荐信息的多个模态的特征；对目标推荐信息的多个模态的特征进行融合，得到目标推荐信息的多模态融合特征；对多个候选用户的历史交互行为数据进行特征提取，得到每个候选用户的兴趣特征；将目标推荐信息的多模态融合特征与候选用户的兴趣特征进行相似度处理，得到目标推荐信息与候选用户之间的相似度；基于目标推荐信息与每个候选用户之间的相似度，从多个候选用户中确定与目标推荐信息匹配的目标用户；基于目标推荐信息执行对应目标用户的推荐操作。通过本申请，能够向用户推荐符合用户兴趣的推荐信息。

Description

基于人工智能的信息推荐方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

推荐系统是人工智能领域的重要应用之一，能够在信息过载的环境中帮助用户发现可能令他们感兴趣的信息，并将信息推送给对它们感兴趣的用户。

虽然，相关技术中的推荐系统可以从大量的待推荐信息中，确定出用户可能感兴趣的信息，并向用户推荐用户可能感兴趣的信息。但是，相关技术中的推荐系统向用户推荐的准确性有待提高。

发明内容

本申请实施例提供一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质，能够向用户推荐符合用户兴趣的推荐信息，提高推荐的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的信息推荐方法，包括：

对目标推荐信息进行特征提取处理，得到所述目标推荐信息的多个模态的特征；

对所述目标推荐信息的多个模态的特征进行融合处理，得到所述目标推荐信息的多模态融合特征；

对多个候选用户的历史交互行为数据进行特征提取处理，得到每个所述候选用户的兴趣特征；

将所述目标推荐信息的多模态融合特征与每个所述候选用户的兴趣特征进行相似度处理，得到所述目标推荐信息与每个所述候选用户之间的相似度；

基于所述目标推荐信息与每个所述候选用户之间的相似度，从所述多个候选用户中确定与所述目标推荐信息匹配的目标用户；

基于所述目标推荐信息执行对应所述目标用户的推荐操作。

本申请实施例提供一种信息推荐装置，包括：

第一提取模块，用于对目标推荐信息进行特征提取处理，得到所述目标推荐信息的多个模态的特征；

融合模块，用于对所述目标推荐信息的多个模态的特征进行融合处理，得到所述目标推荐信息的多模态融合特征；

第二提取模块，用于对多个候选用户的历史交互行为数据进行特征提取处理，得到每个所述候选用户的兴趣特征；

处理模块，用于将所述目标推荐信息的多模态融合特征与每个所述候选用户的兴趣特征进行相似度处理，得到所述目标推荐信息与每个所述候选用户之间的相似度；

筛选模块，用于基于所述目标推荐信息与每个所述候选用户之间的相似度，从所述多个候选用户中确定与所述目标推荐信息匹配的目标用户；

推荐模块，用于基于所述目标推荐信息执行对应所述目标用户的推荐操作。

上述技术方案中，所述装置还包括：

确定模块，用于从推荐信息库中获取待推荐信息；

当所述待推荐信息的行为数据大于行为数据阈值时，基于所述待推荐信息的行为数据执行信息推荐处理；

当所述待推荐信息的行为数据小于或者等于所述行为数据阈值时，将所述待推荐信息作为所述目标推荐信息。

上述技术方案中，当所述目标推荐信息为视频时，所述第一提取模块还用于对所述目标推荐信息中每个图像帧进行图像形式的编码处理，得到所述每个图像帧的向量表示，并对所述每个图像帧的向量表示进行融合处理，得到所述目标推荐信息的图像表示特征；

对所述目标推荐信息中每个音频帧进行音频形式的编码处理，得到所述每个音频帧的向量表示，并对所述每个音频帧的向量表示进行融合处理，得到所述目标推荐信息的音频表示特征；

对所述目标推荐信息中的每个文本进行文本形式的编码处理，得到所述每个文本的向量表示，并对所述每个文本的向量表示进行融合处理，得到所述目标推荐信息的文本表示特征；

将所述目标推荐信息的图像表示特征、所述音频表示特征以及所述文本表示特征作为所述目标推荐信息的多个模态的特征。

上述技术方案中，所述第一提取模块还用于针对所述目标推荐信息中每个音频帧执行以下处理：

对所述音频帧进行加窗处理，并对所述加窗处理后的音频特征进行傅里叶变换，得到所述音频帧的频域特征；

对所述频域特征的梅尔频带进行对数处理，得到所述音频帧的向量表示。

上述技术方案中，所述图像形式的编码处理是通过图像编码器实现的，所述图像编码器包括多个级联的编码层；所述第一提取模块还用于针对所述目标推荐信息中每个图像帧执行以下处理：

通过所述多个级联的编码层中的第一个编码层，对所述图像帧进行图像编码处理；

将所述第一个编码层的编码结果输出到后续级联的编码层，以在所述后续级联的编码层中继续进行图像编码处理和编码结果输出，直至输出到最后一个编码层，并

将所述最后一个编码层输出的编码结果作为所述图像帧的向量表示。

上述技术方案中，所述第一提取模块还用于通过第i个编码层执行以下处理：对第i-1个编码层输出的编码结果进行升维处理，得到升维的图像特征；

对所述升维的图像特征进行注意力处理，得到注意力特征；

对所述升维的图像特征进行降维处理，得到降维的图像特征；

将所述注意力特征与所述降维的图像特征进行乘积处理，并将所述乘积处理的结果与所述第i-1个编码层输出的编码结果进行加和处理，将所述加和处理的结果作为所述第i个编码层的编码结果；

将所述第i个编码层的编码结果输出到第i+1个编码层；

其中，i为大于1且小于N的正整数，N为所述多个级联的编码层的数量。

上述技术方案中，当所述目标推荐信息为视频时，所述多个模态的特征包括：文本表示特征、音频表示特征、图像表示特征；所述融合模块还用于将所述文本表示特征、所述音频表示特征、所述图像表示特征进行加和处理，将所述加和处理的结果作为所述目标推荐信息的多模态融合特征；或者，

将所述文本表示特征、所述音频表示特征、所述图像表示特征进行拼接处理，将所述拼接处理的结果作为所述目标推荐信息的多模态融合特征。

上述技术方案中，当所述目标推荐信息为视频时，所述多个模态的特征包括：文本表示特征、音频表示特征、图像表示特征；所述融合模块还用于对所述文本表示特征、所述音频表示特征、所述图像表示特征进行映射处理，得到所述目标推荐信息的中间特征向量；

对所述目标推荐信息的中间特征向量进行仿射变换，得到所述目标推荐信息的多模态融合特征。

上述技术方案中，所述第二提取模块还用于针对所述多个候选用户中的任一候选用户执行以下处理：

对所述候选用户的历史交互行为数据进行统计处理，得到所述候选用户的多个兴趣标签；

对所述候选用户的多个兴趣标签进行文本形式的编码处理，得到每个所述兴趣标签的向量表示；

基于所述多个兴趣标签的权重，对多个所述兴趣标签的向量表示进行加权求和处理，将所述加权求和处理的结果作为所述候选用户的兴趣特征。

上述技术方案中，所述特征提取处理是通过文本编码器实现的，所述文本编码器是通过兴趣标签预测训练得到的；所述装置还包括：

训练模块，用于通过所述文本编码器执行以下处理：

对用户样本的多个兴趣标签样本中的用于掩码的兴趣标签样本进行掩码处理，得到掩码后的兴趣标签样本；

对所述掩码后的兴趣标签样本、以及所述多个兴趣标签样本中未掩码的兴趣标签样本进行特征提取处理，得到所述用户样本的兴趣特征；

基于所述用户样本的兴趣特征进行兴趣预测处理，得到用于掩码的预测兴趣标签；

基于所述用于掩码的兴趣标签样本以及所述用于掩码的预测兴趣标签训练所述文本编码器，得到训练后的文本编码器。

上述技术方案中，所述处理模块还用于将所述目标推荐信息的文本表示特征与每个所述候选用户的兴趣特征进行相似度处理，得到所述目标推荐信息与每个所述候选用户之间的文本相似度；

将所述目标推荐信息的多模态融合特征与每个所述候选用户的兴趣特征进行相似度处理，得到所述目标推荐信息与每个所述候选用户之间的多模态相似度；

对所述文本相似度以及所述多模态相似度进行加权求和处理，将所述加权求和处理的结果作为所述目标推荐信息与每个所述候选用户之间的相似度。

上述技术方案中，所述筛选模块当所述目标推荐信息与所述候选用户之间的相似度大于相似度阈值时，将所述候选用户作为与所述目标推荐信息匹配的目标用户；或者，

基于所述目标推荐信息与所述候选用户之间的相似度，对所述多个候选用户进行降序排序，将所述降序排序在前的候选用户作为与所述目标推荐信息匹配的目标用户。

本申请实施例提供一种用于信息推荐的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于人工智能的信息推荐方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于人工智能的信息推荐方法。

本申请实施例具有以下有益效果：

通过综合目标推荐信息的多个模态的特征，以充分理解目标推荐信息，并结合候选用户的兴趣，从多个候选用户中确定与目标推荐信息匹配的目标用户，并基于目标推荐信息执行对应目标用户的推荐操作，从而向用户推荐符合用户兴趣的推荐信息，提高推荐的准确性。

附图说明

图1是本申请实施例提供的推荐系统的应用场景示意图；

图2是本申请实施例提供的用于信息推荐的电子设备的结构示意图；

图3-图5是本申请实施例提供的基于人工智能的信息推荐方法的流程示意图；

图6是本申请实施例提供的图像编码器的结构示意图；

图7是本申请实施例提供的编码层的结构示意图；

图8是本申请实施例提供的用户兴趣与多维度理解视频冷启动的流程示意图；

图9是本申请实施例提供的用户兴趣表示模型图；

图10是本申请实施例提供的视频多维度表示模型图；

图11是本申请实施例提供的用户兴趣-视频多维度关联兴趣相关度模型。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)目标用户：当前使用推荐系统的用户、即当前用户，例如用户A在使用文本推荐系统看新闻，则用户A为目标用户。

2)用户兴趣：用户在使用推荐系统时，所表现的行为倾向性。推荐系统会根据用户的一系列行为表现来确实用户的兴趣。

3)模态：每一种信息的来源或者形式，都可以称为一种模态，例如语音、视频、文本等形式的信息，每个形式的信息都可以称为一种模态的信息。模态可以区分为单模态与多模态；单模态为将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量，而多模态为通过利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示。

例如，推荐信息可以包括以下几个模态的信息：图像信息(即视频模态的信息)、语音信息(即音频模态的信息)、文本信息(即文本模态的信息)。

4)视频冷启动：当视频刚发布到视频站点时，此视频还没有足够的曝光以及历史用户行为数据用于推荐系统，这样的视频定义为冷视频，需要为冷视频进行冷启动，将这些视频曝光给合适的用户来获得用户行为，辅助后期精准推荐。

5)用户画像：又称用户角色，作为一种勾画目标用户、联系用户诉求与设计方向的有效工具。用户画像在各领域得到了广泛的应用，在实际操作的过程中，往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来，作为实际用户的虚拟代表。

本申请实施例提供了一种基于人工智能的信息推荐方法、装置、电子设备及计算机可读存储介质，能够向用户推荐符合用户兴趣的推荐信息，提高推荐的准确性。

本申请实施例所提供的基于人工智能的信息推荐方法，可以由终端或服务器独自实现；也可以由终端和服务器协同实现，例如终端独自承担下文所述的基于人工智能的信息推荐方法，或者，终端向服务器发送针对候选用户的信息推荐请求，服务器根据接收的针对候选用户的信息推荐请求执行基于人工智能的信息推荐方法，从多个候选用户中确定与目标推荐信息匹配的目标用户，并基于目标推荐信息执行对应目标用户的推荐操作。

本申请实施例提供的用于信息推荐的电子设备可以是各种类型的终端或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器；终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

以服务器为例，例如可以是部署在云端的服务器集群，向用户开放人工智能云服务(AI as a Service，AIaaS)，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务，这种服务模式类似于一个AI主题商城，所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

例如，其中的一种人工智能云服务可以为信息推荐服务，即云端的服务器封装有本申请实施例提供的信息推荐的程序。用户通过终端(运行有客户端，例如音乐客户端、视频客户端等)调用云服务中的信息推荐服务，以使部署在云端的服务器调用封装的信息推荐的程序，基于目标推荐信息的多模态融合特征与每个候选用户的兴趣特征，从多个候选用户中确定与目标推荐信息匹配的目标用户，并基于目标推荐信息执行对应目标用户的推荐操作，例如，对于视频应用，由于目标视频为冷视频(没有足够的行为数据)，无法基于目标视频的行为数据进行相关的推荐处理，从而基于候选用户的历史交互行为，确定候选用户的兴趣特征，基于目标视频的多模态融合特征与每个候选用户的兴趣特征，从多个候选用户中确定与目标视频匹配的目标用户，以向目标用户推荐该目标视频，从而将目标视频分发给符合兴趣需求的用户，快速获得用户行为数据，加快视频冷启动效率，提升后期基于用户行为进行视频推荐的效果。

参见图1，图1是本申请实施例提供的推荐系统10的应用场景示意图，终端(示例性示出终端200-1、终端200-2以及终端200-3)通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端(运行有客户端，例如音乐客户端、视频播放客户端、短视频客户端、即时通信客户端、学习客户端等)可以被用来获取针对候选用户的信息推荐请求，例如，当候选用户打开终端上运行的视频客户端后，终端自动获取针对候选用户的新闻推荐请求。

在一些实施例中，终端获取针对候选用户的信息推荐请求后，调用服务器100的信息推荐接口(可以提供为云服务的形式，即信息推荐服务)，服务器100基于针对候选用户的信息推荐请求，获取候选用户的历史交互行为数据，并进行特征提取处理，得到候选用户的兴趣特征，基于目标推荐信息的多模态融合特征与每个候选用户的兴趣特征，从多个候选用户中确定与目标推荐信息匹配的目标用户，并基于目标推荐信息执行对应目标用户的推荐操作，以响应针对候选用户的信息推荐请求。

作为一个应用示例，对于视频应用，由于目标视频为冷视频(没有足够的行为数据)，无法基于目标视频的行为数据进行相关的推荐处理，终端基于针对候选用户的视频推荐请求调用服务器的信息推荐接口，服务器基于针对候选用户的视频推荐请求，获取候选用户的历史交互行为数据，并进行特征提取处理，得到候选用户的兴趣特征，基于目标视频的多模态融合特征与每个候选用户的兴趣特征，从多个候选用户中确定与目标视频匹配的目标用户，并基于目标视频执行对应目标用户的推荐操作，以向目标用户推荐该目标视频，从而将目标视频分发给符合兴趣需求的用户，快速获得用户行为数据，加快视频冷启动效率，提升后期基于用户行为进行视频推荐的效果。

作为另一个应用示例，对于音乐应用，由于目标音乐为冷音乐(没有足够的曝光以及历史用户行为数据用于推荐)，无法基于目标音乐的行为数据进行相关的推荐处理，终端基于针对候选用户的音乐推荐请求调用服务器的信息推荐接口，服务器基于针对候选用户的音乐推荐请求，获取候选用户的历史交互行为数据，并进行特征提取处理，得到候选用户的兴趣特征，基于目标音乐的多模态融合特征与每个候选用户的兴趣特征，从多个候选用户中确定与目标音乐匹配的目标用户，并基于目标音乐执行对应目标用户的推荐操作，以向目标用户推荐该目标音乐，从而将目标音乐分发给符合兴趣需求的用户，快速获得用户行为数据，加快音乐冷启动效率，提升后期基于用户行为进行音乐推荐的效果。

下面说明本申请实施例提供的用于信息推荐的电子设备的结构，参见图2，图2是本申请实施例提供的用于信息推荐的电子设备500的结构示意图，以电子设备500是服务器为例说明，图2所示的用于信息推荐的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Onl y Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access M emory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

在一些实施例中，本申请实施例提供的基于人工智能的信息推荐装置可以采用软件方式实现，例如，可以通过上文所述的服务器中信息推荐服务的形式实现。当然，不局限于此，本申请实施例提供的基于人工智能的信息推荐装置可以提供为各种软件实施例，包括应用程序、软件、软件模块、脚本或代码在内的各种形式。

图2示出了存储在存储器550中的基于人工智能的信息推荐装置555，其可以是程序和插件等形式的软件，例如信息推荐插件，并包括一系列的模块，包括第一提取模块5551、融合模块5552、第二提取模块5553、处理模块5554、筛选模块5555、推荐模块5556、确定模块5557以及训练模块5558；其中，第一提取模块5551、融合模块5552、第二提取模块5553、处理模块5554、筛选模块5555、推荐模块5556、确定模块5557用于实现本申请实施例提供的信息推荐功能，训练模块5558用于训练文本编码器。

如前所述，本申请实施例提供的基于人工智能的信息推荐方法可以由各种类型的电子设备实施。参见图3，图3是本申请实施例提供的基于人工智能的信息推荐方法的流程示意图，结合图3示出的步骤进行说明。

在下面的步骤中，目标推荐信息以及待推荐信息可以是音频、视频等数据，例如，针对音乐应用，目标推荐信息可以为音频形式的数据，多个模态的特征包括：文本表示特征、音频表示特征；针对视频应用，目标推荐信息可以为视频形式的数据，则多个模态的特征包括：文本表示特征、音频表示特征、图像表示特征。

执行以下步骤之前，需要判断推荐信息是否是冷启动信息(推荐信息还没有足够的曝光以及行为数据用于推荐)，从推荐信息库中获取待推荐信息，当待推荐信息的行为数据大于行为数据阈值(例如，有效期内的播放次数大于X次，点赞次数大于Y次等，其中，X、Y为大于0的正整数)时，则说明该待推荐信息是热启动信息(有足够的曝光以及行为数据用于推荐)，从而可以基于待推荐信息的行为数据执行后续信息推荐处理；当待推荐信息的行为数据小于或者等于行为数据阈值时，则说明该待推荐信息是冷启动信息，将待推荐信息作为目标推荐信息，以执行以下步骤。

在步骤101中，对目标推荐信息进行特征提取处理，得到目标推荐信息的多个模态的特征。

其中，该目标推荐信息可以是视频，也可以是音频等媒体。例如，当该目标推荐信息是视频时，该视频的类型可以是电视剧、电影、综艺、音乐、游戏、动漫等类型。

例如，当目标推荐信息为视频时，对目标推荐信息中每个图像帧进行图像形式的编码处理，得到每个图像帧的向量表示，并对每个图像帧的向量表示进行融合处理，得到目标推荐信息的图像表示特征；对目标推荐信息中每个音频帧进行音频形式的编码处理，得到每个音频帧的向量表示，并对每个音频帧的向量表示进行融合处理，得到目标推荐信息的音频表示特征；对目标推荐信息中的每个文本进行文本形式的编码处理，得到每个文本的向量表示，并对每个文本的向量表示进行融合处理，得到目标推荐信息的文本表示特征；将目标推荐信息的图像表示特征、音频表示特征以及文本表示特征作为目标推荐信息的多个模态的特征。

参见图4，图4是本申请实施例提供的基于人工智能的信息推荐方法的一个可选的流程示意图，图4示出图3中的步骤101可以通过步骤1011-步骤1014实现：在步骤1011中，当目标推荐信息为视频时，对目标推荐信息中每个图像帧进行图像形式的编码处理，得到每个图像帧的向量表示，并对每个图像帧的向量表示进行融合处理，得到目标推荐信息的图像表示特征；在步骤1012中，对目标推荐信息中每个音频帧进行音频形式的编码处理，得到每个音频帧的向量表示，并对每个音频帧的向量表示进行融合处理，得到目标推荐信息的音频表示特征；在步骤1013中，对目标推荐信息中的每个文本进行文本形式的编码处理，得到每个文本的向量表示，并对每个文本的向量表示进行融合处理，得到目标推荐信息的文本表示特征；在步骤1014中，将目标推荐信息的图像表示特征、音频表示特征以及文本表示特征作为目标推荐信息的多个模态的特征。

例如，当目标推荐信息为视频时，通过分类模型(用户兴趣-视频多维度关联兴趣相关度模型)对目标推荐信息进行特征提取处理，得到目标推荐信息的图像表示特征、音频表示特征以及文本表示特征。其中，目标推荐信息的图像帧包括视频中的图像帧以及封面等多种图像，目标推荐信息的文本包括视频的标题、对白、字幕等多种文本。其中，用户兴趣-视频多维度关联兴趣相关度模型包括分类模型(视频多维度表示模型)，视频多维度表示模型可以通过文本编码器(轻量级来自变换器的双向编码器表征量(A LiteBidirectional Encoder Representations from Transformers，ALBERT)模型)、音频编码器(例如，用于音频特征编码的VGGish NeXtVlad模型)以及图像编码器(用于图像特征编码的EfficientNet NeXtVlad模型)。

其中，通过视频分类任务对视频多维度表示模型进行预训练，即通过视频多维度表示模型对视频样本进行特征提取处理，得到视频样本的图像表示特征、音频表示特征以及文本表示特征，基于视频样本的图像表示特征、音频表示特征以及文本表示特征进行分类处理，得到视频样本的预测视频类型，基于视频样本的预测视频类型以及视频类型标签，确定视频多维度表示模型的损失函数的值后，可以判断视频多维度表示模型的损失函数的值是否超出预设阈值，当视频多维度表示模型的损失函数的值超出预设阈值时，基于视频多维度表示模型的损失函数确定视频多维度表示模型的误差信号，将误差信息在视频多维度表示模型中反向传播，并在传播的过程中更新各个层的模型参数。

这里，对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛。其中，视频多维度表示模型属于神经网络模型。

在一些实施例中，对目标推荐信息中每个音频帧进行音频形式的编码处理，得到每个音频帧的向量表示，包括：针对目标推荐信息中每个音频帧执行以下处理：对音频帧进行加窗处理，并对加窗处理后的音频特征进行傅里叶变换，得到音频帧的频域特征；对频域特征的梅尔频带进行对数处理，得到音频帧的向量表示。

例如，通过VGGish NeXtVlad模型具体的编码的过程如下：1)将音频帧重采样为单声道音频；2)使用汉明窗进行加窗，并进行短时傅里叶变换得到频谱图(频域特征)；3)通过将频谱图映射滤波器组中计算梅尔声谱(梅尔频带)；4)对梅尔频带进行对数处理，得到音频帧的向量表示。

在一些实施例中，图像形式的编码处理是通过图像编码器实现的，图像编码器包括多个级联的编码层；对目标推荐信息中每个图像帧进行图像形式的编码处理，得到每个图像帧的向量表示，包括：针对目标推荐信息中每个图像帧执行以下处理：通过多个级联的编码层中的第一个编码层，对图像帧进行图像编码处理；将第一个编码层的编码结果输出到后续级联的编码层，以在后续级联的编码层中继续进行图像编码处理和编码结果输出，直至输出到最后一个编码层，并将最后一个编码层输出的编码结果作为图像帧的向量表示。

如图6所示，将图像帧输入至图像编码器的第1个编码层，通过第1个编码层对图像帧进行编码处理，得到第1个编码层的编码结果；将第1个编码层的编码结果输入至第2个编码层，通过第2个编码层对第1个编码层的编码结果的编码结果进行编码处理，得到第2个编码层的编码结果，依次进行编码处理，通过第N个编码层对第N-1个编码层的编码结果进行编码处理，得到图像帧的向量表示，其中，N为多个级联的编码层的数量。通过级联的编码处理，能够渐进式地学习图像帧的特征，以通过向量表示准确地表征图像特征。

在一些实施例中，在后续级联的编码层中继续进行图像编码处理和编码结果输出，包括：通过第i个编码层执行以下处理：对第i-1个编码层输出的编码结果进行升维处理，得到升维的图像特征；对升维的图像特征进行注意力处理，得到注意力特征；对升维的图像特征进行降维处理，得到降维的图像特征；将注意力特征与降维的图像特征进行乘积处理，并将乘积处理的结果与第i-1个编码层输出的编码结果进行加和处理，将加和处理的结果作为第i个编码层的编码结果；将第i个编码层的编码结果输出到第i+1个编码层；其中，i为大于1且小于N的正整数。

如图7所示，编码层是通过移动翻转瓶颈卷积(MBConv，Mobile inverte dBottleneck Convolution)模块实现的，MBConv模块引入有压缩与激发网络(SENet，Squeeze-and-Excitation Network)的注意力思想，能够更好地学习图像特征。其中，MBConv模块包括升维、降维、注意力功能，升维处理是通过如图7所示的卷积、批归一化(BatchNormlation)、激活(Swish函数)深度可分离卷积(Depthwise Convolution)、批归一化以及激活(Swish函数)实现的，注意力处理是通过全局池化、卷积、激活(Swish函数)、卷积以及激活(Sigm oid函数)实现的，降维处理是通过卷积、批归一化以及采样(Dropout函数)实现的。

在步骤102中，对目标推荐信息的多个模态的特征进行融合处理，得到目标推荐信息的多模态融合特征。

其中，当目标推荐信息为音频时，对音频的文本表示特征、音频表示特征进行融合，得到音频的多模态特征；当目标推荐信息为视频时，对音频的文本表示特征、音频表示特征以及图像表示特征进行融合，得到视频的多模态特征。通过融合多个模态的特征，以得到包含多个模态的多模态融合特征，从而融合多种维度的特征，以通过多种维度的特征更好地表征目标推荐信息，以便后续进行准确的信息推荐。

例如，当目标推荐信息为视频时，多个模态的特征包括：文本表示特征、音频表示特征、图像表示特征，将文本表示特征、音频表示特征、图像表示特征进行加和处理，将加和处理的结果作为目标推荐信息的多模态融合特征，以通过简单的加和操作实现融合处理，节省计算资源。

例如，当目标推荐信息为视频时，多个模态的特征包括：文本表示特征、音频表示特征、图像表示特征，将文本表示特征、音频表示特征、图像表示特征进行拼接处理，将拼接处理的结果作为目标推荐信息的多模态融合特征，以通过简单的拼接操作实现融合处理，节省计算资源。

例如，当目标推荐信息为视频时，多个模态的特征包括：文本表示特征、音频表示特征、图像表示特征；对文本表示特征、音频表示特征、图像表示特征进行映射处理，得到目标推荐信息的中间特征向量，对目标推荐信息的中间特征向量进行仿射变换，得到目标推荐信息的多模态融合特征，以通过层层递减的映射处理得到准确的多模态融合特征。其中，仿射变换的公式为

表示中间特征向量，

表示多模态融合特征，A、

表示学习参数。

在步骤103中，对多个候选用户的历史交互行为数据进行特征提取处理，得到每个候选用户的兴趣特征。

其中，由于目标推荐视频没有足够的行为数据，因此需要基于候选用户的历史交互行为数据进行特征，得到候选用户的兴趣特征(兴趣表示)，以通过兴趣特征表征候选用户的兴趣偏向，以便后续基于候选用户的兴趣特征以及目标视频的多模态特征进行用户筛选处理，确定出合适的目标用户进行信息推荐。

参见图5，图5是本申请实施例提供的基于人工智能的信息推荐方法的一个可选的流程示意图，图5示出图3中的步骤103可以通过步骤1031-步骤1033实现：在步骤1031中，针对多个候选用户中的任一候选用户执行以下处理：对候选用户的历史交互行为数据进行统计处理，得到候选用户的多个兴趣标签；在步骤1032中，对候选用户的多个兴趣标签进行文本形式的编码处理，得到每个兴趣标签的向量表示；在步骤1033中，基于多个兴趣标签的权重，对多个兴趣标签的向量表示进行加权求和处理，将加权求和处理的结果作为候选用户的兴趣特征。

例如，通过引入用户的兴趣权重区分兴趣度，通过这种方式可以对用户兴趣进行更加精准建模表示来表征用户的偏好。其中，历史交互行为数据包括播放、点击、点赞等交互数据，通过对候选用户的历史交互行为数据进行统计，可以得到候选用户的多个兴趣标签，例如，当候选用户在有效期内播放综艺视频的次数超过5次，则确定候选用户包括综艺这一兴趣标签。

在一些实施例中，特征提取处理是通过文本编码器实现的，文本编码器是通过兴趣标签预测训练得到的；方法还包括：通过文本编码器执行以下处理：对用户样本的多个兴趣标签样本中的用于掩码的兴趣标签样本进行掩码处理，得到掩码后的兴趣标签样本；对掩码后的兴趣标签样本、以及多个兴趣标签样本中未掩码的兴趣标签样本进行特征提取处理，得到用户样本的兴趣特征；基于用户样本的兴趣特征进行兴趣预测处理，得到用于掩码的预测兴趣标签；基于用于掩码的兴趣标签样本以及用于掩码的预测兴趣标签训练文本编码器，得到训练后的文本编码器。

如图9所示，对文本编码器是通过以下步骤实现：先通过输入层对用于掩码的兴趣标签样本进行掩码处理(例如对兴趣标签2进行掩码处理)，得到掩码后的兴趣标签样本，并对掩码后的兴趣标签样本、以及多个兴趣标签样本中未掩码的兴趣标签样本进行特征提取处理，得到用户样本的兴趣特征，基于用户样本的兴趣特征进行兴趣预测处理，得到用于掩码的预测兴趣标签(例如，得到预测的兴趣标签2)，基于用于掩码的兴趣标签样本以及用于掩码的预测兴趣标签，确定文本编码器的损失函数的值后，可以判断文本编码器的损失函数的值是否超出预设阈值，当文本编码器的损失函数的值超出预设阈值时，基于文本编码器的损失函数确定文本编码器的误差信号，将误差信息在文本编码器中反向传播，并在传播的过程中更新各个层的模型参数。

在步骤104中，将目标推荐信息的多模态融合特征与每个候选用户的兴趣特征进行相似度处理，得到目标推荐信息与每个候选用户之间的相似度。

例如，在得到目标推荐信息的多模态融合特征与每个候选用户的兴趣特征后，确定目标推荐信息的多模态融合特征与每个候选用户的兴趣特征的相似度，并将目标推荐信息的多模态融合特征与每个候选用户的兴趣特征的相似度作为目标推荐信息与每个候选用户之间的相似度，从而确定每个候选用户对目标推荐信息的兴趣或偏好，以便后续从多个候选用户中确定与目标推荐信息匹配的目标用户。

在一些实施例中，从多个候选用户中确定与目标推荐信息匹配的目标用户之前，还包括：将目标推荐信息的文本表示特征与每个候选用户的兴趣特征进行相似度处理，得到目标推荐信息与每个候选用户之间的文本相似度；将目标推荐信息的多模态融合特征与每个候选用户的兴趣特征进行相似度处理，得到目标推荐信息与每个候选用户之间的相似度，包括：将目标推荐信息的多模态融合特征与每个候选用户的兴趣特征进行相似度处理，得到目标推荐信息与每个候选用户之间的多模态相似度；对文本相似度以及多模态相似度进行加权求和处理，将加权求和处理的结果作为目标推荐信息与每个候选用户之间的相似度。

例如，由于用户的兴趣特征主要表示为文本形式，因此还可以将目标推荐信息的文本表示特征与每个候选用户的兴趣特征进行相似度处理，得到目标推荐信息与每个候选用户之间的文本相似度，将目标推荐信息的多模态融合特征与每个候选用户的兴趣特征进行相似度处理，得到目标推荐信息与每个候选用户之间的多模态相似度，基于文本相似度的权重以及多模态相似度的权重，对文本相似度以及多模态相似度进行加权求和处理，将加权求和处理的结果作为目标推荐信息与每个候选用户之间的相似度，从而从多方面的相似度表征目标推荐信息与每个候选用户之间的相似度，以得到精确的目标推荐信息与每个候选用户之间的相似度，以便后续进行准确的信息推荐。

在步骤105中，基于目标推荐信息与每个候选用户之间的相似度，从多个候选用户中确定与目标推荐信息匹配的目标用户。

例如，当目标推荐信息与候选用户之间的相似度大于相似度阈值时，将候选用户作为与目标推荐信息匹配的目标用户；还可以基于目标推荐信息与候选用户之间的相似度，对多个候选用户进行降序排序，将降序排序在前的候选用户作为与目标推荐信息匹配的目标用户，比如，按照目标推荐信息与候选用户之间的相似度由大到小的顺序，对100个候选用户进行降序排序，可以将排序在前的40个候选用户作为与目标推荐信息匹配的目标用户。

在步骤106中，基于目标推荐信息执行对应目标用户的推荐操作。

例如，在确定与目标推荐信息匹配的目标用户后，将目标推荐信息分发至目标用户，从而将目标推荐信息曝光给符合兴趣需求的用户，为目标推荐信息快速构建用户行为，以快速获得用户行为数据，提升后期基于用户行为进行信息推荐的效果，使得后期信息推荐更加精准，同时降低了无效的信息曝光，降低对用户的推荐干扰。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

相关技术中，视频冷启动的方案是通过将冷启动视频与用户历史观看视频计算相似度，将冷启动视频分发给观看过类似视频的用户，从而能够在信息过载的环境中帮助用户发现可能令他们感兴趣的视频，并将视频推送给对它们感兴趣的用户。

申请人在实现本申请实施例的过程中发现，相关技术中的视频冷启动方案没有针对视频多维度内容进行充分理解，同时没有将用户的兴趣与视频多维度(多模态)内容进行充分联合建模，不能很好的捕获用户兴趣与视频内容的兴趣度，导致冷启动效率较低。

为了解决上述问题，本申请实施例提供一种用户兴趣与多维度理解视频冷启动方法，通过对用户兴趣与视频多维度内容进行联合建模，基于视频多维度内容充分对需要冷启动视频进行理解，将冷启动视频曝光给符合兴趣需求的用户，从而通过合适用户对新冷启动视频的交互行为，为新冷启动视频快速构建用户行为，以快速获得用户行为数据，加快视频冷启动效率，提升后期基于用户行为进行视频推荐的效果，为平台的视频推荐效果起到正向作用，使后期视频推荐更加精准，同时降低了无效新冷视频曝光，降低对用户的推荐干扰。

如图8所示，本申请实施例提供的用户兴趣与多维度理解视频冷启动方法包括如下步骤所述：

步骤1)构建用户兴趣表示模型(文本编码器)

通过对用户兴趣画像进行深度学习，通过轻量级来自变换器的双向编码器表征量(A Lite Bidirectional Encoder Representations from Transformers，AL BERT)模型对用户画像进行建模。如图9所示，ALBERT模型的输入层将用户的部分兴趣MASK掉，ALBERT模型输出层预测被MASK掉的兴趣标签，同时引入用户兴趣权重区分兴趣度，通过这种方式可以对用户兴趣进行更加精准建模表示来表征用户。用户兴趣标签及相应权重通过在用户历史的播放行为上进行迭代统计。

上述ALBERT模型通过在用户兴趣标签数据上进行预训练，使ALBERT模型具备输入用户兴趣，返回用户兴趣表示(兴趣特征)的功能。ALBERT模型后期作为用户兴趣-视频多维度表示关联兴趣表示模型的子模块继续进行训练学习，通过这种方式可使用户兴趣表示模型学习更加充分，后期与视频多维度表示模型进行联合学习时能够更加快速收敛。

步骤2)构建视频多维度表示模型(分类模型)

通过对视频的文本内容(标题、自动语音识别(ASR，Automatic SpeechRecognition)的对白文本、光学字符识别(OCR，Optical Character Recognitio n)的字幕文本)、音频内容、封面图与视频图像帧图像内容进行多维度联合建模学习，如图10所示，对视频内容进行充分理解，避免通过单一维度对视频内容捕获不全面造成的理解不准确问题。

通过在视频分类任务上对上述多维度内容表示进行预训练，使视频多维度表示模型具备输入视频文本、音频、图像特征，返回视频多维度表示的能力。视频多维度表示模型后期作为用户兴趣-视频多维度表示关联兴趣表示模型的子模块继续进行训练学习，以加速收敛。

步骤3)构建用户兴趣-视频多维度关联兴趣相关度模型

如图11所示，通过对上述步骤1)中的用户兴趣表示模型、步骤2)中的视频多维度表示模型进行联合学习，构建用户兴趣与视频多维度内容之间的相关性关系表示。

通过将视频多维度向量表示与用户兴趣表示交互，在用户是否感兴趣的视频数据集上进行模型训练，将视频的多维度表示与用户的兴趣表示构建相似关系，即用户的兴趣表示向量与视频的多维度表示向量相似度表征用户对视频的兴趣度。用户是否感兴趣的视频数据集基于平台的大量用户的曝光或播放记录进行自动构建，并推荐给用户的视频，如果用户的播放完成度高于一定阈值或者一定时长，则认为用户对此视频感兴趣；如果用户没有播放某视频，或者播放时长或完成度低于一定阈值，则认为用户对此视频不感兴趣。

如图11中所示，因为用户的兴趣表示为文本形式，所以对视频的文本特征表示与用户兴趣相关度进行了强化，同时对用户兴趣与视频文本表示进行了交互，即将视频文本表示与用户的兴趣表示构建相似关系，并与用户兴趣与视频多维度表示交互同时进行兴趣-内容相关度学习。

通过上述图11所示模型，对用户兴趣与视频多维度内容进行了联合关联兴趣学习，使其中的用户兴趣表示子模型与视频多维度表示子模型具备兴趣相关性表示能力，为后期基于用户兴趣表示向量与视频多维度表示向量构建冷启动策略提供基础。

步骤4)为平台用户与冷启动视频库分别构建向量检索库

为平台的用户获取各自的兴趣标签，通过图11所示的用户兴趣模型构建用户兴趣表示，为平台的用户兴趣表示构建向量检索库。另外，对平台的新的冷启动视频库，获取文本、音频、图像模态特征，通过上述图11中的视频多维度表示模型分别构建多维度表示与文本表示向量，然后分别构建视频冷启动文本表示向量检索索引和多维度表示向量检索索引，用于后期视频冷启动分发实现。

步骤5)基于用户兴趣表示与视频多维度表示相关性实现视频冷启动分发

为冷启动视频库中的每个视频搜索合适的用户进行曝光，即确定兴趣度满足一定兴趣度阈值的用户，提升冷启动视频的曝光有效率。用户对视频的冷启动兴趣度＝x1*用户兴趣表示与视频多维度表示向量相似度(UVM)+x2*用户兴趣表示与视频文本表示向量相似度(UVT)，其中x1表示UVM的权重，x2表示UVT的权重，其中，x1+x2＝1.0。通过使用用户兴趣向量检索库、视频多维度表示向量检索索引获取上述的UVM兴趣度、视频文本表示向量检索索引获取上述UVT兴趣度。待冷启动视频获得的用户行为数据满足阈值时，例如曝光量满足X次、播放次数满足Y次，将冷启动视频从冷启动视频库中移出。

综上，本申请实施例提出一种用户兴趣与多维度理解视频冷启动方法，通过对用户兴趣与视频多维度内容进行充分联合建模，将冷启动视频更加准确地分发给合适用户，使得冷启动视频更加快速获得用户行为数据，提升冷启动效率，同时降低无效冷启动分发对用户的干扰影响，为后期视频推荐提供行为数据支持，提升视频推荐效果。

至此已经结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的基于人工智能的信息推荐方法。本申请实施例还提供信息推荐装置，实际应用中，信息推荐装置中的各功能模块可以由电子设备(如终端设备、服务器或服务器集群)的硬件资源，如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)、存储器协同实现。图2示出了存储在存储器550中的信息推荐装置555，其可以是程序和插件等形式的软件，例如，软件C/C++、Java等编程语言设计的软件模块、C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块、应用程序接口、插件、云服务等实现方式，下面对不同的实现方式举例说明。

示例一、信息推荐装置是移动端应用程序及模块

本申请实施例中的信息推荐装置555可提供为使用软件C/C++、Java等编程语言设计的软件模块，嵌入到基于Android或iOS等系统的各种移动端应用中(以可执行指令存储在移动端的存储介质中，由移动端的处理器执行)，从而直接使用移动端自身的计算资源完成相关的信息推荐任务，并且定期或不定期地通过各种网络通信方式将处理结果传送给远程的服务器，或者在移动端本地保存。

示例二、信息推荐装置是服务器应用程序及平台

本申请实施例中的信息推荐装置555可提供为使用C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块，运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储，并由服务器端的处理器运行)，服务器使用自身的计算资源完成相关的信息推荐任务。

本申请实施例还可以提供为在多台服务器构成的分布式、并行计算平台上，搭载定制的、易于交互的网络(Web)界面或其他各用户界面(UI，User Interface)，形成供个人、群体或单位使用的信息推荐平台(用于推荐列表)等。

示例三、信息推荐装置是服务器端应用程序接口(API，Application ProgramInterface)及插件

本申请实施例中的信息推荐装置555可提供为服务器端的API或插件，以供用户调用，以执行本申请实施例的基于人工智能的信息推荐方法，并嵌入到各类应用程序中。

示例四、信息推荐装置是移动设备客户端API及插件

本申请实施例中的信息推荐装置555可提供为移动设备端的API或插件，以供用户调用，以执行本申请实施例的基于人工智能的信息推荐方法。

示例五、信息推荐装置是云端开放服务

本申请实施例中的信息推荐装置555可提供为向用户开发的信息推荐云服务，供个人、群体或单位进行信息推荐。

其中，信息推荐装置555包括一系列的模块，包括第一提取模块5551、融合模块5552、第二提取模块5553、处理模块5554、筛选模块5555、推荐模块5556、确定模块5557以及训练模块5558。下面继续说明本申请实施例提供的信息推荐装置555中各个模块配合实现信息推荐的方案。

第一提取模块5551，用于对目标推荐信息进行特征提取处理，得到所述目标推荐信息的多个模态的特征；融合模块5552，用于对所述目标推荐信息的多个模态的特征进行融合处理，得到所述目标推荐信息的多模态融合特征；第二提取模块5553，用于对多个候选用户的历史交互行为数据进行特征提取处理，得到每个所述候选用户的兴趣特征；处理模块5554，用于将所述目标推荐信息的多模态融合特征与每个所述候选用户的兴趣特征进行相似度处理，得到所述目标推荐信息与每个所述候选用户之间的相似度；筛选模块5555，用于基于所述目标推荐信息与每个所述候选用户之间的相似度，从所述多个候选用户中确定与所述目标推荐信息匹配的目标用户；推荐模块5556，用于基于所述目标推荐信息执行对应所述目标用户的推荐操作。

在一些实施例中，所述信息推荐装置555还包括：确定模块5557，用于从推荐信息库中获取待推荐信息；当所述待推荐信息的行为数据大于行为数据阈值时，基于所述待推荐信息的行为数据执行信息推荐处理；当所述待推荐信息的行为数据小于或者等于所述行为数据阈值时，将所述待推荐信息作为所述目标推荐信息。

在一些实施例中，当所述目标推荐信息为视频时，所述第一提取模块5551还用于对所述目标推荐信息中每个图像帧进行图像形式的编码处理，得到所述每个图像帧的向量表示，并对所述每个图像帧的向量表示进行融合处理，得到所述目标推荐信息的图像表示特征；对所述目标推荐信息中每个音频帧进行音频形式的编码处理，得到所述每个音频帧的向量表示，并对所述每个音频帧的向量表示进行融合处理，得到所述目标推荐信息的音频表示特征；对所述目标推荐信息中的每个文本进行文本形式的编码处理，得到所述每个文本的向量表示，并对所述每个文本的向量表示进行融合处理，得到所述目标推荐信息的文本表示特征；将所述目标推荐信息的图像表示特征、所述音频表示特征以及所述文本表示特征作为所述目标推荐信息的多个模态的特征。

在一些实施例中，所述第一提取模块5551还用于针对所述目标推荐信息中每个音频帧执行以下处理：对所述音频帧进行加窗处理，并对所述加窗处理后的音频特征进行傅里叶变换，得到所述音频帧的频域特征；对所述频域特征的梅尔频带进行对数处理，得到所述音频帧的向量表示。

在一些实施例中，所述图像形式的编码处理是通过图像编码器实现的，所述图像编码器包括多个级联的编码层；所述第一提取模块5551还用于针对所述目标推荐信息中每个图像帧执行以下处理：通过所述多个级联的编码层中的第一个编码层，对所述图像帧进行图像编码处理；将所述第一个编码层的编码结果输出到后续级联的编码层，以在所述后续级联的编码层中继续进行图像编码处理和编码结果输出，直至输出到最后一个编码层，并将所述最后一个编码层输出的编码结果作为所述图像帧的向量表示。

在一些实施例中，所述第一提取模块5551还用于通过第i个编码层执行以下处理：对第i-1个编码层输出的编码结果进行升维处理，得到升维的图像特征；对所述升维的图像特征进行注意力处理，得到注意力特征；对所述升维的图像特征进行降维处理，得到降维的图像特征；将所述注意力特征与所述降维的图像特征进行乘积处理，并将所述乘积处理的结果与所述第i-1个编码层输出的编码结果进行加和处理，将所述加和处理的结果作为所述第i个编码层的编码结果；将所述第i个编码层的编码结果输出到第i+1个编码层；其中，i为大于1且小于N的正整数，N为所述多个级联的编码层的数量。

在一些实施例中，当所述目标推荐信息为视频时，所述多个模态的特征包括：文本表示特征、音频表示特征、图像表示特征；所述融合模块5552还用于将所述文本表示特征、所述音频表示特征、所述图像表示特征进行加和处理，将所述加和处理的结果作为所述目标推荐信息的多模态融合特征；或者，将所述文本表示特征、所述音频表示特征、所述图像表示特征进行拼接处理，将所述拼接处理的结果作为所述目标推荐信息的多模态融合特征。

在一些实施例中，当所述目标推荐信息为视频时，所述多个模态的特征包括：文本表示特征、音频表示特征、图像表示特征；所述融合模块5552还用于对所述文本表示特征、所述音频表示特征、所述图像表示特征进行映射处理，得到所述目标推荐信息的中间特征向量；对所述目标推荐信息的中间特征向量进行仿射变换，得到所述目标推荐信息的多模态融合特征。

在一些实施例中，所述第二提取模块5553还用于针对所述多个候选用户中的任一候选用户执行以下处理：对所述候选用户的历史交互行为数据进行统计处理，得到所述候选用户的多个兴趣标签；对所述候选用户的多个兴趣标签进行文本形式的编码处理，得到每个所述兴趣标签的向量表示；基于所述多个兴趣标签的权重，对多个所述兴趣标签的向量表示进行加权求和处理，将所述加权求和处理的结果作为所述候选用户的兴趣特征。

在一些实施例中，所述特征提取处理是通过文本编码器实现的，所述文本编码器是通过兴趣标签预测训练得到的；所述信息推荐装置555还包括：训练模块5558，用于通过所述文本编码器执行以下处理：对用户样本的多个兴趣标签样本中的用于掩码的兴趣标签样本进行掩码处理，得到掩码后的兴趣标签样本；对所述掩码后的兴趣标签样本、以及所述多个兴趣标签样本中未掩码的兴趣标签样本进行特征提取处理，得到所述用户样本的兴趣特征；基于所述用户样本的兴趣特征进行兴趣预测处理，得到用于掩码的预测兴趣标签；基于所述用于掩码的兴趣标签样本以及所述用于掩码的预测兴趣标签训练所述文本编码器，得到训练后的文本编码器。

在一些实施例中，所述处理模块5554还用于将所述目标推荐信息的文本表示特征与每个所述候选用户的兴趣特征进行相似度处理，得到所述目标推荐信息与每个所述候选用户之间的文本相似度；将所述目标推荐信息的多模态融合特征与每个所述候选用户的兴趣特征进行相似度处理，得到所述目标推荐信息与每个所述候选用户之间的多模态相似度；对所述文本相似度以及所述多模态相似度进行加权求和处理，将所述加权求和处理的结果作为所述目标推荐信息与每个所述候选用户之间的相似度。

在一些实施例中，所述筛选模块5555当所述目标推荐信息与所述候选用户之间的相似度大于相似度阈值时，将所述候选用户作为与所述目标推荐信息匹配的目标用户；或者，基于所述目标推荐信息与所述候选用户之间的相似度，对所述多个候选用户进行降序排序，将所述降序排序在前的候选用户作为与所述目标推荐信息匹配的目标用户。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本申请实施例上述的基于人工智能的信息推荐方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的信息推荐方法，例如，如图3-图5示出的基于人工智能的信息推荐方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的信息推荐方法，其特征在于，所述方法包括：

基于所述目标推荐信息执行对应所述目标用户的推荐操作。

2.根据权利要求1所述的方法，其特征在于，所述对目标推荐信息进行特征提取处理之前，还包括：

从推荐信息库中获取待推荐信息；

3.根据权利要求1所述的方法，其特征在于，当所述目标推荐信息为视频时，所述对目标推荐信息进行特征提取处理，得到所述目标推荐信息的多个模态的特征，包括：

对所述目标推荐信息中每个图像帧进行图像形式的编码处理，得到所述每个图像帧的向量表示，并对所述每个图像帧的向量表示进行融合处理，得到所述目标推荐信息的图像表示特征；

4.根据权利要求3所述的方法，其特征在于，所述对所述目标推荐信息中每个音频帧进行音频形式的编码处理，得到所述每个音频帧的向量表示，包括：

针对所述目标推荐信息中每个音频帧执行以下处理：

5.根据权利要求3所述的方法，其特征在于，

所述图像形式的编码处理是通过图像编码器实现的，所述图像编码器包括多个级联的编码层；

所述对所述目标推荐信息中每个图像帧进行图像形式的编码处理，得到所述每个图像帧的向量表示，包括：

针对所述目标推荐信息中每个图像帧执行以下处理：

6.根据权利要求5所述的方法，其特征在于，所述在所述后续级联的编码层中继续进行图像编码处理和编码结果输出，包括：

通过第i个编码层执行以下处理：对第i-1个编码层输出的编码结果进行升维处理，得到升维的图像特征；

对所述升维的图像特征进行注意力处理，得到注意力特征；

将所述第i个编码层的编码结果输出到第i+1个编码层；

7.根据权利要求1所述的方法，其特征在于，

当所述目标推荐信息为视频时，所述多个模态的特征包括：文本表示特征、音频表示特征、图像表示特征；

所述对所述目标推荐信息的多个模态的特征进行融合处理，得到所述目标推荐信息的多模态融合特征，包括：

将所述文本表示特征、所述音频表示特征、所述图像表示特征进行加和处理，将所述加和处理的结果作为所述目标推荐信息的多模态融合特征；或者，

8.根据权利要求1所述的方法，其特征在于，

对所述文本表示特征、所述音频表示特征、所述图像表示特征进行映射处理，得到所述目标推荐信息的中间特征向量；

9.根据权利要求1所述的方法，其特征在于，所述对多个候选用户的历史交互行为数据进行特征提取处理，得到每个所述候选用户的兴趣特征，包括：

针对所述多个候选用户中的任一候选用户执行以下处理：

10.根据权利要求9所述的方法，其特征在于，

所述特征提取处理是通过文本编码器实现的，所述文本编码器是通过兴趣标签预测训练得到的；

所述方法还包括：

通过所述文本编码器执行以下处理：

11.根据权利要求1所述的方法，其特征在于，

所述从所述多个候选用户中确定与所述目标推荐信息匹配的目标用户之前，还包括：

将所述目标推荐信息的文本表示特征与每个所述候选用户的兴趣特征进行相似度处理，得到所述目标推荐信息与每个所述候选用户之间的文本相似度；

所述将所述目标推荐信息的多模态融合特征与每个所述候选用户的兴趣特征进行相似度处理，得到所述目标推荐信息与每个所述候选用户之间的相似度，包括：

12.根据权利要求1所述的方法，其特征在于，所述基于所述目标推荐信息与每个所述候选用户之间的相似度，从所述多个候选用户中确定与所述目标推荐信息匹配的目标用户，包括：

当所述目标推荐信息与所述候选用户之间的相似度大于相似度阈值时，将所述候选用户作为与所述目标推荐信息匹配的目标用户；或者，

13.一种基于人工智能的信息推荐装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的基于人工智能的信息推荐方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时实现权利要求1至12任一项所述的基于人工智能的信息推荐方法。