CN116610871B

CN116610871B - 媒体数据的推荐方法、装置、计算机设备和存储介质

Info

Publication number: CN116610871B
Application number: CN202310880240.4A
Authority: CN
Inventors: 饶家华; 单子非; 刘龙坡; 周瑶
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2024-01-26
Anticipated expiration: 2043-07-18
Also published as: CN116610871A

Abstract

本申请涉及一种媒体数据的推荐方法、装置、计算机设备、存储介质和计算机程序产品。所述方法可以应用于人工智能领域，如应用于通过智能终端确定目标对象感兴趣的目标媒体数据的场景；所述方法包括：从媒体数据和对应的描述文本中，提取出媒体表示向量和文本表示向量；依据媒体表示向量在知识图谱中进行知识检索，得到媒体数据对应的实体子图，并确定实体子图对应的实体表示向量；对媒体表示向量、文本表示向量和实体表示向量进行特征融合处理，得到知识增强向量；基于知识增强向量获取目标媒体数据，并向目标对象推荐目标媒体数据。采用本方法可以提升媒体数据推荐效果。

Description

媒体数据的推荐方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种媒体数据的推荐方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着互联网技术的发展，媒体浏览越来越受广大对象的喜爱。在相关技术中，推荐系统可以根据对象观看过的媒体内容，确定对象可能感兴趣的其他媒体，确定的对象可能感兴趣的其他媒体，多为与观看过的媒体内容相似度较高的媒体，容易导致推荐单一化。

发明内容

基于此，有必要针对上述技术问题，提供一种媒体数据的推荐方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，能够提升媒体数据推荐效果。

第一方面，本申请提供了一种媒体数据的推荐方法。所述方法包括：

从媒体数据和对应的描述文本中，提取出媒体表示向量和文本表示向量；依据媒体表示向量在知识图谱中进行知识检索，得到媒体数据对应的实体子图，并确定实体子图对应的实体表示向量；对媒体表示向量、文本表示向量和实体表示向量进行特征融合处理，得到知识增强向量；基于知识增强向量获取目标媒体数据，并向目标对象推荐目标媒体数据。

第二方面，本申请还提供了一种媒体数据的推荐装置。所述装置包括：

向量提取模块，用于从媒体数据和对应的描述文本中，提取出媒体表示向量和文本表示向量；

第一知识检索模块，用于依据媒体表示向量在知识图谱中进行知识检索，得到媒体数据对应的实体子图，并确定实体子图对应的实体表示向量；

第一融合模块，用于对媒体表示向量、文本表示向量和实体表示向量进行特征融合处理，得到知识增强向量；

推荐模块，用于基于知识增强向量获取目标媒体数据，并向目标对象推荐目标媒体数据。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述媒体数据的推荐方法、装置、计算机设备、存储介质和计算机程序产品，从媒体数据和对应的描述文本中，提取媒体表示向量和文本表示向量，根据媒体表示向量在知识图谱中检索得到实体子图，并确定实体子图对应的实体表示向量，对媒体表示向量、文本表示向量和实体表示向量进行特征融合处理，得到知识增强向量，基于知识增强向量获取向目标对象推荐目标媒体数据；通过媒体表示向量在知识图谱中检索得到与媒体数据的内容相关的实体子图，进而基于实体子图可以得到与媒体数据的内容相关的实体表示向量，将媒体表示向量、文本表示向量和实体表示向量融合得到知识增强向量，使得知识增强向量可以反映媒体数据和描述文本的内容，以及与媒体数据的内容相关的实体信息，因此基于知识增强向量，可以得到内容与媒体数据相似，并且实体与媒体数据的实体相关的目标媒体数据，提升了目标媒体数据与媒体数据的相关性，进而目标媒体数据可能是目标对象感兴趣的媒体数据，提升了媒体推荐效果。

第六方面，本申请提供了一种推荐模型的处理方法。所述方法包括：

基于特征提取模型，从第一样本媒体数据和对应的第一样本文本中，提取出第一媒体训练向量和第一文本训练向量；基于知识检索模型，对第一媒体训练向量和知识图谱进行知识检索处理，得到第一样本媒体数据对应的训练子图，并确定训练子图对应的实体训练向量；基于知识增强模型，对第一媒体训练向量、第一文本训练向量和实体训练向量进行特征融合处理，得到知识增强训练向量；依据知识增强训练向量和样本标签，确定视觉损失值和语言损失值；依据知识增强训练向量和训练子图，确定知识检索损失值；基于视觉损失值、语言损失值和知识检索损失值，调整特征提取模型、知识检索模型和知识增强模型的参数，得到增强向量提取模型；基于增强向量提取模型和分类模型确定推荐模型；推荐模型用于依据媒体数据、描述文本和知识图谱提取知识增强向量，基于知识增强向量确定兴趣类型，以使得基于兴趣类型获取目标媒体数据，向目标对象推荐目标媒体数据。

第七方面，本申请还提供了一种推荐模型的处理装置。所述装置包括：

训练向量提取模块，用于基于特征提取模型，从第一样本媒体数据和对应的第一样本文本中，提取出第一媒体训练向量和第一文本训练向量；

第二知识检索模块，用于基于知识检索模型，对第一媒体训练向量和知识图谱进行知识检索处理，得到第一样本媒体数据对应的训练子图，并确定训练子图对应的实体训练向量；

第二融合模块，用于基于知识增强模型，对第一媒体训练向量、第一文本训练向量和实体训练向量进行特征融合处理，得到知识增强训练向量；

第一损失值确定模块，用于依据知识增强训练向量和样本标签，确定视觉损失值和语言损失值；

第二损失值确定模块，用于依据知识增强训练向量和训练子图，确定知识检索损失值；

参数调整模块，用于基于视觉损失值、语言损失值和知识检索损失值，调整特征提取模型、知识检索模型和知识增强模型的参数，得到增强向量提取模型；

推荐模型确定模块，用于基于增强向量提取模型和分类模型确定推荐模型；推荐模型用于依据媒体数据、描述文本和知识图谱提取知识增强向量，基于知识增强向量确定兴趣类型，以使得基于兴趣类型获取目标媒体数据，向目标对象推荐目标媒体数据。

第八方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第九方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第十方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述推荐模型的处理方法，通过特征提取模型提取第一媒体训练向量和第一文本训练向量，根据第一媒体训练向量在知识图谱中检索得到实体训练向量，对第一媒体训练向量、第一文本训练向量和实体训练向量进行特征融合处理，得到知识增强训练向量，即在知识图谱中检索与第一媒体样本数据的相关实体，将相关实体对应的实体训练向量、第一媒体训练向量和第一文本量融合，实现多模态数据交互，增强第一媒体样本数据、第一文本样本和相关实体的表示，提升了知识增强训练向量的质量；联合视觉损失值、语言损失值和知识检索损失值调整特征提取模型、知识检索模型和知识增强模型的参数，使得在参数调整的过程中，可以学习到与第一媒体样本数据和第一文本样本的内容信息，还可以学习到与第一媒体样本数据相关的实体信息，提升了训练得到的增强向量提取模型的质量，进而提升了包括增强向量提取模型的推荐模型的质量，基于推荐模型确定向目标对象推荐目标媒体数据，可以提升媒体推荐效果。

附图说明

图1为一个实施例中媒体数据的推荐方法的应用环境图；

图2为一个实施例中媒体数据的推荐方法的流程示意图；

图3为一个实施例中提取媒体表示向量的示意图；

图4为一个实施例中提取文本表示向量的示意图；

图5为一个实施例中，基于媒体数据、描述文本和知识图谱确定目标媒体数据的示意图；

图6为一个实施例中确定实体表示向量的示意图；

图7为一个实施例中确定知识增强向量的示意图；

图8为一个实施例中推荐模型的结构示意图；

图9为另一个实施例中，媒体数据的推荐方法的示意图；

图10为一个实施例中推荐模型的处理方法的示意图；

图11为一个实施例中确定第一媒体训练向量的示意图；

图12为一个实施例中确定第一文本训练向量的示意图；

图13为一个实施例中增强向量提取模型的训练过程中，确定知识增强训练向量的示意图；

图14为另一个实施例中推荐模型的处理方法的示意图；

图15为一个实施例中媒体数据的推荐装置的结构框图；

图16为一个实施例中推荐模型的处理装置的结构框图；

图17为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的媒体数据的推荐方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。媒体数据的推荐方法，可以通过终端102执行，也可以通过服务器104执行，还可以通过终端102和服务器104协同执行。

以媒体数据的推荐方法通过服务器104执行为例，服务器104可以从媒体数据和对应的描述文本中，提取出媒体表示向量和文本表示向量；服务器104可以依据媒体表示向量在知识图谱中进行知识检索，得到媒体数据对应的实体子图，并确定实体子图对应的实体表示向量；服务器104可以对媒体表示向量、文本表示向量和实体表示向量进行特征融合处理，得到知识增强向量；服务器104还可以基于知识增强向量获取目标媒体数据，并向目标对象推荐目标媒体数据。

其中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调和智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。

服务器104可以是独立的物理服务器，也可以是区块链系统中的服务节点，该区块链系统中的各服务节点之间形成组成点对点（P2P，Peer To Peer）网络，P2P协议是一个运行在传输控制协议（TCP，Transmission Control Protocol）协议之上的应用层协议。

此外，服务器104还可以是多个物理服务器构成的服务器集群，可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端102与服务器104之间可以通过蓝牙、USB(Universal Serial Bus，通用串行总线）或者网络等通讯连接方式进行连接，本申请在此不做限制。

在一些实施例中，如图2所示，提供了一种媒体数据的推荐方法，该方法由图1中的服务器或终端执行，也可以由图1中的服务器和终端协同执行，以该方法由图1中的服务器执行为例进行说明，包括以下步骤：

步骤202，从媒体数据和对应的描述文本中，提取出媒体表示向量和文本表示向量。

其中，媒体数据是目标对象正在浏览的媒体数据，也可以是目标对象浏览过的媒体数据，媒体数据具体可以是视频、图像或直播间；目标对象指的是用户。需要说明的是，在媒体数据的推荐中，用户正在浏览的媒体数据或浏览过的媒体数据，可能是用户感兴趣的媒体数据，根据媒体可能感兴趣的媒体数据进行推荐，可以提升确定推荐的媒体数据与用户喜好的适配度。

描述文本用于描述媒体数据的内容；示例性地，媒体数据是视频，比如视频内容是小猫吃鱼，该视频的描述文本可以是：“新买的小鱼干到了，小猫吃得真香”，示例性地，媒体数据是图片，比如图片内容是棒球比赛中的投手投球，该图片的描述文本可以是：“棒球运动员投球”。

媒体表示向量是对媒体数据进行特征提取所得的，用于反映媒体数据的内容；文本表示向量是对描述文本进行特征提取所得的，用于反映描述文本的内容。

在一些实施例中，服务器可以获取目标对象正在浏览的媒体数据，以及该媒体数据的描述文本，服务器也可以获取目标对象浏览过的媒体数据，以及媒体数据的描述文本，服务器可以通过特征提取模型，从媒体数据中提取媒体表示向量，从描述文本中提取文本表示向量。

示例性地，服务器将媒体数据和描述文本输入至特征提取模型，通过特征提取模型提取媒体数据的媒体表示向量，提取描述文本的文本表示向量。

在一些实施例中，步骤202包括：通过图像特征提取模型对媒体数据进行特征提取，得到媒体表示向量；通过文本特征提取模型，从媒体数据对应的描述文本中提取文本表示向量。

其中，图像特征提取模型包括第一自注意力层和视觉前馈层；文本特征提取模型包括第二自注意力层和文本前馈层。

在一些实施例中，如图3所示，将媒体数据输入至图像特征提取模型，通过第一自注意力层输出媒体数据对应的初始表示向量，通过视觉前馈层对媒体数据对应的初始表示向量进行处理，得到媒体表示向量。

在一些实施例中，如图4所示，将描述文本输入至文本特征提取模型，通过第二自注意力层输出描述文本对应的初始表示向量，通过文本前馈层对描述文本对应的初始表示向量进行处理，得到文本表示向量。

在上述实施例中，通过图像特征提取模型，提取媒体数据的媒体表示向量，通过文本特征提取模型，提取描述文本的文本表示向量，使得媒体表示向量可以反映媒体数据的内容，文本表示向量可以反映描述文本的内容，提升了媒体表示向量和文本表示向量的质量。

在一些实施例中，通过图像特征提取模型对媒体数据进行特征提取，得到媒体表示向量，包括：当媒体数据为视频时，通过图像特征提取模型提取视频中各图像帧的特征，得到媒体表示向量；当媒体数据为图像时，通过图像特征提取模型，对图像的各图像块进行特征提取，得到媒体表示向量。

其中，各图像帧可以是视频中的部分图像帧，各图像帧的数量可以是第一预设数量，图像帧的尺寸可以是预设尺寸。第一预设数量和预设尺寸均可以根据实际需求设定，本申请实施例对第一预设数量和预设尺寸不进行限定。

其中，各图像块可以是对图像进行切分所得的，各图像块的数量可以是第一预设数量，图像块的尺寸可以是预设尺寸，即图像块的尺寸与图像帧的尺寸相同，各图像块的数量与各图像帧的数量相同。

在一些实施例中，当媒体数据为视频时，服务器可以在视频中采样得到第一预设数量张图像帧，并对第一预设数量张图像帧进行填充或者裁切处理，使得第一预设数量张图像帧的尺寸均为预设尺寸；服务器将第一预设数量张图像帧输入至图像表征提取模型，通过图像表征提取模型输出媒体表示向量，媒体表示向量包括各图像帧分别对应的图像子表示向量。

在一些实施例中，当媒体数据为图像时，服务器可以将图像切分为第一预设数量个图像块，对第一预设数量个图像块进行填充或者裁切处理，使得第一预设数量个图像块的尺寸均为预设尺寸；服务器将第一预设数量个图像块输入至图像表征提取模型，通过图像表征提取模型输出媒体表示向量，媒体表示向量包括各图像块分别对应的图像子表示向量。

在一些实施例中，媒体数据还可以是直播间，当媒体数据是直播间时，通过图像特征提取直播间中各直播画面帧的特征，得到媒体表示向量。

其中，各直播画面帧可以是直播间已播放的画面中的部分画面帧，各直播画面帧的数量可以是第一预设数量，直播画面帧的尺寸可以是预设尺寸。

在上述实施例中，媒体数据可以是视频，也可以是图像，使得媒体数据的推荐方法可以适用于浏览视频或浏览图像以推荐目标媒体数据的场景，提升了媒体数据的推荐方法的适用性。

步骤204，依据媒体表示向量在知识图谱中进行知识检索，得到媒体数据对应的实体子图，并确定实体子图对应的实体表示向量。

其中，知识图谱包括多个实体，以及各实体之间的关系；知识图谱属于节点连线图，节点对应实体，节点之间的连线对应节点之间的关系；通过知识图谱可以获取到多组实体关系；示例性地，可以从知识图谱中获取实体关系：{E1,r1,E2},E1是第一实体，E2是第二实体，r1是第一实体和第二实体之间的实体关系，比如第一实体是球类，第二实体是乒乓球，关系是所属关系；在节点连线图中，E1和E2对应节点，r1对应E1和E2之间的连线。

在实际应用中，知识图谱可以是浏览媒体数据的应用后台所构建的，示例性地，目标对象在即时通信应用中浏览媒体数据，知识图谱是即时通信应用后台构建的。

其中，实体子图是知识图谱的部分图谱，实体子图涉及多个实体，该多个实体是知识图谱包括的所有实体中的部分实体，实体子图可以用于反映知识图谱中该多个实体之间的关系。

示例性地，知识图谱包括的所有实体分别为：E1,E2,E3,……,En，假设实体子图包括的各实体分别为：E1,E2,……,Eu，实体子图用于反映知识图谱中E1,E2,……,Eu之间的关系。

实体表示向量用于反映实体子图中多个实体以及多个实体之间的关系。

在一些实施例中，服务器确定知识图谱中各实体的表示向量，依据各实体表示向量和媒体表示向量，在知识图谱的各实体中，选取与媒体数据相关的各实体，根据与媒体数据相关的各实体，以及该各实体在知识图谱中的关系，确定媒体数据对应的实体子图，服务器对实体子图进行特征提取，得到实体表示向量。

在一些实施例中，服务器依据各实体表示向量和媒体表示向量，在知识图谱的各实体中，选取与媒体数据相关的各实体，可以是服务器确定媒体表示向量分别与各实体表示向量之间的相似度，按照相似度从大到小的顺序，对各实体表示向量进行排序，得到实体表示向量序列，在实体表示向量序列选取排列在前第二预设数量的各目标实体表示向量，将各目标实体表示向量各自对应的实体作为与媒体数据相关的各实体。

在一些实施例中，在服务器确定与媒体数据相关的各实体之后，可以在知识图谱中获取各实体的各邻居实体，根据各实体、各邻居实体以及各实体和各邻居实体在知识图谱中的关系，确定媒体数据对应的实体子图。

步骤206，对媒体表示向量、文本表示向量和实体表示向量进行特征融合处理，得到知识增强向量。

其中，知识增强向量是在媒体表示向量和文本表示向量中，融合实体的知识信息所得的。

在一些实施例中，服务器可以获取媒体表示向量、文本表示向量和实体表示向量各自对应的预设权重，依据媒体表示向量、文本表示向量、实体表示向量、媒体表示向量对应的预设权重、文本表示向量对应的预设权重和实体表示向量对应的预设权重进行加权求和，得到知识增强向量。

需要说明的是，媒体表示向量对应的预设权重、文本表示向量对应的预设权重和实体表示向量对应的预设权重的总和为1，当媒体表示向量对应的预设权重、文本表示向量对应的预设权重和实体表示向量对应的预设权重均相同时，相当于对媒体表示向量、文本表示向量和实体表示向量求平均。

在一些实施例中，服务器可以将媒体表示向量和文本表示向量拼接，得到第一拼接向量，服务器通过自注意力网络对第一拼接向量进行特征提取，得到第一融合向量；服务器获取第一融合向量和文本表示向量各自对应的权重，依据第一融合向量和文本表示向量各自对应的权重，对第一融合向量和文本表示向量进行加权处理，得到知识增强向量。

在一些实施例中，服务器可以将媒体表示向量和实体表示向量拼接，得到第二拼接向量，将文本表示向量和实体表示向量拼接，得到第三拼接向量；通过自注意力网络对第二拼接向量进行特征提取，得到第二融合向量，通过自注意力网络对第三拼接向量进行特征提取，得到第三融合向量；服务器获取第二融合向量和第三融合向量各自对应的权重，依据第二融合向量和第三融合向量各自对应的权重，对第二融合向量和第三融合向量进行加权处理，得到知识增强向量。

在一些实施例中，服务器将媒体表示向量、文本表示向量和实体表示向量拼接，得到拼接向量，通过自注意力网络对拼接向量进行特征提取，得到知识增强向量。

在一些实施例中，服务器依据媒体表示向量、文本表示向量、实体表示向量以及各自对应的预设权重，对媒体表示向量、文本表示向量和实体表示向量进行加权求和，得到融合向量；通过自注意力网络对融合向量进行特征提取，得到知识增强向量。

步骤208，基于知识增强向量获取目标媒体数据，并向目标对象推荐目标媒体数据。

其中，目标媒体数据是向目标对象推荐的媒体数据。

在一些实施例中，由于知识增强向量是在媒体表示向量和文本表示向量中，融合实体的知识信息所得的，知识增强向量可以反映媒体数据和描述文本的内容，以及与媒体数据相关的实体信息，因此基于知识增强向量获取目标媒体数据，可以得到内容与媒体数据和描述文本相关，以及实体与媒体数据相关的目标媒体数据。

在一些实施例中，步骤208包括：对知识增强向量进行分类处理，得到目标对象的兴趣类型；依据兴趣类型获取目标媒体数据，并向目标对象推荐目标媒体数据。

其中，兴趣类型是目标对象可能感兴趣的类型，兴趣类型的数量可以是一个或多个；目标媒体数据的数量可以是一个或多个。

在一些实施例中，服务器将知识增强向量输入至分类模型，通过分类模型得到各预设类型各自对应的预测概率，在各预设概率中选取目标概率，选取的目标概率大于未选取的预设概率；将选取的目标概率对应的预设类型，作为目标对象的兴趣类型。需要说明的是，选取的目标概率为一个时，确定的兴趣类型为一个，选取的目标概率为多个时，确定的兴趣类型为多个。

当兴趣类型为一个时，服务器可以在兴趣类型对应的各候选媒体数据中，选取目标媒体数据；具体地，服务器获取各候选媒体数据的热度值，可以在各候选媒体数据中选取热度值最大的候选媒体数据，作为目标媒体数据，也可以在各候选媒体数据中选取热度值较大的多个候选媒体数据，作为目标媒体数据；目标媒体数据的热度值，大于未选取的候选媒体数据的热度值；在实际应用中，候选媒体数据的热度值可以根据候选媒体数据的观看量、评论量和点赞量确定的。

当兴趣类型有多个时，服务器可以在各兴趣类型各自对应的各候选媒体数据中，选取各兴趣类型各自对应的目标媒体数据，得到多个目标媒体数据。

当目标媒体数据为一个时，服务器可以将目标媒体数据发送至目标对象浏览媒体数据所使用的终端；当目标对象在浏览媒体数据的过程中，触发切换下一媒体数据的操作时，终端可以播放目标媒体数据。

当目标媒体数据为多个时，服务器可以依据热度值从大到小的顺序，对多个目标媒体数据进行排序，得到目标媒体数据列表，将目标媒体数据列表发送目标对象浏览媒体数据所使用的终端；终端可以在媒体数据对应浏览页面的推荐区域中，显示目标媒体数据列表，终端响应于针对目标媒体数据列表中任一目标媒体数据的触发操作，播放接收触发操作的目标媒体数据；当目标对象在浏览媒体数据的过程中，触发切换下一媒体数据的操作时，终端可以播放目标媒体数据列表中排列在第一位的目标媒体数据。

在上述实施例中，对知识增强向量确定目标对象的兴趣类型，可以得到内容与媒体数据和描述文本相关、实体与媒体数据相关的目标媒体数据，提升了目标媒体数据与媒体数据的相关性，进而目标媒体数据可能是目标对象感兴趣的媒体数据，提升了媒体推荐效果。

示例性地，如图5所示，服务器提取媒体数据的媒体表示向量，提取媒体数据对应描述文本的文本表示向量，根据媒体表示向量在知识图谱中检索，得到实体子图，并确定实体子图对应的实体表示向量，服务器将媒体表示向量、文本表示向量和实体表示向量进行融合，得到知识增强向量，基于知识增强向量获取目标媒体数据，并向目标对象推荐目标媒体数据。

在上述媒体数据的推荐方法中，从媒体数据和对应的描述文本中，提取媒体表示向量和文本表示向量，根据媒体表示向量在知识图谱中检索得到实体子图，并确定实体子图对应的实体表示向量，对媒体表示向量、文本表示向量和实体表示向量进行特征融合处理，得到知识增强向量，基于知识增强向量获取向目标对象推荐目标媒体数据；通过媒体表示向量在知识图谱中检索得到与媒体数据的内容相关的实体子图，进而基于实体子图可以得到与媒体数据的内容相关的实体表示向量，将媒体表示向量、文本表示向量和实体表示向量融合得到知识增强向量，使得知识增强向量可以反映媒体数据和描述文本的内容，以及与媒体数据的内容相关的实体信息，因此基于知识增强向量，可以得到内容与媒体数据相似，并且实体与媒体数据的实体相关的目标媒体数据，提升了目标媒体数据与媒体数据的相关性，进而目标媒体数据可能是目标对象感兴趣的媒体数据，提升了媒体推荐效果。

在一些实施例中，依据媒体表示向量在知识图谱中进行知识检索，得到媒体数据对应的实体子图，并确定实体子图对应的实体表示向量，包括：基于媒体表示向量，在知识图谱中检索与媒体数据相关的目标实体；基于目标实体和知识图谱，确定媒体数据对应的实体子图；提取实体子图中各实体的特征，得到实体表示向量。

其中，目标实体是知识图谱中的部分且与媒体数据的内容相关的实体，也可以理解为媒体数据的实体。示例性地，媒体数据是图像，图像的内容是棒球运动员在运动场上投球，则目标实体可以包括但不限于：棒球、运动员、投球和运动场。

其中，实体表示向量包括实体子图中各实体各自对应实体子表示向量。

在一些实施例中，服务器获取知识图谱中各初始实体向量，确定媒体表示向量分别与各初始实体向量之间的相关度，在媒体表示向量分别与各初始实体向量之间的相关度中，选取候选相关度，将候选相关度对应初始实体向量所对应的实体，作为与媒体数据相关的目标实体。

在媒体表示向量分别与各初始实体向量之间的相关度中，选取候选相关度，可以是，将媒体表示向量分别与各初始实体向量之间的相关度按照从大到小的顺序排列，得到初始相关度序列，在初始相关度序列中选取排列在前的第三预设数量个候选相关度。

在一些实施例中，基于目标实体和知识图谱，确定媒体数据对应的实体子图，可以是根据知识图谱确定目标实体之间的关系，根据目标实体以及目标实体之间的关系，确定实体子图。

在一些实施例中，基于目标实体和知识图谱，确定媒体数据对应的实体子图，可以是在知识图谱中确定目标实体的邻居节点，根据目标实体和邻居节点确定扩展实体，在知识图谱中确定扩展实体之间的关系，根据扩展实体以及扩展实体之间的关系，确定实体子图。

其中，扩展实体目标实体和邻居节点；目标实体的邻居节点可以是目标实体的一阶邻居节点，也可以是目标实体的一阶邻居节点和二阶邻居节点。

示例性地，知识图谱包括的实体可以表示为：{E1,E2,……,En}，依据媒体表示向量V在{E1,E2,……,En}中检索与媒体相关的各目标实体：{E1,E2,……,Eq}，在知识图谱中确定各目标实体的一阶邻居节点，实现对目标实体的扩充，得到扩展实体：{E1,E2,……,Eu}，根据知识图谱中的扩展实体{E1,E2,……,Eu}建实体子图G。

服务器对实体子图进行特征提取，得到实体子图中各实体各自对应的实体子表示向量，根据实体子图中各实体各自对应的实体子表示向量确定实体特征表示向量。

在上述实施例中，通过媒体表示向量，在知识图谱中检索与媒体数据相关的目标实体，进而根据目标实体确定媒体实体对应的实体子图，由于实体子图包括目标实体和目标实体之间的关系，根据实体子图确定实体表示向量，使得实体表示向量可以更准确地反映媒体数据中的实体，提升了实体表示向量的准确度。

在一些实施例中，媒体表示向量包括至少两个图像子表示向量；基于媒体表示向量，在知识图谱中检索与媒体数据相关的目标实体，包括：获取知识图谱中各初始实体向量；依据各初始实体向量和至少两个图像子表示向量，在知识图谱中检索候选实体；在候选实体中，选取媒体数据对应的目标实体。

其中，初始实体向量是知识图谱中各实体的表示向量；初始实体向量可以通过编码器预先确定。

其中，当媒体数据为图像时，媒体表示向量是对划分图像所得的各图像块进行特征提取所得的，进而至少两个图像子表示向量，是至少两个图像块各自对应的图像子表示向量；当媒体数据为视频时，媒体表示向量是视频中各图像帧进行特征提取所得的，进而至少两个图像子表示向量，是至少两个图像帧各自对应的图像子表示向量。

在一些实施例中，对于每个初始实体向量，确定该初始实体向量分别与每个图像子表示向量之间的相关度，根据该初始实体向量分别与每个图像子表示向量之间的相关度，确定候选实体。

根据该初始实体向量分别与每个图像子表示向量之间的相关度，确定候选实体，可以是确定初始实体向量分别与每个图像子表示向量之间的相关度中，是否存在至少一个相关度属于预设区间，若存在，则确定该初始实体向量对应的实体为候选实体，若不存在，则确定该初始实体向量对应的实体不是候选实体。

其中，属于预设区间的相关度大于不属于预设区间的相关度，预设区间可以根据实际需求设定，本申请实施例对预设区间的具体范围不进行限定。

在一些实施例中，对于每个图像子表示向量，确定该图像子表示向量分别与每个初始实体向量之间的相关度，根据该图像子表示向量分别与每个初始实体向量之间的相关度，确定候选实体。

根据该图像子表示向量分别与每个初始实体向量之间的相关度，确定候选实体，可以是根据该图像子表示向量分别与每个初始实体向量之间的相关度，确定图像子表示向量对应的相关度集合，在该图像子表示向量对应的相关度集合中，选取较高的各相关度，将较高的各相关度各自对应的初始实体向量，作为与该图像子表示向量相关的初始实体向量，进而将与该图像子表示向量相关的初始实体向量对应的实体，作为与该图像子表示向量相关的候选实体。

在该图像子表示向量对应的相关度集合中，选取较高的各相关度，可以是在相关度集合中，按照相关度从大到小的顺序选取第四预设数量个相关度。第四预设数量可以根据实际需求设定，本申请实施例对第四预设数量的具体取值不进行限定。

在一些实施例中，在知识图谱中检索得到候选实体之后，根据候选实体分别与每个图像子表示向量对应的相关度，确定候选实体的候选相关度；服务器按照候选相关度从大到小的顺序，对候选实体进行排序得到候选实体序列，在候选实体序列中，选取排列在前的第五预设数量个候选实体，将第五预设数量个候选实体作为媒体数据对应的目标实体。其中，第五预设数量可以根据实际需求设定，本申请实施例对第五预设数量的具体取值不进行限定。

根据候选实体分别与每个图像子表示向量对应的相关度，确定候选实体的候选相关度，可以是在候选实体分别与每个图像子表示向量对应的相关度中，确定较大者作为候选实体的候选相关度。

在上述实施例中，根据知识图谱中初始实体向量和至少两个图像子表示向量，在知识图谱中检索与图像子表示向量相关的候选实体，在与图像子表示向量相关的候选实体中，选取与媒体数据相关的目标实体，使得确定的目标实体与媒体数据对应的各图像子表示向量相关，进而目标实体可以反映媒体数据的内容，提升了检索与媒体数据相关的目标实体的准确度。

在一些实施例中，依据各初始实体向量和至少两个图像子表示向量，在知识图谱中检索候选实体，包括：依据各初始实体向量和各至少两个图像子表示向量，确定至少两个图像子表示向量分别对应的相关度集合；相关度集合包括图像子表示向量分别与初始实体向量之间的相关度；依据相关度集合，在知识图谱中选取与至少两个图像子表示向量相关的候选实体。

其中，与至少两个图像子表示向量相关的候选实体，包括与每个图像子表示向量相关的候选实体。

在一些实施例中，对于每个图像子表示向量，服务器确定该图像子表示向量分别与各初始实体向量之间的相关度，依据该图像子表示向量分别与各初始实体向量之间的相关度，确定该图像子表示向量对应的相关度集合。

示例性地，确定图像子表示向量与初始实体向量之间的相关度，如公式（1）所示。

公式（1）：；

其中，是图像子表示向量，/>是图像子表示向量的转置向量，是初始实体向量，/>是图像子表示向量与初始实体向量之间的相关度。

服务器将相关度集合中的各相关度按照从大到小的顺序排列，在排序后的相关度集合中，选取排列在前的第六预设数量个目标相关度，获取该第六预设数量个目标相关度各自对应的初始实体表示向量，将获取的各初始实体表示向量分别对应的实体，作为与该图像子表示向量相关的候选实体。

示例性地，假设媒体表示向量包括s个图像子表示向量，第六预设数量为t，则可以得到s*t个候选实体。

在上述实施例中，在每个图像子表示向量对应的相关度集合中，获取较高的相关度，根据较高的相关度选取与图像子表示向量相关的候选实体，使得候选实体可以反映图像子表示向量对应的内容，提升选取的候选实体的准确度。

在一些实施例中，基于媒体表示向量，在知识图谱中检索与媒体数据相关的各目标实体，包括：通过知识检索模型的检索子模型，基于媒体表示向量在知识图谱中检索与媒体数据相关的目标实体；基于目标实体和知识图谱，确定媒体数据对应的实体子图，包括：通过知识检索模型的子图构建网络，基于各目标实体和知识图谱，确定媒体数据对应的实体子图；提取实体子图中各实体的特征，得到实体表示向量，包括：通过知识检索模型的图神经网络，提取实体子图中各实体的特征，得到实体表示向量。

其中，知识检索模型包括检索子模型、子图构建网络和图神经网络；如图6所示，服务器将媒体表示向量和知识图谱输入至检索子模型，通过检索子模型检索得到与媒体数据相关的目标实体；将目标实体和知识图谱输入至子图构建网络，通过子图构建网络输出媒体数据对应的实体子图；将实体子图输入至图神经网络，通过图神经网络提取实体子图中各实体的特征，得到实体表示向量。

在一些实施例中，检索子模型可以对知识图谱中的各实体进行编码，得到各实体分别对应的初始实体向量，并根据初始实体向量与媒体表示向量中各图像子表示向量，确定各图像子表示向量各自对应的相关度集合，依据相关度集合，在知识图谱中选取与各图像子表示向量相关的候选实体，在各候选实体中，选取媒体数据对应的目标实体。

将目标实体和知识图谱输入至子图构建网络，子图构建网络可以在知识图谱中获取目标实体的邻居节点，根据目标实体和邻居节点确定扩展实体，在知识图谱中确定扩展实体之间的关系，根据扩展实体以及扩展实体之间的关系，确定实体子图。

对于实体子图中的每个实体，根据该实体在实体子图中随机游走，得到该实体对应的节点轨迹图，将该节点轨迹图输入至图神经网络，通过图神经网络输出该实体对应的表示向量；按照同样的方式确定实体子图中每个实体对应的表示向量，根据每个实体对应的表示向量得到实体表示向量。在实际应用中，图神经网络可以是GNN(Graph NeuralNetworks)。

在上述实施例中，通过知识检索模型中的检索子模型、子图构建网络和图神经网络，检索与媒体数据相关的目标实体，并构建媒体数据对应的实体子图，提取得到实体子图中各实体的实体表示向量，使得实体表示向量可以更准确地反映媒体数据中的实体，提升了实体表示向量的准确度。

在一些实施例中，对媒体表示向量、文本表示向量和实体表示向量进行特征融合处理，得到知识增强向量，包括：将媒体表示向量、文本表示向量和实体表示向量拼接，并在拼接过程中，在媒体表示向量与文本表示向量之间，以及文本表示向量和实体表示向量之间添加分隔元素，得到拼接向量；通过知识增强模型对拼接向量进行特征融合处理，得到知识增强向量。

其中，知识增强模型包括正则化层、编码器和前馈网络层。

拼接向量中的分隔元素，可以用于区分拼接向量中的媒体表示向量、文本表示向量和实体表示向量。

知识增强向量包括：媒体增强向量、文本增强向量和实体增强向量；在拼接向量包括分隔元素的情况下，知识增强向量也包括分隔元素，用于区分媒体增强向量、文本增强向量和实体增强向量。

在一些实施例中，媒体表示向量为{v1,v2,……，vn},文本表示向量为{t1,t2,……，tn}，实体表示向量为{e1,e2,……，en}，服务器将媒体表示向量、文本表示向量和实体表示向量拼接，并在拼接过程中，在媒体表示向量与文本表示向量之间，以及文本表示向量和实体表示向量之间添加分隔元素[sep]，得到拼接向量{v1,v2,……，vn [sep]t1,t2,……，tn [sep] e1,e2,……，en}。

在一些实施例中，如图7所示，服务器将拼接向量输入至知识增强模型，通过正则化层对拼接向量进行随机丢弃，以减少处理的数据量，得到正则化向量；比如，通过正则化层对拼接向量{v1,v2,……，vn [sep] t1,t2,……，tn [sep]e1,e2,……，en}进行处理，得到正则化向量{v1,0,……，vn [sep] 0,t2,……，tn [sep]e1,e2,……，0}。

通过编码器对正则化向量进行处理，以实现对正则化向量中的媒体表示向量、文本表示向量和实体表示向量的多模态融合，得到融合向量；在实际应用中，编码器可以通过多头注意力网络实现；比如，通过编码器对正则化向量{v1,0,……，vn [sep] 0,t2,……，tn [sep]e1,e2,……，0}进行多模态融合，得到融合向量{a1,a2,……，an [sep] b1,b2,……，bn [sep]c1,c2,……，cn}。

通过前馈网络层对融合向量进行激活处理，得到知识增强向量；相较于融合向量，知识增强向量强化了对媒体数据、描述文本和实体的表达；比如，通过前馈网络层对融合向量{a1,a2,……，an [sep] b1,b2,……，bn [sep]c1,c2,……，cn}进行激活融合，得到知识增强向量{x1,x2,……，xn [sep] y1,y2,……，yn [sep]z1,z2,……，zn}。

需要说明的是，知识增强向量包括媒体增强向量{x1,x2,……，xn}、文本增强向量{y1,y2,……，yn}和实体增强向量{z1,z2,……，zn}。

在上述实施例中，对媒体表示向量、文本表示向量和实体表示向量进行拼接，得到拼接向量，通过指示增强模型对拼接向量进行特征融合，得到知识增强向量，对多模态的表示向量进行融合，使得知识增强向量可以反映媒体数据、描述文本和是的内容，以及与媒体数据的内容相关的实体信息，进而基于知识增强向量，可以得到内容与媒体数据相似，并且实体与媒体数据的实体相关的目标媒体数据，提升了媒体推荐效果。

在一些实施例中，媒体数据的推荐方法还包括：基于特征提取模型，从第一样本媒体数据和对应的第一样本文本中，提取出第一媒体训练向量和第一文本训练向量；基于知识检索模型，对第一媒体训练向量和知识图谱进行知识检索处理，得到第一样本媒体数据对应的训练子图，并确定训练子图对应的实体训练向量；基于知识增强模型，对第一媒体训练向量、第一文本训练向量和实体训练向量进行特征融合处理，得到知识增强训练向量；依据知识增强训练向量和第一样本媒体数据的样本标签，确定视觉损失值和语言损失值；依据知识增强训练向量和训练子图，确定知识检索损失值；基于视觉损失值、语言损失值和知识检索损失值，调整特征提取模型、知识检索模型和知识增强模型的参数，得到增强向量提取模型；基于增强向量提取模型和分类模型确定推荐模型；推荐模型用于依据媒体数据、描述文本和知识图谱提取知识增强向量，基于知识增强向量确定兴趣类型，以使得基于兴趣类型获取目标媒体数据，向目标对象推荐目标媒体数据。

在一些实施例中，媒体数据的推荐方法可以应用于推荐模型，如图8所示，推荐模型包括：增强向量提取模型和分类模型；增强向量提取模型包括：图像特征提取模型、文本特征提取模型、知识检索模型和知识增强模型；增强向量提取模型是对训练前的特征提取模型、知识检索模型和知识增强模型进行参数调整所得的；其中，训练前的特征提取模型包括：训练前的图像特征提取模型和文本特征提取模型。

在实际应用中，通过推荐模型中的增强向量模型对媒体数据、描述文本和知识图谱进行处理，得到知识增强向量，通过推荐模型中的分类模型对知识增强向量进行分类，得到目标对象的兴趣类型，以使得基于兴趣类型获取目标媒体数据，并向目标对象推荐所述目标媒体数据。

在一些实施例中，知识增强训练向量包括媒体增强训练向量和文本增强训练向量；样本标签包括屏蔽子图像标签和屏蔽词标签；依据知识增强训练向量和第一样本媒体数据的样本标签，确定视觉损失值和语言损失值，包括：获取媒体增强训练向量中的屏蔽子图像训练向量，并依据屏蔽子图像训练向量和屏蔽子图像标签，确定视觉损失值；对文本增强训练向量进行分类处理，得到屏蔽词预测概率，并依据屏蔽词预测概率和屏蔽词标签，确定语言损失值。

在一些实施例中，知识增强训练向量还包括实体增强训练向量；依据知识增强训练向量和训练子图，确定知识检索损失值，包括：在实体增强训练向量中选取实体增强训练向量对，并确定实体增强训练向量对的第一评分；在训练子图中获取实体负样本对，并确定实体负样本对的第二评分；实体负样本对包括训练子图中不存在实体关系的两个训练实体；依据第一评分和第二评分，确定知识检索损失值。

在一些实施例中，第一样本媒体数据和第一样本文本属于样本集，样本集还包括第二样本媒体数据和第二样本文本；方法还包括：对第二样本媒体数据和第二样本文本进行特征提取，得到第二媒体训练向量和第二文本训练向量；依据第二媒体训练向量、第二文本训练向量、第一媒体训练向量和第一文本训练向量，确定图像文本对比损失值；基于视觉损失值、语言损失值和知识检索损失值，调整训练前的特征提取模型、训练前的知识检索模型和训练前的知识增强模型的参数，得到训练后的推荐模型，包括：基于视觉损失值、语言损失值、知识检索损失值和图像文本对比损失值，调整训练前的特征提取模型、训练前的知识检索模型和训练前的知识增强模型的参数，得到训练后的推荐模型。

在一些实施例中，依据第二媒体训练向量、第二文本训练向量、第一媒体训练向量和第一文本训练向量，确定图像文本对比损失值，包括：依据第一媒体训练向量和第二文本训练向量确定第一相似度；依据第一文本训练向量和第二媒体训练向量确定第二相似度；依据第一相似度、第二相似度、第一相似度标签和第二相似度标签，确定图像文本对比损失值。

在一些实施例中，如图9所示，媒体数据的推荐方法，包括：

步骤901，当媒体数据为视频时，通过图像特征提取模型提取视频中各图像帧的特征，得到媒体表示向量；当媒体数据为图像时，通过图像特征提取模型，对图像的各图像块进行特征提取，得到媒体表示向量；媒体表示向量包括至少两个图像子表示向量；

步骤902，通过文本特征提取模型，从媒体数据对应的描述文本中提取文本表示向量；

步骤903，通过知识检索模型的检索子模型，依据各初始实体向量和各至少两个图像子表示向量，确定至少两个图像子表示向量分别对应的相关度集合；相关度集合包括图像子表示向量分别与初始实体向量之间的相关度；依据相关度集合，在知识图谱中选取与至少两个图像子表示向量相关的候选实体；在候选实体中，选取媒体数据对应的目标实体；

步骤904，通过知识检索模型的子图构建网络，基于目标实体和知识图谱，确定媒体数据对应的实体子图；

步骤905，通过知识检索模型的图神经网络，提取实体子图中各实体的特征，得到实体表示向量；

步骤906，将媒体表示向量、文本表示向量和实体表示向量拼接，并在拼接过程中，在媒体表示向量与文本表示向量之间，以及文本表示向量和实体表示向量之间添加分隔元素，得到拼接向量；通过知识增强模型对拼接向量进行特征融合处理，得到知识增强向量；

步骤907，对知识增强向量进行分类处理，得到目标对象的兴趣类型；依据兴趣类型获取目标媒体数据，并向目标对象推荐目标媒体数据。

上述媒体数据的推荐方法中，从媒体数据和对应的描述文本中，提取媒体表示向量和文本表示向量，根据媒体表示向量在知识图谱中检索得到实体子图，并确定实体子图对应的实体表示向量，对媒体表示向量、文本表示向量和实体表示向量进行特征融合处理，得到知识增强向量，基于知识增强向量获取向目标对象推荐目标媒体数据；通过媒体表示向量在知识图谱中检索得到与媒体数据的内容相关的实体子图，进而基于实体子图可以得到与媒体数据的内容相关的实体表示向量，将媒体表示向量、文本表示向量和实体表示向量融合得到知识增强向量，使得知识增强向量可以反映媒体数据和描述文本的内容，以及与媒体数据的内容相关的实体信息，因此基于知识增强向量，可以得到内容与媒体数据相似，并且实体与媒体数据的实体相关的目标媒体数据，提升了目标媒体数据与媒体数据的相关性，进而目标媒体数据可能是目标对象感兴趣的媒体数据，提升了媒体推荐效果。

在一些实施例中，如图10所示，提供了一种推荐模型的处理方法，该方法可以由服务器或终端执行，该方法服务器执行为例进行说明，包括以下步骤：

步骤1002，基于特征提取模型，从第一样本媒体数据和对应的第一样本文本中，提取出第一媒体训练向量和第一文本训练向量。

其中，特征提取模型包括训练前的图像特征提取模型和文本特征提取模型。

在一些实施例中，通过训练前的图像特征提取模型对第一样本媒体数据进行特征提取，得到第一媒体训练向量，通过训练前的文本特征提取模型对第一样本文本进行特征提取，得到第一文本训练向量。

在一些实施例中，训练前的图像特征提取模型可以通过第一双向编码模型（Transformer）实现，第一双向编码模型包括多个图像编码器。第一样本媒体数据包括多个样本图像和屏蔽子图像；可以对初始样本图像进行划分得到多个样本图像，对多个样本图像中的部分样本图像进行屏蔽，得到包括多个样本图像和屏蔽子图像的第一媒体样本数据；也可以对样本视频中的图像帧进行采样，得到多个样本图像，对多个样本图像中的部分样本图像进行屏蔽，得到第一媒体样本数据。

示例性地，如图11所示，将初始样本图像划分为N个样本图像，通过视觉掩码模型对N个样本图像进行掩码处理，以实现对N个样本图像中部分样本图像进行遮蔽，得到第一样本媒体数据；第一双向编码模型包括L个图像编码器，通过L个图像编码器对第一样本媒体数据进行处理，得到第一媒体训练向量。

在一些实施例中，训练前的图像特征提取模型可以通过第二双向编码模型实现，第二双向编码模型包括多个文本编码器。第一样本文本包括多个词语和屏蔽词；可以对初始样本文本进行分词处理得到多个词语，对多个词语中的部分词语进行屏蔽，得到包括多个词语和屏蔽词的第一样本文本。

示例性地，如图12所示，对初始样本进行分词处理，得到个词语，比如，初始样本为：“A baseball player throwing a ball in a game”，/>个词语分别为：“A”、“baseball”、“player”、“throwing”、“a”、“ball”、“in”、“a”和“game”；通过文本掩码模型对个词语进行掩码处理，以实现对/>个词语中的部分个词语进行屏蔽，并在掩码处理后的样本文本前添加起始标记，得到第一样本文本，比如第一样本文本包括：“[cls]”、“A”、“[MASK]”、“[MASK]”、“throwing”、“a”、“[MASK]”、“in”、“a”、“game”；第二双向编码模型包括L个文本编码器，通过L个文本编码器对第一样本文本进行处理，得到第一文本训练向量。

步骤1004，基于知识检索模型，对第一媒体训练向量和知识图谱进行知识检索处理，得到第一样本媒体数据对应的训练子图，并确定训练子图对应的实体训练向量。

其中，本步骤中的知识检索模型是训练前的知识检索模型，训练前的知识检索模型包括：训练前的检索子模型、训练前的子图构建网络和训练前的图神经网络。

在一些实施例中，通过训练前的检索子模型对第一媒体训练向量和知识图谱进行处理，以检索与第一样本媒体数据相关的训练实体，通过训练前的子图构建网络对训练实体和知识图谱进行处理，以构建第一样本媒体数据对应的训练子图，通过训练前的图神经网络对训练子图进行特征提取，得到训练子图对应的实体训练向量。

步骤1006，基于知识增强模型，对第一媒体训练向量、第一文本训练向量和实体训练向量进行特征融合处理，得到知识增强训练向量。

其中，本步骤中的知识增强模型是训练前的知识增强模型，训练前的知识增强模型包括：训练前的正则化层、训练前的编码器和训练前的前馈层。

在一些实施例中，服务器对第一媒体训练向量、第一文本训练向量和实体训练向量进行拼接，并在拼接过程中，在第一媒体训练向量和第一文本训练向量之间，以及第一文本训练向量和实体训练向量之间添加分隔元素，得到训练拼接向量，通过训练前的正则化层对训练拼接向量进行随机丢弃处理，得到训练正则化向量；通过训练前的编码器对训练正则化向量进行融合处理，以实现对训练正则化向量中的第一媒体训练向量、第一文本训练向量和实体训练向量进行多模态融合，得到训练融合向量；通过训练前的前馈层对训练融合向量进行激活处理，得到知识增强训练向量。

需要说明的是，知识增强训练向量包括媒体增强训练向量、文本增强训练向量和实体增强训练向量。

在一些实施例中，训练前的编码器包括：自注意力层、第一归一化层、前馈层和第二归一化层；自注意力层对训练正则化向量进行处理的过程，如公式（2）所示。

公式（2）：

；

其中，是自注意力层输出的表示向量，/>是训练正则化向量，自注意力层包括多个注意力头，/>是第m个注意力头的参数，/>是第m个注意力头的值参数，，/>是第m个注意力头的查询参数，/>是第m个注意力头的键参数。

通过第一归一化层对自注意力层输出的表示向量和训练正则化向量进行处理的过程如公式（3）所示。

公式（3）：；

其中，是第一归一化层输出的表示向量，/>是自注意力层输出的表示向量，/>是训练正则化向量。

通过前馈层对第一归一化层输出的表示向量进行处理的过程如公式（4）所示。

公式（4）：；

其中，是前馈层输出的表示向量，/>和/>是前馈层的网络参数，是第一归一化层输出的表示向量。

通过第二归一化层对前馈层输出的表示向量和第一归一化层输出的表示向量进行处理的过程，如公式（5）所示。

公式（5）：；

其中，是第二归一化层输出的表示向量，即训练融合向量，/>是第一归一化层输出的表示向量，/>是前馈层输出的表示向量。

步骤1008，依据知识增强训练向量和样本标签，确定视觉损失值和语言损失值。

其中，样本标签包括屏蔽子图像标签和屏蔽词标签；视觉损失值用于反映媒体增强训练向量与屏蔽子图像标签之间的差异，语言损失值用于反映文本增强训练向量对应的预测概率与屏蔽词标签之间的差异。

在一些实施例中，步骤1008包括：获取媒体增强训练向量中的屏蔽子图像增强向量，并依据屏蔽子图像增强向量和屏蔽子图像标签，确定视觉损失值；对文本增强训练向量进行分类处理，得到屏蔽词预测概率，并依据屏蔽词预测概率和屏蔽词标签，确定语言损失值。

其中，媒体增强训练向量包括屏蔽子图像对应的屏蔽子图像增强向量；屏蔽子图像增强向量，是通过第一样本媒体数据、第一样本文本以及知识图谱，对屏蔽子图像进行重建所得的特征向量。

文本增强训练向量包括屏蔽词对应的屏蔽词增强向量；屏蔽词增强向量，是通过第一样本媒体数据、第一样本文本以及知识图谱，对屏蔽词进行预测所得的特征向量。

在一些实施例中，服务器获取媒体增强训练向量中的屏蔽子图像增强向量，获取屏蔽子图像增强向量对应的屏蔽子图像标签，根据屏蔽子图像增强向量，以及屏蔽子图像增强向量对应的屏蔽子图像标签，计算视觉损失值。需要说明的是，屏蔽子图像增强向量，以及屏蔽子图像增强向量对应的屏蔽子图像标签，对应同一屏蔽子图像。

示例性地，可以通过交叉熵损失函数确定视觉损失值，如公式（6）所示。

公式（6）：；

其中，是视觉损失值，/>是屏蔽子图像标签，/>是屏蔽子图像增强向量，/>是交叉熵损失函数。

在一些实施例中，屏蔽子图像增强向量的数量为多个时，可以基于每一屏蔽子图像增强向量和对应屏蔽子图像标签，确定该屏蔽子图像增强向量对应的损失值，根据多个屏蔽子图像增强向量各自对应的损失值，计算平均值，得到视觉损失值。

在一些实施例中，服务器可以通过分类器对文本增强训练向量进行分类处理，得到屏蔽词预测概率，服务器获取文本增强训练向量中的屏蔽词增强向量，通过屏蔽词预测概率和屏蔽词标签，计算语言损失值。需要说明的是，屏蔽词预测概率和屏蔽词标签，对应同一屏蔽词。

示例性地，可以通过交叉熵损失函数确定语言损失值，如公式（7）所示。

公式（7）：；

其中，是语言损失值，/>是屏蔽词标签，/>是屏蔽词预测概率，/>是交叉熵损失函数。

在上述实施例中，通过预测屏蔽子图像的表示向量的任务，确定视觉损失值，通过预测屏蔽词的表示向量的任务，确定语言损失值，提升了视觉损失值和语言损失值的准确度，以便于后续通过视觉损失值和语言损失值调整模型参数。

步骤1010，依据知识增强训练向量和训练子图，确定知识检索损失值。

其中，知识增强训练向量包括实体增强训练向量，实体增强训练向量包括多个实体增强子向量。

在一些实施例中，对于每个实体增强子向量，服务器可以在其他实体增强子向量中，确定该实体增强子向量的目标实体增强子向量，通过该实体增强子向量和目标实体增强子向量确定实体正样本对；服务器在训练子图中获取实体负样本对，服务器根据实体正样本对和实体负样本对确定知识检索损失值。

在一些实施例中，步骤1010包括：在训练子图中获取实体正样本对，并依据实体增强训练向量确定实体正样本对的第一评分；在训练子图中获取实体负样本对，并依据实体增强训练向量确定实体负样本对的第二评分；实体负样本对包括训练子图中不存在实体关系的两个训练实体；依据第一评分和第二评分，确定知识检索损失值。

其中，实体正样本对包括的两个实体，在训练子图中存在实体关系，实体负样本对包括的两个实体，在训练子图中不存在实体关系。

在一些实施例中，服务器在训练子图中获取存在实体关系的各实体正样本对，对于每个实体正样本对，在实体增强训练向量中获取实体正样本对中两个实体各自对应的实体增强子向量，根据实体正样本对中两个实体各自对应的实体增强子向量，确定该实体正样本对的第一评分。

服务器在训练子图中获取不存在实体关系的各实体负样本对，对于每个实体负样本对，在实体增强训练向量中获取实体负样本对中两个实体各自对应的实体增强子向量，根据实体负样本对中两个实体各自对应的实体增强子向量，确定该实体正样本对的第二评分。

示例性地，训练子图包括的各实体分别为；E1,E2,E3,E4,E5，其中，E2和E3之间不存在实体关系，E4和E5之间不存在实体关系，进而实体负样本对包括{E2,E3}和{E4,E5}，根据E2和E3各自对应的实体增强子向量，确定{E2,E3}对应的第二评分，根据E4和E5各自对应的实体增强子向量，确定{E4,E5}对应的第二评分。

在一些实施例中，根据第一评分和第二评分确定知识检索损失值，可以参考公式（8）。

公式（8）：

；

其中，是知识检索损失值，/>是实体正样本对，/>是第一评分，/>是实体负样本对，/>是第二评分，/>是评分函数，，表示训练子图S中的实体h和实体t之间存在实体关系r，/>是预设参数。

在一些实施例中，依据所述知识增强训练向量和所述训练子图，确定知识检索损失值，包括：根据训练子图确定实体样本对，并根据实体增强训练向量确定实体样本对的评分，当评分属于正样本区间时，将该实体样本对作为实体正样本对，当评分不属于正样本区间时，将该实体样本对作为实体负样本对。

根据训练子图确定实体样本对，可以是将训练子图包括的所实体两两组合，得到各实体样本对。

在上述实施例中，通过训练子图确定实体正样本对和实体负样本对，根据实体增强训练向量确定实体正样本对的第一评分以及实体负样本对的第二评分，进而使得知识检索损失值，可以用于反映存在实体关系的训练实体与不存在实体关系的训练实体之间的差距，提升了知识检索损失值的准确度。

步骤1012，基于视觉损失值、语言损失值和知识检索损失值，调整特征提取模型、知识检索模型和知识增强模型的参数，得到增强向量提取模型。

其中，增强向量提取模型包括：训练后的特征提取模型、训练后的知识检索模型和训练后的知识增强模型，训练后的特征提取模型包括训练后的图像特征提取模型和训练后的文本特征提取模型。

在一些实施例中，服务器将视觉损失值、语言损失值和知识检索损失值叠加，得到总损失值，通过总损失值调整训练前的特征提取模型、训练前的知识检索模型和训练前的知识增强模型的参数，直至训练前的特征提取模型、训练前的知识检索模型和训练前的知识增强模型收敛，得到增强向量提取模型。

在实际应用中，可以通过AdamW优化器，按照预设学习率和预设权重衰减，对训练前的特征提取模型、训练前的知识检索模型和训练前的知识增强模型进行参数调整；AdamW优化器用于基于梯度更新神经网络的参数，使得总损失值最小化，预设学习率可以根据实际需求设定，比如预设学习率可以是5e-5，预设权重衰减可以根据实际需求设定，比如预设权重衰减可以是0.02。

步骤1014，基于增强向量提取模型和分类模型确定推荐模型；推荐模型用于依据媒体数据、描述文本和知识图谱提取知识增强向量，基于知识增强向量确定兴趣类型，以使得基于兴趣类型获取目标媒体数据，向目标对象推荐目标媒体数据。

其中，推荐模型包括增强向量提取模型和分类模型。

在一些实施例中，在增强向量提取模型后连接已训练的分类模型，得到推荐模型。在实际应用中，将目标对象正在浏览的媒体数据、媒体数据对应的描述文本、以及知识图谱输入至推荐模型，通过推荐模型的增强向量提取模型确定知识增强向量，通过推荐模型的分类模型输出知识增强向量对应的兴趣类型，以便于依据兴趣类型获取目标媒体数据，并向目标对象推荐目标媒体数据。

需要说明的是，增强向量提取模型可以是一种预训练模型，通过预训练得到增强向量提取模型后，可以将增强向量提取模型用于媒体数据推荐的下游任务中，固定增强向量提取模型的参数，对初始分类模型的参数进行调整，得到训练后的分类模型，根据增强向量提取模型和训练后的分类模型确定推荐模型。

在上述推荐模型的处理方法中，通过特征提取模型提取第一媒体训练向量和第一文本训练向量，根据第一媒体训练向量在知识图谱中检索得到实体训练向量，对第一媒体训练向量、第一文本训练向量和实体训练向量进行特征融合处理，得到知识增强训练向量，即在知识图谱中检索与第一媒体样本数据的相关实体，将相关实体对应的实体训练向量、第一媒体训练向量和第一文本量融合，实现多模态数据交互，增强第一媒体样本数据、第一文本样本和相关实体的表示，提升了知识增强训练向量的质量；联合视觉损失值、语言损失值和知识检索损失值调整特征提取模型、知识检索模型和知识增强模型的参数，使得在参数调整的过程中，可以学习到与第一媒体样本数据和第一文本样本的内容信息，还可以学习到与第一媒体样本数据相关的实体信息，提升了训练得到的增强向量提取模型的质量，进而提升了包括增强向量提取模型的推荐模型的质量，基于推荐模型确定向目标对象推荐目标媒体数据，可以提升媒体推荐效果。

在一些实施例中，第一样本媒体数据和第一样本文本属于样本集，样本集还包括第二样本媒体数据和第二样本文本；推荐模型的处理方法还包括：对第二样本媒体数据和第二样本文本进行特征提取，得到第二媒体训练向量和第二文本训练向量；依据第二媒体训练向量、第二文本训练向量、第一媒体训练向量和第一文本训练向量，确定图像文本对比损失值；基于视觉损失值、语言损失值和知识检索损失值，调整特征提取模型、知识检索模型和知识增强模型的参数，得到增强向量提取模型，包括：基于视觉损失值、语言损失值、知识检索损失值和图像文本对比损失值，调整特征提取模型、知识检索模型和知识增强模型的参数，得到增强向量提取模型。

其中，图像文本对比损失值，可以反映样本媒体数据和对应样本文本之间的相似度，与样本媒体数据和非对应样本文本之间的相似度的差距。

在一些实施例中，服务器可以通过特征提取模型，对第二样本媒体数据和第二样本文本进行特征提取，得到第二媒体训练向量和第二文本训练向量；服务器根据第一媒体训练向量和第一文本训练向量确定第一候选相似度，根据第一媒体训练向量和第二文本训练向量确定第二候选相似度，根据第一文本训练向量和第二媒体训练向量确定第三候选相似度，根据第一候选相似度、第二候选相似度和第三候选相似度确定图像文本对比损失值。

在一些实施例中，服务器将视觉损失值、语言损失值、知识检索损失值和图像文本对比损失值叠加，得到总损失值，通过总损失值调整训练前的特征提取模型、训练前的知识检索模型和训练前的知识增强模型的参数，直至训练前的特征提取模型、训练前的知识检索模型和训练前的知识增强模型收敛，得到增强向量提取模型。

在上述实施例中，联合视觉损失值、语言损失值、知识检索损失值和图像文本对比损失值调整特征提取模型、知识检索模型和知识增强模型的参数，使得在参数调整的过程中，可以学习到与第一媒体样本数据和第一文本样本的内容信息，还可以学习到与第一媒体样本数据相关的实体信息，还可以学习到第一媒体样本数据和第一文本样本之间的相似内容，提升了训练得到的增强向量提取模型的质量，进而提升了包括增强向量提取模型的推荐模型的质量，基于推荐模型确定向目标对象推荐目标媒体数据，可以提升媒体推荐效果。

其中，第一相似度标签可以是第一媒体训练向量和第一文本训练向量之间的相似度，第二相似度标签可以是第一文本训练向量和第一媒体训练向量之间的相似度。

示例性地，第一相似度标签可以是，第二相似度标签可以是，其中，/>是第一媒体训练向量，/>是第一文本训练向量，/>是相似度计算函数，/>可以是/>的转置形式。

在一些实施例中，样本集包括的第二媒体样本数据的数量为多个，相应地，样本集包括的第二样本文本的数量为多个，进而第二媒体训练向量的数量为多个，第二文本训练向量的数量为多个；对于第一媒体训练向量，服务器确定第一媒体训练向量分别与多个第二文本训练向量之间的第一相似度，对于第一文本训练向量，服务器确定第一文本训练向量分别与多个第二媒体训练向量之间的第二相似度。

服务器根据第一媒体训练向量分别与多个第二文本训练向量之间的第一相似度，确定第一目标相似度，根据第一文本训练向量分别与多个第二媒体训练向量之间的第二相似度确定第二目标相似度。

示例性地，如公式（9）所示。

公式（9）：；

其中，是第一目标相似度，/>是第一媒体训练向量/>与第k个第二文本训练向量/>之间的第一相似度，K是样本集中样本文本的数量，当k=i时，/>是第一媒体训练向量/>对应的第一文本训练向量。

示例性地，如公式（10）所示。

公式（10）：；

其中，是第二目标相似度，/>是第一文本训练向量/>与第k个第二媒体训练向量/>之间的第二相似度，K是样本集中媒体样本数据的数量，当k=i时，/>是第一文本训练向量/>对应的第一媒体训练向量。

服务器可以通过交叉熵损失函数计算第一目标相似度与第一相似度标签之间的损失值，通过交叉熵损失函数计算第二目标相似度与第二相似度标签之间的损失值，根据第一目标相似度与第一相似度标签之间的损失值，以及第二目标相似度与第二相似度标签之间的损失值确定图像文本对比损失值；将图像文本对比损失值增加到模型训练过程中，通过训练使得提取的存在对应关系的媒体数据和描述文本的表示向量之间相似度较大，不存在对应关系的媒体数据和描述文本的表示向量之间的相似度较小。

示例性地，如公式（11）所示。

公式（11）：；

其中，是图像文本对比损失值，/>是第一相似度标签，/>是第一目标相似度，/>是第二相似度标签，/>是第二目标相似度。

在上述实施例中，根据第一相似度、第二相似度、第一相似度标签和第二相似度标签确定图像对比损失值，将图像对比损失值添加到调整特征提取模型、知识检索模型和知识增强模型的参数的过程中，训练得到增强向量提取模型，提升了增强向量提取模型的质量。

在一些实施例中，如图13所示，增强向量提取模型的训练过程，包括：

将初始样本图像划分为N个样本图像，通过视觉掩码模型对N个样本图像进行掩码处理，得到第一样本媒体数据；通过训练前的图像特征提取模型对第一样本媒体数据进行处理，得到第一媒体训练向量；

对初始样本进行分词处理，得到个词语，通过文本掩码模型对/>个词语进行掩码处理，并在掩码处理后的样本文本前添加起始标记，得到第一样本文本；通过训练前的文本特征提取模型对第一样本文本进行处理，得到第一文本训练向量；

将知识图谱和第一媒体训练向量，输入至训练前的知识检索模型，通过训练前的知识检索模型确定训练子图，以及训练子图对应的实体训练向量；训练前的知识检索模型包括：训练前的检索子模型、训练前的子图构建网络和训练前的图神经网络；

对第一媒体训练向量、第一文本训练向量和实体训练向量进行拼接，并在拼接过程中，在第一媒体训练向量和第一文本训练向量之间，以及第一文本训练向量和实体训练向量之间添加分隔元素，得到训练拼接向量；

通过训练前的知识增强模型对训练拼接向量进行特征融合，得到知识增强训练向量；训练前的知识增强模型包括：训练前的正则化层、训练前的编码器和训练前的前馈层；知识增强训练向量包括媒体增强训练向量、文本增强训练向量和实体增强训练向量；

依据知识增强训练向量和样本标签，确定视觉损失值和语言损失值，依据知识增强训练向量和训练子图，确定知识检索损失值，基于视觉损失值、语言损失值和知识检索损失值，调整特征提取模型、知识检索模型和知识增强模型的参数，得到增强向量提取模型。

在一些实施例中，如图14所示，推荐模型的处理方法，包括：

步骤1401，基于特征提取模型，从第一样本媒体数据和对应的第一样本文本中，提取出第一媒体训练向量和第一文本训练向量；

步骤1402，基于知识检索模型，对第一媒体训练向量和知识图谱进行知识检索处理，得到第一样本媒体数据对应的训练子图，并确定训练子图对应的实体训练向量；

步骤1403，基于知识增强模型，对第一媒体训练向量、第一文本训练向量和实体训练向量进行特征融合处理，得到知识增强训练向量；知识增强训练向量包括媒体增强训练向量、文本增强训练向量和实体增强训练向量；

步骤1404，获取媒体增强训练向量中的屏蔽子图像增强向量，并依据屏蔽子图像增强向量和屏蔽子图像标签，确定视觉损失值；对文本增强训练向量进行分类处理，得到屏蔽词预测概率，并依据屏蔽词预测概率和屏蔽词标签，确定语言损失值；

步骤1405，在训练子图中获取实体正样本对，并依据实体增强训练向量确定实体正样本对的第一评分；在训练子图中获取实体负样本对，并依据实体增强训练向量确定实体负样本对的第二评分；实体负样本对包括训练子图中不存在实体关系的两个训练实体；依据第一评分和第二评分，确定知识检索损失值；

步骤1406，对第二样本媒体数据和第二样本文本进行特征提取，得到第二媒体训练向量和第二文本训练向量；依据第一媒体训练向量和第二文本训练向量确定第一相似度；依据第一文本训练向量和第二媒体训练向量确定第二相似度；依据第一相似度、第二相似度、第一相似度标签和第二相似度标签，确定图像文本对比损失值；

步骤1407，基于视觉损失值、语言损失值、知识检索损失值和图像文本对比损失值，调整特征提取模型、知识检索模型和知识增强模型的参数，得到增强向量提取模型；

步骤1408，基于增强向量提取模型和分类模型确定推荐模型；推荐模型用于依据媒体数据、描述文本和知识图谱提取知识增强向量，基于知识增强向量确定兴趣类型，以使得基于兴趣类型获取目标媒体数据，向目标对象推荐目标媒体数据。

在一些实施例中，对增强向量提取模型的质量进行检测，将增强向量提取模型和相关技术的其他模型进行比较，比较结果如表1所示。

表1

其中，KAT（Knowledge Augmented Transformer，知识转换模型）；REVIVE（一种视觉问答模型）；ALBEF（Align before Fuse: Vision and Language RepresentationLearning with Momentum Distillation，基于动量蒸馏的视觉语言表征模型）；BLIP（一种视觉语言多模态模型）；REVEAL（Retrieval-Augmented Visual-Language Pre-Trainingwith Multi-Source Multimodal Knowledge Memory，多源多模态的视觉语言预训练模型）；VL-BERT是通用的视觉语言模型；UNITER（UNiversal Image-TExt RepresentationLearning，多模态预训练模型）；OSCAR（Object-Semantics Aligned Pre-trainingforVision-Language Tasks，一种多模态预训练模型）；SimVLM，一种弱监督下的简单视觉语言预训练模型。

Wiki data是维基数据，#image 12M是1200万张图像，#image 129M是12900万张图像，其余与#image相关的内容均此类似，不再赘述；CC12M是1200万个图像文本对，WIT（Wikipedia-based Image Text Dataset-GitHub）是基于维基的图像文本集。

结合基于知识的下游任务，在OK-VQA（Outside Knowledge-Visual QuestionAnswering）数据集下，增强向量提取模型，相较于KAT、REVIVE、ALBEFF、BLIP和REVEAL的准确率均有提升，相较于当前较为先进REVIVE和BLIP，均有较高的相对准确率增益；与REVEAL相比，增强向量提取模型可以在更少的知识图谱资源下，表现出更优越的性能。在AOK-VQA数据集下，增强向量提取模型，相较于ALBEF、BLIP和REVEAL的准确率同样均有提升。

结合通用视觉语言的下游任务，在VQA-v2（Visual Question Answering-v2）数据集，且在基础数据量的训练下，增强向量提取模型相对于VL-BERT、UNITER、OSCAR和ALBEF的准确率同样均有提升；在VQA-v2数据集，且在大量数据训练下，增强向量提取模型也具有不错的竞争力。

结合通用视觉语言的下游任务，在SNLI-VE(Stanford Natural LanguageInference-Visual Entailment)数据集下，增强向量提取模型，相对于VL-BERT、UNITER、OSCAR和ALBEF的准确率同样均有提升。

在一些实施例中，对增强向量提取模型检索实体的能力进行检测，将增强向量提取模型与现有的多模态实体检索模型进行比较，比较结果如表2所示。

表2

其中，ViT+BERT（Vision Transformer+ Bidirectional EncoderRepresentation from Transformers），是视觉转换器加语言表征模型，ResNet是残差网络，CLIP是用文本作为监督信号来训练可迁移的视觉模型，可见，在各模型在6个指标下的得分中，增强向量提取模型有五个指标的得分优于现有的多模态实体检索模型。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的媒体数据的推荐方法的媒体数据的推荐装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个媒体数据的推荐装置实施例中的具体限定可以参见上文中对于媒体数据的推荐方法的限定，在此不再赘述。

在一些实施例中，如图15所示，提供了一种媒体数据的推荐装置，包括：向量提取模块1501、第一知识检索模块1502、第一融合模块1503和推荐模块1504，其中：

向量提取模块1501，用于从媒体数据和对应的描述文本中，提取出媒体表示向量和文本表示向量；

第一知识检索模块1502，用于依据媒体表示向量在知识图谱中进行知识检索，得到媒体数据对应的实体子图，并确定实体子图对应的实体表示向量；

第一融合模块1503，用于对媒体表示向量、文本表示向量和实体表示向量进行特征融合处理，得到知识增强向量；

推荐模块1504，用于基于知识增强向量获取目标媒体数据，并向目标对象推荐目标媒体数据。

在一些实施例中，向量提取模块1501包括：媒体表示向量提取单元和文本表示向量提取单元；

媒体表示向量提取单元，用于通过图像特征提取模型对媒体数据进行特征提取，得到媒体表示向量；

文本表示向量提取单元，用于通过文本特征提取模型，从媒体数据对应的描述文本中提取文本表示向量。

在一些实施例中，媒体表示向量提取单元，还用于当媒体数据为视频时，通过图像特征提取模型提取视频中各图像帧的特征，得到媒体表示向量；当媒体数据为图像时，通过图像特征提取模型，对图像的各图像块进行特征提取，得到媒体表示向量。

在一些实施例中，第一知识检索模块1502，包括：

目标实体确定单元，用于基于媒体表示向量，在知识图谱中检索与媒体数据相关的目标实体；

实体子图确定单元，用于基于目标实体和知识图谱，确定媒体数据对应的实体子图；

实体表示向量确定单元，用于提取实体子图中各实体的特征，得到实体表示向量。

在一些实施例中，媒体表示向量包括至少两个图像子表示向量；目标实体确定单元，还用于获取知识图谱中各初始实体向量；依据各初始实体向量和至少两个图像子表示向量，在知识图谱中检索候选实体；在候选实体中，选取媒体数据对应的目标实体。

在一些实施例中，目标实体确定单元还包括候选实体检索子单元，用于依据各初始实体向量和各至少两个图像子表示向量，确定至少两个图像子表示向量分别对应的相关度集合；相关度集合包括图像子表示向量分别与初始实体向量之间的相关度；依据相关度集合，在知识图谱中选取与至少两个图像子表示向量相关的候选实体。

在一些实施例中，目标实体确定单元，还用于通过知识检索模型的检索子模型，基于媒体表示向量，在知识图谱中检索与媒体数据相关的目标实体；实体子图确定单元，还用于通过知识检索模型的子图构建网络，基于目标实体和知识图谱，确定媒体数据对应的实体子图；实体表示向量确定单元，还用于通过知识检索模型的图神经网络，提取实体子图中各实体的特征，得到实体表示向量。

在一些实施例中，第一融合模块1503，还用于将媒体表示向量、文本表示向量和实体表示向量拼接，并在拼接过程中，在媒体表示向量与文本表示向量之间，以及文本表示向量和实体表示向量之间添加分隔元素，得到拼接向量；通过知识增强模型对拼接向量进行特征融合处理，得到知识增强向量。

在一些实施例中，推荐模块1504，还用于对知识增强向量进行分类处理，得到目标对象的兴趣类型；依据兴趣类型获取目标媒体数据，并向目标对象推荐目标媒体数据。

上述媒体数据的推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，如图16所示，提供了一种推荐模型的处理装置，包括：训练向量提取模块1601、第二知识检索模块1602、第二融合模块1603、第一损失值确定模块1604、第二损失值确定模块1605、参数调整模块1606和推荐模型确定模块1607；其中，

训练向量提取模块1601，用于基于特征提取模型，从第一样本媒体数据和对应的第一样本文本中，提取出第一媒体训练向量和第一文本训练向量；

第二知识检索模块1602，用于基于知识检索模型，对第一媒体训练向量和知识图谱进行知识检索处理，得到第一样本媒体数据对应的训练子图，并确定训练子图对应的实体训练向量；

第二融合模块1603，用于基于知识增强模型，对第一媒体训练向量、第一文本训练向量和实体训练向量进行特征融合处理，得到知识增强训练向量；

第一损失值确定模块1604，用于依据知识增强训练向量和样本标签，确定视觉损失值和语言损失值；

第二损失值确定模块1605，用于依据知识增强训练向量和训练子图，确定知识检索损失值；

参数调整模块1606，用于基于视觉损失值、语言损失值和知识检索损失值，调整特征提取模型、知识检索模型和知识增强模型的参数，得到增强向量提取模型；

推荐模型确定模块1607，用于基于增强向量提取模型和分类模型确定推荐模型；推荐模型用于依据媒体数据、描述文本和知识图谱提取知识增强向量，基于知识增强向量确定兴趣类型，以使得基于兴趣类型获取目标媒体数据，向目标对象推荐目标媒体数据。

在一些实施例中，知识增强训练向量包括媒体增强训练向量和文本增强训练向量；样本标签包括屏蔽子图像标签和屏蔽词标签；第一损失值确定模块1604，用于获取媒体增强训练向量中的屏蔽子图像增强向量，并依据屏蔽子图像增强向量和屏蔽子图像标签，确定视觉损失值；对文本增强训练向量进行分类处理，得到屏蔽词预测概率，并依据屏蔽词预测概率和屏蔽词标签，确定语言损失值。

在一些实施例中，第二损失值确定模块1605，还用于在训练子图中获取实体正样本对，并依据实体增强训练向量确定实体正样本对的第一评分；在训练子图中获取实体负样本对，并依据实体增强训练向量确定实体负样本对的第二评分；实体负样本对包括训练子图中不存在实体关系的两个训练实体；依据第一评分和第二评分，确定知识检索损失值。

在一些实施例中，第一样本媒体数据和第一样本文本属于样本集，样本集还包括第二样本媒体数据和第二样本文本；推荐模型的处理装置还包括第三损失值确定模块，用于对第二样本媒体数据和第二样本文本进行特征提取，得到第二媒体训练向量和第二文本训练向量；依据第二媒体训练向量、第二文本训练向量、第一媒体训练向量和第一文本训练向量，确定图像文本对比损失值；

相应地，参数调整模块1606，用于基于视觉损失值、语言损失值、知识检索损失值和图像文本对比损失值，调整特征提取模型、知识检索模型和知识增强模型的参数，得到增强向量提取模型。

在一些实施例中，第三损失值确定模块包括图像文本对比损失值确定单元，用于依据第一媒体训练向量和第二文本训练向量确定第一相似度；依据第一文本训练向量和第二媒体训练向量确定第二相似度；依据第一相似度、第二相似度、第一相似度标签和第二相似度标签，确定图像文本对比损失值。

上述推荐模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图17所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于推荐模型、目标媒体数据和样本集。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种媒体数据的推荐方法，或者推荐模型的处理方法。

本领域技术人员可以理解，图17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

从媒体数据和对应的描述文本中，提取出媒体表示向量和文本表示向量；依据媒体表示向量在知识图谱中进行知识检索，得到媒体数据对应的实体子图，并确定实体子图对应的实体表示向量；对媒体表示向量、文本表示向量和实体表示向量进行特征融合处理，得到知识增强向量；基于知识增强向量获取目标媒体数据，并向目标对象推荐目标媒体数据；或者，

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（FerroelectricRandom Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（DynamicRandom AccessMemory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种推荐模型的处理方法，其特征在于，所述方法包括：

基于特征提取模型，从第一样本媒体数据和对应的第一样本文本中，提取出第一媒体训练向量和第一文本训练向量；

基于知识检索模型，对所述第一媒体训练向量和知识图谱进行知识检索处理，得到所述第一样本媒体数据对应的训练子图，并确定所述训练子图对应的实体训练向量；

基于知识增强模型，对所述第一媒体训练向量、所述第一文本训练向量和所述实体训练向量进行特征融合处理，得到知识增强训练向量；

依据所述知识增强训练向量和样本标签，确定视觉损失值和语言损失值；

依据所述知识增强训练向量和所述训练子图，确定知识检索损失值；

基于所述视觉损失值、所述语言损失值和所述知识检索损失值，调整所述特征提取模型、所述知识检索模型和所述知识增强模型的参数，得到增强向量提取模型；

基于所述增强向量提取模型和分类模型确定推荐模型；所述推荐模型用于依据媒体数据、描述文本和知识图谱提取知识增强向量，基于所述知识增强向量确定兴趣类型，以使得基于所述兴趣类型获取目标媒体数据，向目标对象推荐所述目标媒体数据。

2.根据权利要求1所述的方法，其特征在于，所述知识增强训练向量包括媒体增强训练向量和文本增强训练向量；所述样本标签包括屏蔽子图像标签和屏蔽词标签；

所述依据所述知识增强训练向量和样本标签，确定视觉损失值和语言损失值，包括：

获取所述媒体增强训练向量中的屏蔽子图像增强向量，并依据所述屏蔽子图像增强向量和所述屏蔽子图像标签，确定视觉损失值；

对所述文本增强训练向量进行分类处理，得到屏蔽词预测概率，并依据所述屏蔽词预测概率和所述屏蔽词标签，确定语言损失值。

3.根据权利要求1所述的方法，其特征在于，所述知识增强训练向量还包括实体增强训练向量；所述依据所述知识增强训练向量和所述训练子图，确定知识检索损失值，包括：

在所述训练子图中获取实体正样本对，并依据所述实体增强训练向量确定所述实体正样本对的第一评分；

在所述训练子图中获取实体负样本对，并依据所述实体增强训练向量确定所述实体负样本对的第二评分；所述实体负样本对包括所述训练子图中不存在实体关系的两个训练实体；

依据所述第一评分和所述第二评分，确定知识检索损失值。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述第一样本媒体数据和所述第一样本文本属于样本集，所述样本集还包括第二样本媒体数据和第二样本文本；所述方法还包括：

对所述第二样本媒体数据和所述第二样本文本进行特征提取，得到第二媒体训练向量和第二文本训练向量；

依据所述第二媒体训练向量、所述第二文本训练向量、所述第一媒体训练向量和所述第一文本训练向量，确定图像文本对比损失值；

所述基于所述视觉损失值、所述语言损失值和所述知识检索损失值，调整所述特征提取模型、所述知识检索模型和所述知识增强模型的参数，得到增强向量提取模型，包括：

基于所述视觉损失值、所述语言损失值、所述知识检索损失值和所述图像文本对比损失值，调整所述特征提取模型、所述知识检索模型和所述知识增强模型的参数，得到增强向量提取模型。

5.根据权利要求4所述的方法，其特征在于，所述依据所述第二媒体训练向量、所述第二文本训练向量、所述第一媒体训练向量和所述第一文本训练向量，确定图像文本对比损失值，包括：

依据所述第一媒体训练向量和所述第二文本训练向量确定第一相似度；

依据所述第一文本训练向量和所述第二媒体训练向量确定第二相似度；

依据所述第一相似度、所述第二相似度、第一相似度标签和第二相似度标签，确定图像文本对比损失值。

6.一种媒体数据的推荐方法，其特征在于，应用于如权利要求1所述的推荐模型，所述方法包括：

从媒体数据和对应的描述文本中，提取出媒体表示向量和文本表示向量；

依据所述媒体表示向量在知识图谱中进行知识检索，得到所述媒体数据对应的实体子图，并确定所述实体子图对应的实体表示向量；

对所述媒体表示向量、所述文本表示向量和所述实体表示向量进行特征融合处理，得到知识增强向量；

基于所述知识增强向量获取目标媒体数据，并向目标对象推荐所述目标媒体数据。

7.根据权利要求6所述的方法，其特征在于，所述推荐模型包括图像特征提取模型和文本特征提取模型；所述从媒体数据和对应的描述文本中，提取出媒体表示向量和文本表示向量，包括：

通过所述图像特征提取模型对媒体数据进行特征提取，得到媒体表示向量；

通过所述文本特征提取模型，从所述媒体数据对应的描述文本中提取文本表示向量。

8.根据权利要求7所述的方法，其特征在于，所述通过所述图像特征提取模型对媒体数据进行特征提取，得到媒体表示向量，包括：

当媒体数据为视频时，通过所述图像特征提取模型提取所述视频中各图像帧的特征，得到媒体表示向量；

当媒体数据为图像时，通过所述图像特征提取模型，对所述图像的各图像块进行特征提取，得到媒体表示向量。

9.根据权利要求6所述的方法，其特征在于，所述依据所述媒体表示向量在知识图谱中进行知识检索，得到所述媒体数据对应的实体子图，并确定所述实体子图对应的实体表示向量，包括：

基于所述媒体表示向量，在知识图谱中检索与所述媒体数据相关的目标实体；

基于所述目标实体和所述知识图谱，确定所述媒体数据对应的实体子图；

提取所述实体子图中各实体的特征，得到实体表示向量。

10.根据权利要求9所述的方法，其特征在于，所述媒体表示向量包括至少两个图像子表示向量；所述基于所述媒体表示向量，在知识图谱中检索与所述媒体数据相关的目标实体，包括：

获取知识图谱中各实体的初始实体向量；

依据各所述初始实体向量和所述至少两个图像子表示向量，在所述知识图谱中检索候选实体；

在所述候选实体中，选取所述媒体数据对应的目标实体。

11.根据权利要求10所述的方法，其特征在于，所述依据各所述初始实体向量和所述至少两个图像子表示向量，在所述知识图谱中检索候选实体，包括：

依据各所述初始实体向量和所述至少两个图像子表示向量，确定所述至少两个图像子表示向量分别对应的相关度集合；所述相关度集合包括所述图像子表示向量分别与所述初始实体向量之间的相关度；

依据所述相关度集合，在所述知识图谱中选取与所述至少两个图像子表示向量相关的候选实体。

12.根据权利要求9所述的方法，其特征在于，所述推荐模型包括知识检索模型；所述基于所述媒体表示向量，在知识图谱中检索与所述媒体数据相关的各目标实体，包括：

通过所述知识检索模型的检索子模型，基于所述媒体表示向量在知识图谱中检索与所述媒体数据相关的目标实体；

所述基于所述目标实体和所述知识图谱，确定所述媒体数据对应的实体子图，包括：

通过所述知识检索模型的子图构建网络，基于所述各目标实体和所述知识图谱，确定所述媒体数据对应的实体子图；

所述提取所述实体子图中各实体的特征，得到实体表示向量，包括：

通过所述知识检索模型的图神经网络，提取所述实体子图中各实体的特征，得到实体表示向量。

13.根据权利要求6所述的方法，其特征在于，所述推荐模型包括知识增强模型；所述对所述媒体表示向量、所述文本表示向量和所述实体表示向量进行特征融合处理，得到知识增强向量，包括：

将所述媒体表示向量、所述文本表示向量和所述实体表示向量拼接，并在拼接过程中，在所述媒体表示向量与所述文本表示向量之间，以及所述文本表示向量和所述实体表示向量之间添加分隔元素，得到拼接向量；

通过所述知识增强模型对所述拼接向量进行特征融合处理，得到知识增强向量。

14.根据权利要求6至13中任一项所述的方法，其特征在于，所述推荐模型包括分类模型；所述基于所述知识增强向量获取目标媒体数据，并向目标对象推荐所述目标媒体数据，包括：

通过所述分类模型对所述知识增强向量进行分类处理，得到目标对象的兴趣类型；

依据所述兴趣类型获取目标媒体数据，并向所述目标对象推荐所述目标媒体数据。

15.一种推荐模型的处理装置，其特征在于，所述装置包括：

第二知识检索模块，用于基于知识检索模型，对所述第一媒体训练向量和知识图谱进行知识检索处理，得到所述第一样本媒体数据对应的训练子图，并确定所述训练子图对应的实体训练向量；

第二融合模块，用于基于知识增强模型，对所述第一媒体训练向量、所述第一文本训练向量和所述实体训练向量进行特征融合处理，得到知识增强训练向量；

第一损失值确定模块，用于依据所述知识增强训练向量和样本标签，确定视觉损失值和语言损失值；

第二损失值确定模块，用于依据所述知识增强训练向量和所述训练子图，确定知识检索损失值；

参数调整模块，用于基于所述视觉损失值、所述语言损失值和所述知识检索损失值，调整所述特征提取模型、所述知识检索模型和所述知识增强模型的参数，得到增强向量提取模型；

推荐模型确定模块，用于基于所述增强向量提取模型和分类模型确定推荐模型；所述推荐模型用于依据媒体数据、描述文本和知识图谱提取知识增强向量，基于所述知识增强向量确定兴趣类型，以使得基于所述兴趣类型获取目标媒体数据，向目标对象推荐所述目标媒体数据。

16.根据权利要求15所述的推荐模型的处理装置，其特征在于，所述知识增强训练向量包括媒体增强训练向量和文本增强训练向量；所述样本标签包括屏蔽子图像标签和屏蔽词标签；

所述第一损失值确定模块，还用于获取所述媒体增强训练向量中的屏蔽子图像增强向量，并依据所述屏蔽子图像增强向量和所述屏蔽子图像标签，确定视觉损失值；对所述文本增强训练向量进行分类处理，得到屏蔽词预测概率，并依据所述屏蔽词预测概率和所述屏蔽词标签，确定语言损失值。

17.根据权利要求15所述的推荐模型的处理装置，其特征在于，所述知识增强训练向量还包括实体增强训练向量；

第二损失值确定模块，还用于在所述训练子图中获取实体正样本对，并依据所述实体增强训练向量确定所述实体正样本对的第一评分；在所述训练子图中获取实体负样本对，并依据所述实体增强训练向量确定所述实体负样本对的第二评分；所述实体负样本对包括所述训练子图中不存在实体关系的两个训练实体；依据所述第一评分和所述第二评分，确定知识检索损失值。

18.根据权利要求15至17中任一项所述的推荐模型的处理装置，其特征在于，所述第一样本媒体数据和所述第一样本文本属于样本集，所述样本集还包括第二样本媒体数据和第二样本文本；

所述推荐模型的处理装置还包括第三损失值确定模块，用于对所述第二样本媒体数据和所述第二样本文本进行特征提取，得到第二媒体训练向量和第二文本训练向量；依据所述第二媒体训练向量、所述第二文本训练向量、所述第一媒体训练向量和所述第一文本训练向量，确定图像文本对比损失值；

所述参数调整模块，还用于基于所述视觉损失值、所述语言损失值、所述知识检索损失值和所述图像文本对比损失值，调整所述特征提取模型、所述知识检索模型和所述知识增强模型的参数，得到增强向量提取模型。

19.根据权利要求18所述的推荐模型的处理装置，其特征在于，所述第三损失值确定模块包括：图像文本对比损失值确定单元，用于依据所述第一媒体训练向量和所述第二文本训练向量确定第一相似度；依据所述第一文本训练向量和所述第二媒体训练向量确定第二相似度；依据所述第一相似度、所述第二相似度、第一相似度标签和第二相似度标签，确定图像文本对比损失值。

20.一种媒体数据的推荐装置，其特征在于，所述媒体数据的推荐装置包括如权利要求15所述的推荐模型的处理装置，还包括：

第一知识检索模块，用于依据所述媒体表示向量在知识图谱中进行知识检索，得到所述媒体数据对应的实体子图，并确定所述实体子图对应的实体表示向量；

第一融合模块，用于对所述媒体表示向量、所述文本表示向量和所述实体表示向量进行特征融合处理，得到知识增强向量；

推荐模块，用于基于所述知识增强向量获取目标媒体数据，并向目标对象推荐所述目标媒体数据。

21.根据权利要求20所述的媒体数据的推荐装置，其特征在于，所述推荐模型包括图像特征提取模型和文本特征提取模型；所述向量提取模块包括：

媒体表示向量提取单元，用于通过所述图像特征提取模型对媒体数据进行特征提取，得到媒体表示向量；

文本表示向量提取单元，用于通过所述文本特征提取模型，从所述媒体数据对应的描述文本中提取文本表示向量。

22.根据权利要求21所述的媒体数据的推荐装置，其特征在于，所述媒体表示向量提取单元，用于当媒体数据为视频时，通过所述图像特征提取模型提取所述视频中各图像帧的特征，得到媒体表示向量；当媒体数据为图像时，通过所述图像特征提取模型，对所述图像的各图像块进行特征提取，得到媒体表示向量。

23.根据权利要求20所述的媒体数据的推荐装置，其特征在于，所述第一知识检索模块包括：

目标实体确定单元，用于基于所述媒体表示向量，在知识图谱中检索与所述媒体数据相关的目标实体；

实体子图确定单元，用于基于所述目标实体和所述知识图谱，确定所述媒体数据对应的实体子图；

实体表示向量确定单元，用于提取所述实体子图中各实体的特征，得到实体表示向量。

24.根据权利要求23所述的媒体数据的推荐装置，其特征在于，所述媒体表示向量包括至少两个图像子表示向量；

所述目标实体确定单元，还用于获取知识图谱中各实体的初始实体向量；依据各所述初始实体向量和所述至少两个图像子表示向量，在所述知识图谱中检索候选实体；在所述候选实体中，选取所述媒体数据对应的目标实体。

25.根据权利要求24所述的媒体数据的推荐装置，其特征在于，所述目标实体确定单元还包括候选实体检索子单元，用于依据各所述初始实体向量和所述至少两个图像子表示向量，确定所述至少两个图像子表示向量分别对应的相关度集合；所述相关度集合包括所述图像子表示向量分别与所述初始实体向量之间的相关度；依据所述相关度集合，在所述知识图谱中选取与所述至少两个图像子表示向量相关的候选实体。

26.根据权利要求23所述的媒体数据的推荐装置，其特征在于，所述推荐模型包括知识检索模型；

所述目标实体确定单元，还用于通过所述知识检索模型的检索子模型，基于所述媒体表示向量在知识图谱中检索与所述媒体数据相关的目标实体；

所述实体子图确定单元，还用于通过所述知识检索模型的子图构建网络，基于所述各目标实体和所述知识图谱，确定所述媒体数据对应的实体子图；

所述实体表示向量确定单元，还用于通过所述知识检索模型的图神经网络，提取所述实体子图中各实体的特征，得到实体表示向量。

27.根据权利要求20所述的媒体数据的推荐装置，其特征在于，所述推荐模型包括知识增强模型；所述第一融合模块，还用于将所述媒体表示向量、所述文本表示向量和所述实体表示向量拼接，并在拼接过程中，在所述媒体表示向量与所述文本表示向量之间，以及所述文本表示向量和所述实体表示向量之间添加分隔元素，得到拼接向量；通过所述知识增强模型对所述拼接向量进行特征融合处理，得到知识增强向量。

28.根据权利要求20至27中任一项所述的媒体数据的推荐装置，其特征在于，所述推荐模型包括分类模型；所述推荐模块，还用于通过所述分类模型对所述知识增强向量进行分类处理，得到目标对象的兴趣类型；依据所述兴趣类型获取目标媒体数据，并向所述目标对象推荐所述目标媒体数据。

29.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述的方法的步骤。

30.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。

31.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。