CN114419514A

CN114419514A - 一种数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN114419514A
Application number: CN202210094037.XA
Authority: CN
Inventors: 高洵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-04-29
Anticipated expiration: 2042-01-26
Also published as: CN114419514B

Abstract

本申请实施例公开了一种数据处理方法、装置、计算机设备及存储介质，包括：获取包括M个子数据集的样本数据集；每个子数据集中的媒体数据均关联N个模态类型，每两个子数据集之间存在不同模态类型的媒体数据；获取每个子数据集分别对应的多模态特征；在获取到第(i‑1)次迭代训练后的初始多模态识别模型时，基于多模态特征X_i对初始多模态识别模型进行迭代训练，得到第一训练模型，且基于多模态特征X_i+1对第一训练模型进行迭代训练，直到(i+1)等于M时，得到第二训练模型；基于模型收敛条件以及第二训练模型生成目标多模态识别模型。采用本申请实施例，可以提高匹配度识别的准确度。

Description

一种数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术

在识别图片数据与视频数据之间的匹配度时，现有匹配度识别方法往往采用人工指定的规则或角度，根据人工经验对视频数据与图片数据进行匹配度识别，这样使得不同的识别对象在针对同一视频图片对(例如，由视频数据a与图片数据b所组成的视频图片对)进行匹配度识别时，得到的匹配结果可能存在不同。比如，识别对象A认为该图片数据b与视频数据a相匹配，在选择该视频数据a的封面图片数据时，极有可能将该图片数据b作为该视频数据a的封面图片数据。而识别对象B认为该图片数据b与视频数据不匹配，在选择视频数据a的封面图片数据时，不会将该图片数据b作为该视频数据a的封面图片数据，这样将降低匹配度识别的准确率。

发明内容

本申请实施例提供一种数据处理方法、装置、计算机设备及存储介质，可以提高匹配度识别的准确度。

本申请实施例一方面提供一种数据处理方法，包括：

获取样本数据集；样本数据集包括M个子数据集，每个子数据集中的媒体数据均关联N个模态类型，每两个子数据集之间存在不同模态类型的媒体数据；M和N均为大于1的正整数；

获取每个子数据集分别对应的多模态特征；M个多模态特征包括多模态特征X_i和多模态特征X_i+1；i为小于M的正整数；

在获取到第(i-1)次迭代训练后的初始多模态识别模型时，基于多模态特征X_i，对初始多模态识别模型进行迭代训练，得到第一训练模型，且基于多模态特征X_i+1，对第一训练模型进行迭代训练，直到(i+1)等于M时，得到第二训练模型；

基于与初始多模态识别模型相关联的模型收敛条件以及第二训练模型，生成目标多模态识别模型；目标多模态识别模型用于识别目标视频数据和待识别图片数据之间的匹配度；样本数据集关联的模态类型包括目标视频数据所关联的模态类型以及待识别图片数据对应的模态类型。

本申请实施例一方面提供一种数据处理装置，包括：

数据集获取模块，用于获取样本数据集；样本数据集包括M个子数据集，每个子数据集中的媒体数据均关联N个模态类型，每两个子数据集之间存在不同模态类型的媒体数据；M和N均为大于1的正整数；

多模态特征获取模块，用于获取每个子数据集分别对应的多模态特征；M个多模态特征包括多模态特征X_i和多模态特征X_i+1；i为小于M的正整数；

迭代训练模块，用于在获取到第(i-1)次迭代训练后的初始多模态识别模型时，基于多模态特征X_i，对初始多模态识别模型进行迭代训练，得到第一训练模型，且基于多模态特征X_i+1，对第一训练模型进行迭代训练，直到(i+1)等于M时，得到第二训练模型；

目标模型生成模块，用于基于与初始多模态识别模型相关联的模型收敛条件以及第二训练模型，生成目标多模态识别模型；目标多模态识别模型用于识别目标视频数据和待识别图片数据之间的匹配度；样本数据集关联的模态类型包括目标视频数据所关联的模态类型以及待识别图片数据对应的模态类型。

其中，初始多模态识别模型所关联的模态类型包括第一模态类型、第二模态类型以及第三模态类型；

该数据集获取模块包括：

第一子数据集确定单元，用于基于属于第一模态类型的媒体数据以及属于第二模态类型的媒体数据，确定第一子数据集；

第二子数据集确定单元，用于基于属于第一模态类型的媒体数据以及属于第三模态类型的媒体数据，确定第二子数据集；

第三子数据集确定单元，用于基于属于第二模态类型的媒体数据以及属于第三模态类型的媒体数据，确定第三子数据集；

样本数据集确定单元，用于将包括第一子数据集、第二子数据集以及第三子数据集的数据集确定为样本数据集。

其中，该第一子数据集确定单元包括：

第一视频数据集确定子单元，用于在第一模态类型为视频模态类型，第二模态类型为图片模态类型时，获取属于视频模态类型的媒体数据，将获取到的媒体数据确定为第一视频数据集；第一视频数据集包括X₁个视频数据；X₁为正整数；

第一正样本确定子单元，用于从X₁个视频数据中获取视频数据V_k，从视频数据V_k中获取属于图片模态类型的待处理图片数据，将视频数据V_k与待处理图片数据所组成的视频图片对确定为第一正样本数据；k小于或者等于X₁；

第一负样本确定子单元，用于基于针对待处理图片数据的距离确定策略以及X₁个视频数据，确定与视频数据V_k相关联的第一负样本数据；

第一子数据集确定子单元，用于将X₁个视频数据分别对应的第一正样本数据以及X₁个视频数据分别对应的第一负样本数据确定为第一子数据集。

其中，该第一负样本确定子单元包括：

策略获取子单元，用于获取针对待处理图片数据的距离确定策略；

待检测视频类型确定子单元，用于从X₁个视频数据所包括的除待处理图片数据之外的Y个图片数据中，确定属于图片模态类型的候选图片数据，将候选图片数据所属的视频数据的视频类型确定为待检测视频类型；Y为大于X₁的正整数；

距离确定子单元，用于基于距离确定策略，确定待检测视频类型与视频数据V_k的视频类型之间的第一距离，确定候选图片数据以及待处理图片数据之间的第二距离；

图片距离确定子单元，用于基于第一距离和第二距离，确定待处理图片数据与候选图片数据之间的图片距离；

负样本图片确定子单元，用于在获取到Y个图片距离时，从Y个图片数据中筛选满足负样本图片筛选条件的图片数据，将筛选出的图片数据确定为负样本图片数据，将视频数据V_k以及负样本图片数据所组成的视频图片对确定为第一负样本数据。

其中，第二子数据集确定单元包括：

第二视频数据集确定子单元，用于在第一模态类型为视频模态类型，第三模态类型为文本模态类型时，获取属于视频模态类型的媒体数据，将获取到的媒体数据确定为第二视频数据集；第二视频数据集包括X₂个视频数据；X₂为正整数；

第二正样本确定子单元，用于从X₂个视频数据中获取视频数据V_h，从视频数据V_h中获取属于文本模态类型的待处理文本数据，将视频数据V_h以及待处理文本数据所组成的视频文本对确定为第二正样本数据；h小于或者等于X₂；

第二负样本确定子单元，用于确定视频数据V_h的视频类型，从X₂个视频数据中筛选与视频数据V_h具有不同视频类型的视频数据，将筛选出的视频数据对应的文本数据确定为负样本文本数据，将视频数据V_h与负样本文本数据所组成的视频文本对确定为第二负样本数据；

第二子数据集确定子单元，用于将X₂个视频数据分别对应的第二正样本数据以及X₂个视频数据分别对应的第二负样本数据确定为第二子数据集。

其中，多模态特征获取模块包括：

待编码子数据集获取单元，用于从M个子数据集中获取待编码子数据集S_j，在待编码子数据集S_j所关联的N个模态类型中确定模态类型L_g，将待编码子数据集S_j中的属于模态类型L_g的媒体数据确定为待编码媒体数据；j为小于或者等于M的正整数；g为小于或者等于N的正整数；

特征提取单元，用于对待编码媒体数据进行特征提取，得到模态类型L_g对应的模态特征；

多模态特征确定单元，用于将待编码子数据集S_j中N个模态类型分别对应的模态特征确定为多模态特征X_j。

其中，模态类型L_g为图片模态类型；

特征提取单元包括：

待编码图片确定子单元，用于从待编码媒体数据中确定属于图片模态类型的待编码图片数据；

图片位置特征获取子单元，用于获取与待编码图片数据相关联的图片位置特征以及待编码图片数据对应的第一跨模态图文特征；

图片特征确定子单元，用于对图片位置特征以及第一跨模态图文特征进行特征提取，得到待编码图片数据对应的图片特征，将图片特征作为图片模态类型对应的模态特征。

其中，模态类型L_g为文本模态类型；

特征提取单元包括：

待编码文本确定子单元，用于从待编码媒体数据中确定属于文本模态类型的待编码文本数据；

分词处理子单元，用于对待编码文本数据进行分词处理，得到待编码文本数据对应的待编码字符串；

文本特征确定子单元，用于对待编码字符串进行特征提取，得到待编码字符串对应的字符串提取特征，基于字符串提取特征，生成待编码文本数据对应的文本特征，将文本特征作为文本模态类型对应的模态特征。

其中，文本特征确定子单元包括：

字符串位置特征获取子单元，用于获取与待编码字符串相关联的字符串位置特征以及待编码字符串对应的第二跨模态图文特征；

特征拼接子单元，用于对字符串位置特征以及第二跨模态图文特征进行特征拼接，得到待编码字符串对应的字符串拼接特征；

归一化处理子单元，用于对字符串拼接特征进行归一化处理，基于归一化处理后的字符串拼接特征，得到待编码字符串对应的字符串提取特征；

文本特征生成子单元，用于基于字符串提取特征，生成待编码文本数据对应的文本特征，将文本特征作为文本模态类型对应的模态特征。

其中，目标模型生成模块包括：

调整数据集获取单元，用于获取携带样本标签的调整数据集；调整数据集中的调整数据组包括属于视频模态类型的调整样本视频数据、属于文本模态类型的调整样本文本数据以及属于图片模态类型的调整样本图片数据；样本标签包括第一样本标签、第二样本标签以及第三样本标签；第一样本标签用于指示调整样本视频数据的视频类型；第二样本标签用于指示调整样本文本数据的文本类型；第三样本标签用于指示调整样本图片数据与调整样本视频数据之间的匹配度；

调整样本特征确定单元，用于分别对调整样本视频数据、调整样本文本数据以及调整样本图片数据进行特征提取，得到调整样本特征；调整样本特征包括调整样本视频数据对应的调整样本视频特征、调整样本文本数据对应的调整样本文本特征以及调整样本图片数据对应的调整样本图片特征；

预测标签输出单元，用于基于调整样本视频特征、调整样本文本特征、调整样本图片特征以及第二训练模型，得到包括第一预测标签、第二预测标签以及第三预测标签的预测标签；

调整训练单元，用于基于样本标签、预测标签以及与初始多模态识别模型相关联的模型收敛条件，对第二训练模型进行调整训练，将调整训练后的第二训练模型作为目标多模态识别模型。

其中，调整训练单元包括：

模型收敛条件获取子单元，用于获取与初始多模态识别模型相关联的模型收敛条件；模型收敛条件包括为视频损失参数配置的视频损失权重、为文本损失参数配置的文本损失权重以及为图片损失参数配置的图片损失权重；

损失值确定子单元，用于基于第一样本标签和第一预测标签，确定视频损失参数对应的视频损失值，基于第二样本标签和第二预测标签，确定文本损失参数对应的文本损失值，基于第三样本标签和第三预测标签，确定图片损失参数对应的图片损失值；

模型损失确定子单元，用于基于视频损失值、文本损失值、图片损失值、视频损失权重、文本损失权重以及图片损失权重，确定第二训练模型的模型损失函数对应的模型损失；

调整训练子单元，用于基于模型损失对第二训练模型进行调整训练，得到模型训练结果；

目标模型确定子单元，用于若模型训练结果指示调整训练后的第二训练模型满足模型收敛条件，则将满足模型收敛条件的第二训练模型作为目标多模态识别模型。

其中，该装置还包括：

目标视频数据获取模块，用于在获取到目标视频数据以及Z个待识别图片数据时，确定Z个视频图片对；一个视频图片对是由目标视频数据以及一个待识别图片数据组成的；Z为大于1的正整数；

目标特征确定模块，用于从Z个视频图片对中获取目标视频图片对，确定目标视频图片对的目标特征；目标特征包括与目标视频数据相关联的目标文本模态特征、目标视频数据对应的目标视频模态特征以及目标视频图片对中的待识别图片数据对应的目标图片模态特征；

匹配度输出模块，用于基于目标文本模态特征、目标视频模态特征、目标图片模态特征以及目标多模态识别模型，得到目标视频图片对中目标视频数据与待识别图片数据之间的匹配度；

目标图片确定模块，用于在获取到Z个视频图片对中的每个视频图片对分别对应的匹配度时，基于Z个匹配度，从Z个待识别图片数据中获取具有最高匹配度的待识别图片数据，将获取到的待识别图片数据确定为与目标视频数据具备匹配关系的目标图片数据。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时，使得该计算机设备执行本申请实施例提供的方法。

在本申请实施例中，由于样本数据集的M个子数据集中的每个子数据集的媒体数据均关联N个模态类型，且每两个子数据集之间存在不同模态类型的媒体数据，因此，计算机设备可以通过M个子数据集分别对应的多模态特征，逐一对多模态识别模型进行多层次的迭代训练，能够综合考虑多种识别维度，进而可以基于模型收敛条件以及迭代训练后的第二训练模型，生成的目标多模态识别模型。其中，一种子数据集可以对应一种识别维度，那么该计算机设备在通过目标多模态识别模型，对目标视频数据与待识别图片数据之间的匹配度进行时，能够获取多维度信息，从而提升匹配度识别的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种对多模态识别模型进行迭代训练的场景示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种对图片数据进行特征提取的特征提取网络层的网络结构示意图；

图5是本申请实施例提供的一种对文本数据进行特征提取的特征提取网络层的网络结构示意图；

图6是本申请实施例提供的一种多模态识别模型的网络架构示意图；

图7是本申请实施例提供的一种进行多层次的迭代训练的训练过程示意图；

图8是本申请实施例提供的一种数据处理方法的流程示意图；

图9是本申请实施例提供的一种数据处理装置的结构示意图；

图10是本申请实施例提供的一种数据处理装置的结构示意图；

图11是本申请实施例提供的一种计算机设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，本申请实施例中的目标多模态识别模型可以为一种用于对图像-文本语言进行表征学习的多模态预训练模型(例如，Universal Image-Text Representation，简称UNITER模型)。该目标多模态识别模型的网络结构可以为一种利用注意力机制来提高模型训练速度的模型(例如，Transformer)，Transformer是一种由self-Attenion(自注意力网络层)和Feed Forward Neural Network(前馈神经网络)组成的网络结构，广泛应用于人工智能领域中的自然语言处理(Nature Language processing,NLP)领域，且越来越多地被用于计算机视觉技术(Computer Vision,CV)领域。

其中，所谓人工智能(Artificial Intelligence，简称AI)是利用数字计算机或者数字计算机控制的计算模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

其中，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括服务器10F和终端设备集群。该终端设备集群可以包括一个或者多个终端设备，这里将不对终端设备的数量进行限制。如图1所示，该终端设备集群具体可以包括终端设备100a、终端设备100b、终端设备100c、…、终端设备100n。如图1所示，终端设备100a、终端设备100b、终端设备100c、…、终端设备100n可以分别与上述服务器10F进行网络连接，以便于每个终端设备可以通过该网络连接与服务器10F进行数据交互。其中，这里的网络连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其他方式，本申请在此不做限制。

其中，该终端设备集群中的每个终端设备均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等具有多层次模型训练功能的智能终端。应当理解，如图1所示的终端设备集群中的每个终端设备均可以安装有目标应用(即应用客户端)，当该应用客户端运行于各终端设备中时，可以分别与上述图1所示的服务器10F之间进行数据交互。其中，该应用客户端可以包括社交客户端、多媒体客户端(例如，视频客户端)、娱乐客户端(例如，游戏客户端)、教育客户端、直播客户端等应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端(例如，社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端，在此不做限定。

如图1所示，本申请实施例中的服务器10F可以为该应用客户端对应的服务器。该服务器10F可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。其中，本申请实施例将不对服务器的数量进行限制。

为便于理解，本申请实施例可以在图1所示的多个终端设备中选择一个终端设备作为目标终端设备。例如，本申请实施例可以将图1所示的终端设备100a作为目标终端设备，该目标终端设备中可以集成有目标应用(即应用客户端)。此时，该目标终端设备可以通过该应用客户端对应的业务数据平台与服务器10F之间实现数据交互。其中，这里的目标应用可以运行有目标多模态识别模型，该目标多模态识别模型是一种应用样本数据集中的M个子数据集，对初始多模态识别模型进行多层次的迭代训练后所得到的，M为大于1的正整数。其中，这里的样本数据集关联的模态类型的类型数量可以为E(E为正整数)个，这E个模态类型具体可以包括第一模态类型(例如，视频模态类型)、第二模态类型(例如，图片模态类型)、第三模态类型(例如，文本模态类型)以及第四模态类型(例如，音频模态类型)等。

其中，这里的每个子数据集中的媒体数据均关联E个模态类型中的N个模态类型，且每两个子数据集之间存在不同模态类型的媒体数据。其中，这里的N可以为大于1小于E的正整数。其中，本申请实施例可以将第(i-1)次迭代训练后的多模态识别模型称之为初始多模态识别模型，将第i次迭代训练后的多模态识别模型称之为第一训练模型，且将迭代训练完成的多模态识别模型称之为第二训练模型。应当理解，具有多层次模型训练功能的计算机设备(例如，目标终端设备或图1所示的服务器10F)在获取到每个子数据集分别对应的多模态特征时，可以逐一对初始多模态识别模型进行多层次的迭代训练，以得到第二训练模型。其中，本申请实施例将不对多层次的迭代训练的训练顺序进行限定。

进一步地，该计算机设备可以基于模型收敛条件以及第二训练模型生成目标多模态识别模型。应当理解，本申请实施例在生成目标多模态识别模型时，需要综合考虑多种识别维度(其中，一个子数据集对应一种识别维度)，进而可以针对不同识别维度设计多个预训练任务，使得最终得到的目标多模态识别模型能够获取多维度信息，从而更加准确的对目标视频数据和待识别图片数据之间的匹配度进行识别，以判断目标视频数据与待识别图片数据是否匹配，进而确定该待识别图片数据是否可以作为该目标视频数据的关键图片数据(例如，封面图片数据或优质图片数据等)。这里的优质图片数据可以用于图片素材库的建立。

其中，这里的目标视频数据可以是指包括属于视频模态类型的视频数据以及属于文本模态类型的文本数据，例如，该文本数据可以为该目标视频数据的视频标题。可以理解的是，在目标视频数据与待识别图片数据相匹配时，这意味着该待识别图片数据不仅与目标视频数据的视频内容相匹配，还与目标视频数据的视频标题相匹配。可以理解的是，计算机设备采用这样多层次的迭代训练方式，能够准确的学习N个不同模态类型之间的相关性，将多模态信息表现在同一空间，从而在通过目标多模态识别模型，对目标视频数据与待识别图片数据之间的匹配度进行识别时，能够有效提高匹配度识别的准确度。

为便于理解，进一步地，请参见图2，图2是本申请实施例提供的一种对多模态识别模型进行迭代训练的场景示意图。如图2所示，本申请实施例中的计算机设备可以为具有多层次模型训练功能的计算机设备，该计算机设备可以为上述图1所示的终端设备集群中的任意一个终端设备，例如，终端设备100a，该计算机设备也可以为上述图1所示的服务器10F，这里将不对计算机设备进行限定。

应当理解，本申请实施例中的计算机设备可以获取图2所示的样本数据集20S，这里的样本数据集可以包括M个子数据集，具体可以包括子数据集S₁、子数据集S₂、…、以及子数据集S_M。其中，每个子数据集中的媒体数据均关联N个模态类型，每两个子数据集之间存在不同模态类型的媒体数据；M和N均为大于1的正整数。

比如，若样本数据集关联的模态类型的类型数量以4个为例，具体包括第一模态类型(例如，视频模态类型)、第二模态类型(例如，图片模态类型)、第三模态类型(例如，文本模态类型)以及第四模态类型(例如，音频模态类型)，且每个子数据集中的媒体数据所关联的模态类型的数量为3，则该样本数据集20S可以包括3个子数据集，即子数据集S₁、子数据集S₂以及子数据集S₃。其中，这里的子数据集S₁中的媒体数据所关联的模态类型可以包括视频模态类型、图片模态类型和文本模态类型；子数据集S₂中的媒体数据所关联的模态类型可以包括视频模态类型、图片模态类型和音频模态类型；子数据集S₃中的媒体数据所关联的模态类型可以包括图片模态类型、文本模态类型和音频模态类型。

又比如，若样本数据集关联的模态类型的类型数量以4个为例，具体包括第一模态类型(例如，视频模态类型)、第二模态类型(例如，图片模态类型)、第三模态类型(例如，文本模态类型)以及第四模态类型(例如，音频模态类型)，且每个子数据集中的媒体数据所关联的模态类型的数量为2，则该样本数据集20S可以包括6个子数据集，即子数据集S₁、子数据集S₂、子数据集S₃、子数据集S₄、子数据集S₅和子数据集S₆。其中，这里的子数据集S₁中的媒体数据所关联的模态类型可以包括视频模态类型和图片模态类型；子数据集S₂中的媒体数据所关联的模态类型可以包括视频模态类型和文本模态类型；子数据集S₃中的媒体数据所关联的模态类型可以包括视频模态类型和音频模态类型；子数据集S₄中的媒体数据所关联的模态类型可以包括图片模态类型和文本模态类型；子数据集S₅中的媒体数据所关联的模态类型可以包括图片模态类型和音频模态类型；子数据集S₆中的媒体数据所关联的模态类型可以包括文本模态类型和音频模态类型；

进一步地，该计算机设备可以获取每个子数据集分别对应的多模态特征，应当理解，该计算机设备可以通过特征提取网络层，对每个子数据集分别进行特征提取，以得到每个子数据集分别对应的多模态特征。其中，这里的特征提取网络层可以为多模态识别模型中的网络层，也可以为独立于多模态识别模型的网络层，这里将不对其进行限定。如图2所示，这M个多模态特征具体可以包括子数据集S₁对应的多模态特征X₁、子数据集S₂对应的多模态特征X₂、…、以及子数据集S_M对应的多模态特征X_M。应当理解，该计算机设备可以基于这M个多模态特征，逐一对初始多模态识别模型进行多层次的迭代训练，以在训练完成时得到第二训练模型。比如，该计算机设备在获取到第(i-1)次迭代训练后的初始多模态识别模型时，可以基于M个多模态特征中的多模态特征X_i，对初始多模态识别模型进行迭代训练，得到第一训练模型，进而可以基于这M个多模态特征中的多模态特征X_i+1，对第一训练模型进行迭代训练，直到(i+1)等于M时，得到第二训练模型。其中，这里的i为小于M的正整数。

如图2所示，该计算机设备在首次进行迭代训练时，可以获取图2所示的多模态识别模型W₀，进而可以基于多模态特征X₁对多模态识别模型W₀进行迭代训练，以得到图2所示的多模态识别模型W₁。进一步地，该计算机设备可以基于多模态特征X₂对多模态识别模型W₁进行迭代训练，以得到图2所示的多模态识别模型W₂，以此类推，直到该计算机设备基于多模态特征X_M对多模态识别模型W_M-1进行迭代训练，以得到图2所示的多模态识别模型W_M。此时，该计算机设备可以将多模态识别模型W_M称之为第二训练模型。

进一步地，该计算机设备可以基于与初始多模态识别模型相关联的模型收敛条件以及第二训练模型，生成目标多模态识别模型。例如，这里的模型收敛条件是指模型损失小于或者等于模型损失阈值。应当理解，目标多模态识别模型可以用于识别目标视频数据和待识别图片数据之间的匹配度。其中，这里的样本数据集关联的模态类型可以包括目标视频数据所关联的模态类型(例如，视频模态类型和文本模态类型)以及待识别图片数据对应的模态类型(例如，图片模态类型)。

由此可见，计算机设备采用这样多层次的迭代训练方式，能够准确的学习N个不同模态类型之间的相关性，将多模态信息表现在同一空间，从而在通过目标多模态识别模型，对目标视频数据与待识别图片数据之间的匹配度进行识别时，能够有效提高匹配度识别的准确度。

其中，具有多层次模型训练功能的计算机设备在获取到M个子数据集分别对应的多模态特征时，采用多层次的迭代训练方式，得到目标多模态识别模型的具体实现方式可以参见下述图3-图8所对应的实施例。

进一步地，请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示，该方法可以由具有多层次模型训练功能的计算机设备执行，该计算机设备可以为终端设备(例如，上述图1所示的终端设备集群中的任意一个终端设备，例如，具有多层次模型训练功能的终端设备100a)，也可以为服务器(例如，上述图1所示的服务器10F)，在此不做限定。为便于理解，本申请实施例以该方法由具有多层次模型训练功能的服务器执行为例进行说明，该方法至少可以包括以下步骤S101-步骤S104：

步骤S101，获取样本数据集。

其中，该样本数据集可以包括M个子数据集，每个子数据集中的媒体数据均关联N个模态类型，每两个子数据集之间存在不同模态类型的媒体数据；这里的M和N均为大于1的正整数。应当理解，本申请实施例中的初始多模态识别模型所关联的模态类型可以以3个为例，具体可以包括第一模态类型、第二模态类型以及第三模态类型。具体地，具有多层次模型训练功能的计算机设备在确定每个子数据集中的媒体数据所关联的模态类型的数量为2时，可以基于属于第一模态类型的媒体数据以及属于第二模态类型的媒体数据，确定第一子数据集。进一步地，该计算机设备还可以基于属于第一模态类型的媒体数据以及属于第三模态类型的媒体数据，确定第二子数据集。该计算机设备可以基于属于第二模态类型的媒体数据以及属于第三模态类型的媒体数据，确定第三子数据集。此时，该计算机设备可以将包括第一子数据集、第二子数据集以及第三子数据集的数据集确定为样本数据集。

应当理解，在第一模态类型为视频模态类型，第二模态类型为图片模态类型时，该计算机设备可以获取属于视频模态类型的媒体数据，进而将获取到的媒体数据确定为第一视频数据集。其中，这里的第一视频数据集包括X₁个视频数据；X₁为正整数。进一步地，该计算机设备可以从X₁个视频数据中获取视频数据V_k，从视频数据V_k中获取属于图片模态类型的待处理图片数据，并将该视频数据V_k与待处理图片数据所组成的视频图片对确定为第一正样本数据。其中，k小于或者等于X₁。其中，这里的待处理图片数据可以为该视频数据V_k中的关键图片数据，比如，该视频数据V_k中的封面图片数据或优质图片数据等。

进一步地，该计算机设备可以基于针对待处理图片数据的距离确定策略以及X₁个视频数据，确定与视频数据V_k相关联的第一负样本数据。可以理解的是，该计算机设备可以将X₁个视频数据分别对应的第一正样本数据以及X₁个视频数据分别对应的第一负样本数据确定为第一子数据集。

其中，该计算机设备获取到的针对待处理图片数据的距离确定策略可以参见下述公式(1)：

图片距离＝第一距离+第二距离 (1)

其中，这里的第一距离可以是指视频类型距离，即候选图片数据所属视频数据的视频类型(即待检测视频类型)与待处理图片数据所属视频数据的视频类型(即目标视频类型)之间的距离。可以理解的是，若待检测视频类型与目标视频类型相同，则这里的第一距离可以为第一阈值(例如，0)，若待检测视频类型与目标视频类型不同，则该第一距离可以为第二阈值(例如，1)。这里的第二距离可以是指候选图片数据与待处理图片数据之间的距离(例如，图片哈希距离或图片向量距离)。其中，该图片哈希距离可以采用平均哈希算法(aHash)、感知哈希算法(pHash)和差异哈希算法(dHash)中的任意一种哈希算法计算所得，这里将不对图片哈希距离的具体实施方式进行限定。

应当理解，计算机设备在确定与视频数据V_k相关联的第一负样本数据时，可以获取上述公式(1)所示的距离确定策略，其中，这里的距离确定策略包括距离阈值。从X₁个视频数据所包括的除待处理图片数据之外的Y个图片数据中，该计算机设备可以确定属于图片模态类型的候选图片数据，进而可以将候选图片数据所属的视频数据的视频类型确定为待检测视频类型。其中，这里的Y可以为大于X₁的正整数。进一步地，该计算机设备可以基于距离确定策略，确定待检测视频类型与视频数据V_k的视频类型之间的第一距离，确定候选图片数据以及待处理图片数据之间的第二距离。此时，该计算机设备可以基于第一距离和第二距离，确定待处理图片数据与候选图片数据之间的图片距离。在获取到Y个图片距离时，该计算机设备可以从Y个图片数据中筛选满足负样本图片筛选条件的图片数据，将筛选出的图片数据确定为负样本图片数据，进而可以将视频数据V_k以及负样本图片数据所组成的视频图片对确定为第一负样本数据。其中，这里的负样本图片筛选条件可以是指从Y个图片数据中筛选具有最大图片距离的图片数据，也可以是指从Y个图片数据中筛选图片距离大于距离阈值的图片数据，这里将不对负样本图片筛选条件进行限定。

比如，该计算机设备获取到的第一视频数据集可以包括X₁(例如，3)个视频数据，这3个视频数据具体可以包括视频数据V₁、视频数据V₂以及视频数据V₃，为便于阐述，该视频数据V₁包括的具有图片模态类型的图片数据可以为2个，具体可以包括图片数据I₁₁和图片数据I₁₂；该视频数据V₂包括的具有图片模态类型的图片数据可以为3个，具体可以包括图片数据I₂₁、图片数据I₂₂和图片数据I₂₃；该视频数据V₃包括的具有图片模态类型的图片数据可以为2个，具体可以包括图片数据I₃₁和图片数据I₃₂。

应当理解，对于视频数据V₁而言，该计算机设备可以从视频数据V₁中获取属于图片模态类型的待处理图片数据(例如，视频封面数据)，该待处理图片数据可以为图片数据I₁₁。此时，该计算机设备可以将视频数据V₁与图片数据I₁₁所组成的视频图片对(例如，视频图片对1)确定为第一正样本数据。

进一步地，该计算机设备可以获取公式(1)所示的距离确定策略，以分别确定图片数据I₁₁与属于图片模态类型的候选图片数据之间的图片距离。其中，这里的候选图片数据可以为除图片数据I₁₁之外的其他图片数据，也可以为除视频数据V₁之外的其他视频数据中的图片数据(例如，视频数据V₂中的图片数据和视频数据V₃中的图片数据)，这里将不对其进行限定。

其中，本申请实施例中的候选图片数据是从除图片数据I₁₁之外的其他图片数据(例如，图片数据I₁₂、图片数据I₂₁、图片数据I₂₂、图片数据I₂₃、图片数据I₃₁以及图片数据I₃₂这6个图片数据)所获取的。比如，若该计算机设备确定的候选图片数据为图片数据I₁₂，则该计算机设备可以通过上述公式(1)所示的距离确定策略，确定图片数据I₁₁与图片数据I₁₂之间的图片距离(例如，图片距离1)。其中，由于图片数据I₁₁与图片数据I₁₂均属于同一视频数据中的图片数据，因此，该计算机设备可以确定图片数据I₁₁所属视频数据的视频类型与图片数据I₁₂所属视频数据的视频类型相同，此时，该计算机设备可以图片数据I₁₁与图片数据I₁₂之间的第一距离可以为0。

若该计算机设备确定的候选图片数据为图片数据I₂₁，则该计算机设备可以通过上述公式(1)所示的距离确定策略，确定图片数据I₁₁与图片数据I₂₁之间的图片距离(例如，图片距离2)。其中，由于图片数据I₁₁与图片数据I₂₁属于不同视频数据中的图片数据，该计算机设备需要检测图片数据I₁₁所属视频数据的视频类型与图片数据I₂₁所属视频数据的视频类型是否相同，从而确定图片数据I₁₁与图片数据I₁₂之间的第一距离。

以此类推，该计算机设备可以依次确定图片数据I₁₁与图片数据I₂₂之间的图片距离(例如，图片距离3)、图片数据I₁₁与图片数据I₂₃之间的图片距离(例如，图片距离4)、图片数据I₁₁与图片数据I₃₁之间的图片距离(例如，图片距离5)、图片数据I₁₁与图片数据I₃₂之间的图片距离(例如，图片距离6)。

进一步地，该计算机设备可以在获取到这6个图片距离时，可以从6个图片数据中筛选出满足负样本图片筛选条件的图片数据，进而可以将筛选出的图片数据确定为负样本图片数据。比如，该计算机设备可以从6个图片数据中筛选出具有最大图片距离的图片数据(例如，图片数据I₃₂)，将筛选出的图片数据I₃₂作为满足负样本图片筛选条件的图片数据。此时，该计算机设备可以将图片数据I₃₂确定为负样本图片数据，且将视频数据V₁与图片数据I₃₂所组成的视频图片对(例如，视频图片对2)确定为第一负样本数据。

依次类推，该计算机设备在获取到视频数据V₁对应的第一正样本数据、视频数据V₂对应的第一正样本数据、视频数据V₃对应的第一正样本数据、视频数据V₁对应的第一负样本数据、视频数据V₂对应的第一负样本数据以及视频数据V₃对应的第一负样本数据时，该计算机设备可以确定第一子数据集(例如，视频图片数据集)。

可以理解的是，本申请实施例在确定待处理图片数据与候选图片数据之间的图片距离时，不仅考虑两个图片数据之间的图片哈希距离(即第二距离)，还需要考虑两个图片数据所属视频数据的视频类型之间的视频类型距离(即第一距离)，从而有效降低了将负样本图片数据作为视频数据V_k的关键图片数据(例如，封面图片数据)的概率，以至于提高了样本数据集的可靠性。

应当理解，在第一模态类型为视频模态类型，第三模态类型为文本模态类型时，该计算机设备可以获取属于视频模态类型的媒体数据，进而将获取到的媒体数据确定为第二视频数据集。其中，这里的第二视频数据集可以包括X₂个视频数据；X₂为正整数。这里的第二视频数据集与第一视频数据集可以相同，也可以不同，这里将不对其进行限定。应当理解，该计算机设备可以从X₂个视频数据中获取视频数据V_h，进而可以从视频数据V_h中获取属于文本模态类型的待处理文本数据，将视频数据V_h以及待处理文本数据所组成的视频文本对确定为第二正样本数据；h小于或者等于X₂；其中，这里的待处理文本数据可以为该视频数据V_h的关键文本数据，比如，该视频数据V_h的视频标题文本数据或台词文本数据或互动文本数据(例如，评论数据)等。

进一步地，该计算机设备可以确定视频数据V_h的视频类型，为有效保证第二子数据集中同一训练批次中的视频类型不全为同一类，该计算机设备可以从X₂个视频数据中直接筛选与视频数据V_h具有不同视频类型的视频数据，将筛选出的视频数据对应的文本数据确定为负样本文本数据，进而可以将视频数据V_h与负样本文本数据所组成的视频文本对确定为第二负样本数据。应当理解，该计算机设备可以将X₂个视频数据分别对应的第二正样本数据以及X₂个视频数据分别对应的第二负样本数据确定为第二子数据集(例如，视频文本数据集)。

应当理解，在第二模态类型为图片模态类型，第三模态类型为文本模态类型时，该计算机设备可以获取属于图片模态类型的图片数据以及属于文本模态类型的文本数据，进而可以基于获取到的图片数据和文本数据，确定第三子数据集(例如，单图文本数据集)。

步骤S102，获取每个子数据集分别对应的多模态特征。

其中，M个子数据集中的每个子数据集均可以对应一个多模态特征，且这M个多模态特征可以包括多模态特征X_i和多模态特征X_i+1，i为小于M的正整数。具体地，该计算机设备可以从M个子数据集中获取待编码子数据集S_j，进而可以在待编码子数据集S_j所关联的N个模态类型中确定模态类型L_g，并将该待编码子数据集S_j中的属于模态类型L_g的媒体数据确定为待编码媒体数据。其中，j为小于或者等于M的正整数；g为小于或者等于N的正整数。进一步地，该计算机设备可以对待编码媒体数据进行特征提取，以得到模态类型L_g对应的模态特征，进而可以将待编码子数据集S_j中N个模态类型分别对应的模态特征确定为多模态特征X_j。

应当理解，若该计算机设备确定的模态类型L_g为图片模态类型，则可以从待编码媒体数据(即属于图片模态类型的媒体数据)中确定属于图片模态类型的待编码图片数据。进一步地，该计算机设备可以获取与待编码图片数据相关联的图片位置特征以及待编码图片数据对应的第一跨模态图文特征。其中，在待编码图片数据为某一视频数据的封面图片数据或者单一图片数据时，这里的图片位置特征可以为该计算机设备预先设置的默认位置特征。这里的第一跨模态图文特征是该计算机设备通过一种用于对比文本-图片的预训练的跨模态预训练模型(例如，Contrastive Language-Image Pre-Training，简称CLIP模型)对待编码图片数据进行特征提取后所得到的跨模态图文特征，该跨模态预训练模型是基于各种由图片数据和文本数据所组成的图像文本对所训练的神经网络。进一步地，该计算机设备可以对图片位置特征以及第一跨模态图文特征进行特征提取，得到待编码图片数据对应的图片特征，且将该图片特征作为图片模态类型对应的模态特征。

可选的，若该计算机设备确定的模态类型L_g为视频模态类型，则该计算机设备可以从待编码媒体数据(即属于视频模态类型的媒体数据)中确定属于视频模态类型的待编码视频数据。其中，一个待编码视频数据是由多个视频帧所组成的，这意味着在对该待编码视频数据进行特征提取时，可以分别对该待编码视频数据中的每个视频帧(即属于图片模态类型的图片数据)进行特征提取，进而可以基于每个视频帧数据对应的视频帧特征，得到该待编码视频数据对应的视频特征，进而可以将该视频特征作为视频模态类型对应的模态特征。其中，该计算机设备对每个视频帧数据进行特征提取的具体实施方式可以参见上述该计算机设备对待编码图片数据进行特征提取的具体实施方式，这里将不再继续进行赘述。

为便于理解，进一步地，请参见图4，图4是本申请实施例提供的一种对图片数据进行特征提取的特征提取网络层的网络结构示意图。如图4所示，本申请实施例中的图片数据40S可以为计算机设备确定的需要进行特征提取的待编码图片数据，也可以是该计算机设备确定的需要进行特征提取的待编码视频数据中的视频帧数据，这里将不对其进行限定。其中，图4所示的特征提取网络层包括网络层410L(例如，全连接网络层)以及网络层420L(例如，归一化网络层)。

如图4所示，该计算机设备可以获取图片数据40S对应的跨模态图文特征41x。比如，该计算机设备可以获取跨模态预训练模型(例如，CLIP模型)，进而将图片数据40S输入至该跨模态预训练模型，由该跨模态预训练模型输出该图片数据40S对应的跨模态图文特征41x。进一步地，该计算机设备还可以获取与图片数据40S相关联的图片位置特征42x。比如，若该图片数据40S为待编码图片数据，则该计算机设备可以获取预先设置的默认位置特征作为该图片数据40S的图片位置特征42x。可选的，若该图片数据40S为待编码视频数据中的视频帧数据，则该计算机设备可以获取图片数据40S在待编码视频数据中的视频帧序号信息，进而可以基于视频帧序号信息，确定该图片数据40S的图片位置特征42x。

进一步地，该计算机设备可以将图片位置特征42x输入至图4所示的网络层410L，由网络层410L输出该图片数据40S对应的位置提取特征，进而可以将位置提取特征与跨模态图文特征41x进行特征拼接，且将拼接后的特征输入至网络层420L，由该网络层420L对拼接后的特征进行归一化处理，以得到图片数据40S对应的图片特征40X。

可选的，若该计算机设备确定的模态类型L_g为文本模态类型，则该计算机设备可以从待编码媒体数据中确定属于文本模态类型的待编码文本数据。进一步地，该计算机设备可以对待编码文本数据进行分词处理，得到待编码文本数据对应的待编码字符串。此时，该计算机设备可以对待编码字符串进行特征提取，得到待编码字符串对应的字符串提取特征，进而可以基于字符串提取特征，生成待编码文本数据对应的文本特征，将文本特征作为文本模态类型对应的模态特征。

其中，该计算机设备在生成待编码文本数据对应的文本特征时，可以获取与待编码字符串相关联的字符串位置特征以及待编码字符串对应的第二跨模态图文特征。其中，这里的第二跨模态图文特征是指该计算机设备通过跨模态预训练模型(例如，CLIP模型)对待编码字符串进行特征提取后所得到的跨模态图文特征。进一步地，该计算机设备可以对字符串位置特征以及第二跨模态图文特征进行特征拼接，得到待编码字符串对应的字符串拼接特征，且对字符串拼接特征进行归一化处理，进而可以基于归一化处理后的字符串拼接特征，得到待编码字符串对应的字符串提取特征。应当理解，该计算机设备可以基于字符串提取特征，生成待编码文本数据对应的文本特征，将文本特征作为文本模态类型对应的模态特征。

为便于理解，进一步地，请参见图5，图5是本申请实施例提供的一种对文本数据进行特征提取的特征提取网络层的网络结构示意图。如图5所示，本申请实施例中的文本数据50S可以为计算机设备确定的需要进行特征提取的待编码文本数据。其中，图5所示的特征提取网络层包括网络层500L(例如，归一化网络层)。

如图5所示，该计算机设备可以对文本数据50S进行分词处理，得到文本数据50S对应的n个字符串，n为正整数。其中，这里的字符串具体可以包括字符串f₁、字符串f₂、…、以及字符串f_n。进一步地，该计算机设备可以将这n个字符串中的每个字符串依次作为待编码字符串，以对每个字符串进行特征提取，得到每个字符串分别对应的字符串提取特征。

比如，该计算机设备可以将字符串f₁作为待编码字符串，获取字符串f₁对应的跨模态图文特征51x。其中，该计算机设备可以获取跨模态预训练模型(例如，CLIP模型)，进而将字符串f₁输入至该跨模态预训练模型，由该跨模态预训练模型输出该字符串f₁对应的跨模态图文特征51x。进一步地，该计算机设备还可以获取与该字符串f₁相关联的字符串位置特征52x。其中，该计算机设备可以获取字符串f₁在文本数据50S中的字符串序号信息，进而可以基于获取到的字符串序号信息，确定该字符串f₁的字符串位置特征52x。应当理解，该计算机设备可以将字符串f₁对应的跨模态图文特征51x与字符串f₁对应的字符串位置特征52x进行特征拼接，以得到字符串f₁对应的字符串拼接特征，进而可以通过图5所示的网络层500L，对字符串f₁对应的字符串拼接特征进行归一化处理，从而可以得到字符串f₁对应的字符串提取特征。

依次类推，该计算机设备还可以获取字符串f₁对应的字符串提取特征、…、以及字符串f_n对应的字符串提取特征，以得到n个字符串提取特征，进而可以基于这n个字符串提取特征，生成文本数据50S对应的文本特征50X，且将该文本特征50X作为文本模态类型对应的模态特征。

其中，上述图4所对应实施例中的特征提取网络层以及上述图5所对应实施例中的特征提取网络层均可以为多模态识别模型中的网络层，也可以为独立于多模态识别模型的网络层，这里将不对其进行限定。

步骤S103，在获取到第(i-1)次迭代训练后的初始多模态识别模型时，基于多模态特征X_i，对初始多模态识别模型进行迭代训练，得到第一训练模型，且基于多模态特征X_i+1，对第一训练模型进行迭代训练，直到(i+1)等于M时，得到第二训练模型。

具体地，当i等于1时，该计算机设备获取到的初始多模态识别模型为第0次迭代训练后的多模态识别模型(例如，图2所示的多模态识别模型W₀)，这意味着该计算机设备对多模态识别模型进行首次迭代训练，此时，该计算机设备可以依次从M个多模态特征中获取多模态特征X₁，对初始多模态识别模型进行迭代训练，从而得到第一训练模型，进一步地，该计算机设备可以从M个多模态特征中获取多模态特征X₂，对第一训练模型进行迭代训练，直到(i+1)等于M时，即该计算机设备采用多模态特征X_M进行迭代训练后，得到第二训练模型。

应当理解，该计算机设备逐一采用多模态特征X_i，对第(i-1)次迭代训练后的初始多模态识别模型进行多层次的迭代训练时，这意味着该计算机设备逐一进行预训练任务。其中，这里的预训练任务可以包括多模态特征X₁对应的预训练任务1、多模态特征X₂对应的预训练任务2、…、以及多模态特征X_M对应的预训练任务M，其中，这里的预训练任务的执行顺序可以不做限定。

为便于理解，进一步地，请参见图6，图6是本申请实施例提供的一种多模态识别模型的网络架构示意图。如图6所示，本申请实施例中的多模态识别模型600W可以为该计算机设备获取到的第(i-1)次迭代训练后的初始多模态识别模型。如图6所示，该多模态识别模型600W可以包括用于对各种模态类型(包括视频模态类型、图片模态类型以及文本模态类型)对应的多媒体数据进行特征提取的特征提取网络层。其中，这里的特征提取网络层可以包括上述图4所对应的用于对文本数据进行特征提取的特征提取网络层，也可以包括上述图5所对应的用于对视频数据或文本数据进行特征提取的特征提取网络层。

其中，可以理解的是，该多模态识别模型600W的不仅可以输出媒体数据63与媒体数据62之间的匹配度，还可以输出媒体数据61的文本类型以及媒体数据62的视频类型。应当理解，计算机设备可以基于子数据集S_i对应的多模态特征X_i，对多模态识别模型600W进行迭代训练，此时，本申请实施例可以确定该多模态识别模型600W所需进行的预训练任务为预训练任务i。其中，媒体数据61经过分词处理后能够得到图6所示的n个字符串，具体可以包括字符串f₁、字符串f₂、…、以及字符串f_n。媒体数据62可以由m个视频帧数据所组成的，具体可以包括图片数据T₁、…、以及图片数据T_m。

可以理解的是，若子数据集S_i中的媒体数据所关联的模态类型包括视频模态类型和图片模态类型，则该计算机设备进行的预训练任务i可以为视频图片预训练任务。此时，图6所示的媒体数据62可以为该子数据集S_i中的属于视频模态类型的视频数据，媒体数据63可以为该子数据集S_i中的属于图片模态类型的图片数据，由于图6所示的媒体数据61为属于文本模态类型的文本数据，因此，该媒体数据61可以为由该计算机设备确定的初始媒体数据(例如，空字符串)。此时，该计算机设备可以将子数据集S_i中的正样本数据和负样本数据一并输入至该多模态识别模型600W，通过该多模态识别模型600W中的特征提取网络层，得到子数据集S_i对应的多媒体特征X_i，进而可以基于多媒体特征X_i，学习属于图片模态类型的图片数据是否为属于视频模态类型的视频数据的关键图片数据(例如，封面图片数据)，即媒体数据63是否为媒体数据62的关键图片数据。其中，该计算机设备可以在进行预训练任务i时，可以将学习率设置为第一设置阈值(例如，1e-2)，采用一种优化器(例如，Adaptive Moment Estimation，简称Adam优化器)对多模态识别模型W₀的网络参数进行更新。这里的衰减参数可以设置为第二设置阈值(例如，1e-4)。其中，这里的第一设置阈值和第二设置阈值均可以根据实际情况进行动态调整，这里将不对其进行限定。

可选的，若子数据集S_i中的媒体数据所关联的模态类型包括图片模态类型和文本模态类型，则该计算机设备进行的预训练任务i可以为图片文本预训练任务。此时，图6所示的媒体数据61可以为该子数据集S_i中的属于文本模态类型的文本数据，媒体数据63可以为该子数据集S_i中的属于图片模态类型的图片数据，由于图6所示的媒体数据62为属于视频模态类型的视频数据，因此，该媒体数据62可以为由该计算机设备确定的初始媒体数据(例如，空字符串)。此时，该计算机设备可以将子数据集S_i一并输入至该多模态识别模型600W，通过该多模态识别模型600W中的特征提取网络层，得到子数据集S_i对应的多媒体特征X_i，进而可以基于多媒体特征X_i，学习属于图片模态类型的图片数据与属于文本模态类型的文本数据之间的匹配度，即媒体数据63与媒体数据61之间的匹配度。

可选的，若子数据集S_i中的媒体数据所关联的模态类型包括视频模态类型和文本模态类型，则该计算机设备进行的预训练任务i可以为视频文本预训练任务。此时，图6所示的媒体数据61可以为该子数据集S_i中的属于文本模态类型的文本数据，媒体数据62可以为该子数据集S_i中的属于视频模态类型的视频数据，由于图6所示的媒体数据63为属于图片模态类型的图片数据，因此，该媒体数据63可以为由该计算机设备确定的初始媒体数据(例如，空字符串)。此时，该计算机设备可以将子数据集S_i一并输入至该多模态识别模型600W，通过该多模态识别模型600W中的特征提取网络层，得到子数据集S_i对应的多媒体特征X_i，进而可以基于多媒体特征X_i，学习属于视频模态类型的视频数据与属于文本模态类型的文本数据之间的语义匹配度，即媒体数据61与媒体数据62之间的语义匹配度。

步骤S104，基于与初始多模态识别模型相关联的模型收敛条件以及第二训练模型，生成目标多模态识别模型。

具体地，该计算机设备可以获取携带样本标签的调整数据集。其中，这里的调整数据集中的调整数据组可以包括属于视频模态类型的调整样本视频数据、属于文本模态类型的调整样本文本数据以及属于图片模态类型的调整样本图片数据；这里的样本标签包括第一样本标签、第二样本标签以及第三样本标签；其中，第一样本标签可以用于指示调整样本视频数据的视频类型(例如，电影类型、电视剧类型、新闻类型等)；第二样本标签可以用于指示调整样本文本数据的文本类型(例如，劣质标题类、夸大其词类、故弄悬疑类等)；第三样本标签可以用于指示调整样本图片数据与调整样本视频数据之间的匹配度。此时，该计算机设备可以分别对调整样本视频数据、调整样本文本数据以及调整样本图片数据进行特征提取，得到调整样本特征。其中，这里的调整样本特征包括调整样本视频数据对应的调整样本视频特征、调整样本文本数据对应的调整样本文本特征以及调整样本图片数据对应的调整样本图片特征。进一步地，该计算机设备可以基于调整样本视频特征、调整样本文本特征、调整图片视频特征以及第二训练模型，得到包括第一预测标签、第二预测标签以及第三预测标签的预测标签。此时，该计算机设备可以基于样本标签、预测标签以及与初始多模态识别模型相关联的模型收敛条件，对第二训练模型进行调整训练，将调整训练后的第二训练模型作为目标多模态识别模型。

应当理解，该计算机设备可以获取属于视频模态类型的媒体数据，将获取到的媒体数据确定为第三视频数据集。进而可以通过计算机设备的关键图片数据识别策略以及人工选图操作，确定第三视频数据集中的每个视频数据的初始关键图片数据(例如，封面图片数据)，此时，本申请实施例可以将第三视频数据集中的视频数据、该视频数据对应的初始关键图片数据以及该视频数据对应的文本数据所组成的数据组确定为待处理数据组。其中，这里的人工选图操作可以包括人工对图片进行色彩增强等编辑，以提高初始关键图片数据选择的准确度。进一步地，该计算机设备可以确定每个待处理数据组中视频数据与初始关键图片数据之间的距离，并基于这些距离进行排序处理，以得到距离排序结果。其中，这里的距离可以为图片哈希距离，也可以为图片向量距离，这里将不对其进行限定。

此时，该计算机设备可以基于距离排序结果选择第一距离范围(例如，前10％)内的待处理数据组，作为正样本数据组，选择第二距离范围(例如，后50％)内的待处理数据组，作为负样本数据组，进而可以将选择的正样本数据组和负样本数据组，确定为用于对第二训练模型进行调整训练的调整数据集。

进一步地，该计算机设备可以将调整数据集输入至第二训练模型(例如，上述图6所示的多模态识别模型600W)时，以根据该多模态识别模型600W中的特征提取网络层分别对调整数据集中的调整样本视频数据、调整样本文本数据以及调整样本图片数据进行特征提取，以得到调整样本视频数据对应的调整样本视频特征、调整样本文本数据对应的调整样本文本特征以及调整样本图片数据对应的调整样本图片特征。

此时，该计算机设备可以通过第二训练模型中的基于自注意力机制的网络层、调整样本视频特征、调整样本文本特征以及调整图片视频特征，得到包括第一预测标签、第二预测标签以及第三预测标签的预测标签。此时，该计算机设备可以获取与初始多模态识别模型相关联的模型收敛条件；该模型收敛条件可以用于指示模型损失小于或者等于模型损失阈值。

如图6所示多模态识别模型600W训练为多任务训练，也同时学习M个任务(以3个为例)，分别为视频类型，文本类型以及图片数据与视频数据之间的匹配度。因此，本申请实施例设置的多模态识别模型的损失函数可以参见下述公式(2)：

Loss＝K₁*Loss_video+K₂*Loss_title+K₃*Loss_image (2)

其中，K₁可以是指计算机设备为Loss_video(即视频损失参数)配置的视频损失权重(例如，0.1)，K₂可以是指计算机设备为Loss_title(即文本损失参数)配置的文本损失权重(例如，0.1)，K₃可以是指计算机设备为Loss_image(即图片损失参数)配置的图片损失权重(例如，0.8)。

其中，视频类型及文本类型的标签均为监督标签且相对客观因此使用可以采用交叉熵损失(Cross Entrop)来确定视频损失参数和文本损失参数，而图片数据与视频数据之间的匹配度属于主观性数据，因此本申请实施例认为该用于指示调整样本图片数据与调整样本视频数据之间的匹配度的第三样本标签是带有噪声的标签，因此，该图片损失参数需要使用带噪学习的一种损失函数--Symmetric Cross Entropy(SCE损失函数)来确定。由于该SCE损失函数受KL散度启发，在无噪声标签的情况下，可以用KL(q||p)表示让p不断向q靠近而计算的penalty。但是如果q属于噪声标签，那么就无法表示正确的标签分布了，此时p就在一定程度上可以表示正确的标签分布。所以这里考虑还可以KL散度的反方向KL(p||q)，将两者相加能够提高鲁棒性。本申请实施例将KL散度的计算推广至交叉熵函数，则SCE损失函数可以参见下述公式(3)：

SCE＝CE+RCE＝H(q,p)+H(p,q) (3)

其中，H为交叉熵损失函数。

因此，该计算机设备确定多模态识别模型的模型损失的具体方式可以参见下述公式(4)：

Loss＝K₁*CE_video+K₂*CE_title+K₃*SCE_image (4)

应当理解，该计算机设备可以基于第一样本标签和第一预测标签，确定视频损失参数对应的视频损失值，基于第二样本标签和第二预测标签，确定文本损失参数对应的文本损失值，基于第三样本标签和第三预测标签，确定图片损失参数对应的图片损失值，进而可以通过上述公式(4)，基于视频损失值、文本损失值、图片损失值、视频损失权重、文本损失权重以及图片损失权重，确定第二训练模型的模型损失函数对应的模型损失。进一步地，该计算机设备可以基于模型损失对第二训练模型进行调整训练，得到模型训练结果。若模型训练结果指示调整训练后的第二训练模型满足模型收敛条件，则该计算机设备可以将满足模型收敛条件的第二训练模型作为目标多模态识别模型。可选的，若模型训练结果指示调整训练后的第二训练模型不满足模型收敛条件，则该计算机设备基于不满足该模型收敛条件的模型损失函数，对该第二训练模型的模型参数进行调整。进一步地，该计算机设备可以将调整模型参数后的第二训练模型确定为过渡多模态识别模型，进而可以对该过渡多模态识别模型进行调整训练，直到训练后的过渡多模态识别模型满足该模型收敛条件时，该计算机设备可以将满足该模型收敛条件的过渡多模态识别模型作为目标多模态识别模型。

为便于理解，进一步地，请参见图7，图7是本申请实施例提供的一种进行多层次的迭代训练的训练过程示意图。如图7所示，本申请实施例中的训练过程可以包括四个阶段，具体可以包括样本数据采集阶段、预训练阶段、调整阶段以及推理阶段。

其中，在样本数据采集阶段中，计算机设备可以获取图7所示的样本数据集71S以及包含调整数据组的调整数据集72S，这里的样本数据集71S中的子数据集可以以3个为例，具体可以包括子数据集S₁、子数据集S₂以及子数据集S₃。其中，每个子数据集中的媒体数据所关联的模态类型可以以2个为例，每两个子数据集之间存在不同模态类型的媒体数据。这里的调整数据集72S中的调整数据组可以包括调整样本视频数据、调整样本文本数据以及调整样本图片数据。

进一步地，在预训练阶段中，计算机设备可以针对这3个子数据集分别对应的预训练任务，逐一对多模态识别模型710W(即首次迭代的多模态识别模型)进行多层次的迭代训练，以得到图7所示的多模态识别模型720W。其中，子数据S₁对应的预训练任务可以为预训练任务1(例如，视频图片预训练任务)，子数据S₂对应的预训练任务可以为预训练任务2(例如，图片文本预训练任务)，子数据S₃对应的预训练任务可以为预训练任务3(例如，视频文本预训练任务)，本申请将不对这3个预训练任务的训练顺序进行限定。

在调整阶段中，计算机设备可以基于调整数据组对应的调整样本特征，对多模态识别模型720W进行调整训练，且在调整训练结束后得到图7所示的多模态识别模型730W(即目标多模态识别模型)。其中，这里的调整样本特征可以包括调整样本视频数据对应的调整样本视频特征、调整样本文本数据对应的调整样本文本特征、调整样本图片数据对应的调整样本图片特征。

在推理阶段中，该计算机设备对可以支持单模态或多模态的输入，使得图片数据的识别准确度更加灵活。比如，该计算机设备可以获取验证数据集，其中，这里的验证数据集可以为调整数据集，也可以为该计算机设备重新获取到的带有标签的预标注测试集，用于验证该多模态识别模型730W进行匹配度识别的准确度。比如，该计算机设备可以将验证数据集中的每个验证数据组输入至多模态识别模型730W中，由该多模态识别模型730W输出每个验证数据组对应的匹配度，进而可以对这些匹配度进行排序，将排序范围属于目标排序范围(例如，前三名)的验证数据组作为验证结果集，以使评测对象(例如，评测用户)进行人工评测，最终得到该多模态识别模型730W所得到的验证结果集的匹配度识别的准确度率得到了有效保障。这样的两两提前进行训练除了让多模态识别模型730W将学习到的不同识别维度下的多模态信息表现在同一个空间以外，还能使得多模态识别模型730W在某个模态类型的缺失时，具有一定的鲁棒性，即如果属于文本模态类型的媒体数据的输入为空，该多模态识别模型730W仍然可以学习属于视频模态类型的媒体数据与属于图片模态类型的媒体数据之间的相关性。

进一步地，请参见图8，图8是本申请实施例提供的一种数据处理方法的流程示意图。该方法可以由具有多层次模型训练功能的终端设备(例如，上述图1所示的终端设备集群中的任意一个终端设备，例如，终端设备100a)执行，也可以由具有多层次模型训练功能的服务器(例如，上述图1所示的服务器10F)执行，还可以由具备模型应用功能的终端设备和具备模型训练功能的服务器交互执行，在此不做限定。该方法至少可以包括以下步骤S201-步骤S208：

步骤S201，获取样本数据集；

步骤S202，获取每个子数据集分别对应的多模态特征；

步骤S203，在获取到第(i-1)次迭代训练后的初始多模态识别模型时，基于多模态特征X_i，对初始多模态识别模型进行迭代训练，得到第一训练模型，且基于多模态特征X_i+1，对第一训练模型进行迭代训练，直到(i+1)等于M时，得到第二训练模型；

步骤S204，基于与初始多模态识别模型相关联的模型收敛条件以及第二训练模型，生成目标多模态识别模型。

其中，本申请实施例中的数据处理方法可以包括模型训练过程以及模型应用过程。可以理解的是，该步骤S201-步骤S204阐述了模型训练过程，该模型训练过程的具体实施方式可参见上述图3所对应实施例中对步骤S101-步骤S104的描述，这里将不再继续进行赘述。

其中，该模型应用过程具体可以参见下述步骤S205-步骤S208的描述。

步骤S205，在获取到目标视频数据以及Z个待识别图片数据时，确定Z个视频图片对。

具体地，该计算机设备可以获取与视频模态类型和文本模态类型相关联的目标视频数据，以及获取Z个待与目标视频数据进行匹配度识别的待识别图片数据，此时，该计算机设备可以基于目标视频数据以及Z个待识别图片数据，确定Z个视频图片对。其中，这里的一个视频图片对是由目标视频数据以及一个待识别图片数据所确定的。可选的，该计算机设备还可以基于目标视频数据以及Z个待识别图片数据，确定Z个视频图片组。其中，一个视频图片组是由目标视频数据、目标视频数据对应的目标文本数据以及一个待识别图片数据所确定的。这里将不对视频图片对中媒体数据的模态类型的数量进行限定。

步骤S206，从Z个视频图片对中获取目标视频图片对，确定目标视频图片对的目标特征。

具体地，该计算机设备可以将Z个视频图片对中的每个视频图片对，依次作为目标视频图片对，进而可以获取目标视频图片对的目标特征。其中，目标特征包括与目标视频数据相关联的目标文本模态特征、目标视频数据对应的目标视频模态特征以及目标视频图片对中的待识别图片数据对应的目标图片模态特征。

步骤S207，基于目标文本模态特征、目标视频模态特征、目标图片模态特征以及目标多模态识别模型，得到目标视频图片对中目标视频数据与待识别图片数据之间的匹配度。

具体地，在该计算机设备生成目标多模态识别模型不包括特征提取网络层时，该计算机设备可以将目标文本模态特征、目标视频模态特征以及目标图片模态特征输入至目标多模态识别模型，由该目标多模态识别模型输出目标视频图片对中目标视频数据与待识别图片数据之间的匹配度。可选的，在该计算机设备生成目标多模态识别模型包括特征提取网络层时，该计算机设备可以将目标视频数据、目标视频数据对应的目标文本数据以及目标视频图片对中的待识别图片数据一并输入至目标多模态识别模型，由该目标多模态识别模型输出目标视频图片对中目标视频数据与待识别图片数据之间的匹配度。

步骤S208，在获取到Z个视频图片对中的每个视频图片对分别对应的匹配度时，基于Z个匹配度，从Z个待识别图片数据中获取具有最高匹配度的待识别图片数据，将获取到的待识别图片数据确定为与目标视频数据具备匹配关系的目标图片数据。

具体地，在获取到Z个视频图片对中的每个视频图片对分别对应的匹配度时，该计算机设备可以基于Z个匹配度，从Z个待识别图片数据中获取具有最高匹配度的待识别图片数据，将获取到的待识别图片数据确定为与目标视频数据具备匹配关系的目标图片数据，这意味着该计算机设备可以将具有最高匹配度的待识别图片数据确定为该目标视频数据的关键图片数据(例如，封面图片数据)。

在本申请实施例中，由于样本数据集的M个子数据集中的每个子数据集的媒体数据均关联N个模态类型，且每两个子数据集之间存在不同模态类型的媒体数据，因此，计算机设备可以通过M个子数据集分别对应的多模态特征，逐一对多模态识别模型进行多层次的迭代训练，能够综合考虑多种识别维度，进而可以基于模型收敛条件以及迭代训练后的第二训练模型，生成的目标多模态识别模型。其中，一种子数据集可以对应一种识别维度，那么该计算机设备在通过目标多模态识别模型，对目标视频数据与待识别图片数据之间的匹配度进行时，能够获取多维度信息，从而提升匹配度识别的准确度。此外，本申请实施例在对第二训练模型进行调整训练时，使用带噪学习的思想设计损失函数，以至于能够有效处理图片数据识别这类带有主观因素的任务。

进一步地，请参见图9，图9是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置1可以包括：数据集获取模块100，多模态特征获取模块200，迭代训练模块300以及目标模型生成模块400。

该数据集获取模块100，用于获取样本数据集；样本数据集包括M个子数据集，每个子数据集中的媒体数据均关联N个模态类型，每两个子数据集之间存在不同模态类型的媒体数据；M和N均为大于1的正整数；

该多模态特征获取模块200，用于获取每个子数据集分别对应的多模态特征；M个多模态特征包括多模态特征X_i和多模态特征X_i+1；i为小于M的正整数；

该迭代训练模块300，用于在获取到第(i-1)次迭代训练后的初始多模态识别模型时，基于多模态特征X_i，对初始多模态识别模型进行迭代训练，得到第一训练模型，且基于多模态特征X_i+1，对第一训练模型进行迭代训练，直到(i+1)等于M时，得到第二训练模型；

该目标模型生成模块400，用于基于与初始多模态识别模型相关联的模型收敛条件以及第二训练模型，生成目标多模态识别模型；目标多模态识别模型用于识别目标视频数据和待识别图片数据之间的匹配度；样本数据集关联的模态类型包括目标视频数据所关联的模态类型以及待识别图片数据对应的模态类型。

其中，该数据集获取模块100，多模态特征获取模块200，迭代训练模块300以及目标模型生成模块400的具体实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S104的描述，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图10，图10是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置2可以包括：数据集获取模块10，多模态特征获取模块20，迭代训练模块30，目标模型生成模块40，目标视频数据获取模块50，目标特征确定模块60，匹配度输出模块70以及目标图片确定模块80。

该数据集获取模块10，用于获取样本数据集；样本数据集包括M个子数据集，每个子数据集中的媒体数据均关联N个模态类型，每两个子数据集之间存在不同模态类型的媒体数据；M和N均为大于1的正整数。

该数据集获取模块10包括：第一子数据集确定单元101，第二子数据集确定单元102，第三子数据集确定单元103以及样本数据集确定单元104。

该第一子数据集确定单元101，用于基于属于第一模态类型的媒体数据以及属于第二模态类型的媒体数据，确定第一子数据集。

其中，该第一子数据集确定单元101包括：第一视频数据集确定子单元1011，第一正样本确定子单元1012，第一负样本确定子单元1013以及第一子数据集确定子单元1014。

该第一视频数据集确定子单元1011，用于在第一模态类型为视频模态类型，第二模态类型为图片模态类型时，获取属于视频模态类型的媒体数据，将获取到的媒体数据确定为第一视频数据集；第一视频数据集包括X₁个视频数据；X₁为正整数；

该第一正样本确定子单元1012，用于从X₁个视频数据中获取视频数据V_k，从视频数据V_k中获取属于图片模态类型的待处理图片数据，将视频数据V_k与待处理图片数据所组成的视频图片对确定为第一正样本数据；k小于或者等于X₁；

该第一负样本确定子单元1013，用于基于针对待处理图片数据的距离确定策略以及X₁个视频数据，确定与视频数据V_k相关联的第一负样本数据。

其中，该第一负样本确定子单元1013包括：策略获取子单元10131，待检测视频类型确定子单元10132，距离确定子单元10133，图片距离确定子单元10134以及负样本图片确定子单元10135。

该策略获取子单元10131，用于获取针对待处理图片数据的距离确定策略；

该待检测视频类型确定子单元10132，用于从X₁个视频数据所包括的除待处理图片数据之外的Y个图片数据中，确定属于图片模态类型的候选图片数据，将候选图片数据所属的视频数据的视频类型确定为待检测视频类型；Y为大于X₁的正整数；

该距离确定子单元10133，用于基于距离确定策略，确定待检测视频类型与视频数据V_k的视频类型之间的第一距离，确定候选图片数据以及待处理图片数据之间的第二距离；

该图片距离确定子单元10134，用于基于第一距离和第二距离，确定待处理图片数据与候选图片数据之间的图片距离；

该负样本图片确定子单元10135，用于在获取到Y个图片距离时，从Y个图片数据中筛选满足负样本图片筛选条件的图片数据，将筛选出的图片数据确定为负样本图片数据，将视频数据V_k以及负样本图片数据所组成的视频图片对确定为第一负样本数据。

其中，该策略获取子单元10131，待检测视频类型确定子单元10132，距离确定子单元10133，图片距离确定子单元10134以及负样本图片确定子单元10135的具体实现方式可以参见上述图3所对应实施例中对第一负样本数据的描述，这里将不再继续进行赘述。

该第一子数据集确定子单元1014，用于将X₁个视频数据分别对应的第一正样本数据以及X₁个视频数据分别对应的第一负样本数据确定为第一子数据集。

其中，该第一视频数据集确定子单元1011，第一正样本确定子单元1012，第一负样本确定子单元1013以及第一子数据集确定子单元1014的具体实现方式可以参见上述图3所对应实施例中对第一子数据集的描述，这里将不再继续进行赘述。

该第二子数据集确定单元102，用于基于属于第一模态类型的媒体数据以及属于第三模态类型的媒体数据，确定第二子数据集。

其中，第二子数据集确定单元102包括：第二视频数据集确定子单元1021，第二正样本确定子单元1022，第二负样本确定子单元1023以及第二子数据集确定子单元1024。

该第二视频数据集确定子单元1021，用于在第一模态类型为视频模态类型，第三模态类型为文本模态类型时，获取属于视频模态类型的媒体数据，将获取到的媒体数据确定为第二视频数据集；第二视频数据集包括X₂个视频数据；X₂为正整数；

该第二正样本确定子单元1022，用于从X₂个视频数据中获取视频数据V_h，从视频数据V_h中获取属于文本模态类型的待处理文本数据，将视频数据V_h以及待处理文本数据所组成的视频文本对确定为第二正样本数据；h小于或者等于X₂；

该第二负样本确定子单元1023，用于确定视频数据V_h的视频类型，从X₂个视频数据中筛选与视频数据V_h具有不同视频类型的视频数据，将筛选出的视频数据对应的文本数据确定为负样本文本数据，将视频数据V_h与负样本文本数据所组成的视频文本对确定为第二负样本数据；

该第二子数据集确定子单元1024，用于将X₂个视频数据分别对应的第二正样本数据以及X₂个视频数据分别对应的第二负样本数据确定为第二子数据集。

其中，该第二视频数据集确定子单元1021，第二正样本确定子单元1022，第二负样本确定子单元1023以及第二子数据集确定子单元1024的具体实现方式可以参见上述图3所对应实施例中对第二子数据集的描述，这里将不再继续进行赘述。

该第三子数据集确定单元103，用于基于属于第二模态类型的媒体数据以及属于第三模态类型的媒体数据，确定第三子数据集；

该样本数据集确定单元104，用于将包括第一子数据集、第二子数据集以及第三子数据集的数据集确定为样本数据集。

其中，该第一子数据集确定单元101，第二子数据集确定单元102，第三子数据集确定单元103以及样本数据集确定单元104的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述，这里将不再继续进行赘述。

该多模态特征获取模块20，用于获取每个子数据集分别对应的多模态特征；M个多模态特征包括多模态特征X_i和多模态特征X_i+1；i为小于M的正整数。

其中，多模态特征获取模块20包括：待编码子数据集获取单元201，特征提取单元202以及多模态特征确定单元203。

该待编码子数据集获取单元201，用于从M个子数据集中获取待编码子数据集S_j，在待编码子数据集S_j所关联的N个模态类型中确定模态类型L_g，将待编码子数据集S_j中的属于模态类型L_g的媒体数据确定为待编码媒体数据；j为小于或者等于M的正整数；g为小于或者等于N的正整数；

该特征提取单元202，用于对待编码媒体数据进行特征提取，得到模态类型L_g对应的模态特征。

其中，模态类型L_g为图片模态类型；

该特征提取单元202包括：待编码图片确定子单元2021，图片位置特征获取子单元2022，图片特征确定子单元2023，待编码文本确定子单元2024，分词处理子单元2025以及文本特征确定子单元2026。

该待编码图片确定子单元2021，用于从待编码媒体数据中确定属于图片模态类型的待编码图片数据；

该图片位置特征获取子单元2022，用于获取与待编码图片数据相关联的图片位置特征以及待编码图片数据对应的第一跨模态图文特征；

该图片特征确定子单元2023，用于对图片位置特征以及第一跨模态图文特征进行特征提取，得到待编码图片数据对应的图片特征，将图片特征作为图片模态类型对应的模态特征。

其中，模态类型L_g为文本模态类型；

该待编码文本确定子单元2024，用于从待编码媒体数据中确定属于文本模态类型的待编码文本数据；

该分词处理子单元2025，用于对待编码文本数据进行分词处理，得到待编码文本数据对应的待编码字符串；

该文本特征确定子单元2026，用于对待编码字符串进行特征提取，得到待编码字符串对应的字符串提取特征，基于字符串提取特征，生成待编码文本数据对应的文本特征，将文本特征作为文本模态类型对应的模态特征。

其中，文本特征确定子单元2026包括：字符串位置特征获取子单元20261，特征拼接子单元20262，归一化处理子单元20263以及文本特征生成子单元20264。

该字符串位置特征获取子单元20261，用于获取与待编码字符串相关联的字符串位置特征以及待编码字符串对应的第二跨模态图文特征；

该特征拼接子单元20262，用于对字符串位置特征以及第二跨模态图文特征进行特征拼接，得到待编码字符串对应的字符串拼接特征；

该归一化处理子单元20263，用于对字符串拼接特征进行归一化处理，基于归一化处理后的字符串拼接特征，得到待编码字符串对应的字符串提取特征；

该文本特征生成子单元20264，用于基于字符串提取特征，生成待编码文本数据对应的文本特征，将文本特征作为文本模态类型对应的模态特征。

其中，该字符串位置特征获取子单元20261，特征拼接子单元20262，归一化处理子单元20263以及文本特征生成子单元20264的具体实现方式可以参见上述图5所对应实施例中对字符串提取特征的描述，这里将不再继续进行赘述。

其中，该待编码图片确定子单元2021，图片位置特征获取子单元2022，图片特征确定子单元2023，待编码文本确定子单元2024，分词处理子单元2025以及文本特征确定子单元2026的具体实现方式可以参见上述图3所对应实施例中对模态特征的描述，这里将不再继续进行赘述。

该多模态特征确定单元203，用于将待编码子数据集S_j中N个模态类型分别对应的模态特征确定为多模态特征X_j。

其中，该待编码子数据集获取单元201，特征提取单元202以及多模态特征确定单元203的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述，这里将不再继续进行赘述。

该迭代训练模块30，用于在获取到第(i-1)次迭代训练后的初始多模态识别模型时，基于多模态特征X_i，对初始多模态识别模型进行迭代训练，得到第一训练模型，且基于多模态特征X_i+1，对第一训练模型进行迭代训练，直到(i+1)等于M时，得到第二训练模型；

该目标模型生成模块40，用于基于与初始多模态识别模型相关联的模型收敛条件以及第二训练模型，生成目标多模态识别模型；目标多模态识别模型用于识别目标视频数据和待识别图片数据之间的匹配度；样本数据集关联的模态类型包括目标视频数据所关联的模态类型以及待识别图片数据对应的模态类型。

其中，目标模型生成模块40包括：调整数据集获取单元401，调整样本特征确定单元402，预测标签输出单元403以及调整训练单元404。

该调整数据集获取单元401，用于获取携带样本标签的调整数据集；调整数据集中的调整数据组包括属于视频模态类型的调整样本视频数据、属于文本模态类型的调整样本文本数据以及属于图片模态类型的调整样本图片数据；样本标签包括第一样本标签、第二样本标签以及第三样本标签；第一样本标签用于指示调整样本视频数据的视频类型；第二样本标签用于指示调整样本文本数据的文本类型；第三样本标签用于指示调整样本图片数据与调整样本视频数据之间的匹配度；

该调整样本特征确定单元402，用于分别对调整样本视频数据、调整样本文本数据以及调整样本图片数据进行特征提取，得到调整样本特征；调整样本特征包括调整样本视频数据对应的调整样本视频特征、调整样本文本数据对应的调整样本文本特征以及调整样本图片数据对应的调整样本图片特征；

该预测标签输出单元403，用于基于调整样本视频特征、调整样本文本特征、调整样本图片特征以及第二训练模型，得到包括第一预测标签、第二预测标签以及第三预测标签的预测标签；

该调整训练单元404，用于基于样本标签、预测标签以及与初始多模态识别模型相关联的模型收敛条件，对第二训练模型进行调整训练，将调整训练后的第二训练模型作为目标多模态识别模型。

其中，调整训练单元404包括：模型收敛条件获取子单元4041，损失值确定子单元4042，模型损失确定子单元4043，调整训练子单元4044以及目标模型确定子单元4045。

该模型收敛条件获取子单元4041，用于获取与初始多模态识别模型相关联的模型收敛条件；模型收敛条件包括为视频损失参数配置的视频损失权重、为文本损失参数配置的文本损失权重以及为图片损失参数配置的图片损失权重；

该损失值确定子单元4042，用于基于第一样本标签和第一预测标签，确定视频损失参数对应的视频损失值，基于第二样本标签和第二预测标签，确定文本损失参数对应的文本损失值，基于第三样本标签和第三预测标签，确定图片损失参数对应的图片损失值；

该模型损失确定子单元4043，用于基于视频损失值、文本损失值、图片损失值、视频损失权重、文本损失权重以及图片损失权重，确定第二训练模型的模型损失函数对应的模型损失；

该调整训练子单元4044，用于基于模型损失对第二训练模型进行调整训练，得到模型训练结果；

该目标模型确定子单元4045，用于若模型训练结果指示调整训练后的第二训练模型满足模型收敛条件，则将满足模型收敛条件的第二训练模型作为目标多模态识别模型。

其中，该模型收敛条件获取子单元4041，损失值确定子单元4042，模型损失确定子单元4043，调整训练子单元4044以及目标模型确定子单元4045的具体实现方式可以参见上述图3所对应实施例中对模型进行调整训练的描述，这里将不再继续进行赘述。

其中，该调整数据集获取单元401，调整样本特征确定单元402，预测标签输出单元403以及调整训练单元404的具体实现方式可以参见上述图3所对应实施例中对步骤S104的描述，这里将不再继续进行赘述。

该目标视频数据获取模块50，用于在获取到目标视频数据以及Z个待识别图片数据时，确定Z个视频图片对；一个视频图片对是由目标视频数据以及一个待识别图片数据组成的；Z为大于1的正整数；

该目标特征确定模块60，用于从Z个视频图片对中获取目标视频图片对，确定目标视频图片对的目标特征；目标特征包括与目标视频数据相关联的目标文本模态特征、目标视频数据对应的目标视频模态特征以及目标视频图片对中的待识别图片数据对应的目标图片模态特征；

该匹配度输出模块70，用于基于目标文本模态特征、目标视频模态特征、目标图片模态特征以及目标多模态识别模型，得到目标视频图片对中目标视频数据与待识别图片数据之间的匹配度；

该目标图片确定模块80，用于在获取到Z个视频图片对中的每个视频图片对分别对应的匹配度时，基于Z个匹配度，从Z个待识别图片数据中获取具有最高匹配度的待识别图片数据，将获取到的待识别图片数据确定为与目标视频数据具备匹配关系的目标图片数据。

其中，该数据集获取模块10，多模态特征获取模块20，迭代训练模块30，目标模型生成模块40，目标视频数据获取模块50，目标特征确定模块60，匹配度输出模块70以及目标图片确定模块80的具体实现方式可以参见上述图8所对应实施例中对步骤S201-步骤S208的描述，这里将不再继续进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图11，图11是本申请实施例提供的一种计算机设备的示意图。如图11所示，该计算机设备1000可以为具有多层次模型训练功能的计算机设备，该计算机设备1000可以包括：至少一个处理器1001，例如，CPU，至少一个网络接口1004，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示，作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。其中，在一些实施例中，该计算机设备还可以包括图11所示的用户接口1003，比如，若该计算机设备为图1所示的具有多层次模型训练功能的终端设备(例如，终端设备100a)，则该计算机设备还可以包括该用户接口1003，其中，该用户接口1003可以包括显示屏(Display)、键盘(Keyboard)等。

在图11所示的计算机设备1000中，网络接口1004主要用于进行网络通信；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3和图8所对应实施例中对该数据处理方法的描述，也可执行前文图9所对应实施例中对该数据处理装置1和图10所对应实施例中对该数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图3和图8中各个步骤所提供的数据处理方法，具体可参见图3以及图8各个步骤所提供的实现方式，在此不再赘述。

计算机可读存储介质可以是前述任一实施例提供的数据传输装置或者计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smartmedia card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请一方面提供了一种计算机程序产品或计算机程序，包括计算机程序/指令，该计算机程序/指令被处理器执行时，使得该计算机设备可执行前文图3或者图8所对应实施例中对数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包括。例如包括了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图中的一个流程或多个流程和/或结构示意图中的一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中的一个流程或多个流程和/或结构示意图中的一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图中的一个流程或多个流程和/或结构示意图中的一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取样本数据集；所述样本数据集包括M个子数据集，每个子数据集中的媒体数据均关联N个模态类型，每两个子数据集之间存在不同模态类型的媒体数据；所述M和所述N均为大于1的正整数；

获取每个子数据集分别对应的多模态特征；M个多模态特征包括多模态特征X_i和多模态特征X_i+1；所述i为小于所述M的正整数；

在获取到第(i-1)次迭代训练后的初始多模态识别模型时，基于所述多模态特征X_i，对所述初始多模态识别模型进行迭代训练，得到第一训练模型，且基于所述多模态特征X_i+1，对所述第一训练模型进行迭代训练，直到所述(i+1)等于所述M时，得到第二训练模型；

基于与所述初始多模态识别模型相关联的模型收敛条件以及所述第二训练模型，生成目标多模态识别模型；所述目标多模态识别模型用于识别目标视频数据和待识别图片数据之间的匹配度；所述样本数据集关联的模态类型包括所述目标视频数据所关联的模态类型以及所述待识别图片数据对应的模态类型。

2.根据权利要求1所述的方法，其特征在于，所述初始多模态识别模型所关联的模态类型包括第一模态类型、第二模态类型以及第三模态类型；

所述获取样本数据集，包括：

基于属于所述第一模态类型的媒体数据以及属于所述第二模态类型的媒体数据，确定第一子数据集；

基于属于所述第一模态类型的媒体数据以及属于所述第三模态类型的媒体数据，确定第二子数据集；

基于属于所述第二模态类型的媒体数据以及属于所述第三模态类型的媒体数据，确定第三子数据集；

将包括所述第一子数据集、所述第二子数据集以及所述第三子数据集的数据集确定为样本数据集。

3.根据权利要求2所述的方法，其特征在于，所述基于属于所述第一模态类型的媒体数据以及属于所述第二模态类型的媒体数据，确定第一子数据集，包括：

在所述第一模态类型为视频模态类型，所述第二模态类型为图片模态类型时，获取属于所述视频模态类型的媒体数据，将获取到的媒体数据确定为第一视频数据集；所述第一视频数据集包括X₁个视频数据；所述X₁为正整数；

从所述X₁个视频数据中获取视频数据V_k，从所述视频数据V_k中获取属于所述图片模态类型的待处理图片数据，将所述视频数据V_k与所述待处理图片数据所组成的视频图片对确定为第一正样本数据；所述k小于或者等于所述X₁；

基于针对所述待处理图片数据的距离确定策略以及所述X₁个视频数据，确定与所述视频数据V_k相关联的第一负样本数据；

将所述X₁个视频数据分别对应的第一正样本数据以及所述X₁个视频数据分别对应的第一负样本数据确定为第一子数据集。

4.根据权利要求3所述的方法，其特征在于，所述基于针对所述待处理图片数据的距离确定策略以及所述X₁个视频数据，确定与所述视频数据V_k相关联的第一负样本数据，包括：

获取针对所述待处理图片数据的距离确定策略；

从所述X₁个视频数据所包括的除所述待处理图片数据之外的Y个图片数据中，确定属于所述图片模态类型的候选图片数据，将所述候选图片数据所属的视频数据的视频类型确定为待检测视频类型；所述Y为大于所述X₁的正整数；

基于所述距离确定策略，确定所述待检测视频类型与所述视频数据V_k的视频类型之间的第一距离，确定所述候选图片数据以及所述待处理图片数据之间的第二距离；

基于所述第一距离和所述第二距离，确定所述待处理图片数据与所述候选图片数据之间的图片距离；

在获取到Y个图片距离时，从所述Y个图片数据中筛选满足负样本图片筛选条件的图片数据，将筛选出的图片数据确定为负样本图片数据，将所述视频数据V_k以及所述负样本图片数据所组成的视频图片对确定为第一负样本数据。

5.根据权利要求2所述的方法，其特征在于，所述基于属于所述第一模态类型的媒体数据以及属于所述第三模态类型的媒体数据，确定第二子数据集，包括：

在所述第一模态类型为视频模态类型，所述第三模态类型为文本模态类型时，获取属于所述视频模态类型的媒体数据，将获取到的媒体数据确定为第二视频数据集；所述第二视频数据集包括X₂个视频数据；所述X₂为正整数；

从所述X₂个视频数据中获取视频数据V_h，从所述视频数据V_h中获取属于所述文本模态类型的待处理文本数据，将所述视频数据V_h以及所述待处理文本数据所组成的视频文本对确定为第二正样本数据；所述h小于或者等于所述X₂；

确定所述视频数据V_h的视频类型，从所述X₂个视频数据中筛选与所述视频数据V_h具有不同视频类型的视频数据，将筛选出的视频数据对应的文本数据确定为负样本文本数据，将所述视频数据V_h与所述负样本文本数据所组成的视频文本对确定为第二负样本数据；

将所述X₂个视频数据分别对应的第二正样本数据以及所述X₂个视频数据分别对应的第二负样本数据确定为第二子数据集。

6.根据权利要求1所述的方法，其特征在于，所述获取每个子数据集分别对应的多模态特征，包括：

从所述M个子数据集中获取待编码子数据集S_j，在所述待编码子数据集S_j所关联的N个模态类型中确定模态类型L_g，将所述待编码子数据集S_j中的属于所述模态类型L_g的媒体数据确定为待编码媒体数据；所述j为小于或者等于所述M的正整数；所述g为小于或者等于所述N的正整数；

对所述待编码媒体数据进行特征提取，得到所述模态类型L_g对应的模态特征；

将所述待编码子数据集S_j中N个模态类型分别对应的模态特征确定为多模态特征X_j。

7.根据权利要求6所述的方法，其特征在于，所述模态类型L_g为图片模态类型；

所述对所述待编码媒体数据进行特征提取，得到所述模态类型L_g对应的模态特征，包括：

从所述待编码媒体数据中确定属于所述图片模态类型的待编码图片数据；

获取与所述待编码图片数据相关联的图片位置特征以及所述待编码图片数据对应的第一跨模态图文特征；

对所述图片位置特征以及所述第一跨模态图文特征进行特征提取，得到所述待编码图片数据对应的图片特征，将所述图片特征作为所述图片模态类型对应的模态特征。

8.根据权利要求6所述的方法，其特征在于，所述模态类型L_g为文本模态类型；

从所述待编码媒体数据中确定属于所述文本模态类型的待编码文本数据；

对所述待编码文本数据进行分词处理，得到所述待编码文本数据对应的待编码字符串；

对所述待编码字符串进行特征提取，得到所述待编码字符串对应的字符串提取特征，基于所述字符串提取特征，生成所述待编码文本数据对应的文本特征，将所述文本特征作为所述文本模态类型对应的模态特征。

9.根据权利要求8所述的方法，其特征在于，所述对所述待编码字符串进行特征提取，得到所述待编码字符串对应的字符串提取特征，基于所述字符串提取特征，生成所述待编码文本数据对应的文本特征，将所述文本特征作为所述文本模态类型对应的模态特征，包括：

获取与所述待编码字符串相关联的字符串位置特征以及所述待编码字符串对应的第二跨模态图文特征；

对所述字符串位置特征以及所述第二跨模态图文特征进行特征拼接，得到所述待编码字符串对应的字符串拼接特征；

对所述字符串拼接特征进行归一化处理，基于归一化处理后的字符串拼接特征，得到所述待编码字符串对应的字符串提取特征；

基于所述字符串提取特征，生成所述待编码文本数据对应的文本特征，将所述文本特征作为所述文本模态类型对应的模态特征。

10.根据权利要求1所述的方法，其特征在于，所述基于与所述初始多模态识别模型相关联的模型收敛条件以及所述第二训练模型，生成目标多模态识别模型，包括：

获取携带样本标签的调整数据集；所述调整数据集中的调整数据组包括属于视频模态类型的调整样本视频数据、属于文本模态类型的调整样本文本数据以及属于图片模态类型的调整样本图片数据；所述样本标签包括第一样本标签、第二样本标签以及第三样本标签；所述第一样本标签用于指示所述调整样本视频数据的视频类型；所述第二样本标签用于指示所述调整样本文本数据的文本类型；所述第三样本标签用于指示所述调整样本图片数据与所述调整样本视频数据之间的匹配度；

分别对所述调整样本视频数据、所述调整样本文本数据以及所述调整样本图片数据进行特征提取，得到调整样本特征；所述调整样本特征包括所述调整样本视频数据对应的调整样本视频特征、所述调整样本文本数据对应的调整样本文本特征以及所述调整样本图片数据对应的所述调整样本图片特征；

基于所述调整样本视频特征、所述调整样本文本特征、所述调整样本图片特征以及所述第二训练模型，得到包括第一预测标签、第二预测标签以及第三预测标签的预测标签；

基于所述样本标签、所述预测标签以及与所述初始多模态识别模型相关联的模型收敛条件，对所述第二训练模型进行调整训练，将调整训练后的第二训练模型作为目标多模态识别模型。

11.根据权利要求10所述的方法，其特征在于，所述基于所述样本标签、所述预测标签以及与所述初始多模态识别模型相关联的模型收敛条件，对所述第二训练模型进行调整训练，将调整训练后的第二训练模型作为目标多模态识别模型，包括：

获取与所述初始多模态识别模型相关联的模型收敛条件；所述模型收敛条件包括为视频损失参数配置的视频损失权重、为文本损失参数配置的文本损失权重以及为图片损失参数配置的图片损失权重；

基于所述第一样本标签和所述第一预测标签，确定所述视频损失参数对应的视频损失值，基于所述第二样本标签和所述第二预测标签，确定所述文本损失参数对应的文本损失值，基于所述第三样本标签和所述第三预测标签，确定所述图片损失参数对应的图片损失值；

基于所述视频损失值、所述文本损失值、所述图片损失值、所述视频损失权重、所述文本损失权重以及所述图片损失权重，确定所述第二训练模型的模型损失函数对应的模型损失；

基于所述模型损失对所述第二训练模型进行调整训练，得到模型训练结果；

若所述模型训练结果指示调整训练后的第二训练模型满足所述模型收敛条件，则将满足所述模型收敛条件的第二训练模型作为目标多模态识别模型。

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在获取到目标视频数据以及Z个待识别图片数据时，确定Z个视频图片对；一个视频图片对是由所述目标视频数据以及一个待识别图片数据组成的；所述Z为大于1的正整数；

从所述Z个视频图片对中获取目标视频图片对，确定所述目标视频图片对的目标特征；所述目标特征包括与所述目标视频数据相关联的目标文本模态特征、所述目标视频数据对应的目标视频模态特征以及所述目标视频图片对中的待识别图片数据对应的目标图片模态特征；

基于所述目标文本模态特征、所述目标视频模态特征、所述目标图片模态特征以及所述目标多模态识别模型，得到所述目标视频图片对中所述目标视频数据与待识别图片数据之间的匹配度；

在获取到所述Z个视频图片对中的每个视频图片对分别对应的匹配度时，基于Z个匹配度，从所述Z个待识别图片数据中获取具有最高匹配度的待识别图片数据，将获取到的待识别图片数据确定为与所述目标视频数据具备匹配关系的目标图片数据。

13.一种数据处理装置，其特征在于，包括：

数据集获取模块，用于获取样本数据集；所述样本数据集包括M个子数据集，每个子数据集中的媒体数据均关联N个模态类型，每两个子数据集之间存在不同模态类型的媒体数据；所述M和所述N均为大于1的正整数；

多模态特征获取模块，用于获取每个子数据集分别对应的多模态特征；M个多模态特征包括多模态特征X_i和多模态特征X_i+1；所述i为小于所述M的正整数；

迭代训练模块，用于在获取到第(i-1)次迭代训练后的初始多模态识别模型时，基于所述多模态特征X_i，对所述初始多模态识别模型进行迭代训练，得到第一训练模型，且基于所述多模态特征X_i+1，对所述第一训练模型进行迭代训练，直到所述(i+1)等于所述M时，得到第二训练模型；

目标模型生成模块，用于基于与所述初始多模态识别模型相关联的模型收敛条件以及所述第二训练模型，生成目标多模态识别模型；所述目标多模态识别模型用于识别目标视频数据和待识别图片数据之间的匹配度；所述样本数据集关联的模态类型包括所述目标视频数据所关联的模态类型以及所述待识别图片数据对应的模态类型。

14.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1至12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1至12任一项所述的方法。

16.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至12中任一项所述的方法。