CN115879002A

CN115879002A - 一种训练样本生成方法、模型训练方法及装置

Info

Publication number: CN115879002A
Application number: CN202211605539.0A
Authority: CN
Inventors: 李冠楠
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-03-31

Abstract

本发明实施例提供了一种训练样本生成方法、模型训练方法及装置，涉及人工智能技术领域，包括：获取多个原始训练样本；针对每一原始训练样本，获取该原始训练样本的视频特征和文本特征；基于该原始训练样本的视频特征和文本特征，确定该原始训练样本中的多个目标图像区域和多个目标语素；基于多个目标图像区域的视频特征和多个目标语素的文本特征，计算该原始训练样本的质量数据；基于质量数据小于第一预设阈值的原始训练样本的第一数目对各原始训练样本进行筛选，得到目标训练样本。可以提高对跨模态模型进行训练的效果，可以节省时间成本和人工成本，提高训练样本的生成效率，进而提高对跨模态模型进行训练的效率。

Description

一种训练样本生成方法、模型训练方法及装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种训练样本生成方法、模型训练方法及装置。

背景技术

基于跨模态模型可以从一种模态的多个资源中，确定出与另一种模态的目标资源包含相同目标对象的资源。例如，跨模态模型为视频-文本跨模态模型，电子设备获取到包含目标对象的目标视频，然后，可以通过视频-文本跨模态模型，计算目标视频与多个文本的相似度，并确定与目标视频的相似度最大的文本，得到包含目标对象的文本。

在通过视频-文本跨模态模型，确定包含目标对象的文本之前，电子设备可以使用预设训练集对初始结构的视频-文本跨模态模型进行训练。预设训练集包含多个原始训练样本。相关技术中，由技术人员根据经验判断每一原始训练样本的质量，并基于各原始训练样本的质量，从预设训练集中确定出质量较高的目标训练样本。进而，基于目标训练样本，对初始结构的视频-文本跨模态模型进行训练。

然而，由技术人员根据经验判断每一原始训练样本的质量，以及从预设训练集中确定出质量较高的目标训练样本，需要较大的时间成本和人工成本，导致相关技术中训练样本的生成效率不高，进而，导致对视频-文本跨模态模型进行训练的效率不高。

发明内容

本发明实施例的目的在于提供一种训练样本生成方法、模型训练方法及装置，以提高训练样本的生成效率，进而提高对跨模态模型进行训练的效率。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种训练样本生成方法，所述方法包括：

获取多个原始训练样本；其中，一个原始训练样本包括：一个样本视频和一个样本文本；

针对每一原始训练样本，获取该原始训练样本中的样本视频的各目标视频帧各自的视频特征，以及样本文本的文本特征；其中，每一目标视频帧的视频特征表示该目标视频帧所包含的第一对象；该样本文本的文本特征表示该样本文本所描述的第二对象；

基于各目标视频帧各自的视频特征，从各目标视频帧中，确定包含所述第一对象的目标图像区域，得到该样本视频的多个目标图像区域，以及基于样本文本的文本特征，从该样本文本中，确定用于描述所述第二对象的目标语素，得到该样本文本的多个目标语素；

基于该原始训练样本中的样本视频的多个目标图像区域的视频特征，以及该原始训练样本中的样本文本的多个目标语素的文本特征，计算该原始训练样本中的样本视频与样本文本的相似度，作为该原始训练样本的质量数据；

获取质量数据小于第一预设阈值的原始训练样本的第一数目，基于第一数目对各原始训练样本进行筛选，得到目标训练样本。

可选的，一个目标视频帧的视频特征为该目标视频帧的响应热图；

所述基于各目标视频帧各自的视频特征，从各目标视频帧中，确定包含所述第一对象的目标图像区域，得到该样本视频的多个目标图像区域，包括：

针对每一目标视频帧，从该目标视频帧中，确定在该目标视频帧的响应热图中的响应值大于第二预设阈值的各像素点所组成的图像区域，作为关键图像区域；

确定该目标视频帧中的各关键图像区域的最小外接矩形，得到该目标视频帧的目标图像区域；

从各目标视频帧的目标图像区域中，选择第二数目个目标视频帧的目标图像区域，得到该原始训练样本中的样本视频的多个目标图像区域。

可选的，该原始训练样本中的样本文本的文本特征为该样本文本的响应热图；

所述基于样本文本的文本特征，从该样本文本中，确定用于描述所述第二对象的目标语素，得到该样本文本的多个目标语素，包括：

从该原始训练样本中的样本文本中，确定在该样本文本的响应热图中的响应值大于第三预设阈值的语素，作为关键语素；

按照各关键语素在该样本文本的响应热图中的响应值从高至低的顺序，从各关键语素中，选择前第三数目个关键语素，得到该原始训练样本中的样本文本的多个目标语素。

可选的，所述基于该原始训练样本中的样本视频的多个目标图像区域的视频特征，以及该原始训练样本中的样本文本的多个目标语素的文本特征，计算该原始训练样本中的样本视频与样本文本的相似度，作为该原始训练样本的质量数据，包括：

将样本视频的每一目标图像区域分别与样本文本的每一目标语素进行组合，得到多个初始映射组合；其中，每一初始映射组合包含一个目标图像区域和一个目标语素；

针对每一初始映射组合，计算该初始映射组合的目标图像区域的视频特征与目标语素的文本特征的相似度，作为该初始映射组合对应的相似度；

基于各初始映射组合对应的相似度，确定该原始训练样本的质量数据。

可选的，所述基于各初始映射组合对应的相似度，确定该原始训练样本的质量数据，包括：

从各初始映射组合中，确定对应的相似度大于第四预设阈值的初始映射组合，作为备选映射组合；

基于各备选映射组合的对应的相似度，确定该原始训练样本的质量数据。

可选的，所述基于各备选映射组合对应的相似度，确定该原始训练样本的质量数据，包括：

针对每一目标图像区域，从包含该目标图像区域的各备选映射组合中，选择一个备选映射组合，作为该目标图像区域的目标映射组合；其中，各目标图像区域的目标映射组合中包括的目标语素不同；

将包括各个目标图像区域的各目标映射组合，确定为一个跨模态组合；

计算该跨模态组合中的各目标映射组合对应的相似度的和值，得到该跨模态组合的质量数据；

确定各跨模态组合的质量数据中的最大值，作为该原始训练样本的质量数据。

在本发明实施的第二方面，还提供了一种模型训练方法，所述方法包括：

获取包括样本视频和样本文本的目标训练样本，以及获取所述样本视频和所述样本文本的样本相似度；其中，所述目标训练样本为基于上述第一方面任一所述的训练样本生成方法确定的；

将所述样本视频和所述样本文本输入至初始结构的跨模态模型，得到所述样本视频和所述样本文本的预测相似度；

计算表示所述预测相似度和所述样本相似度之间的差异的损失函数值；

基于计算得到的损失函数值对所述初始结构的跨模态模型的模型参数进行调整，直至达到预设的收敛条件，得到训练好的跨模态模型。

在本发明实施的第三方面，还提供了一种训练样本生成装置，所述装置包括：

原始训练样本获取模块，用于获取多个原始训练样本；其中，一个原始训练样本包括：一个样本视频和一个样本文本；

特征获取模块，用于针对每一原始训练样本，获取该原始训练样本中的样本视频的各目标视频帧各自的视频特征，以及样本文本的文本特征；其中，每一目标视频帧的视频特征表示该目标视频帧所包含的第一对象；该样本文本的文本特征表示该样本文本所描述的第二对象；

确定模块，用于基于各目标视频帧各自的视频特征，从各目标视频帧中，确定包含所述第一对象的目标图像区域，得到该样本视频的多个目标图像区域，以及基于样本文本的文本特征，从该样本文本中，确定用于描述所述第二对象的目标语素，得到该样本文本的多个目标语素；

质量数据计算模块，用于基于该原始训练样本中的样本视频的多个目标图像区域的视频特征，以及该原始训练样本中的样本文本的多个目标语素的文本特征，计算该原始训练样本中的样本视频与样本文本的相似度，作为该原始训练样本的质量数据；

筛选模块，用于获取质量数据小于第一预设阈值的原始训练样本的第一数目，基于第一数目对各原始训练样本进行筛选，得到目标训练样本。

所述确定模块，具体用于：

可选的，所述质量数据计算模块，具体用于：

在本发明实施的第四方面，还提供了一种模型训练装置，所述装置包括：

样本获取模块，用于获取包括样本视频和样本文本的目标训练样本，以及获取所述样本视频和所述样本文本的样本相似度；其中，所述目标训练样本为基于上述第一方面任一所述的训练样本生成方法确定的；

预测相似度获取模块，用于将所述样本视频和所述样本文本输入至初始结构的跨模态模型，得到所述样本视频和所述样本文本的预测相似度；

损失函数值计算模块，用于计算表示所述预测相似度和所述样本相似度之间的差异的损失函数值；

模型训练模块，用于基于计算得到的损失函数值对所述初始结构的跨模态模型的模型参数进行调整，直至达到预设的收敛条件，得到训练好的跨模态模型。

在本发明实施的第五方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的训练样本生成方法步骤，或者，上述第二方面任一所述的模型训练方法步骤。

在本发明实施的第六方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的训练样本生成方法，或者，上述第二方面任一所述的模型训练方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面任一所述的训练样本生成方法，或者，上述第二方面任一所述的模型训练方法。

本发明实施例提供的训练样本生成方法，获取多个原始训练样本；其中，一个原始训练样本包括：一个样本视频和一个样本文本；针对每一原始训练样本，获取该原始训练样本中的样本视频的各目标视频帧各自的视频特征，以及样本文本的文本特征；其中，每一目标视频帧的视频特征表示该目标视频帧所包含的第一对象；该样本文本的文本特征表示该样本文本所描述的第二对象；基于各目标视频帧各自的视频特征，从各目标视频帧中，确定包含第一对象的目标图像区域，得到该样本视频的多个目标图像区域，以及基于样本文本的文本特征，从该样本文本中，确定用于描述第二对象的目标语素，得到该样本文本的多个目标语素；基于该原始训练样本中的样本视频的多个目标图像区域的视频特征，以及该原始训练样本中的样本文本的多个目标语素的文本特征，计算该原始训练样本中的样本视频与样本文本的相似度，作为该原始训练样本的质量数据；获取质量数据小于第一预设阈值的原始训练样本的第一数目，基于第一数目对各原始训练样本进行筛选，得到目标训练样本。

基于上述处理，由于目标视频帧的视频特征能够表示目标视频帧中包含的第一对象，基于目标视频帧的视频特征确定出的目标图像区域为包含第一对象的图像区域。样本文本的文本特征能够表示样本文本所描述的第二对象，基于样本文本的文本特征确定出的目标语素为用于描述第二对象的语素。进而，根据样本视频的目标图像区域的视频特征和样本文本的目标语素的文本特征，计算样本视频与样本文本的相似度，作为该原始训练样本的质量数据，则该原始训练样本的质量数据能够表示：样本视频中包含的第一对象与样本文本所描述的第二对象的相似度。进而，基于质量数据小于第一预设阈值的原始训练样本的数目，对各原始训练样本进行筛选，得到目标训练样本，可以避免由于质量较低的原始训练样本的占比较高，导致跨模态模型收敛困难，进而导致跨模态模型的准确性较低的问题，可以提高对跨模态模型进行训练的效果。并且无需由技术人员根据经验判断每一原始训练样本的质量，并人工从各原始训练样本中确定目标训练样本，可以节省时间成本和人工成本，提高训练样本的生成效率，进而提高对跨模态模型进行训练的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的训练样本生成方法的第一种流程图；

图2为本发明实施例提供的训练样本生成方法的第二种流程图；

图3为本发明实施例提供的训练样本生成方法的第三种流程图；

图4为本发明实施例提供的训练样本生成方法的第四种流程图；

图5为本发明实施例提供的模型训练方法的一种流程图；

图6为本发明实施例提供的训练样本生成方法的第五种流程图；

图7为本发明实施例提供的训练样本生成装置的一种结构图；

图8为本发明实施例提供的模型训练装置的一种结构图；

图9为本发明实施例提供的电子设备的一种结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

基于跨模态模型可以从一种模态的多个资源中，确定出与另一种模态的目标资源包含相同目标对象的资源。在通过视频-文本跨模态模型，确定包含目标对象的文本之前，电子设备可以使用预设训练集对初始结构的视频-文本跨模态模型进行训练，预设训练集包含多个原始训练样本。相关技术中，由技术人员根据经验判断每一原始训练样本的质量，并基于各原始训练样本的质量，从预设训练集中确定出质量较高的目标训练样本。进而，基于目标训练样本，对初始结构的视频-文本跨模态模型进行训练。然而，由技术人员根据经验判断每一原始训练样本的质量，以及从预设训练集中确定出质量较高的目标训练样本，需要较大的时间成本和人工成本，导致相关技术中训练样本的生成效率不高，进而，导致对初始结构的视频-文本跨模态模型进行训练的效率不高。

为了解决上述问题，本发明实施例提供了一种训练样本生成方法，该方法应用于电子设备。电子设备可以获取多个原始训练样本，并按照本发明实施例提供的训练样本生成方法，得到各原始训练样本的质量数据，进而，电子设备可以基于质量数据小于第一预设阈值的原始训练样本的数目，对各原始训练样本进行筛选，得到目标训练样本，无需由技术人员根据经验判断每一原始训练样本的质量，并人工从各原始训练样本中确定目标训练样本，可以节省时间成本和人工成本，提高训练样本的生成效率，进而提高对跨模态模型进行训练的效率。

参见图1，图1为本发明实施例提供的训练样本生成方法的第一种流程图，该方法可以包括以下步骤：

S101：获取多个原始训练样本。

其中，一个原始训练样本包括：一个样本视频和一个样本文本。

S102：针对每一原始训练样本，获取该原始训练样本中的样本视频的各目标视频帧各自的视频特征，以及样本文本的文本特征。

其中，每一目标视频帧的视频特征表示该目标视频帧所包含的第一对象；该样本文本的文本特征表示该样本文本所描述的第二对象。

S103：基于各目标视频帧各自的视频特征，从各目标视频帧中，确定包含第一对象的目标图像区域，得到该样本视频的多个目标图像区域。

S104：基于样本文本的文本特征，从该样本文本中，确定用于描述第二对象的目标语素，得到该样本文本的多个目标语素。

S105：基于该原始训练样本中的样本视频的多个目标图像区域的视频特征，以及该原始训练样本中的样本文本的多个目标语素的文本特征，计算该原始训练样本中的样本视频与样本文本的相似度，作为该原始训练样本的质量数据。

S106：获取质量数据小于第一预设阈值的原始训练样本的第一数目，基于第一数目对各原始训练样本进行筛选，得到目标训练样本。

基于本发明实施例提供的训练样本生成方法，由于目标视频帧的视频特征能够表示目标视频帧中包含的第一对象，基于目标视频帧的视频特征确定出的目标图像区域为包含第一对象的图像区域。样本文本的文本特征能够表示样本文本所描述的第二对象，基于样本文本的文本特征确定出的目标语素为用于描述第二对象的语素。进而，根据样本视频的目标图像区域的视频特征和样本文本的目标语素的文本特征，计算样本视频与样本文本的相似度，作为该原始训练样本的质量数据，则该原始训练样本的质量数据能够表示：样本视频中包含的第一对象与样本文本所描述的第二对象的相似度。进而，基于质量数据小于第一预设阈值的原始训练样本的数目，对各原始训练样本进行筛选，得到目标训练样本，可以避免由于质量较低的原始训练样本的占比较高，导致跨模态模型收敛困难，进而导致跨模态模型的准确性较低的问题，可以提高对跨模态模型进行训练的效果。并且无需由技术人员根据经验判断每一原始训练样本的质量，并人工从各原始训练样本中确定目标训练样本，可以节省时间成本和人工成本，提高训练样本的生成效率，进而提高对跨模态模型进行训练的效率。

针对步骤S101，电子设备获取包含多个原始训练样本的预设训练集。

一个原始训练样本包括：一个样本视频和一个样本文本。原始训练样本可以包括正样本和负样本。

针对每一正样本，该正样本中，样本视频包含的第一对象与样本文本所描述的第二对象相同，也就是该正样本中的样本视频与样本文本的相似度较高，该正样本的质量数据也就较高。例如，若样本视频包含的第一对象为“狗”，则样本文本所描述的第二对象也为“狗”，如包含文字“狗”的文本，包含文字“犬”的文本等。

针对每一负样本，该负样本中，样本视频包含的第一对象与样本文本所描述的第二对象不同，也就是该负样本中的样本视频与样本文本的相似度较低，该负样本的质量数据也就不高。例如，若样本视频包含的第一对象为“狗”，则样本文本所描述的第二对象可以为“猫”，或者，也可以为“狼”等，如包含文字“猫”的文本，包含文字“狼”的文本等。

针对步骤S102，一个样本视频中的目标视频帧可以为该样本视频包含的全部视频帧，或者，一个样本视频中的目标视频帧也可以为该样本视频包含的部分视频帧。

在目标视频帧为该样本视频中的部分视频帧时，电子设备可以按照以下方式，确定该样本视频的目标视频帧。

方式一：

电子设备可以对样本视频进行等间隔抽帧，确定样本视频中的目标视频帧。例如，电子设备可以间隔指定时长，对样本视频进行抽帧，得到样本视频的多个目标视频帧。指定时长可以为1秒，也可以为30毫秒。或者，电子设备可以间隔指定数目个视频帧，对样本视频进行抽帧。指定数目可以为10，也可以为20，得到样本视频的多个目标视频帧。

方式二：

电子设备可以基于镜头检测技术，从样本视频中确定出同一镜头拍摄的第一个视频帧和最后一个视频帧，并确定从该第一个视频帧至该最后一个视频帧之间的多个视频帧为该镜头拍摄的视频帧组，也就是对样本视频中的各视频帧进行分组，得到多个视频帧组。进而，基于多个视频帧组，确定样本视频的目标视频帧。

一种实现方式中，针对每一视频帧组，电子设备可以确定该视频帧组中的第一个视频帧和最后一个视频帧，作为样本视频的目标视频帧。

另一种实现方式中，针对每一视频帧组，电子设备可以基于运动对象在该视频帧组中的第一个视频帧中的位置，至该视频帧组中的最后一个视频帧中的位置的运动轨迹，得到该视频帧组对应的光流图。进而，电子设备根据各视频帧组对应的光流图，分别从各视频帧组中，确定样本视频的目标视频帧。

每一目标视频帧的视频特征能够表示该目标视频帧所包含的第一对象。例如，目标视频帧的视频特征可以为响应热图，例如，若目标视频帧包括行人和行人所处的环境背景，则电子设备可以提取目标视频帧中的行人的响应热图，得到目标视频帧的视频特征。或者，电子设备也可以对目标视频帧进行卷积核可视化处理，得到目标视频帧的视频特征，但不限于此。

样本文本的文本特征能够表示该样本文本所描述的第二对象。其中，样本文本的文本特征可以为响应热图，或者，也可以对样本文本进行卷积核可视化处理，得到样本文本的文本特征，但不限于此。

样本文本可以包括多个语素，语素也就是具有语义和语音的最小粒度的语言单位，如语素可以为一个单词。样本文本包括的多个语素也就是样本文本包括的多个单词。例如，样本文本包括语素“秋天”，“麦子”，“太阳”。

电子设备可以通过特征提取模型，提取样本视频的各目标视频帧各自的视频特征，以及提取样本文本的文本特征。特征提取模型可以为CLIP(Contrastive Language-Image Pre-training，对比文本-图像对预训练)模型。

针对每一目标视频帧，将该目标视频帧输入至CLIP模型，通过CLIP模型，基于该目标视频帧中各像素点的像素值，对该目标视频帧进行处理，得到该目标视频帧的视频特征。

将样本文本输入至CLIP模型，通过CLIP模型，对样本文本进行处理，得到样本文本的文本特征。

针对步骤S103，针对每一目标视频帧，该目标视频帧的目标图像区域为该目标视频帧中包含第一对象的图像区域。例如，若目标视频帧包括行人和行人所处的环境背景，则该目标视频帧中的目标图像区域可以为该行人在该目标视频帧中所属的图像区域。

进而，基于多个目标视频帧确定出的多个目标图像区域，也就是该样本视频中的包含第一对象的各图像区域。

在一些实施例中，一个目标视频帧的视频特征可以为该目标视频帧的响应热图，在图1的基础上，参见图2，步骤S103可以包括以下步骤：

S1031：针对每一目标视频帧，从该目标视频帧中，确定在该目标视频帧的响应热图中的响应值大于第二预设阈值的各像素点所组成的图像区域，作为关键图像区域。

S1032：确定该目标视频帧中的各关键图像区域的最小外接矩形，得到该目标视频帧的目标图像区域。

S1033：从各目标视频帧的目标图像区域中，选择第二数目个目标视频帧的目标图像区域，得到该原始训练样本中的样本视频的多个目标图像区域。

针对每一目标视频帧，该目标视频帧中的不同图像区域中的像素点在该目标视频帧的响应热图中的响应值不同，一个图像区域中的像素点在该目标视频帧的响应热图中的响应值表示：该图像区域包含第一对象的概率。

针对该目标视频帧中的每一图像区域，该图像区域中的像素点在该目标视频帧的响应热图中的响应值越高，该图像区域包含第一对象的概率越高；该图像区域中的像素点在该目标视频帧的响应热图中的响应值越低，该图像区域包含第一对象的概率越低。

由于该图像区域中的像素点在该目标视频帧的响应热图中的响应值越高，该图像区域包含第一对象的概率越高，当该图像区域中的像素点在该目标视频帧的响应热图中的响应值高于第二预设阈值时，电子设备可以将该图像区域作为该目标视频帧的关键图像区域。例如，该图像区域中的像素点在该目标视频帧的响应热图中的响应值的取值范围可以为[0，1]，第二预设阈值可以表示为th2(Threshould 2，阈值2)，第二预设阈值可以为0.3。

响应值较高的像素点组成的图像区域为该目标视频帧中，相较于其他图像区域更加突出，语义信息更加明确的图像区域，则响应值较高的像素点组成的图像区域包含第一对象的概率较大，因此，可以确定响应值较高的像素点组成图像区域为关键图像区域。

针对每一目标视频帧，由于该目标视频帧中的不同图像区域中的像素点在该目标视频帧的响应热图中的响应值不同，该目标视频帧中的像素点的响应值大于第二预设阈值的图像区域可能有多个，也就是电子设备可以在该目标视频帧中确定出多个关键图像区域。进而，电子设备可以获取该目标视频帧中的该多个关键图像区域的最小外接矩形在该目标视频帧中所在的图像区域，并将该最小外接矩形在该目标视频帧中所在的图像区域确定为该目标视频帧的目标图像区域。

电子设备确定出各目标视频帧的目标图像区域后，可以从各目标视频帧的目标图像区域中，确定第二数目个目标图像区域，得到该原始训练样本中的样本视频的多个目标图像区域。

其中，第二数目可以根据实际需求设置，第二数目也可以表示为k2。为了减少需要进行处理的目标图像区域的数目，提高训练样本生成的效率，可以设置较小的k2，例如，k2可以为3；为了丰富目标图像区域的内容，提高训练样本生成的准确度，可以设置较大的k2，例如，k2可以为5。

或者，电子设备也可以基于该样本视频中的目标视频帧的个数确定第二数目，例如，第二数目可以为该样本视频中的目标视频帧的个数的10％，或者，第二数目可以为该样本视频中的目标视频帧的个数的20％，但不限于此。

一种实现方式中，电子设备可以确定各目标视频帧的目标图像区域的面积。目标视频帧的目标图像区域的面积越小，表示该目标视频帧的目标图像区域能够包含的内容越少，确定出的该目标视频帧的目标图像区域包含第一对象的概率越低。因此，电子设备可以按照各目标视频帧的目标图像区域的面积从大至小的顺序，从各目标视频帧的目标图像区域中，选择前第二数目个目标视频帧的目标图像区域，得到该原始训练样本中的样本视频的多个目标图像区域。前第二数目个目标视频帧的目标图像区域也就是：各目标视频帧的目标图像区域中包含第一对象的概率较高的目标图像区域。

另一种实现方式中，针对每一目标视频帧，电子设备可以计算该目标视频帧的各关键图像区域中的像素点在该目标视频帧的响应热图中的响应值的统计值(例如，最大值，平均值等)，得到该目标视频帧的目标图像区域的响应值。由于关键图像区域为：电子设备根据各图像区域中的像素点在该目标视频帧的响应热图中的响应值确定的，相应的，该目标视频帧的各关键图像区域中的像素点在该目标视频帧的响应热图中的响应值的统计值越大，也就是该目标视频帧的目标图像区域的响应值越大，表示该目标视频帧的目标图像区域包含第一对象的概率越高；该目标视频帧的各关键图像区域中的像素点在该目标视频帧的响应热图中的响应值的统计值越小，也就是该目标视频帧的目标图像区域的响应值越小，表示该目标视频帧的目标图像区域包含第一对象的概率越低。

因此，电子设备可以按照各目标视频帧的目标图像区域的响应值从高至低的顺序，从各目标视频帧的目标图像区域中，选择前第二数目个目标视频帧的目标图像区域，得到该原始训练样本中的样本视频的多个目标图像区域。前第二数目个目标视频帧的目标图像区域也就是：各目标视频帧的目标图像区域中包含第一对象的概率较高的目标图像区域。

基于上述处理，电子设备可以根据目标视频帧的响应热图中的响应值，确定目标视频帧的目标图像区域，提高了确定出的目标图像区域的准确性。后续，根据该原始训练样本中的样本视频的多个目标图像区域和样本文本中的多个目标语素计算原始训练样本的质量数据，提高计算得到的该原始训练样本的质量数据的准确性。

针对步骤S104，针对样本文本的每一目标语素，该目标语素为该样本文本中用于描述第二对象的语素。例如，若样本文本包括名词和副词，则该名词可以为该样本文本中的目标语素。

进而，基于样本文本确定出的多个目标语素，也就是该样本文本中用于描述第二对象的语素。

在一些实施例中，样本文本的文本特征为该样本文本的响应热图，在图1的基础上，参见图3，步骤S104可以包括以下步骤：

S1041：从该原始训练样本中的样本文本中，确定在该样本文本的响应热图中的响应值大于第三预设阈值的语素，作为关键语素。

S1042：按照各关键语素在该样本文本的响应热图中的响应值从高至低的顺序，从各关键语素中，选择前第三数目个关键语素，得到该原始训练样本中的样本文本的多个目标语素。

针对每一样本文本，电子设备可以对该样本文本进行分词处理，并过滤该样本文本中的停用词，得到多个单词，一个单词也就是一个语素，也就是可以得到该样本文本对应的多个语素(可以称为文本描述语素)。该样本文本的响应热图，也就是该样本文本中的各文本描述语素对应的响应热图。

针对每一文本描述语素，该文本描述语素在该样本文本的响应热图中的响应值不同，该样本文本中的文本描述语素在该样本文本的响应热图中的响应值表示：该样本文本中的文本描述语素用于描述第二对象的概率。

针对该样本文本中的每一文本描述语素，该文本描述语素在该样本文本的响应热图中的响应值越高，该文本描述语素用于描述第二对象的概率越高；该文本描述语素在该样本文本的响应热图中的响应值越低，该文本描述语素用于描述第二对象的概率越低。

由于该文本描述语素在该样本文本的响应热图中的响应值越高，该文本描述语素用于描述第二对象的概率越高，当该文本描述语素在该样本文本的响应热图中的响应值高于第三预设阈值时，电子设备可以将该样本文本中的该文本描述语素确定为关键语素。例如，该文本描述语素在该样本文本的响应热图中的响应值的取值范围可以为[0，1]，第三预设阈值可以表示为th3(阈值3)，第三预设阈值可以为0.2。

响应值较高的文本描述语素为该样本文本中，相较于其他语素更加突出，语义信息更加明确的语素，则响应值较高的文本描述语素用于描述第二对象的概率较大，因此，可以确定响应值较高的文本描述语素为目标语素。

由于各文本描述语素在该样本文本的响应热图中的响应值不同，该样本文本中的对应的响应值大于第三预设阈值的文本描述语素可能有多个，也就是电子设备可以在该样本文本中确定出多个关键语素。针对每一关键语素，由于该关键语素在该样本文本的响应热图中的响应值越高，表示该关键语素用于描述第二对象的概率越高，因此，电子设备可以按照各关键语素在该样本文本的响应热图中的响应值从高至低的顺序，从各关键语素中选择前第三数目个关键语素，得到该原始训练样本中的样本文本的多个目标语素。

其中，第三数目可以根据实际需求设置，第三数目也可以表示为k3。为了减少需要进行处理的目标语素的数目，提高训练样本生成的效率，可以设置较小的k3，例如，k3可以为3；为了丰富目标语素的内容，提高训练样本生成的准确度，可以设置较大的k3，例如，k3可以为5。

或者，电子设备也可以基于该样本文本中的文本描述语素的个数确定第三数目，例如，第三数目可以为该样本文本中的文本描述语素的个数的10％，或者，第三数目可以为该样本文本中的文本描述语素的个数的20％，但不限于此。

基于上述处理，电子设备可以根据样本文本的响应热图中的响应值，确定样本文本的目标语素，提高了确定出的目标语素的准确性。后续，根据该原始训练样本中的样本视频的多个目标图像区域和样本文本中的多个目标语素计算原始训练样本的质量数据，提高计算得到的该原始训练样本的质量数据的准确性。

在本实施例中，不限定步骤S103和步骤S104的执行顺序，可以先执行步骤S103，也可以先执行步骤S104。例如，可以先执行步骤S103，再执行步骤S104；或者，可以先执行步骤S104，再执行步骤S103；或者，也可以同时执行步骤S103和步骤S104。

针对步骤S105，样本视频的多个目标图像区域能够表示该样本视频中包含的第一对象，样本文本的多个目标语素能够表示该样本文本中所描述的第二对象。进而，基于样本视频的多个目标图像区域和样本文本的多个目标语素，可以计算得到样本视频中包含的第一对象与样本文本所描述的第二对象的相似度，也就是得到样本视频与样本文本的相似度。

样本视频中包含的第一对象与样本文本所描述的第二对象的相似度越高，表示样本视频中包含的第一对象与样本文本所描述的第二对象相同的概率越高；样本视频中包含的第一对象与样本文本所描述的第二对象的相似度越低，表示样本视频中包含的第一对象与样本文本所描述的第二对象相同的概率越低。

在一些实施例中，在图1的基础上，参见图4，步骤S105可以包括以下步骤：

S1051：将样本视频的每一目标图像区域分别与样本文本的每一目标语素进行组合，得到多个初始映射组合。

其中，每一初始映射组合包含一个目标图像区域和一个目标语素。

S1052：针对每一初始映射组合，计算该初始映射组合的目标图像区域的视频特征与目标语素的文本特征的相似度，作为该初始映射组合对应的相似度。

S1053：基于各初始映射组合对应的相似度，确定该原始训练样本的质量数据。

针对样本视频的每一目标图像区域，电子设备可以将该目标图像区域与样本文本的每一目标语素进行组合，得到包含该目标图像区域的多个初始映射组合。进而，根据样本视频的多个目标图像区域，也就可以得到包含各目标图像区域的多个初始映射组合。

例如，样本视频的目标图像区域包括目标图像区域A，目标图像区域B和目标图像区域C；样本文本的目标语素包括目标语素1，目标语素2和目标语素3。电子设备可以将目标图像区域A分别与目标语素1，目标语素2和目标语素3进行组合，得到三个初始映射组合，该三个初始映射组合包括：目标图像区域A和目标语素1组成的映射组合A1、目标图像区域A和目标语素2组成的映射组合A2，以及目标图像区域A和目标语素3组成的映射组合A3。电子设备还可以将目标图像区域B分别与目标语素1，目标语素2和目标语素3进行组合，得到三个初始映射组合，该三个初始映射组合包括：目标图像区域B和目标语素1组成的映射组合B1、目标图像区域B和目标语素2组成的映射组合B2，以及目标图像区域B和目标语素3组成的映射组合B3。电子设备还可以将目标图像区域C分别与目标语素1，目标语素2和目标语素3进行组合，得到三个初始映射组合，该三个初始映射组合包括：目标图像区域C和目标语素1组成的映射组合C1、目标图像区域C和目标语素2组成的映射组合C2，以及目标图像区域C和目标语素3组成的映射组合C3。

进而，针对每一初始映射组合，电子设备可以计算该初始映射组合的目标图像区域的视频特征与目标语素的文本特征的相似度，作为该初始映射组合对应的相似度。其中，目标图像区域的视频特征能够表示该目标图像区域所包含的第一对象，目标语素的文本特征能够表示该目标语素所描述的第二对象。

针对每一初始映射组合，电子设备可以通过相似度算法，计算该初始映射组合的目标图像区域的视频特征与目标语素的文本特征的相似度，作为该初始映射组合对应的相似度。例如，相似度算法可以为余弦相似度算法、皮尔森相关系数、欧几里得距离、曼哈顿距离，马哈拉诺比斯距离等。初始映射组合对应的相似度的取值范围可以为[0，1]。

在计算得到各初始映射组合对应的相似度后，电子设备可以基于各初始映射组合对应的相似度，确定该原始训练样本的质量数据。

在一些实施例中，步骤S1053可以包括以下步骤：

步骤1：从各初始映射组合中，确定对应的相似度大于第四预设阈值的初始映射组合，作为备选映射组合。

步骤2：基于各备选映射组合的对应的相似度，确定该原始训练样本的质量数据。

为了提高训练样本生成的效率，并且提高计算得到的原始训练样本的准确性，电子设备可以从各初始映射组合中，确定对应的相似度较高的初始映射组合，作为备选映射组合。

一种实现方式中，电子设备可以将对应的相似度大于第四预设阈值的初始映射组合确定为备选映射组合。例如，第四预设阈值可以为0.2。

例如，针对上述实施例，初始映射组合包括：映射组合A1，映射组合A2，映射组合A3，映射组合B1，映射组合B2，映射组合B3，映射组合C1，映射组合C2和映射组合C3。第四预设阈值为0.2。

映射组合A1的质量数据为0.4，映射组合A2的质量数据为0.3，映射组合A3的质量数据为0.2，映射组合B1的质量数据为0.5，映射组合B2的质量数据为0.4，映射组合B3的质量数据为0.3，映射组合C1的质量数据为0.4，映射组合C2的质量数据为0.5，映射组合C3的质量数据为0.6。

因此，备选映射组合包括：映射组合A1，映射组合A2，映射组合B1，映射组合B2，映射组合B3，映射组合C1，映射组合C2，映射组合C3。

另一种实现方式中，电子设备可以按照各初始映射组合对应的相似度从高至低的顺序，从各初始映射组合中，选择前第四数目个初始映射组合，作为备选映射组合。例如，第四数目可以为4，或者，第四数目可以为初始映射组合的个数的50％。

在得到多个备选映射组合后，电子设备可以基于各备选映射组合的对应的相似度，确定该原始训练样本的质量数据。

在一些实施例中，上述步骤2可以包括以下步骤：

步骤21：针对每一目标图像区域，从包含该目标图像区域的各备选映射组合中，选择一个备选映射组合，作为该目标图像区域的目标映射组合。

其中，各目标图像区域的目标映射组合中包括的目标语素不同。

步骤22：将包括各个目标图像区域的各目标映射组合，确定为一个跨模态组合。

步骤23：计算该跨模态组合中的各目标映射组合对应的相似度的和值，得到该跨模态组合的质量数据。

步骤24：确定各跨模态组合的质量数据中的最大值，作为该原始训练样本的质量数据。

在得到多个备选映射组合后，针对每一目标图像区域，电子设备可以从包含该目标图像区域的各备选映射组合中确定该目标图像区域的目标映射组合。由于不同的目标语素可能从不同的方面描述第二对象，因此，为了提高计算得到的样本视频中包含的第一对象与样本文本所描述的第二对象的相似度的准确性，针对每一目标图像区域，电子设备可以从包含该目标图像区域的各备选映射组合中确定该目标图像区域的目标映射组合，并且各目标图像区域的目标映射组合中包括的目标语素不同。

例如，针对上述实施例，备选映射组合包括：映射组合A1，映射组合A2，映射组合B1，映射组合B2，映射组合B3，映射组合C1，映射组合C2和映射组合C3。

针对目标图像区域A，包含目标图像区域A的备选映射组合为：映射组合A1和映射组合A2。电子设备可以从映射组合A1和映射组合A2中任意选择一个备选映射组合，作为该目标图像区域的目标映射组合。本实施例中以选择映射组合A1为目标图像区域A的目标映射组合为例进行说明。

针对目标图像区域B，包含目标图像区域B的备选映射组合为：映射组合B1，映射组合B2和映射组合B3。由于目标图像区域A的目标映射组合为映射组合A1，也就是目标映射组合中已经包括了目标语素1，因此，电子设备可以从不包括目标语素1的目标图像区域B的备选映射组合中，也就是从映射组合B2和映射组合B3中任意选择一个备选映射组合，作为该目标图像区域的目标映射组合。本实施例中以选择映射组合B2为目标图像区域B的目标映射组合为例进行说明。

针对目标图像区域C，包含目标图像区域C的备选映射组合为：映射组合C1，映射组合C2和映射组合C3。由于目标图像区域A的目标映射组合为映射组合A1，也就是目标映射组合中已经包括了目标语素1；目标图像区域B的目标映射组合为映射组合B2，也就是目标映射组合中已经包括了目标语素2，因此，电子设备可以从不包括目标语素1且不包括目标语素2的目标图像区域C的备选映射组合中，选择一个备选映射组合，作为该目标图像区域的目标映射组合。也就是选择映射组合C3作为目标图像区域C的目标映射组合。

在选择出各目标图像区域的目标映射组合后，电子设备可以将包括各个目标图像区域的各目标映射组合，确定为一个跨模态组合。

例如，针对上述实施例，电子设备可以将映射组合A1，映射组合B2和映射组合C3确定为一个跨模态组合，作为跨模态组合1。

相应的，电子设备还可以基于上述方法，得到包括映射组合A1，映射组合B3和映射组合C2的跨模态组合2；包括映射组合A2，映射组合B1和映射组合C3的跨模态组合3；包括映射组合A2，映射组合B3和映射组合C1的跨模态组合4。

在得到多个跨模态组合后，针对每一跨模态组合，电子设备可以计算该跨模态组合中的各目标映射组合对应的相似度的和值，得到该跨模态组合的质量数据。

针对每一目标映射组合，该目标映射组合对应的相似度能够表示：该目标映射组合中的目标图像区域所属的目标视频帧中的第一对象，与该目标映射组合中的目标语素所描述的第二对象的相似度。

该目标映射组合中的目标图像区域所属的目标视频帧中的第一对象，与样本文本所描述的第二对象的相似度越高，该目标映射组合对应的相似度越大；该目标映射组合中的目标图像区域所属的目标视频帧中的第一对象，与样本文本所描述的第二对象的相似度越低，该目标映射组合对应的相似度越小。

由于每一目标映射组合对应的相似度表示该目标映射组合中的目标图像区域所属的目标视频帧中的第一对象，与该目标映射组合中的目标语素所描述的第二对象的相似度，则针对一个跨模态组合，计算该跨模态组合中的各目标映射组合对应的相似度的和值，得到的该跨模态组合的质量数据也就能够表示：样本视频中包含的第一对象与样本文本所描述的第二对象的相似度。

相应的，电子设备在确定各跨模态组合的质量数据后，可以根据各跨模态组合的质量数据中的统计值，确定该原始训练样本的质量数据。例如，为了提高该原始训练样本的质量数据的准确性，确定各跨模态组合的质量数据中的最大值，作为该原始训练样本的质量数据。

基于上述处理，由于目标图像区域为包含第一对象的图像区域，则目标图像区域的视频特征也就能够表示第一对象；目标语素为用于描述第二对象的语素，则目标语素的文本特征也就能够表示第二对象。因此，计算得到的目标图像区域的视频特征与目标语素的文本特征的相似度，也就能够表示该目标映射组合中的目标图像区域所属的目标视频帧中的第一对象，与样本文本所描述的第二对象的相似度，则计算跨模态组合中的各目标映射组合对应的相似度的和值，得到的该跨模态组合的质量数据也就能够表示：样本视频中包含的第一对象与样本文本所描述的第二对象的相似度。进而，确定多个跨模态组合的质量数据的最大值作为原始训练样本的质量数据，也就可以提高计算得到的该原始训练样本的质量数据的准确性。

针对步骤S106，原始训练样本的质量数据较低，也就是原始训练样本的样本视频中包含的第一对象与样本文本所描述的第二对象的相似度较低，负样本为该负样本中的样本视频与样本文本的相似度较低的原始训练样本，也就是负样本为质量数据较低的原始训练样本。

如果预设训练集中质量较低的原始训练样本的占比较高，也就是负样本占比较高，会导致跨模态模型收敛困难，进而导致跨模态模型的准确性较低。因此，在计算得到各原始训练样本的质量数据后，电子设备可以从多个原始训练样本中确定出目标训练样本。

电子设备可以获取预设训练集中的质量数据小于第一预设阈值的原始训练样本的数目(即第一数目)，进而基于第一数目判断预设训练集是否满足预设的过滤条件，也就是基于第一数目对各原始训练样本进行筛选。原始训练样本的质量数据的取值范围可以为[0，10]，第一预设阈值可以为1.5。

预设的过滤条件可以为：第一数目与预设训练集中的原始训练样本的数目的比值大于第五预设阈值。例如，第五预设阈值可以为80％。

若预设训练集不满足预设的过滤条件，表明预设训练集中质量较低的原始训练样本的占比不高，也就是负样本的占比不高，也就是预设训练集的质量较高，电子设备可以直接将预设训练集中所有的原始训练样本均确定为目标训练样本。

若预设训练集满足预设的过滤条件，表明预设训练集中质量较低的原始训练样本的占比较高，也就是负样本的占比较高，也就是预设训练集的质量较低，若基于质量较低的预设训练集对跨模态模型进行训练，会导致跨模态模型收敛困难，进而导致跨模态模型的准确性较低。因此，电子设备可以基于预设训练集中的各原始训练样本的质量数据较小的原始训练样本的数目，对预设训练集进行清洗，也就是基于质量数据小于第一预设阈值的原始训练样本的第一数目，对各原始训练样本进行筛选，得到目标训练样本。

一种实现方式中，在预设训练集满足预设的过滤条件的情况下，也就是第一数目与预设训练集中的原始训练样本的数目的比值大于第五预设阈值的情况下，电子设备可以从多个原始训练样本中，确定质量数据低于第一预设阈值的原始训练样本(可以称为待处理训练样本)，并将除待处理训练样本外的其他原始训练样本，确定为目标训练样本。

在一些实施例中，如果预设训练集中的除待处理训练样本外的其他原始训练样本的数目较少，也就是确定出的目标训练样本的数目较少，会导致对跨模态模型进行训练的效果不好。因此，针对每一待处理训练样本，还可以由技术人员根据经验判断每一待处理训练样本的质量，并由技术人员从各待处理训练样本中确定出质量较好的待处理训练样本，作为目标训练样本，以增加目标训练样本的数目，进而，提高对跨模态模型进行训练的效果。

基于上述处理，可以降低预设训练集中质量较低的原始训练样本的占比，也就是降低负样本的占比，也就是提高预设训练集的质量。相应的，基于质量较高的预设训练集对跨模态模型进行训练，可以避免由于质量较低的原始训练样本的占比较高，导致跨模态模型收敛困难，进而导致跨模态模型的准确性较低的问题，可以提高对跨模态模型进行训练的效果。

参见图5，图5为本发明实施例提供的模型训练方法的一种流程图，该方法可以包括以下步骤：

S501：获取包括样本视频和样本文本的目标训练样本，以及获取样本视频和样本文本的样本相似度。

其中，目标训练样本为基于前述实施例中任一训练样本生成方法确定的。

S502：将样本视频和样本文本输入至初始结构的跨模态模型，得到样本视频和样本文本的预测相似度。

S503：计算表示预测相似度和样本相似度之间的差异的损失函数值。

S504：基于计算得到的损失函数值对初始结构的跨模态模型的模型参数进行调整，直至达到预设的收敛条件，得到训练好的跨模态模型。

跨模态模型可以为CLIP模型、CNN(Convolutional Neural Network，卷积神经网络)模型、RNN(Recurrent Neural Network，循环神经网络)模型，或者FNN(Fully NeuralWork，全连接神经网络)模型，但不限于此。

电子设备将样本视频和样本文本输入至初始结构的跨模态模型后，通过跨模态模型中的特征提取层(例如，卷积层)，提取样本视频中的各目标视频帧的视频特征，以及提取样本文本中的各文本描述语素的文本特征。

然后，可以通过跨模态模型中的第一特征融合层(例如，全连接层)，对提取得到的各文本描述语素的文本特征进行融合，得到样本文本的文本融合特征。通过跨模态模型中的第二特征融合层，对提取得到的各目标视频帧的视频特征进行融合，得到样本视频的视频融合特征，第二特征融合层为时序融合结构，通过第二特征融合层对提取得到的各目标视频帧的视频特征进行融合，可以将各目标视频帧各自的视频特征进行融合，得到具有较好的时域综合表达能力的样本视频的视频融合特征。

进而，可以通过跨模态模型中的相似度预测层，计算样本视频的视频融合特征和样本文本的文本融合特征的相似度，得到目标训练数据的预测相似度。电子设备还可以计算表示预测相似度和样本相似度之间的差异的损失函数值，例如，损失函数可以交叉熵损失函数，电子设备可以计算表示预测相似度和样本相似度之间的差异的交叉熵损失函数值。进而电子设备基于计算得到的损失函数值调整初始结构的跨模态模型的模型参数，例如，按照梯度下降的方式对初始结构的跨模态模型的模型参数进行调整，直至达到预设的收敛条件，得到训练好的跨模态模型。

预设的收敛条件可以为：进行训练的次数达到预设训练次数。例如，预设训练次数可以为50次，或者，也可以为100次，但并不限于此；或者，预设的收敛条件也可以为：本次计算得到损失函数值与前预设数目次的损失函数值的差值小于第六预设阈值。例如，预设数目可以为20，第六预设阈值可以为0.01。

基于上述处理，电子设备基于质量数据小于第一预设阈值的原始训练样本的数目，对各原始训练样本进行筛选，得到目标训练样本后，可以基于目标训练样本对初始结构的跨模态模型进行训练，也就可以提高对初始结构的跨模态模型进行训练的效率。

并且，由于在模型训练时，基于计算得到的损失函数值对初始结构的跨模态模型的模型参数进行调整，也就是在对跨模态模型进行训练时，综合了时序融合结构带来的特征丢失的影响，使得训练好的跨模态模型可以在存在时序融合结构导致视频帧的特征丢失的情况下，也能具有较高的精确度，即，提高训练得到的跨模态模型的精确度。

另外，电子设备在得到训练好的跨模态模型之后，还可以使用训练好的跨模态模型。例如，跨模态模型为视频-文本跨模态模型，电子设备获取到包含目标对象的目标视频，然后，可以通过视频-文本跨模态模型，计算目标视频与多个文本的相似度，并确定与目标视频的相似度最大的文本，得到包含目标对象的文本。

参见图6，图6为本发明实施例提供的训练样本生成方法的第六种流程图。该方法可以包括以下步骤：

S601：获取视频-文本跨模态训练数据。

视频-文本跨模态训练数据也就是用于对初始结构的跨模态模型进行训练的训练数据，即前述实施例中包含多个原始训练样本的预设训练集。每一视频-文本跨模态训练数据包括：一个样本视频和一个样本文本。

S602：获取样本视频的关键帧画面。

针对每一视频-文本跨模态训练数据，电子设备可以获取该视频-文本跨模态训练数据中的样本视频的关键帧画面。关键帧画面也就是前述实施例中的目标视频帧。也就是针对每一原始训练样本，电子设备可以获取该原始训练样本中的样本视频的目标视频帧。

S603：跨模态特征可视化。

针对每一原始训练样本，对该原始训练样本进行跨模态特征可视化，也就是针对该原始训练样本的样本视频，获取该样本视频的各目标视频帧各自的可视化特征，一个目标视频帧的可视化特征可以为前述实施例的该目标视频帧的响应热图，以及针对该原始训练样本中的样本文本，获取该样本文本的可视化特征，样本文本的可视化特征可以为前述实施例的该样本文本的响应热图。

S604：视觉显著区域提取。

视觉显著区域也就是前述实施例中的目标图像区域。电子设备获取样本视频的各目标视频帧各自的响应热图后，针对每一目标视频帧，可以从该目标视频帧中，确定在该目标视频帧的响应热图中的响应值大于第二预设阈值的关键图像区域，并确定该目标视频帧中的各关键图像区域的最小外接矩形，得到该目标视频帧的目标图像区域。进而，电子设备可以从各目标视频帧的目标图像区域中，选择第二数目个目标视频帧的目标图像区域，得到该原始训练样本中的样本视频的多个目标图像区域

S605：文本显著区域提取。

文本显著区域也就是前述实施例中的目标语素。电子设备获取样本文本的响应热图后，可以从该原始训练样本中的样本文本中，确定在该样本文本的响应热图中的响应值大于第三预设阈值的关键语素。进而，电子设备可以按照各关键语素在该样本文本的响应热图中的响应值从高至低的顺序，从各关键语素中，选择前第三数目个关键语素，得到该原始训练样本中的样本文本的多个目标语素。

S606：跨模态特征提取。

电子设备可以通过CLIP模型，提取该原始训练样本中的样本视频的多个目标图像区域的视频特征，得到视觉高表达特征集合，视觉高表达特征集合包括样本视频的多个目标图像区域的视频特征；以及提取该原始训练样本中的样本文本的多个目标语素的文本特征，得到文本高表达特征集合，文本高表达特征集合包括样本文本的多个目标语素的文本特征。

S607：特征相似度计算。

电子设备获取视觉高表达特征集合和文本高表达特征集合后，可以通过集合相似度计算方法，计算视觉高表达特征集合与文本高表达特征集合的相似度，得到该原始训练样本的质量分数，该原始训练样本的质量分数也就是前述实施例中的该原始训练样本的质量数据。也就是基于样本视频的各目标图像区域的视频特征，以及样本文本的各目标语素的文本特征，计算该原始训练样本的质量数据。

基于上述处理，电子设备可以通过特征可视化的方式，确定原始训练样本中目标图像区域和目标语素，通过分析目标图像区域和目标语素的相似度，得到原始训练样本的质量数据，可以实现对包含跨模态资源(即样本视频和样本文本)的原始训练样本的质量的判断。基于质量数据小于第一预设阈值的原始训练样本的数目，对各原始训练样本进行筛选，得到目标训练样本，也就是可以构建质量较好的预设训练集。进而，基于质量较好的预设训练集对跨模态模型进行训练，可以提高对模态模型进行训练的效率和准确度。

基于与上述训练样本生成方法相同的发明构思，本发明实施例还提供了一种训练样本生成装置，参见图7，装置包括：

原始训练样本获取模块701，用于获取多个原始训练样本；其中，一个原始训练样本包括：一个样本视频和该样本视频对应的样本文本；

特征获取模块702，用于针对每一原始训练样本，获取该原始训练样本中的样本视频的各目标视频帧各自的视频特征，以及样本文本的文本特征；其中，每一目标视频帧的视频特征表示该目标视频帧所包含的第一对象；该样本文本的文本特征表示该样本文本所描述的第二对象；

确定模块703，用于基于各目标视频帧各自的视频特征，从各目标视频帧中，确定包含所述第一对象的目标图像区域，得到该样本视频的多个目标图像区域，以及基于样本文本的文本特征，从该样本文本中，确定用于描述所述第二对象的目标语素，得到该样本文本的多个目标语素；

质量数据计算模块704，用于基于该原始训练样本中的样本视频的多个目标图像区域的视频特征，以及该原始训练样本中的样本文本的多个目标语素的文本特征，计算该原始训练样本中的样本视频与样本文本的相似度，作为该原始训练样本的质量数据；

筛选模块705，用于获取质量数据小于第一预设阈值的原始训练样本的第一数目，基于第一数目对各原始训练样本进行筛选，得到目标训练样本。

所述确定模块703，具体用于：

可选的，所述质量数据计算模块704，具体用于：

基于本发明实施例提供的训练样本生成装置，由于目标视频帧的视频特征能够表示目标视频帧中包含的第一对象，基于目标视频帧的视频特征确定出的目标图像区域为包含第一对象的图像区域。样本文本的文本特征能够表示样本文本所描述的第二对象，基于样本文本的文本特征确定出的目标语素为用于描述第二对象的语素。进而，根据样本视频的目标图像区域的视频特征和样本文本的目标语素的文本特征，计算样本视频与样本文本的相似度，作为该原始训练样本的质量数据，则该原始训练样本的质量数据能够表示：样本视频中包含的第一对象与样本文本所描述的第二对象的相似度。进而，基于质量数据小于第一预设阈值的原始训练样本的数目，对各原始训练样本进行筛选，得到目标训练样本，可以避免由于质量较低的原始训练样本的占比较高，导致跨模态模型收敛困难，进而导致跨模态模型的准确性较低的问题，可以提高对跨模态模型进行训练的效果。并且无需由技术人员根据经验判断每一原始训练样本的质量，并人工从各原始训练样本中确定目标训练样本，可以节省时间成本和人工成本，提高训练样本的生成效率，进而提高对跨模态模型进行训练的效率。

基于与上述模型训练方法相同的发明构思，本发明实施例还提供了一种模型训练装置，参见图8，装置包括：

样本获取模块801，用于获取包括样本视频和样本文本的目标训练样本，以及获取所述样本视频和所述样本文本的样本相似度；其中，所述目标训练样本为基于上述第一方面任一所述的训练样本生成方法确定的；

预测相似度获取模块802，用于将所述样本视频和所述样本文本输入至初始结构的跨模态模型，得到所述样本视频和所述样本文本的预测相似度；

损失函数值计算模块803，用于计算表示所述预测相似度和所述样本相似度之间的差异的损失函数值；

模型训练模块804，用于基于计算得到的损失函数值对所述初始结构的跨模态模型的模型参数进行调整，直至达到预设的收敛条件，得到训练好的跨模态模型。

基于本发明实施例提供的模型训练装置，电子设备基于质量数据小于第一预设阈值的原始训练样本的数目，对各原始训练样本进行筛选，得到目标训练样本后，可以基于目标训练样本对初始结构的跨模态模型进行训练，也就可以提高对初始结构的跨模态模型进行训练的效率。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现上述实施例中任一训练样本生成方法的步骤，或者实现上述实施例中任一模型训练方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一训练样本生成方法，或者实现上述实施例中任一模型训练方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一训练样本生成方法，或者实现上述实施例中任一模型训练方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种训练样本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，一个目标视频帧的视频特征为该目标视频帧的响应热图；

3.根据权利要求1所述的方法，其特征在于，该原始训练样本中的样本文本的文本特征为该样本文本的响应热图；

4.根据权利要求1所述的方法，其特征在于，所述基于该原始训练样本中的样本视频的多个目标图像区域的视频特征，以及该原始训练样本中的样本文本的多个目标语素的文本特征，计算该原始训练样本中的样本视频与样本文本的相似度，作为该原始训练样本的质量数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于各初始映射组合对应的相似度，确定该原始训练样本的质量数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于各备选映射组合对应的相似度，确定该原始训练样本的质量数据，包括：

7.一种模型训练方法，其特征在于，所述方法包括：

获取包括样本视频和样本文本的目标训练样本，以及获取所述样本视频和所述样本文本的样本相似度；其中，所述目标训练样本为基于权利要求1至6任一所述的训练样本生成方法确定的；

8.一种训练样本生成装置，其特征在于，所述装置包括：

9.一种模型训练装置，其特征在于，所述装置包括：

样本获取模块，用于获取包括样本视频和样本文本的目标训练样本，以及获取所述样本视频和所述样本文本的样本相似度；其中，所述目标训练样本为基于权利要求1至6任一所述的训练样本生成方法确定的；

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6，或者，权利要求7任一所述的方法步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6，或者，权利要求7任一所述的方法步骤。