CN114329068B

CN114329068B - 一种数据处理方法及装置、电子设备、存储介质

Info

Publication number: CN114329068B
Application number: CN202110927584.7A
Authority: CN
Inventors: 庄嘉鑫; 高雨婷; 李珂; 孙星; 郭晓威; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2024-05-31
Anticipated expiration: 2041-08-11
Also published as: CN114329068A

Abstract

本申请的实施例揭示了一种数据处理方法及装置、电子设备、存储介质，该方法包括：提取无标签数据中的视频帧数据对应的动作表征、物体表征和视频整体表征；提取无标签数据中与视频帧数据对应的文本数据的动词表征、名词表征和句子整体表征；根据视频帧数据对应的动作表征、物体表征和视频整体表征，以及文本数据对应的动词表征、名词表征和句子整体表征，确定视频帧数据与文本数据之间的对应程度，将对应程度作为视频帧数据与文本数据所关联的标签。本申请实施例的技术方案很好地学习到更细粒度上视频与文本内容上的对应关系，迁移到下游任务的时候具有更好的性能表现。

Description

一种数据处理方法及装置、电子设备、存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种数据处理方法及装置、电子设备、存储介质。

背景技术

近两年，基于时间对齐的视频文本自监督的视频表征的方案，通过对视频和文本分别学习在时间上对齐的对应关系来实现在模型上的表征学习，获得下游视频相关任务的效果的提升。由于大规模无标注的视频文本数据集比较复杂，规模比较庞大，且文本的数据来自于自动语音识别，视频文本数据比较的不准确，使得模型在该数据集上学习视频、文本之间的对应关系颇有挑战性，一种常见的解决方案是：MIL-NCE提出使用多示例学习的思路，让对应视频的文本以及时间上前前后后一段短时间内的文本与该视频学习一个时间上的多个对应关系；但目前该方法存在以下问题：

其一，该方法比较粗糙，视频和文本内容上的对应关系的学习完全依赖于时间上的匹配。

其二，MIL-NCE通过学习更多视频与单一文本之间的对应关系，实际上极大的增加了计算量，需要比一般时间上的对齐多数倍的计算量。

发明内容

为解决上述技术问题，本申请的实施例提供了一种数据处理方法及装置、电子设备、计算机可读存储介质，可以很好地学习到更细粒度上视频与文本内容上的对应关系，迁移到下游任务的时候具有更好的性能表现。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种数据处理方法，包括：提取无标签数据中的视频帧数据对应的动作表征、物体表征和视频整体表征；所述动作表征用于表征所述视频帧数据中的动作内容，所述物体表征用于表征所述视频帧数据中的物体内容；所述视频整体表征用于表征所述视频帧数据中的视频整体内容；提取所述无标签数据中与所述视频帧数据对应的文本数据的动词表征、名词表征和句子整体表征；所述动词表征用于表征所述文本数据中的动词内容，所述名词表征用于表征所述文本数据中的名词内容；所述句子整体表征用于表征所述文本数据中的句子整体内容；根据所述视频帧数据对应的动作表征、物体表征和视频整体表征，以及所述文本数据对应的动词表征、名词表征和句子整体表征，确定所述视频帧数据与所述文本数据之间的对应程度，将对应程度作为所述视频帧数据与所述文本数据所关联的标签。

根据本申请实施例的一个方面，提供了一个数据处理装置，包括：视频特征提取模块，被配置为提取无标签数据中的视频帧数据对应的动作表征、物体表征和视频整体表征；所述动作表征用于表征所述视频帧数据中的动作内容，所述物体表征用于表征所述视频帧数据中的物体内容；所述视频整体表征用于表征所述视频帧数据中的视频整体内容；文本特征提取模块，被配置为提取所述无标签数据中与所述视频帧数据对应的文本数据的动词表征、名词表征和句子整体表征；所述动词表征用于表征所述文本数据中的动词内容，所述名词表征用于表征所述文本数据中的名词内容；所述句子整体表征用于表征所述文本数据中的句子整体内容；确定模块，被配置为根据所述视频帧数据对应的动作表征、物体表征和视频整体表征，以及所述文本数据对应的动词表征、名词表征和句子整体表征，确定所述视频帧数据与所述文本数据之间的对应程度，将对应程度作为所述视频帧数据与所述文本数据所关联的标签。

根据本申请实施例的一个方面，提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个被所述一个或多个处理器执行时，使得所述电子设备实现如上所述的数据处理方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的数据处理方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施例中提供的数据处理方法。

在本申请的实施例所提供的技术方案中，通过从无标签数据中提取更细粒度的视频中的动作、物体和视频整体表征；从无标签数据中提取更细粒度文本中的动词、名词和句子整体表征；从视频全局的视频整体表征到局部的动作、物体表征，从文本总体含义的句子整体表征，到文本的动词、名词表征逐层对应关系，更加清晰的确定出视频和文本之间的对应程度，将对应程度作为所述视频帧数据和文本数据所关联的标签；通过自监督学习从无标签数据中生成视频帧数据和文本数据所关联的标签，可以很好地学习到更细粒度上视频与文本内容上的对应关系，克服了在大规模无监督数据集上表征的非明确的对应关系，学习到的是更加明确的对应关系，也无需像MIL-NCE如此大的计算开销，迁移到下游任务的时候具有更好的性能表现。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请涉及的一种实施环境的示意图；

图2示出了根据本申请的一个实施例的数据处理方法的流程图；

图3示出了图2所示实施例中的步骤S110在一示例性实施例中的流程图；

图4示出了图2所示实施例中的步骤S120在一示例性实施例中的流程图；

图5示出了图2所示实施例中的步骤S130在一示例性实施例中的流程图；

图6示出了根据本申请的一个实施例的预训练模型之后的数据处理方法的流程图；

图7示出了在一示例性实施例中的数据处理方法的流程架构图；

图8示出了根据本申请的一个实施例的数据处理装置的架构示意图；

图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习和深度学习等技术，具体通过如下实施例进行说明。

请参阅图1，图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端100、服务器200，多个终端100和服务器200之间通过有线或者无线网络进行通信。

服务器200提取无标签数据中的视频帧数据对应的动作表征、物体表征和视频整体表征，提取无标签数据中与视频帧数据对应的文本数据的动词表征、名词表征和句子整体表征，确定视频帧数据与文本数据之间的对应程度，将对应程度作为视频帧数据与文本数据所关联的标签，在根据视频帧数据与文本数据所关联的标签训练得到预训练模型之后，并将预训练模型发送给终端100。其中服务器200也可以根据预训练模型执行视频动作识别任务和视频文件检索任务等。

终端100可以根据预训练模型执行视频动作识别任务和视频文件检索任务等。

其中，终端100可以是智能手机、平板、笔记本电脑、计算机等任意能够展示的电子设备，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器，本处不对此进行限制。

可以理解的是，区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本发明实施例涉及的实施环境可以是由多个节点(接入网络中的任意形式的计算设备，如服务器、终端)通过网络通信的形式连接形成的分布式系统。以分布式系统为区块链系统为例，由多个节点(接入网络中的任意形式的计算设备，如服务器、终端)形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。区块链系统中各节点的功能，涉及的功能包括：1)路由，节点具有的基本功能，用于支持节点之间的通信。节点除具有路由功能外，还可以具有以下功能：2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

如本申请所公开数据处理方法，其中服务器节点在数据处理后得到的视频帧数据与文本数据所关联的标签，将标签形成记录数据，记录数据中携带数字签名以表示数据的来源，将记录数据发送到区块链系统中的其他节点；其他节点如其他服务器或终端在验证记录数据来源以及完整性成功时，可获取到记录数据；服务器还可以将根据视频帧数据与文本数据所关联的标签训练得到的预训练模型保存发送到区块链系统，供其他节点获取，其中多个服务器、终端可组成一区块链系统，而服务器、终端为区块链系统上的节点。

请参阅图3，图3是根据一示例性实施例示出的一种数据处理方法的流程图。该方法可以应用于图2所示的实施环境，并由图2所示实施例环境中的服务器200具体执行。该数据处理方法可以包括步骤S110至步骤S130，详细介绍如下：

S110、提取无标签数据中的视频帧数据对应的动作表征、物体表征和视频整体表征。

在本申请的一个实施例中，无标签数据指的是不含任何人工注释标签的数据，值得注意的是，该无标签数据包含了大规模未标注数据，例如，该无标识数据包括可以是Howto100M，Howto100M是一个包含了大量网上爬取的教程视频，类似教你如何做饭、做手工等等，在教学视频中，视频创作者往往在讲述一个具体任务的完成过程，其中会详细描述所见的视频内容，即形成了视频数据对应的文字描述；其中，文字描述可以通过自动语音识别技术(ASR)从视频中或从创作者上传的字幕中提取文字；因此本实施例中的无标签数据中包括成对的视频数据和文字数据。

可以理解的是，视频是一系列捕获的图像(称为帧)以给定的频率显示；而通过在一系列的特定图像处停止可获得单个视频帧，而每个视频帧也具有对应的视频内容，因此可从无标签数据中的视频帧数据提取出对应的动作表征、物体表征和视频整体表征，其中，动作表征用于表征视频数据中动作内容，物体表征用于表征视频帧数据中的物体内容，视频整体表征用于表征视频帧数据中的视频整体内容。例如视频帧数据描述的是“切苹果”视频内容时，其动作内容为“切”，物体内容为“苹果”，视频整体内容为“切苹果”，则从视频帧数据中提取对应的动作表征、物体表征和视频整体表征。

S120、提取无标签数据中与视频帧数据对应的文本数据的动词表征、名词表征和句子整体表征。

本实施例中的无标签数据包括成对的视频数据和文本数据，因此可从无标签数据中获取与视频帧数据对应的文本数据，从该文本数据中提取动词表征、名词表征和句子整体表征，其中，动词表征用于表征文本数据中的动词内容，名词表征用于表征文本数据中的名词内容；句子整体表征用于表征文本数据中的句子整体内容；例如视频帧数据对应的文字描述为“开始切苹果”，其动词内容为“切”，名词内容为“苹果”，句子整体内容为“切苹果”，进而可提取对应的动词表征、名词表征和句子整体表征。

S130、根据视频帧数据对应的动作表征、物体表征、视频整体表征，以及文本数据的动词表征、名词表征、句子整体表征，确定视频帧数据与文本数据之间的对应程度，将对应程度作为视频帧数据和文本数据所关联的标签。

在本申请的一个实施例中，通过从无标签数据的视频帧数据中提取更细粒度的视频全局表征(视频整体表征)和视频局部表征(动作表征和物体表征)，从视频帧数据对应的文本数据中提取文本全局表征(句子整体表征)和文本局部表征(动词表征和名词表征)，进而在多个层次，从全局到局部一一对应，更加清晰的确定出视频帧数据与文本数据的对应程度，将对应程度作为视频帧数据和文本数据所关联的标签；通过自监督学习从无标签数据中得到视频帧数据和文本数据所关联的标签，可以很好地学习到更细粒度上视频与文本内容上的对应关系，进而迁移到下游任务的时候方法具有更好的性能表现。

图3是图2所示实施例中的步骤S110在一示例性实施例中的流程图。如图3所示，提取动作表征、物体表征和视频整体表征的过程包括步骤S111至步骤S113，详细介绍如下：

S111、获取相邻的第一视频帧数据和第二视频帧数据中的物体内容对应的物体表征。

可以理解的是，无标签数据中包括多个视频帧数据，第一视频帧数据和第二视频帧数据在时间序列上相邻，第一视频帧数据为当前视频帧数据，第二视频帧数据为上一帧数据，如当前视频帧数据为第t帧视频数据，则上一帧数据为第t-1帧视频数据；分别获取第一视频帧数据的物体内容对应的物体表征，第二视频帧数据的物体内容对应的物体表征。

示例性的，可通过视频特征提取网络模型提取视频帧数据中的物体内容对应的物体表征，其中视频特征提取网络模型可以是ReaNet18模型，深度残差网络(Deep residualnetwork，ResNet)通过残差学习解决了深度网络的退化问题，可以训练出更深的网络，其误差率更低。ReaNet18模型是包含有17个卷积层和1个全连接层，通过ReaNet18(layer1,2)本身可获取视频帧数据中的物体内容对应的物体表征。视频特征提取网络模型还可以是S3D-G模型，将I3D网络中所有的3D卷积核用(2D+1D)的方式代替得到S3D网络，在S3D网络的基础上添加了Feature Gating模块得到S3D-G模型。

S112、根据相邻的第一视频帧数据和第二视频帧数据中的物体内容对应的物体表征生成第一视频帧数据中的动作内容对应的动作表征。

在相邻的第一视频帧数据的物体内容和第二视频帧数据的物体内容的物体表征的基础上产生帧向运动表征，例如第一视频帧数据的物体内容对应的物体表征为“苹果瓣”特征，第二视频帧数据的物体内容对应的物体表征为“完整苹果”特征，基于相邻的物体表征的变化得到第一视频帧数据中的动作内容对应的动作表征为“切”；具体的，给定来着相邻帧的物体表征，通过计算相关张量、从相关张量估计运动信息的位移场和进而将位移张量转换为一个有效的动作表征。

示例性的，通过MotionSqueeze(运动挤压，MS)模块，来高效地提取运动表征，MS模块是一种可学习的运动特征提取器，MS模块插入在视频特征提取网络模型的中间层，学习建立帧之间的响应并且把它们转化成运动特征。

在一其他实施例中，还可以通过相邻视频帧数据的光流得到第一视频帧数据的动作内容对应的动作表征。

S113、将第一视频帧数据中的物体内容对应的物体表征和动作表征进行融合得到第一视频帧数据对应的视频整体表征。

在本申请的一个实施例中，融合第一视频帧数据中的物体内容对应的物体表征和动作表征，形成第一视频帧数据的视频整体表征。例如将物体表征和动作表征在视频特征提取网络模型的中间层合并得到整体的特征，将该整体的特征经过若干次卷积操作重新送入ReaNet18(layer3,4)中，最终得到视频整体表征。

在本实施例中，分离动作和物体相关的表征，同时也会学习整个视频帧数据的视频整体表征，便于后续在多个层次，从整体到局部一一对应，准确确定视频帧数据与文本数据之间的对应程度。

图4是图2所示实施例中的步骤S120在一示例性实施例中的流程图。如图4所示，提取动词表征、名词表征和句子整体表征的过程包括步骤S121至步骤S122，详细介绍如下：

S121、获取文本数据对应的动词表征和名词表征。

在本申请的一个实施例中，可以通过Word2Vec(word to vector)模型提取文本数据对应的动词表征和名词表征；还可以通过多层感知机提取文本数据对应的动词表征和名词表征。

S122、将动词表征和名词表征输入到预设维度的特征空间中进行最大池化处理，得到文本数据对应的句子整体表征。

在本申请的一个实施例中，文本数据对应的动词表征和名词表征对应的维度为2048维度，预设维度的特征空间为小于2048维度的特征空间，如256维度的特征空间，在特征空间中，每一个特征对应特征空间中的一维坐标；将动词表征和名词表征输入到256维度的特征空间中进行最大池化处理，形成文本数据对应的句子整体表征。

在本实施例中，通过获取动词表征和名词表征，通过预设维度的特征空间得到句子整体表征，且通过预设维度的特征空间降低动词表征和名词表征的维度，进而降低参数量和计算量。

图5是图2所示实施例中的步骤S130在一示例性实施例中的流程图。如图5所示，确定视频帧数据与文本数据之间的对应程度的过程包括步骤S131至步骤S133，详细介绍如下：

S131、级联视频帧数据对应的动作表征、物体表征和视频整体表征，得到第一级联特征。

S132、级联文本数据对应的动词表征、名词表征和句子整体表征，得到第二级联特征。

S133、计算第一级联特征与第二级联特征之间的相似度，将相似度作为视频帧数据与文本数据之间的对应程度。

级联(cascade)在计算机科学里指多个对象之间的映射关系，建立数据之间的级联关系提高管理效率。通过级连视频帧数据对应的动作表征、物体表征和视频整体表征，得到第一级联特征，通过第一级联特征建立视频帧数据的全局和局部表征之间的级联关系；同理，通过第二级联特征建立文本数据的全局和局部表征之间的级联关系。

在本申请的一个实施例中，计算第一级联特征与第二级联特征之间的相似度，具体是通过NCE损失函数(Noise-Constrastive Estimation Loss)计算第一级联特征与第二级联特征之间的损失值，如通过MIL-NCE计算第一级联特征与第二级联特征之间的损失值，该损失值为第一级联特征与第二级联特征不一致程度，通过不一致程度得到第一级联特征与第二级联特征之间的相似度，学习第一级联特征与第二级联特征的映射关系，将相似度作为视频帧数据与文本数据之间的对应程度。

在一其他实施例中，还可以计算动作表征与动词表征之间的相似度，得到视频帧数据的动作内容和文本数据的动词内容之间的对应程度；计算名词表征和物体表征之间的相似度，得到视频帧数据的物体内容和文本数据的名词内容之间的对应程度；计算视频整体表征与句子整体表征之间的相似度，得到视频帧数据的视频整体内容和文本数据的句子整体内容之间的对应程度；根据视频帧数据和文本数据的逐层对应程度计算视频帧数据和文本数据的平均程度，将平均程度作为视频帧数据与文本数据所关联的标签。

需要说明的是，在本实施例中，每确定出一视频帧数据与文本数据之间的对应程度，将对应程度作为视频帧数据与文本数据所关联的标签之后，方法还包括：根据视频帧数据与文本数据所关联的标签对视频特征提取网络模型进行训练，得到预训练模型。对于视频特征提取网络模块模型，给定视频帧数据与文本数据所关联的标签，调整视频特征提取网络模型的参数，使得视频特征提取网络模型学习视频帧数据与文本数据的关联映射关系，而每得到一个视频帧数据与文本数据所关联的标签，就调整一次视频特征提取网络模型的参数，最终训练得到预训练模型，使得该预训练模型能根据输入的视频帧数据，输出尽量接近真实的文本数据，以供下游的动作识别任何和视频文件检索任务。

其中，根据步骤S110～S130得到视频帧t数据与文本t数据所关联的标签，将该视频帧t数据与文本t数据所关联的标签输入到视频特征提取网络模型进行训练；然后继续步骤S110～S130得到视频帧t+1数据与文本t+1数据所关联的标签，将该视频帧t+1数据与文本t+1数据所关联的标签输入到视频特征提取网络模型进行训练，直到经过预设数量次训练后，训练结束，得到预训练模型；该预设数量可以是由用户设定，也可以是根据网络训练经验得到的。

图6是本实施例中的在得到预训练模型之后在一示例性实施例中的流程图。如图6所示，得到预训练模型之后还包括步骤S141至步骤S143，详细介绍如下：

S141、根据所得到的预训练模型获取视频中含有多个视频帧数据对应的视频表征；视频表征包括级联视频帧数据对应的动作表征、物体表征和视频整体表征所得到的级联特征。

当下游任务包括视频文本检索任务时，当输入一段视频到预训练模型时，可以得到该视频中含有的多个视频帧数据对应的视频表征，该视频表征包括级联视频帧数据对应的动作表征、物体表征和视频整体表征所得到的级联特征，即视频表征包含了视频帧数据的动作表征、物体表征和视频整体表征。

S142、计算各个视频帧数据对应的视频表征分别与视频文本检索任务的检索表征之间的余弦相似度；检索表征用于表征视频文本检索任务中的检索关键字；

可以理解的是，视频文本检索任务为根据视频检索对应的文本，视频文本任务对应有检索表征，该检索表征用于表征视频文本检索任务中的检索关键字，例如视频检索关键字“切苹果”，则对应的检索表征用于表征“切苹果”，计算各个视频帧数据对应的视频表征分别与检索表征之间的余弦相似度，余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性，即计算第一视频帧数据对应的第一视频表征与检索表征之间的第一余弦相似度，计算第二视频帧数据对应的第二视频表征与检索表征之间的第二余弦相似度，直到计算得每个视频帧数据对应的视频表征与检索表征之间的每个余弦相似度。

S143、从所得到的多个余弦相似度中选取最大的余弦相似度，将最大的余弦相似度对应的视频帧数据所关联的文本数据作为检索结果。

其中，余弦值越大，则视频表征与检索表征越相似，从所得到的多个余弦相似度中选取最大的余弦相似度，表示最大的余弦相似度对应的视频帧数据与视频文本检索任务最匹配，则可以将最大的余弦相似度对应的视频帧数据所关联的文本数据作为检索结果。其中视频帧数据和文本数据是成对的，因此最大的余弦相似度对应的视频帧数据所关联的文本数据可以通过无标签数据中提取；最大的余弦相似度对应的视频帧数据所关联的文本数据还可以通过预训练模型得到，预训练模型是根据视频帧数据与文本数据所关联的标签得到，根据预训练模型输入视频帧数据对应的文本数据。

为了便于理解，本实施例以一个较为具体的例子对数据处理方法进行说明，如图7所示，将无标签的Howto100M数据的视频和文本作为网络视频和文本分支的输入，在图7的上部分，对于视频，随机从视频中选取3.2s的固定长度的视频片段送入ReaNet18网络中，对于视频片段的视频帧t-1、视频帧t和视频帧t+1，通过ReaNet18的第一层和第二层可以得到每个视频帧数据的物体表征Appearance_t，通过插入到ReaNet18网络的中间层的MS模块在物体表征Appearance_t的基础上提取视频帧数据对应的动作表征Motion_t，将物体表征和动作表征均投射到一个256维度的特征空间，实现视频帧数据对应表征的降维；对于文本，文本数据的文本t-1、文本t和文本t+1通过Word2vec模型提取文本数据对应的动词表征Verb_t和名词表征Noun_t，将动词表征和名词表征映射到一个256维度的特征空间中进行最大池化处理，形成文本数据对应的一个512维度的句子整体表征Sentence_t，实现视频帧数据对应表征的降维。在图7的下部分，通过将提取到的同一时刻的Motion_t和Appearance_t在网络中层再次融合得到整体的特征，经过若干次卷积操作重新送入ReaNet18的第三层和第四层中，最终得到一个长度为512的视频整体Global_t。

对于Howto100M的同一个视频文本配对输入，通过视频网络特征提取分支和文本网络特征提取分支，可以得到对应的表征结果{Motion_t,Appearance_t，Global_t}和{Verb_t,Noun_t,Sentence_t}表征。将视频和文本表征分别级连起来，得到均是1024维度的第一级联特征和第二级联特征；通过NCE损失的方式在1024维度的特征空间中计算第一级联特征和第二级联特征的相似度，将相似度作为视频帧数据与文本数据之间的对应程度，将对应程度作为视频帧数据与文本数据所关联的标签，进而根据视频帧数据与文本数据所关联的标签对ReaNet18网络进行训练，得到预训练模型，自动挖掘视频和文本更深层次的对应关系。

在本申请的一实施例中，在常见的视频文本检索任务MSR-VTT(用于桥接视频和语言的大型视频描述数据集)和动作识别任务HMDB51数据集上测试本申请在动作识别的性能，在训练策略相同(批大小均为512)的情况下，本申请的方法与其他主流方法的在视频文本检索任务集MSR-VTT效果对比如表1所示。

表1

如表1中，Recall@1为测量返回的1个文本是否包括正常标注文本的预测值，Recall@5为测量返回的5个文本是否包括正常标注文本的预测值，Recall@10为测量返回的10个文本是否包括正常标注文本的预测值，本申请的提成的方法，与其他主流方法相比，其效果均较高，在Recall@1、Recall@5和Recall@10均较高的情况下，中位排名MedianRank能达到最低，其中中位排名越低表示检索效果越好。

在本申请的一实施例中，为了说明该视频整体表征具备相当的可迁移性，可用于识别动作识别数据任务，直接将视频送入视频特征提取网络模型，获得最终的视频整体表征，在此过程中固定视频特征提取网络模型的参数，接上一个SVM线性分类器，与自监督相关的方法在HMDB51上的效果对比，本申请的方法也取得了不错的结果；实验结果见表2。

表2

根据表2可知，本申请提出的方法，在固定视频特征提取网络模型的参数的情况下，在视频特征提取网络模型之后接上SVM线性分类器进行视频整体表征的分类，分类准确度达到52.2，同比其他方法相比，视频动作检索的精确率和准确率都有提升。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的数据处理方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的数据处理的实施例。

图8示出了根据本申请的一个实施例的数据处理装置的框图，数据处理装置包括视频特征提取模块810、文本特征提取模块820和确定模块830；

视频特征提取模块810，被配置为提取无标签数据中的视频帧数据对应的动作表征、物体表征和视频整体表征；动作表征用于表征视频帧数据中的动作内容，物体表征用于表征视频帧数据中的物体内容；视频整体表征用于表征视频帧数据中的视频整体内容；

文本特征提取模块820，被配置为提取无标签数据中与视频帧数据对应的文本数据的动词表征、名词表征和句子整体表征；动词表征用于表征文本数据中的动词内容，名词表征用于表征文本数据中的名词内容；句子整体表征用于表征文本数据中的句子整体内容；

确定模块830，被配置为根据视频帧数据对应的动作表征、物体表征和视频整体表征，以及文本数据对应的动词表征、名词表征和句子整体表征，确定视频帧数据与文本数据之间的对应程度，将对应程度作为视频帧数据与文本数据所关联的标签。

在本申请的一个实施例中，基于前述方案，视频特征提取模块810被配置为获取视频帧数据中的物体内容对应的物体表征；根据相邻的两个物体表征生成视频帧数据中的动作内容对应的动作表征；将物体表征和动作表征进行融合得到视频帧数据对应的视频整体表征。

在本申请的一个实施例中，基于前述方案，文本特征提取模块820被配置为获取文本数据对应的动词表征和名词表征；将动词表征和名词表征输入到预设维度的特征空间中进行最大池化处理，得到文本数据对应的句子整体表征。

在本申请的一个实施例中，基于前述方案，确定模块830被配置为级联视频帧数据对应的动作表征、物体表征和视频整体表征，得到第一级联特征；级联文本数据对应的动词表征、名词表征和句子整体表征，得到第二级联特征；计算第一级联特征与第二级联特征之间的相似度，将相似度作为视频帧数据与文本数据之间的对应程度。

在本申请的一个实施例中，基于前述方案，提取无标签数据中的视频帧数据对应的动作表征、物体表征和视频整体表征的步骤由视频特征提取网络模型执行；数据处理装置还包括训练模块，训练模块被配置为根据视频帧数据与文本数据所关联的标签对视频特征提取网络模型进行训练，得到预训练模型。

在本申请的一个实施例中，基于前述方案，数据处理装置还包括视频文本检索模块，视频文本检索模块被配置为根据所得到的预训练模型获取视频中含有多个视频帧数据对应的视频表征；视频表征包括级联视频帧数据对应的动作表征、物体表征和视频整体表征所得到的级联特征；计算各个视频帧数据对应的视频表征分别与视频文本检索任务的检索表征之间的余弦相似度；检索表征用于表征视频文本检索任务中的检索关键字；从所得到的多个余弦相似度中选取最大的余弦相似度，将最大的余弦相似度对应的视频帧数据所关联的文本数据作为检索结果。

在本申请的一个实施例中，基于前述方案，视频特征提取网络模型包括ReaNet18模型。

在本实施例中，通过显式地在视频文本模型后面提取出视频中动作表征和物体表征，文本中动词表征和名词表征，从视频全局表示到局部的动作物体表示，到文本的总体含义，到文本的动词名词表征逐层对应关系，更加清晰的学习到了视频和文本之间对应的关系，视频表征和文本表征会在多个层次，从整体到局部一一对应，相互学习到准确的对应关系。克服了在大规模无监督数据集上表征的非明确的对应关系，学习到的是更加明确的对应关系，提升了视频表征提取的有效性，通过学习视频和文本语义上更高层次的对应关系，提升了模型在下游任务的可迁移性和性能，相比目前最好的方法也减少了计算量。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

本申请的实施例还提供了一种电子设备，包括一个或多个处理器，以及存储装置，其中，存储装置，用于存储一个或多个程序，当一个或多个被一个或多个处理器执行时，使得所述电子设备实现如前所述的数据处理方法。

需要说明的是，图9示出的电子设备的计算机系统1200仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统1200包括中央处理单元(Central Processing Unit，CPU)1201，其可以根据存储在只读存储器(Read-Only Memory，ROM)1202中的程序或者从储存部分1208加载到随机访问存储器(Random Access Memory，RAM)1203中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1203中，还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1207；包括硬盘等的储存部分1208；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入储存部分1208。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取无标签数据的视频帧数据中相邻的第一视频帧数据和第二视频帧数据中的物体内容对应的物体表征，所述物体表征用于表征所述视频帧数据中的物体内容；

根据所述相邻的第一视频帧数据和第二视频帧数据中的物体内容对应的物体表征生成所述第一视频帧数据中的动作内容对应的动作表征，所述动作表征用于表征所述视频帧数据中的动作内容；

将所述第一视频帧数据中的物体内容对应的物体表征和动作表征进行融合得到所述第一视频帧数据对应的视频整体表征；所述视频整体表征用于表征所述视频帧数据中的视频整体内容；

获取所述无标签数据中与所述视频帧数据对应的文本数据对应的动词表征和名词表征，所述动词表征用于表征所述文本数据中的动词内容，所述名词表征用于表征所述文本数据中的名词内容；

将所述动词表征和所述名词表征输入到预设维度的特征空间中进行最大池化处理，得到所述文本数据对应的句子整体表征，所述句子整体表征用于表征所述文本数据中的句子整体内容；

级联所述视频帧数据对应的动作表征、物体表征和视频整体表征，得到第一级联特征；

级联所述文本数据对应的动词表征、名词表征和句子整体表征，得到第二级联特征；

计算所述第一级联特征与所述第二级联特征之间的相似度，将所述相似度作为所述视频帧数据与所述文本数据之间的对应程度，将对应程度作为所述视频帧数据与所述文本数据所关联的标签。

2.根据权利要求1所述的方法，其特征在于，所述获取无标签数据中的视频帧数据对应的动作表征、物体表征和视频整体表征的步骤由视频特征提取网络模型执行；所述方法还包括：

根据所述视频帧数据与所述文本数据所关联的标签对所述视频特征提取网络模型进行训练，得到预训练模型。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所得到的预训练模型获取视频中含有多个视频帧数据对应的视频表征；所述视频表征包括级联视频帧数据对应的动作表征、物体表征和视频整体表征所得到的级联特征；

计算各个视频帧数据对应的视频表征分别与视频文本检索任务的检索表征之间的余弦相似度；所述检索表征用于表征视频文本检索任务中的检索关键字；

从所得到的多个余弦相似度中选取最大的余弦相似度，将所述最大的余弦相似度对应的视频帧数据所关联的文本数据作为检索结果。

4.根据权利要求2所述的方法，其特征在于，所述视频特征提取网络模型包括ReaNet18模型。

5.一种数据处理装置，其特征在于，包括：

视频特征提取模块，被配置为获取无标签数据的视频帧数据中相邻的第一视频帧数据和第二视频帧数据中的物体内容对应的物体表征，所述物体表征用于表征所述视频帧数据中的物体内容；根据所述相邻的第一视频帧数据和第二视频帧数据中的物体内容对应的物体表征生成所述第一视频帧数据中的动作内容对应的动作表征，所述动作表征用于表征所述视频帧数据中的动作内容；将所述第一视频帧数据中的物体内容对应的物体表征和动作表征进行融合得到所述第一视频帧数据对应的视频整体表征，所述视频整体表征用于表征所述视频帧数据中的视频整体内容；

文本特征提取模块，被配置为获取所述无标签数据中与所述视频帧数据对应的文本数据对应的动词表征和名词表征，所述动词表征用于表征所述文本数据中的动词内容，所述名词表征用于表征所述文本数据中的名词内容；将所述动词表征和所述名词表征输入到预设维度的特征空间中进行最大池化处理，得到所述文本数据对应的句子整体表征，所述句子整体表征用于表征所述文本数据中的句子整体内容；

确定模块，被配置为级联所述视频帧数据对应的动作表征、物体表征和视频整体表征，得到第一级联特征；级联所述文本数据对应的动词表征、名词表征和句子整体表征，得到第二级联特征；计算所述第一级联特征与所述第二级联特征之间的相似度，将所述相似度作为所述视频帧数据与所述文本数据之间的对应程度，将对应程度作为所述视频帧数据与所述文本数据所关联的标签。

6.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-4中的任一项所述的方法。

8.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行权利要求1-4中的任一项所述的方法。