CN114282013A

CN114282013A - 一种数据处理方法、装置及存储介质

Info

Publication number: CN114282013A
Application number: CN202110964961.4A
Authority: CN
Inventors: 李习华; 祝贺; 赵学敏; 曹云波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2022-04-05

Abstract

本申请提出了一种数据处理方法、装置及存储介质，该方法包括：获取目标对象的文本信息和图像；调用特征表示模型对目标对象的文本信息和图像进行处理，得到目标对象的特征表示信息，特征表示模型是利用多个训练样本对针对文本编码网络、图像编码网络以及信息融合网络进行对比训练得到的；其中，每个训练样本对包括：参考文本实例、正文本实例和负文本实例中的任一种，以及参考图像实例、正图像实例和负图像实例中的任一种；利用目标对象的特征表示信息从对象库包括的一个或多个对象中确定目标对象的相似对象，可以利用特征表示模型在语义层级实现文本和图像的融合，使得基于特征表示模型获取到的特征表示信息能在下游任务中具有良好的表现。

Description

一种数据处理方法、装置及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置及存储介质。

背景技术

多模态融合是指综合来自两个或多个模态的信息，多模态融合可以为模型决策提供互补信息，提高模型性能，已被广泛应用到各个领域，例如可以融合题目的文本和图像，将融合后得到的题目表示应用在下游任务，如相似题、知识点抽取、答题对错预测模型等。

目前多模态融合主要是特征层面的融合，例如将文本和图像的特征表示进行拼接，但这种融合方式无法学到较多的交互特征，而且特征层面的融合丢掉了部分细节信息，导致无法很好地提供互补信息，反而可能造成信息冗余，可见，合理地处理多模态信息，得到更好的特征表示是十分有必要的。

发明内容

本申请实施例提供了一种数据处理方法、装置及存储介质，可以利用特征表示模型在语义层级实现文本和图像的融合，使得基于特征表示模型获取到的特征表示信息能在下游任务中具有良好的表现。

一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

获取目标对象的文本信息和图像；

调用特征表示模型对所述目标对象的文本信息和图像进行处理，得到所述目标对象的特征表示信息，所述特征表示模型是利用多个训练样本对针对文本编码网络、图像编码网络以及信息融合网络进行对比训练得到的；其中，每个训练样本对包括：参考文本实例、正文本实例和负文本实例中的任一种，以及参考图像实例、正图像实例和负图像实例中的任一种；

利用所述目标对象的特征表示信息从对象库包括的一个或多个对象中确定所述目标对象的相似对象。

另一方面，本申请实施例提供了一种数据处理装置，所述装置包括：

获取模块，用于获取目标对象的文本信息和图像；

处理模块，用于调用特征表示模型对所述目标对象的文本信息和图像进行处理，得到所述目标对象的特征表示信息，所述特征表示模型是利用多个训练样本对针对文本编码网络、图像编码网络以及信息融合网络进行对比训练得到的；其中，每个训练样本对包括：参考文本实例、正文本实例和负文本实例中的任一种，以及参考图像实例、正图像实例和负图像实例中的任一种；

所述处理模块，还用于利用所述目标对象的特征表示信息从对象库包括的一个或多个对象中确定所述目标对象的相似对象。

相应地，本申请实施例提供了一种计算机设备，计算机设备包括处理器、通信接口和存储器，处理器、通信接口和存储器相互连接，其中，存储器存储有计算机程序，处理器用于调用计算机程序，执行上述任一可能实现方式的数据处理方法。

相应地，本申请实施例提供了一种计算机可读存储介质，存储有计算机程序，处理器执行上述任一可能实现方式的数据处理方法所涉及的计算机程序。

相应地，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一可能实现方式的数据处理方法。

本申请实施例中，可以利用多个训练样本对针对文本编码网络、图像编码网络以及信息融合网络进行对比训练得到特征表示模型，其中，每个训练样本对包括：参考文本实例、正文本实例和负文本实例中的任一种，以及参考图像实例、正图像实例和负图像实例中的任一种，利用得到的特征表示模型可以对目标对象的文本信息和图像进行处理，从而得到目标对象的特征表示信息，利用目标对象的特征表示信息可以从对象库包括的一个或多个对象中确定目标对象的相似对象；通过上述数据处理方法，可以利用特征表示模型在语义层级实现文本和图像的融合，使得基于特征表示模型获取到的特征表示信息能在下游任务中具有良好的表现。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种词层级融合的融合示意图；

图2为本申请实施例提供的一种特征表示模型的融合示意图；

图3为本申请实施例提供的一种数据处理方法的应用场景示意图；

图4为本申请实施例提供的一种数据处理方法的流程示意图；

图5为本申请实施例提供的增强方式的示意图；

图6为本申请实施例提供的另一种数据处理方法的流程示意图；

图7为本申请实施例提供的一种原始模型的训练示意图；

图8为本申请实施例提供的一种原始模型的结构示意图；

图9为本申请实施例提供的另一种数据处理方法的流程示意图；

图10为本申请实施例提供的一种数据处理装置的结构示意图；

图11为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的，而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。

为了可以利用特征表示模型在语义层级实现文本和图像的融合，使得基于特征表示模型获取到的特征表示信息能在下游任务中具有良好的表现，本申请实施例提出了一种针对数据处理方法。

本申请实施例提出的一种数据处理方法可以基于人工智能技术实现，人工智能(Artificial Intelligence，AI)技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片云计算、云存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开研究和应用，本申请实施例在实现数据处理方法时可以具体涉及人工智能技术中的计算机视觉技术和自然语言处理技术等技术。

首先，对本申请实施例中可能出现的一些名词进行解释。

BERT模型：全称为Bidirectional Encoder Representations fromTransformers，是一种由谷歌提出的新型的语言模型，通过联合调节所有层中的双向转换器(Transformer)来预训练双向深度表示(Embedding)。

对比训练：一种无监督表示学习的方法，模型无需学到过于具体的细节(如图像像素、如文本词汇等)，只需要学习到足以区分对象的高层次特征。

层归一化(Layer Normalization，LN)：对一个中间层的所有神经元进行归一化，归一化是指取值在固定范围，例如[0,1]。

前馈神经网络：不同的神经元属于不同的层，每一层的神经元可以接受到前一层的神经元信号，并产生信号输出到下一层，第0层叫做输入层，最后一层叫做输出层，中间的叫做隐藏层，整个网络中无反馈，信号从输入层到输出层单向传播，可用一个有用无环图表示。

多模态融合除了特征层级的融合，还包括词层级的融合，如图1所示，为一种词层级融合的融合示意图，是将图像的图像编码表示与文本中各个词编码进行拼接，其基本思想是将图像等同于一个文本的词，然后在上层利用文本编码网络(例如BERT模型)实现无差别的文本编码，但由于一张图像所含有的信息可能是超过一个词，所以对图像信息的引入是不公平的，而且文本、图像信息的交互过于早期，可能过多关注了细节信息而忽略高层次的语义信息，另外，文本编码网络的网络参数可能是在纯文本上学习到的，直接使用到文本、图像信息融合的场景，可能导致无法有效地获取图像信息，也无法有效地实现文本信息和图像信息的互补。

如图2所示，为本申请提出的特征表示模型的融合示意图，本申请可以利用该特征表示模型中的文本编码网络和图像编码网络分别提取文本和图像在语义级别的信息，并通过该特征表示模型中的信息融合网络对两种语义级别的信息进行交互提取，能够实现文本和图像两种模态在语义层级的融合，充分实现文本信息和图像信息之间的互补，避免了词层级融合信息淹没，以及特征层级融合信息丢失、信息冗余等问题，能够获得更好地特征表示信息，使得后续可以在下游任务中取得良好的表现。

在语义层级融合文本和图像，可以使得到的特征表示信息能够在依赖高质量表示信息的下级任务中获得较大的收益，举例说明，请参见图3，图3是本申请实施例提供的一种数据处理方法的应用场景示意图。该应用场景中可以包括终端设备301和服务器302，终端设备301与服务器302之间通过网络连接，比如，通过无线网络连接等。

终端设备301也称为终端(Terminal)、用户设备(user equipment，UE)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是智能电视、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer，PC)、车载设备、可穿戴设备或者其他智能装置等，但并不局限于此。

服务器302可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一实施例中，服务器302可以利用多个训练样本对针对文本编码网络、图像编码网络以及信息融合网络进行对比训练得到特征表示模型304，其中，每个训练样本对包括：参考文本实例、正文本实例和负文本实例中的任一种，以及参考图像实例、正图像实例和负图像实例中的任一种。

在本实施例的应用场景中，服务器302用于执行检索任务，可选地，服务器302中可以存储有包括一个或多个对象的对象库303，以及通过上述对比训练得到的特征表示模型304，服务器302可以从该对象库304中检索目标对象的相似对象。

在一实施例中，用户可以在终端设备301上输入目标对象包括的文本信息和图像，并上传至服务器302，由服务器302利用特征表示模型304提取目标对象的特征表示信息，以及提取对象库303中各个对象的特征表示信息，将目标对象的特征表示信息与对象库中各个对象的特征表示信息进行相似度对比，查找与目标对象的特征表示信息的相似度大于相似度阈值(可以人为设定)的对象作为相似对象，并返回给终端设备301，例如用户需要查找题目时，可以在终端设备上传题目的文本和图像，服务器可以在题库中查找相似题目并返回给用户所在的终端设备，利用特征表示模型获取到的特征表示信息可以在检索任务中获得较大的提升。

在一实施例中，上述特征表示模型还可以应用在其他下级任务中，例如智慧教育的自适应学习场景包括的知识点抽取、答题对错预测模型等中。

可以理解的是，本申请实施例描述的应用场景示意图是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

请参见图4，图4提供了一种数据处理方法的流程示意图，以该方法应用于图3中的服务器302为例进行说明，包括以下步骤：

S401、获取目标对象的文本信息和图像。

目标对象是指该数据处理方法所需要处理的对象，其可以包括文本信息和图像，该图像与文本信息可以是具有关联的，图像中可以包括文本信息所对应的全部内容，也可以包括文本信息所对应的部分内容，例如，目标对象可以是题目，题目的文本信息即是题目对应的文本内容，题目的图像是题目内容对应的图像，题目内容对应的图像可以包括全部的题目对应的文本内容，也可以包括部分的题目对应的文本内容。

在一实施例中，服务器在获取到目标对象的图像时，可以提取图像中包括的文字内容，从而得到目标对象的文本信息；服务器在获取到目标对象的文字信息时，可以利用文字信息对应的文本内容生成目标对象的图像。

S402、调用特征表示模型对所述目标对象的文本信息和图像进行处理，得到所述目标对象的特征表示信息，所述特征表示模型是利用多个训练样本对针对文本编码网络、图像编码网络以及信息融合网络进行对比训练得到的；其中，每个训练样本对包括：参考文本实例、正文本实例和负文本实例中的任一种，以及参考图像实例、正图像实例和负图像实例中的任一种。

特征表示模型是用于提取特征表示信息的神经网络，可以在语义层级融合文字信息和图像。文本编码网络是用于提取文本信息的文本编码表示的神经网络，可以是RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)、BERT模型、等等，图像编码网络是用于提取图像的图像编码表示的神经网络，可以是ResNet(Residual Network，残差网络)、CNN(Convolutional Neural Networks，卷积神经网络)、等等。

多个训练样本中每个训练样本对包括：参考文本实例、正文本实例和负文本实例中的任一种，以及参考图像实例、正图像实例和负图像实例中的任一种，即训练样本对可以是：参考文本实例和参考图像实例、正文本实例和参考图像实例、负文本实例和参考图像实例、参考文本实例和正图像实例、正文本实例和正图像实例、负文本实例和正图像实例、负图像实例和参考文本实例、负图像实例和正文本实例、负图像实例和负文本实例中的一种或多种。

在一实施例中，参考文本实例和正文本实例可以是对任一文本采取不同增强方式进行处理后得到的两个文本，该增强方式可以包括文本掩盖、文本交叉、文本替换、文本删除、等等，负文本实例为与该任一文本不具有联系的文本，例如负文本实例和任一文本可以是两道不一样的题目，则负文本实例与参考文本实例，以及与正文本实例不具有联系。参考图像实例、正图像实例可以是对该任一文本对应的图像采取不同增强方式进行处理后得到的两张图像，增强方式可以包括图像遮挡、图像旋转、添加噪声、图像裁剪、等等，负图像实例为与该任一文本对应的图像不具有联系的图像，例如负图像实例和任一文本对应的图像可以是两道不一样的题目对应的图像，则负图像实例与参考图像实例，以及与正图像实例不具有联系。作为一个具体示例，请参见图5，上述任一文本为一道题目，该题目包括问题内容和选项内容，增强方式1是随机删除了问题内容“下图中正确的正面视图是什么”中的“下图中”，并对“正面”进行文本掩盖，从而修改为“正确的[掩盖]视图是什么”，以及删掉了选项内容中的选项B、D；增强方式2是随机删除了“下图中正确的正面视图是什么”中的“是什么”，并对“视图”进行文本掩盖，以及删除了选项内容中的选项A和示例视图。服务器利用增强方式1可以得到上述参考文本实例和上述参考图像实例，利用增强方式2可以得到上述正文本实例和上述正图像实例，当然也可以是利用增强方式1得到上述正文本实例和上述正图像实例，利用增强方式2得到上述参考文本实例和上述参考图像实例，需说明的是，此时的参考文本示例和参考图像实例是一致的，以及正文本实例和正图像实例是一致的，即示例的图5中增强处理后得到的即可以是指文本也可以是指图像，在文本示例(参考文本示例、正文本示例、负文本实例)中包括的图像实际是采用文本形式存储的，另外，参考文本示例和参考图像实例可以是不一致的，以及正文本实例和正图像实例也可以是不一致的，本申请对此不作限定。服务器可以利用获取到的参考文本实例、正文本实例、参考图像实例、正图像实例，以及获取负文本实例和负图像实例生成训练样本对。

可选地，当样本对中携带有负文本实例和负图像实例中的一个或两个时，可以将该样本对作为负样本对，当样本对中未携带有负文本实例和负图像实例时，可以将其作为正样本对。服务器可以选取任一文本对应的两个正样本对(即正样本对中包括的参考图像实例、正图像实例、参考文本实例、或正文本实例都是对任一文本，或对该任一文本对应的图像进行增强处理后得到的)，可以选取任一文本对应的一个负样本对(即负样本对中包括与任一文本不具有联系的文本，或包括与任一文本对应的图像不具有联系的图像，或包括与任一文本不具有联系的文本和与任一文本对应的图像不具有联系的图像)，可以利用文本编码网络、图像编码网络以及信息融合网络对任一文本对应的两个正样本对、一个负样本对进行处理，得到两个正样本对分别对应的第一预测特征表示信息和预测第二特征表示信息，以及得到负样本对对应的第三预测特征表示信息，通过让第一预测特征表示信息与第二预测特征表示信息之间的距离变近(即相似度变高)，让第一预测特征表示信息和第二预测表示信息与第三预测特征表示信息之间的距离变远(即相似度变低)，来对文本编码网络、图像编码网络以及信息融合网络进行对比训练，从而得到特征表示模型，通过把文本信息和图像当做一个整体进行增强处理，得到多个训练样本对，可以使利用该多个训练样本对训练得到的特征表示模型可以拉近文本信息和图像的不同增强结果，而不是拉近文本信息和图像这两个模态，即特征表示模型针对增强后的文本和图像、增强后的图像和文本、增强后的文本和增强后的图像均可以提取到相似度接近的特征表示信息，具有较强的鲁棒性。

服务器在完成对文本编码网络、图像编码网络以及信息融合网络的对比训练，得到特征表示网络后，可以调用特征表示网络对目标对象的文本信息和图像进行处理，将目标对象的文本信息输入特征表示网络中的文本编码网络得到文本编码表示，将目标对象的图像输入特征表示网络中的图像编码网络得到图像编码表示，在将文本编码表示和图像编码表示进行拼接处理后，输入特征表示网络中的信息融合网络，从而得到目标对象的特征表示信息，该特征表示信息充分融合了目标对象的文本信息和图像的高层级语义信息，能够提升下游任务完成的满意度。

S403、利用所述目标对象的特征表示信息从对象库包括的一个或多个对象中确定所述目标对象的相似对象。

对象库中包括一个或多个与目标对象属于同一属性的对象，例如目标对象为题目，对象库可以为题库，包括一个或多个题目。

服务器可以利用特征表示网络获取对象库中各个对象的特征表示信息，将各个对象的特征表示信息与目标对象的特征表示信息进行对比，确定目标对象与各个对象之间的相似度，将相似度大于相似度阈值的对象作为目标对象的相似对象。

本申请实施例中，可以利用多个训练样本对文本编码网络、图像编码网络以及信息融合网络进行对比训练得到特征表示模型，其中，每个训练样本对包括：参考文本实例、正文本实例和负文本实例中的任一种，以及参考图像实例、正图像实例和负图像实例中的任一种，利用得到的特征表示模型可以对目标对象的文本信息和图像进行处理，从而得到目标对象的特征表示信息，利用目标对象的特征表示信息可以从对象库包括的一个或多个对象中确定目标对象的相似对象；通过上述数据处理方法，可以利用特征表示模型在语义层级实现文本和图像的融合，使得基于特征表示模型获取到的特征表示信息能在下游任务中具有良好的表现，另外通过将文本信息和图像当做一个整体增强，可以拉近文本信息和图像的不同增强结果，提升特征表示模型的鲁棒性。

请参见图6，图6提供了另一种数据处理方法的流程示意图，利用该方法可以获取特征表示模型，以该方法应用于图3中的服务器302为例进行说明，包括以下步骤：

S601、获取多个训练样本对，所述多个训练样本对包括参考样本对、正样本对以及负样本对；其中，所述参考样本对包括参考文本实例和参考图像实例；所述正样本对包括正文本实例和正图像实例；所述负样本对包括参考图像实例、正图像实例和负图像实例中的任一种以及负文本实例，或者参考文本实例、正文本实例和负文本实例中的任一种以及负图像实例。

服务器可以获取多个训练样本对，其中，多个训练样本对中包括三类：参考样本对、正样本对以及负样本对，该参考样本对包括参考文本实例和参考图像实例，该正样本对包括正文本实例和正图像实例，该负样本对包括参考图像实例、正图像实例和负图像实例中的任一种以及负文本实例，或者参考文本实例、正文本实例和负文本实例中的任一种以及负图像实例，即当样本对中包括负文本实例或负图像实例中的一种或两种时为负样本对。

在一实施例中，服务器可以获取样本数据集，其中，样本数据集包括多个文本以及多个文本中每个文本对应的图像，利用样本数据集中任一文本和任一文本对应的图像生成参考文本实例、参考图像实例、正文本实例以及正图像实例，并从样本数据集中除任一文本之外的其他文本中选取一个文本作为负文本实例，以及从样本数据集中除任一文本对应的图像之外的其他图像中选取一个图像作为负图像实例，基于参考文本实例、参考图像实例、正文本实例、正图像实例、负文本实例以及负图像实例构建多个训练样本对，即利用参考文本实例和参考图像实例构建参考样本对，利用正文本实例和正图像实例构建正样本对，利用负文本实例和负图像实例中的一个或两个构建负样本对。

服务器在利用样本数据集中任一文本和任一文本对应的图像生成参考文本实例、参考图像实例、正文本实例以及正图像实例时，可以按照第一增强方式针对样本数据集中任一文本和任一文本对应的图像进行增强处理，得到参考文本实例和参考图像实例，按照第二增强方式针对任一文本和任一文本对应的图像进行增强处理，得到正文本实例和正图像实例。

在一实施例中，服务器可以按照第一增强方式针对样本数据集中任一文本和任一文本对应的图像进行增强处理，得到参考文本实例和参考图像实例。

可选地，服务器按照第一增强方式针对样本数据集中任一文本和任一文本对应的图像进行增强处理时，可以是按照第一增强方式对任一文本进行增强处理得到参考文本实例，将该任一文本对应的图像当作参考图像实例；也可以是将任一文本作为参考文本实例，按照第一增强方式对该任一文本对应的图像进行增强处理得到参考图像实例；还可以是按照第一增强方式对任一文本进行增强处理得到参考文本实例，以及对该任一文本对应的图像进行增强处理得到参考图像实例。在按照第一增强方式对任一文本进行的增强处理可以是文本掩盖、文本交叉、文本替换、文本删除、等等，在按照第一增强方式对任一文本对应的图像进行的增强处理可以是图像遮挡、图像旋转、添加噪声、图像裁剪、等等。

在一实施例中，服务器可以针对按照第二增强方式针对样本数据集中任一文本和任一文本对应的图像进行增强处理，得到正文本实例和正图像实例。

可选地，服务器按照第二增强方式针对样本数据集中任一文本和任一文本对应的图像进行增强处理，可以是按照第二增强方式对任一文本进行增强处理得到正文本实例，将该任一文本对应的图像当作正图像实例；也可以是将任一文本作为正文本实例，按照第二增强方式对该任一文本对应的图像进行增强处理得到正图像实例；还可以是按照第二增强方式对任一文本进行增强处理得到正文本实例，以及对该任一文本对应的图像进行增强处理得到正图像实例。在按照第二增强方式对任一文本进行的增强处理可以是文本掩盖、文本交叉、文本替换、文本删除、等等，在按照第二增强方式对任一文本对应的图像进行的增强处理可以是图像遮挡、图像旋转、添加噪声、图像裁剪、等等。

需说明的是，在按照第一增强方式对任一文本进行增强处理，得到参考文本实例，与按照第二增强方式对任一文本进行增强处理，得到正文本实例，第一增强方式和第二增强方式是采用不同的增强方式进行处理的，例如可以分别采用文本删除和文本掩盖对任一文本进行增强处理；在按照第一增强方式对任一文本对应的图像进行增强处理，得到参考图像实例，与按照第二增强方式对任一文本对应的图像进行增强处理，得到正图像实例，第一增强方式和第二增强方式是采用不同的增强方式进行处理的，例如可以分别采用图像旋转和图像掩盖对任一文本对应的图像进行增强处理，即保证在针对同一文本和同一文本对应的图像进行增强处理后得到的参考样本对和正样本对不能完全相同，即保证正文本实例和参考文本实例相同时，正图像实例和参考图像实例不相同；保证当正图像实例和参考图像实例相同时，正文本实例和参考文本实例不相同。通过将文本信息和图像当做一个整体增强，可以实现信息互补，拉近不同增强结果的特征表示的距离，而非拉近模态之间的距离，使得特征表示模型基于这个增强进行的对比训练可以获得更好地特征表示信息，且鲁棒性强。

在一实施例中，负文本实例除了可以是样本数据集中除任一文本之外的其他文本，还可以是对该其他文本进行增强处理后的文本；负图像实例除了可以是样本数据集中除任一文本对应的图像之外的其他图像，还可以是对该其他图像进行增强处理后的图像。

S602、根据所述多个训练样本对确定批处理数据，所述批处理数据包括所述参考样本对、所述正样本对以及所述负样本对中的三种。

服务器可以根据得到的多个训练样本确定批处理数据，批处理数据可以包括一组参考样本对、正样本对以及负样本对，即任一文本对应的参考样本对、任一文本对应的正样本对以及任一文本对应的负样本对；也可以包括多组参考样本对、正样本对以及负样本对，即包括多个文本中每个文本对应的参考样本对、每个文本对应的正样本对以及每个文本对应的负样本对。通过多个样本对确定的批处理数据是无需进行数据标注的，可以解决监督训练需要大量标注数据的问题，使得更大规模的无监督学习成为可能。

S603、利用所述批处理数据对原始模型进行对比训练得到特征表示模型，所述原始模型包括文本编码网络、图像编码网络以及信息融合网络。

服务器可以利用批处理数据对原始模型进行对比训练得到特征表示模型，其中，原始模型包括文本编码网络、图像编码网络以及信息融合网络，文本编码网络和图像编码网络的网络参数可以是通过预训练得到的初始参数，信息融合网络的网络参数可以是随机初始化的。

在一实施例中，服务器可以利用样本文本对第一编码网络进行预训练，得到原始模型包括的文本编码网络，利用正样本图像和负样本图像对第二编码网络进行预训练，得到原始模型包括的图像编码网络。

可选地，第一编码网络可以为初始化的BERT模型，样本文本可以是教育数据集中的文本，可以利用样本文本对初始化的BERT模型进行预训练，从而得到的BERT模型，并作为文本编码网络，其中，对初始化的BERT模型进行预训练包括：掩蔽语言模型任务和下一句预测任务，即在执行掩蔽语言模型任务时可以遮蔽样本文本中的关键词，用剩余的词去预测这几个关键词分别是什么，在执行下一句预测任务时可以给定样本文本中的部分片段，判断初始化的BERT模型输出的片段是否紧跟在该部分片段之后。当然，第一编码网络也可以是其他用于处理文本的神经网络，即文本编码网络可以是其他用于处理文本的神经网络，预训练方式也可以是其他有监督训练或无监督训练等，本申请对此不作限定。

可选地，第二编码网络可以为初始化的ResNet模型，正样本图像和负样本图像可以是指两种不同类别的图像，正样本图像和负样本图像可以是从任意图像数据集中获取到的，例如正样本图像可以是猫，负样本图像可以是狗，服务器可以选取两种正样本图像，即属于同一类别的图像，选取一张负样本图像，利用初始化的ResNet模型分别提取两种正样本图像的特征编码表示，以及负样本图像的特征编码表示，通过让两种正样本图像的特征编码表示的距离更近，让两种正样本图像的特征编码表示与负样本图像的特征编码表示的距离更远，从而实现对初始化的ResNet模型进行对比训练，得到训练好的ResNet模型，并作为图像编码网络，当然，第二编码网络也可以是其他用于处理图像的神经网络，即图像编码网络可以是其他用于处理图像的神经网络，预训练方式也可以是其他有监督训练或无监督训练等，本申请对此不作限定。

请参见图7，图7为本申请提供的一种原始模型的训练示意图，服务器利用批处理数据对原始模型进行对比训练得到特征表示模型时，针对批处理数据中包括的一组参考样本对、正样本对以及负样本对，可以是将批处理数据中包括的一组参考样本对、正样本对以及负样本对分别输入原始模型，得到参考样本对对应的第一预测特征表示信息、正样本对对应的第二预测特征表示信息、以及负样本对对应的第三预测特征表示信息，根据参考样本对对应的第一预测特征表示信息、正样本对对应的第二预测特征表示信息、负样本对对应的第三预测特征表示信息和原始模型的损失函数，确定原始模型的总损失，利用总损失对原始模型的模型参数进行调整，并将调整后的原始模型作为特征表示模型。

请参见图8，图8为本申请提供的一种原始模型的结构示意图，服务器可以将文本信息输入原始模型包括的文本编码网络得到文本编码表示，可以将图像输入原始模型包括的图像编码网络得到图像编码表示，将文本编码表示和图像编码表示进行拼接处理后输入原始模型包括的信息融合网络，得到特征表示信息，该信息融合网络是利用捷径连接对自注意力网络的网络连接关系进行调整得到的。

在一实施例中，文本编码网络在对输入的文本信息进行处理输出文本编码表示时，可以是将输入的文本信息中的每个词编码成固定维度的向量dim，例如128维，当输入的文本信息中包括m个词，m为正整数，输出的文本编码表示的维度为

也可以是对文本信息进行句编码，获取整个文本信息的上下文编码，将文本编码表示编码成固定维度的向量dim。图像编码网络输出的图像编码表示可以将输入的图像编码成与文本在同一维度的向量dim，维度可以是

n为正整数。则文本编码表示和图像编码表示进行拼接处理后得到的维度为

如图8所示，信息融合网络是基于捷径连接的方式对自注意力网络的网络连接关系进行调整后得到的，该自注意力网络包括三个相同的子网络模块，每个子网络模块包括：第一归一化层(Layer Normalization，LN)、多头注意力网络层(Multi-head Attention)、第二归一化层(Layer Normalization，LN)、前馈神经网络层(Feed Forward Networks，FNN)，本申请分别在每个子网络模块的第一归一化层和多头注意力网络层，以及在第二归一化层和全连接网络层，增加了一个捷径连接，即输入每个子网络模块的第一归一化层的参数x会传到多头注意力网络层的输出作为初始结果，即输入每个子网络模块的第二归一化层的参数y会传到前馈神经网络层的输出作为初始结果，利用这种捷径连接的方式可以保证信息融合网络实现词层级信息的获取。

在一实施例中，可以在信息融合网络后接池化层，利用池化层对信息融合网络的输出进行下采样，并将池化层的输出作为特征表示信息，可以实现降维、去除冗余信息。

在一实施例中，由于信息融合网络中的注意力机制需要保留文本中各个字的位置信息和图像的位置信息，实现对上下文依赖关系的抽象，但由于自注意力网络并不会保留序列位置信息，因此信息融合网络在处理拼接后的文本编码表示和图像编码表示时，还需要吸收文本编码表示中包括的各个词的位置信息和图像编码表示的位置信息，或吸收文本编码表示中包括的句编码的位置信息和图像编码表示的位置信息，该位置信息可以是正弦函数编码、余弦函数编码和独热编码，等等，将位置信息结合文本编码表示和图像编码表示输入信息融合网络，例如，拼接后的文本编码表示和图像编码表示为T^u，位置信息为p^u，可以将拼接后的文本编码表示和图像编码表示再次与位置信息进行拼接，得到输入信息融合网络的表示：

利用自注意力网络的注意力机制可以使得特征表示模型具备联合处理来自不同表示空间信息的能力，即具有可以处理图像信息和文本信息的能力。

在一实施例中，为了获取参考样本对对应的第一预测特征表示信息，服务器可以获取参考样本对包括的参考文本实例和参考图像实例，并将参考文本实例和参考图像实例作为如图8所示的原始模型中将要输入的文本信息和图像，利用原始模型包括的文本编码网络对参考文本实例进行处理，即将参考文本实例输入文本编码网络，得到预测参考文本编码表示，利用原始模型包括的图像编码网络对参考图像实例进行处理，即将参考图像实例输入图像编码网络，得到预测参考图像编码表示，将得到的预测参考文本编码表示和预测参考图像编码表示进行拼接处理，并输入原始模型包括的信息融合网络，采用自注意力机制得到参考样本对对应的第一预测特征表示信息。

在一实施例中，为了获取正样本对对应的第二预测特征表示信息，服务器可以获取正样本对包括的正文本实例和正图像实例，并将正文本实例和正图像实例作为如图8所示的原始模型中将要输入的文本信息和图像，利用原始模型包括的文本编码网络对正文本实例进行处理，即将正文本实例输入文本编码网络，得到预测正文本编码表示，利用原始模型包括的图像编码网络对正图像实例进行处理，即将正图像实例输入图像编码网络，得到预测正图像编码表示，将得到的预测正文本编码表示和预测正图像编码表示进行拼接处理，并输入原始模型包括的信息融合网络，采用自注意力机制得到正样本对对应的第二预测特征表示信息。

在一实施例中，为了获取负样本对对应的第三预测特征表示信息，服务器可以获取负样本对包括的负文本实例和负图像实例，并将负文本实例和负图像实例作为如图8所示的原始模型中将要输入的文本信息和图像，并利用原始模型包括的文本编码网络对负文本实例进行处理，即将负文本实例输入文本编码网络，得到预测负文本编码表示，利用原始模型包括的图像编码网络对负图像实例进行处理，即将负图像实例输入图像编码网络，得到预测负图像编码表示，将得到的预测负文本编码表示和预测负图像编码表示进行拼接处理，并输入原始模型包括的信息融合网络，采用自注意力机制得到负样本对对应的第三预测特征表示信息。

服务器可以根据参考样本对对应的第一预测特征表示信息、正样本对对应的第二预测特征表示信息、负样本对对应的第三预测特征表示信息和原始模型的损失函数，确定原始模型的总损失，利用总损失对原始模型的模型参数进行调整，并将调整后的原始模型作为特征表示模型。

在一实施例中，若所述原始模型的损失函数为三元组损失函数，则利用下述公式(1)计算总损失。

其中，L_loss为损失函数，||*||为欧式距离，

为参考样本对对应的第一预测特征表示信息，

为正样本对对应的第二预测特征表示信息，

为负样本对对应的第三预测特征表示信息，

为第一预测特征表示信息和第二预测特征表示信息之间的欧式距离度量，

为第一预测特征表示信息和第三预测特征表示信息之间的欧式距离度量，α第一预测特征表示信息和第二预测特征表示信息之间的欧式距离度量和第一预测特征表示信息和第三预测特征表示信息之间的欧式距离度量之间的最小间隔，N为多个训练样本对的个数，当原始模型的模型参数的调整次数达到预设次数，或损失函数收敛时，则停止对原始模型的训练，并将调整后的原始模型作为特征表示模型。

在一实施例中，原始模型的损失函数还可以为其他损失函数，例如可以将参考样本对和正样本对作为一对训练样本，并令标签y为1，将参考样本对和负样本对作为一对训练样本，并令标签y为0，其损失函数如下述公式(2)所示。

其中，当输入为参考样本对和正样本对时，d_ab为

损失函数会令d_ab逐渐减少，当输入为参考样本对和负样本对时，d_ab为

损失函数会令d_ab逐渐变大，从而可以通过最小化损失函数让参考样本对和正样本对之间的距离变近，让参考样本对和负样本对之间的距离变远，当原始模型的模型参数的调整次数达到预设次数，或损失函数收敛时，则停止对原始模型的训练，并将调整后的原始模型作为特征表示模型。

通过本实施例，可以利用多个训练样本对确定批处理数据，利用批处理数据对原始模型进行对比训练得到特征表示模型，可以利用训练得到的特征表示模型实现语义层级的信息融合，利用特征表示模型的信息融合网络中的捷径连接可以实现词层级信息的获取。

请参见图9，图9提供了另一种数据处理方法的流程示意图，以该方法应用于图3中的服务器302为例进行说明，包括以下步骤：

S901、获取目标对象的文本信息和图像。

其中，步骤S901的详细实现过程已在前述实施例S401中进行说明，本实施例不再赘述。

S902、调用特征表示模型的文本编码网络对所述目标对象的文本信息进行编码处理，得到所述目标对象的文本编码表示。

服务器可以将目标对象的文本信息输入特征表示模型的文本编码网络进行编码处理，得到目标对象的文本编码表示。

在一实施例中，特征表示模型的文本编码网络在对输入的文本信息进行处理输出文本编码表示时，可以是将输入的文本信息中的每个词编码成固定维度的向量dim，当输入的文本信息中包括m个词，m为正整数，输出的文本编码表示的维度为

也可以是对文本信息进行句编码，获取整个文本信息的上下文编码，将文本编码表示编码成固定维度的向量dim。

S903、调用所述特征表示模型的图像编码网络对所述目标对象的图像进行编码处理，得到所述目标对象的图像编码表示。

服务器可以将目标对象的图像信息输入特征表示模型的图像编码网络进行编码处理，得到目标对象的图像编码表示。

在一实施例中，图像编码网络输出的图像编码表示可以将输入的图像编码成与文本在同一维度的向量dim，维度可以是

S904、调用所述特征表示模型的信息融合网络采用自注意力机制对所述文本编码表示和所述图像编码表示进行融合处理，得到所述目标对象的特征表示信息。

在一实施例中，服务器可以将文本编码表示和图像编码表示进行拼接处理，并获取文本编码表示中包括的各个词的位置信息和图像编码表示的位置信息，或获取文本编码表示中包括的句编码的位置信息和图像编码表示的位置信息，将位置信息与拼接后的文本编码表示和图像编码表示再次进行拼接后输入信息融合网络，得到目标对象的特征表示信息。

在一实施例中，服务器可以获取目标对象的文本信息，将目标对象的文本信息输入特征表示模型获取特征表示信息，也可以获取目标对象的图像，将目标对象的图像输入特征表示模型获取特征表示信息。

S905、利用所述目标对象的特征表示信息从对象库包括的一个或多个对象中确定所述目标对象的相似对象。

服务器可以利用特征表示网络获取对象库中各个对象的特征表示信息，将各个对象的特征表示信息与目标对象的特征表示信息进行对比，确定目标对象与各个对象之间的相似度，将相似度大于相似度阈值的对象或者相似度最大的对象作为目标对象的相似对象。

通过本实施例，服务器可以利用训练得到的特征表示模型在语义层级融合目标对象包括的文本信息和图像，可以避免信息丢失，且可以使得特征表示信息更全面，避免了信息冗余，可以提升下级任务的表现。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。请参见图10，图10是本申请一个实施例提供的一种数据处理装置的结构示意图，该装置10可以包括：

获取模块1001，用于获取目标对象的文本信息和图像；

处理模块1002，用于调用特征表示模型对所述目标对象的文本信息和图像进行处理，得到所述目标对象的特征表示信息，所述特征表示模型是利用多个训练样本对针对文本编码网络、图像编码网络以及信息融合网络进行对比训练得到的；其中，每个训练样本对包括：参考文本实例、正文本实例和负文本实例中的任一种，以及参考图像实例、正图像实例和负图像实例中的任一种；

所述处理模块1002，还用于利用所述目标对象的特征表示信息从对象库包括的一个或多个对象中确定所述目标对象的相似对象。

在一实施例中，所述处理模块1002，具体用于：

调用特征表示模型的文本编码网络对所述目标对象的文本信息进行编码处理，得到所述目标对象的文本编码表示；

调用所述特征表示模型的图像编码网络对所述目标对象的图像进行编码处理，得到所述目标对象的图像编码表示；

调用所述特征表示模型的信息融合网络采用自注意力机制对所述文本编码表示和所述图像编码表示进行融合处理，得到所述目标对象的特征表示信息。

在一实施例中，所述获取模块1001，具体用于：

获取多个训练样本对，所述多个训练样本对包括参考样本对、正样本对以及负样本对；其中，所述参考样本对包括参考文本实例和参考图像实例；所述正样本对包括正文本实例和正图像实例；所述负样本对包括参考图像实例、正图像实例和负图像实例中的任一种以及负文本实例，或者参考文本实例、正文本实例和负文本实例中的任一种以及负图像实例；

所述处理模块1002，具体用于：

根据所述多个训练样本对确定批处理数据，所述批处理数据包括所述参考样本对、所述正样本对以及所述负样本对中的三种；

利用所述批处理数据对原始模型进行对比训练得到特征表示模型，所述原始模型包括文本编码网络、图像编码网络以及信息融合网络。

在一实施例中，所述获取模块1001，具体用于：

获取样本数据集，所述样本数据集包括多个文本以及所述多个文本中每个文本对应的图像；

所述处理模块1002，具体用于：

利用所述样本数据集中任一文本和所述任一文本对应的图像生成参考文本实例、参考图像实例、正文本实例以及正图像实例；

将所述样本数据集中除所述任一文本之外的其他文本作为负文本实例，以及将所述样本数据集中除所述任一文本对应的图像之外的其他图像作为负图像实例；

基于所述参考文本实例、所述参考图像实例、所述正文本实例、所述正图像实例、所述负文本实例以及所述负图像实例构建多个训练样本对。

在一实施例中，所述处理模块1002，具体用于：

按照第一增强方式针对所述样本数据集中任一文本和所述任一文本对应的图像进行增强处理，得到参考文本实例和参考图像实例；

按照第二增强方式针对所述任一文本和所述任一文本对应的图像进行增强处理，得到正文本实例和正图像实例。

在一实施例中，所述处理模块1002，具体用于：

将所述批处理数据包括的所述参考样本对、所述正样本对以及所述负样本对分别输入原始模型，得到所述参考样本对对应的第一预测特征表示信息、所述正样本对对应的第二预测特征表示信息、以及所述负样本对对应的第三预测特征表示信息；

根据所述参考样本对对应的第一预测特征表示信息、所述正样本对对应的第二预测特征表示信息、所述负样本对对应的第三预测特征表示信息和所述原始模型的损失函数，确定所述原始模型的总损失；

利用所述总损失对所述原始模型的模型参数进行调整，并将调整后的原始模型作为特征表示模型。

在一实施例中，所述处理模块1002，具体用于：

利用样本文本对第一编码网络进行预训练，得到所述原始模型包括的文本编码网络；

利用正样本图像和负样本图像对第二编码网络进行预训练，得到所述原始模型包括的图像编码网络。

在一实施例中，所述处理模块1002，具体用于：

基于捷径连接的方式对自注意力网络的网络连接关系进行调整，得到所述信息融合网络。

通过本实施例，可以利用多个训练样本对文本编码网络、图像编码网络以及信息融合网络进行对比训练得到特征表示模型，其中，每个训练样本对包括：参考文本实例、正文本实例和负文本实例中的任一种，以及参考图像实例、正图像实例和负图像实例中的任一种，利用得到的特征表示模型可以对目标对象的文本信息和图像进行处理，从而得到目标对象的特征表示信息，利用目标对象的特征表示信息可以从对象库包括的一个或多个对象中确定目标对象的相似对象，可以利用特征表示模型在语义层级实现文本和图像的融合，使得基于特征表示模型获取到的特征表示信息能在下游任务中具有良好的表现。

如图11所示，图11是本申请一个实施例提供的一种计算机设备的结构示意图，该计算机设备11内部结构如图11所示，包括：一个或多个处理器1101、存储器1102、通信接口1103。上述处理器1101、存储器1102和通信接口1103可通过总线1104或其他方式连接，本申请实施例以通过总线1104连接为例。

其中，处理器1101(或称CPU(Central Processing Unit，中央处理器))是计算机设备11的计算核心以及控制核心，其可以解析计算机设备11内的各类指令以及处理计算机设备11的各类数据，例如：CPU可以用于解析用户向计算机设备11所发送的开关机指令，并控制计算机设备11进行开关机操作；再如：CPU可以在计算机设备11内部结构之间传输各类交互数据，等等。通信接口1103可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等)，受处理器1101的控制用于收发数据。存储器1102(Memory)是计算机设备11中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器1102既可以包括计算机设备11的内置存储器，当然也可以包括计算机设备11所支持的扩展存储器。存储器1102提供存储空间，该存储空间存储了计算机设备11的操作系统，可包括但不限于：Windows系统、Linux系统等等，本申请对此并不作限定。

在一实施例中，所述处理器1101，具体用于：

获取目标对象的文本信息和图像；

在一实施例中，所述处理器1101，具体用于：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该计算机程序在执行时，可包括如上述数据处理方法的实施例的流程。其中，可读的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

本申请一个或多个实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取目标对象的文本信息和图像；

2.根据权利要求1所述的方法，其特征在于，所述调用特征表示模型对所述目标对象的文本信息和图像进行处理，得到所述目标对象的特征表示信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，所述获取多个训练样本对，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用所述样本数据集中任一文本和所述任一文本对应的图像生成参考文本实例、参考图像实例、正文本实例以及正图像实例，包括：

6.根据权利要求3所述的方法，其特征在于，所述利用所述批处理数据对原始模型进行对比训练得到特征表示模型，包括：

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：

8.根据权利要求3所述的方法，其特征在于，所述方法还包括：

9.一种数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取目标对象的文本信息和图像；

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1～8中任一项所述的数据处理方法。