CN116958590A

CN116958590A - 媒体资源的处理方法和装置、存储介质及电子设备

Info

Publication number: CN116958590A
Application number: CN202310158054.XA
Authority: CN
Inventors: 王丽娟; 汪翔; 黄珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-10-27

Abstract

本申请公开了一种媒体资源的处理方法和装置、存储介质及电子设备。其中，该方法包括：获取待识别的初始媒体资源，对初始媒体资源执行目标识别操作，得到目标表征向量，目标识别操作用于分别对第一媒体信息和第二媒体信息进行识别，得到第一中间层特征和第二中间层特征，目标表征向量是对第一中间层特征和第二中间层特征加权融合得到的表征向量，根据目标表征向量确定与初始媒体资源之间的相似度满足预设相似条件的目标媒体资源，本申请可以包括但不限于应用于基于人工智能的图像识别领域等，本申请解决了相关技术中媒体资源的处理效率较低的技术问题。

Description

媒体资源的处理方法和装置、存储介质及电子设备

技术领域

本申请涉及计算机领域，具体而言，涉及一种媒体资源的处理方法和装置、存储介质及电子设备。

背景技术

目前，利用相关技术判断两张图像是否相似，一般基于双分支模型，分别考虑图像中的文字信息和视觉信息各自的相似性，只有同时满足视觉信息和文字信息相似的图像对，才判定为相似图片。然而，在现实场景中部分图像信息主要由文字来传达的，视觉信息的不一致并不影响图像对的信息相似，导致分别计算得到的文字信息和视觉信息各自的相似性，没有考虑到文字信息和视觉信息在图像中的重要性，致使媒体资源的处理结果不够准确，进而，导致媒体资源的处理效率难以保证。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种媒体资源的处理方法和装置、存储介质及电子设备，以至少解决相关技术中媒体资源的处理效率较低的技术问题。

根据本申请实施例的一个方面，提供了一种媒体资源的处理方法，包括：获取待识别的初始媒体资源，其中，所述初始媒体资源包括待识别的第一媒体信息和第二媒体信息，所述第一媒体信息与所述第二媒体信息是属于不同模态的媒体信息；对所述初始媒体资源执行目标识别操作，得到目标表征向量，其中，所述目标识别操作用于分别对所述第一媒体信息和所述第二媒体信息进行识别，得到第一中间层特征和第二中间层特征，所述目标表征向量是对所述第一中间层特征和所述第二中间层特征加权融合得到的表征向量；根据所述目标表征向量确定目标媒体资源，其中，所述目标媒体资源是与所述初始媒体资源之间的相似度满足预设相似条件的媒体资源，所述相似度由所述目标表征向量和所述目标媒体资源对应的表征向量确定。

根据本申请实施例的另一方面，还提供了一种媒体资源的处理装置，包括：获取模块，用于获取待识别的初始媒体资源，其中，所述初始媒体资源包括待识别的第一媒体信息和第二媒体信息，所述第一媒体信息与所述第二媒体信息是属于不同模态的媒体信息；识别模块，用于对所述初始媒体资源执行目标识别操作，得到目标表征向量，其中，所述目标识别操作用于分别对所述第一媒体信息和所述第二媒体信息进行识别，得到第一中间层特征和第二中间层特征，所述目标表征向量是对所述第一中间层特征和所述第二中间层特征加权融合得到的表征向量；确定模块，用于根据所述目标表征向量确定目标媒体资源，其中，所述目标媒体资源是与所述初始媒体资源之间的相似度满足预设相似条件的媒体资源，所述相似度由所述目标表征向量和所述目标媒体资源对应的表征向量确定。

可选地，所述装置用于通过如下方式对所述初始媒体资源执行目标识别操作，得到目标表征向量：获取预设表征向量，其中，所述预设表征向量表示预先确定的融合了不同模态的媒体信息的表征向量；对所述初始媒体资源执行目标识别操作，确定目标权重参数，其中，所述目标权重参数用于表示所述初始媒体资源中所述第一媒体信息和所述第二媒体信息各自的重要性；根据所述预设表征向量和所述目标权重参数共同确定所述目标表征向量。

可选地，所述装置用于通过如下方式对所述初始媒体资源执行目标识别操作，确定目标权重参数：对所述初始媒体资源执行第一识别操作，得到所述第一中间层特征，其中，所述第一中间层特征用于表示对所述第一媒体信息进行提取得到的特征向量；对所述初始媒体资源执行第二识别操作，得到第二中间层特征，其中，所述第二中间层特征用于表示对所述第二媒体信息进行提取得到的特征向量；根据所述预设表征向量、所述第一中间层特征以及所述第二中间层特征生成目标序列；对所述目标序列执行自注意力机制运算，确定所述目标权重参数。

可选地，所述装置用于通过如下方式对所述初始媒体资源执行第一识别操作，得到所述第一中间层特征：在所述初始媒体资源是图像资源的情况下，对所述初始媒体资源执行文字识别操作，得到一组词组，其中，所述一组词组中每个词组的长度相同；对所述一组词组执行第一编码操作，得到所述第一中间层特征，其中，所述第一中间层特征包括一组第一特征向量，所述一组第一特征向量中的特征向量与所述一组词组中的词组一一对应。

可选地，所述装置用于通过如下方式对所述初始媒体资源执行第二识别操作，得到第二中间层特征：在所述初始媒体资源是图像资源的情况下，将所述初始媒体资源划分为一组图像块集合；对所述一组图像块集合中的每个图像块分别执行第二编码操作，得到所述第二中间层特征，其中，所述第二中间层特征包括一组第二特征向量，所述一组第二特征向量中的特征向量与所述一组图像块中的一个图像块一一对应。

可选地，所述装置用于通过如下方式根据所述预设表征向量、所述第一中间层特征以及所述第二中间层特征生成目标序列：为所述第一中间层特征以及所述第二中间层特征分别添加位置编码，生成第一序列，其中，所述位置编码用于表示所述第一中间层特征中各个特征向量的位置和所述第二中间层特征中各个特征向量的位置；对所述第一序列中各个特征向量添加类型编码，得到所述目标序列，其中，所述类型编码用于表示所述第一序列中各个特征向量对应的模态。

可选地，所述装置用于通过如下方式对所述目标序列执行自注意力机制运算，确定所述目标权重参数：将所述目标序列输入预训练的目标注意力模型，得到所述目标权重参数，其中，所述目标注意力模型是将一组样本媒体资源和一组样本标签输入初始注意力模型进行训练得到的模型，所述一组样本媒体资源包括第一样本媒体资源和第二样本媒体资源组成的目标样本对，所述一组样本标签中与所述目标样本对对应的样本标签表示所述第一样本媒体资源与所述第二样本媒体资源之间的相似度是否满足所述预设相似条件。

可选地，所述装置还用于：利用所述一组样本媒体资源和所述一组样本标签对所述初始注意力模型进行多轮训练，得到目标参数集合，其中，每轮训练包括：将多个所述目标样本对和多个样本标签输入所述初始注意力模型，得到目标参数，其中，所述目标参数表示所述初始注意力模型的输出结果与对应的所述样本标签指示的结果相同的次数，所述一组样本媒体资源包括所述多个样本媒体资源，所述一组样本标签包括所述多个样本标签，所述目标参数集合包括所述目标参数；将所述目标参数集合中取值最大的所述目标参数对应的初始注意力模型确定为所述目标注意力模型。

可选地，所述装置用于通过如下方式将所述目标序列输入预训练的目标注意力模型，得到所述目标权重参数：将所述目标序列输入目标注意力模块，确定目标权重矩阵，其中，所述目标权重矩阵的一个元素表示所述目标序列中的两个元素之间的相关程度；根据所述目标权重矩阵确定所述目标权重参数，其中，所述目标权重参数是所述目标权重矩阵中与所述预设表征向量对应的元素。

可选地，所述装置用于通过如下方式根据所述目标表征向量确定目标媒体资源：获取预设媒体资源集合中各个媒体资源集合对应的表征向量集合；根据所述目标表征向量从所述表征向量集合中确定出所述目标媒体资源，其中，所述目标媒体资源对应的表征向量与所述目标表征向量的距离最小。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述媒体资源的处理方法。

根据本申请实施例的又一方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上媒体资源的处理方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的媒体资源的处理方法。

在本申请实施例中，采用获取待识别的初始媒体资源，其中，初始媒体资源包括待识别的第一媒体信息和第二媒体信息，第一媒体信息与第二媒体信息是属于不同模态的媒体信息，对初始媒体资源执行目标识别操作，得到目标表征向量，其中，目标识别操作用于分别对第一媒体信息和第二媒体信息进行识别，得到第一中间层特征和第二中间层特征，目标表征向量是对第一中间层特征和第二中间层特征加权融合得到的表征向量，根据目标表征向量确定目标媒体资源，其中，目标媒体资源是与初始媒体资源之间的相似度满足预设相似条件的媒体资源，相似度由目标表征向量和目标媒体资源对应的表征向量确定的方式，通过将图像文字部分和图像视觉部分分别提取文字信息和视觉信息，再对文字和视觉特征的重要性加权，得到加权后的图像特征，以便于查找与输入的初始媒体资源相似的目标媒体资源，达到了自适应为图像中的文字信息和视觉信息分配权重，关注到图片所传达的主要信息，使得模型更加鲁棒的目的，从而实现了提高媒体资源的处理效率，优化查找相似的媒体资源的准确率，提升相关模型鲁棒性的技术效果，进而解决了相关技术中媒体资源的处理效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的媒体资源的处理方法的应用环境的示意图；

图2是根据本申请实施例的一种可选的媒体资源的处理方法的流程示意图；

图3是根据本申请实施例的一种可选的媒体资源的处理方法的示意图；

图4是根据本申请实施例的又一种可选的媒体资源的处理方法的示意图；

图5是根据本申请实施例的又一种可选的媒体资源的处理方法的示意图；

图6是根据本申请实施例的又一种可选的媒体资源的处理方法的示意图；

图7是根据本申请实施例的又一种可选的媒体资源的处理方法的示意图；

图8是根据本申请实施例的又一种可选的媒体资源的处理方法的示意图；

图9是根据本申请实施例的又一种可选的媒体资源的处理方法的示意图；

图10是根据本申请实施例的一种可选的媒体资源的处理装置的结构示意图；

图11是根据本申请实施例的一种可选的媒体资源的处理产品的结构示意图；

图12是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

OCR：Optical Character Recognition，光学字符识别，指用计算机算法对图像中的文字进行识别的过程。

CNN：Convolutional Neural Network,卷积神经网络，是一种前馈神经网络，广泛应用于图像处理提取图像特征。

下面结合实施例对本申请进行说明：

根据本申请实施例的一个方面，提供了一种媒体资源的处理方法，可选地，在本实施例中，上述媒体资源的处理方法可以应用于如图1所示的由服务器101和终端设备103所构成的硬件环境中。如图1所示，服务器101通过网络与终端103进行连接，可用于为终端设备或终端设备上安装的应用程序提供服务，应用程序可以是视频应用程序、即时通信应用程序、浏览器应用程序、教育应用程序、游戏应用程序等。可在服务器上或独立于服务器设置数据库105，用于为服务器101提供数据存储服务，例如，游戏数据存储服务器，上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络，终端设备103可以是配置有应用程序的终端，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视、智能语音交互设备、智能家电、车载终端、飞行器、虚拟现实(VirtualReality，简称VR)终端、增强现实(Augmented Reality，简称AR)终端、混合现实(MixedReality，简称MR)终端等计算机设备，上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。

结合图1所示，上述媒体资源的处理方法可以在终端设备103通过如下步骤实现：

S1，在终端设备103上获取待识别的初始媒体资源，其中，初始媒体资源包括待识别的第一媒体信息和第二媒体信息，第一媒体信息与第二媒体信息是属于不同模态的媒体信息；

S2，在终端设备103上对初始媒体资源执行目标识别操作，得到目标表征向量，其中，目标识别操作用于分别对第一媒体信息和第二媒体信息进行识别，得到第一中间层特征和第二中间层特征，目标表征向量是对第一中间层特征和第二中间层特征加权融合得到的表征向量；

S3，在终端设备103上根据目标表征向量确定目标媒体资源，其中，目标媒体资源是与初始媒体资源之间的相似度满足预设相似条件的媒体资源，相似度由目标表征向量和目标媒体资源对应的表征向量确定。

可选地，在本实施例中，上述媒体资源的处理方法还可以通过服务器实现，例如，图1所示的服务器101中实现；或由终端设备和服务器共同实现。

上述仅是一种示例，本实施例不做具体的限定。

可选地，作为一种可选的实施方式，如图2所示，上述媒体资源的处理方法包括：

S202，获取待识别的初始媒体资源，其中，初始媒体资源包括待识别的第一媒体信息和第二媒体信息，第一媒体信息与第二媒体信息是属于不同模态的媒体信息；

可选地，在本实施例中，上述媒体资源的处理方法可以包括但不限于应用于基于人工智能模型的媒体资源处理流程，上述人工智能模型可以包括但不限于基于自注意力机制训练的多模态识别模型。

需要说明的是，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

可选地，在本实施例中，上述初始媒体资源可以包括但不限于图像、视频等包括多种模态的媒体信息的媒体资源，上述第一媒体信息可以包括但不限于上述初始媒体资源包括的一种模态的媒体信息，上述第二媒体信息可以包括但不限于上述初始媒体资源包括的另一种模态的媒体信息。

需要说明的是，以上述初始媒体资源是图像资源为例，上述第一媒体信息可以包括但不限于图像资源中的文字信息，上述第二媒体信息可以包括但不限于图像资源中的视觉信息。

示例性地，图3是根据本申请实施例的一种可选的媒体资源的处理方法的示意图，如图3所示，图像资源中的文字信息即为前述的第一媒体信息，图像资源中的视觉信息即为前述的第二媒体信息。

S204，对初始媒体资源执行目标识别操作，得到目标表征向量，其中，目标识别操作用于分别对第一媒体信息和第二媒体信息进行识别，得到第一中间层特征和第二中间层特征，目标表征向量是对第一中间层特征和第二中间层特征加权融合得到的表征向量；

可选地，在本实施例中，上述目标识别操作包括识别初始媒体资源，提取第一媒体信息和第二媒体信息的相关识别操作，以初始媒体资源是图像资源为例，上述对第一媒体信息进行识别，得到第一中间层特征可以包括但不限于对上述图像资源中的文字信息进行识别，提取到与文字信息关联的第一中间层特征，上述对第二媒体信息进行识别，得到第二中间层特征可以包括但不限于对上述图像资源中的视觉信息进行识别，提取到与视觉信息关联的第二中间层特征。

示例性地，首先，利用文字检测和识别算法，检测出文字信息的位置并识别文字信息的内容，并对文字信息进行预处理。其次，利用视觉特征提取网络提取视觉信息的网格特征，最后，再将识别到的第一中间层特征和第二中间层特征进行多模态融合，得到加权融合后的目标表征向量。

需要说明的是，上述加权融合中的权重可以理解为用于描述文字信息和视觉信息在图像资源的重要程度，权重值越大，则可理解为对应模态的相关信息的在图像资源中越重要。

例如，根据上述目标识别操作，生成目标表征向量，其中，为文字信息分配0.6的权重，为视觉信息分配0.4的权重，此时，上述目标表征向量用于表示文字信息更重要的图像资源，反之亦然。

S206，根据目标表征向量确定目标媒体资源，其中，目标媒体资源是与初始媒体资源之间的相似度满足预设相似条件的媒体资源，相似度由目标表征向量和目标媒体资源对应的表征向量确定。

可选地，在本实施例中，上述目标媒体资源是确定了对应的表征向量的媒体资源，也即，一个媒体资源对应的表征向量与上述目标表征向量之间的相似度满足预设相似条件的情况下，则该媒体资源视为上述目标媒体资源。

需要说明的是，上述目标表征向量与一个媒体资源对应的表征向量之间的相似度可以通过计算目标表征向量与一个媒体资源对应的表征向量之间的欧式距离、切比雪夫距离等决定。

在一个示例性的实施例中，上述相似度满足上述预设相似条件可以理解为上述欧式距离小于或等于预设距离阈值。

示例性地，图4是根据本申请实施例的另一种可选的媒体资源的处理方法的示意图，如图4所示，可以包括但不限于如下步骤：

S1，获取图片一和图片二(均作为前述初始媒体资源)；

S2，分别对图片一和图片二执行OCR处理，得到文字一和文字二(均作为前述第一中间层特征)；

S3，分别对图片一和图片二执行CNN处理，得到视觉特征一和视觉特征二(均作为前述第二中间层特征)；

S4，对文字一和视觉特征一、文字二和视觉特征二分别进行加权融合，得到表征向量一和表征向量二(均作为前述目标表征向量)；。

S5，计算表征向量一和表征向量二之间的相似度；

S6，在相似度小于预设距离阈值的情况下，判断图片一和图片二相似。

通过本实施例，采用获取待识别的初始媒体资源，其中，初始媒体资源包括待识别的第一媒体信息和第二媒体信息，第一媒体信息与第二媒体信息是属于不同模态的媒体信息，对初始媒体资源执行目标识别操作，得到目标表征向量，其中，目标识别操作用于分别对第一媒体信息和第二媒体信息进行识别，得到第一中间层特征和第二中间层特征，目标表征向量是对第一中间层特征和第二中间层特征加权融合得到的表征向量，根据目标表征向量确定目标媒体资源，其中，目标媒体资源是与初始媒体资源之间的相似度满足预设相似条件的媒体资源，相似度由目标表征向量和目标媒体资源对应的表征向量确定的方式，通过将图像文字部分和图像视觉部分分别提取文字信息和视觉信息，再对文字和视觉特征的重要性加权，得到加权后的图像特征，以便于查找与输入的初始媒体资源相似的目标媒体资源，达到了自适应为图像中的文字信息和视觉信息分配权重，关注到图片所传达的主要信息，使得模型更加鲁棒的目的，从而实现了提高媒体资源的处理效率，优化查找相似媒体资源的准确率，提升相关模型鲁棒性的技术效果，进而解决了相关技术中媒体资源的处理效率较低的技术问题。

作为一种可选的方案，对初始媒体资源执行目标识别操作，得到目标表征向量，包括：获取预设表征向量，其中，预设表征向量表示预先确定的融合了不同模态的媒体信息的表征向量；对初始媒体资源执行目标识别操作，确定目标权重参数，其中，目标权重参数用于表示初始媒体资源中第一媒体信息和第二媒体信息各自的重要性；根据预设表征向量和目标权重参数共同确定目标表征向量。

可选地，在本实施例中，上述预设表征向量是基于相关先验指示预先设置的表征向量，该表征向量预先融合了不同模态的媒体信息，通过使用特殊值进行初始化，采用上述预设表征向量表示不同模态的媒体信息融合后的初始特征，再根据对初始媒体资源执行目标识别操作得到目标权重参数，最终，将预设表征向量与目标权重参数的乘积确定为上述目标表征向量。

需要说明的是，上述根据预设表征向量和目标权重参数共同确定目标表征向量可以包括但不限于基于自注意力机制的多模态融合网络确定，通过对初始媒体资源进行目标识别操作，得到第一中间层特征和第二中间层特征，再将预设表征向量、第一中间层特征以及第二中间层特征作为输入序列，输入至上述多模态融合网络，以最终确定上述目标权重参数，再将目标权重参数与上述预设表征向量相乘，得到上述目标表征向量。

在一个示例性的实施例中，上述目标权重参数用于表示不同模态的媒体信息的重要程度，也即，可以通过设置多个基于自注意力机制的模块，对上述输入序列中每个元素进行交叉处理，最终，使得生成的目标表征向量具有感知到不同模态在计算相似度时的重要性的能力。

作为一种可选的方案，对初始媒体资源执行目标识别操作，确定目标权重参数，包括：对初始媒体资源执行第一识别操作，得到第一中间层特征，其中，第一中间层特征用于表示对第一媒体信息进行提取得到的特征向量；对初始媒体资源执行第二识别操作，得到第二中间层特征，其中，第二中间层特征用于表示对第二媒体信息进行提取得到的特征向量；根据预设表征向量、第一中间层特征以及第二中间层特征生成目标序列；对目标序列执行自注意力机制运算，确定目标权重参数。

可选地，在本实施例中，上述第一识别操作可以包括但不限于OCR识别操作，在初始媒体资源包括文字信息的情况下，通过OCR识别操作可以识别到上述初始媒体资源中的文字特征，再对文字进行特征提取得到上述第一中间层特征。

可选地，在本实施例中，上述第二识别操作可以包括但不限于CNN卷积操作，在初始媒体资源包括视觉信息的情况下，通过CNN卷积操作可以识别到上述初始媒体资源中的视觉特征，得到上述第二中间层特征。

需要说明的是，将上述第一中间层特征、第二中间层特征以及预设表征向量组合，可以生成上述目标序列，上述对目标序列执行自注意力机制运算，确定目标权重参数可以包括但不限于将上述目标序列输入上述多模态融合网络得到上述目标表征向量。

示例性地，图5是根据本申请实施例的又一种可选的媒体资源的处理方法的示意图，如图5所示，以初始媒体资源是图像，第一媒体信息是文字信息，第二媒体信息是视觉信息为例，上述目标序列包括预设表征向量E_cls，表示文字信息的第一中间层特征E_t，表示视觉信息的第二中间层特征E_v。此外，特殊字符E_sep也被加入至目标序列，E_cls和E_sep使用特殊值进行初始化，E_cls为一个特定的字符表示图文融合后的特征，用于计算图像对相似度，E_sep用于分割视觉信息和文字信息的编码，通过将目标序列输入图5的多模态融合网络中，生成上述目标表征向量。

作为一种可选的方案，对初始媒体资源执行第一识别操作，得到第一中间层特征，包括：

在初始媒体资源是图像资源的情况下，对初始媒体资源执行文字识别操作，得到一组词组，其中，一组词组中每个词组的长度相同；

对一组词组执行第一编码操作，得到第一中间层特征，其中，第一中间层特征包括一组第一特征向量，一组第一特征向量中的特征向量与一组词组中的词组一一对应。

可选地，在本实施例中，上述对图像资源执行文字识别操作，可以包括但不限于分词操作，将上述图像资源中识别到的文字进行分词，得到一组词组，再通过补齐操作将各个词补齐至统一长度。

可选地，在本实施例中，上述第一编码操作可以包括但不限于将各个词组编码为对应的第一特征向量，以最终表示为第一中间层特征，也即，第一中间层特征表示由文字信息生成的特征向量集合，该特征向量集合中的一个第一特征向量是对一个词组编码得到的特征向量。

示例性地，首先，将图像资源中识别到的文字划分为词的组合，并将文字数量不同的词组都补齐至相同的长度，然后使用自然语言处理Bert模型对词进行编码，其中，每个词的编码都是相同长度的一维向量。

作为一种可选的方案，对初始媒体资源执行第二识别操作，得到第二中间层特征，包括：

在初始媒体资源是图像资源的情况下，将初始媒体资源划分为一组图像块集合；

对一组图像块集合中的每个图像块分别执行第二编码操作，得到第二中间层特征，其中，第二中间层特征包括一组第二特征向量，一组第二特征向量中的特征向量与一组图像块中的一个图像块一一对应。

可选地，在本实施例中，上述第二编码操作可以包括但不限于将各个每个图像块编码为对应的第二特征向量，以最终表示为第二中间层特征，也即，第二中间层特征表示由视觉信息生成的特征向量集合，该特征向量集合中的一个第二特征向量是对一个图像块编码得到的特征向量。

需要说明的是，上述图像块可以包括但不限于按照预先设定的方式对图像资源进行分割。

示例性地，图6是根据本申请实施例的又一种可选的媒体资源的处理方法的示意图，如图6所示，可以将初始图像资源均分为9个图像块，每个图像块即为上述一组图像块集合中的一个图像块，例如，图像块1、图像块2即为上述一个图像块。

示例性地，首先，将初始图像资源按照网格形状划分为多个图像块，将每个图像块由二维展平至一维，再使用卷积神经网络对其进行线性映射，得到编码后的一组第二特征向量，上述一组第二特征向量共同组成上述第二中间层特征。

作为一种可选的方案，根据预设表征向量、第一中间层特征以及第二中间层特征生成目标序列，包括：

为第一中间层特征以及第二中间层特征分别添加位置编码，生成第一序列，其中，位置编码用于表示第一中间层特征中各个特征向量的位置和第二中间层特征中各个特征向量的位置；

对第一序列中各个特征向量添加类型编码，得到目标序列，其中，类型编码用于表示第一序列中各个特征向量对应的模态。

可选地，在本实施例中，上述位置编码用于标记每个特征向量在目标序列的位置，上述类型编码用于标记上述每个特征向量所对应的模态。

在一个示例性的实施例中，以初始媒体资源是图像，第一媒体信息是文字信息，第二媒体信息是视觉信息为例，可以将第一中间层特征表示的文字的短词编码和第二中间层特征表示的图像块中的编码加入位置编码和类型编码，三种编码按照维度进行拼接，最终得到上述目标序列。

示例性地，图7是根据本申请实施例的又一种可选的媒体资源的处理方法的示意图，当获取到第一中间层特征和第二中间层特征之后，可以分别进行位置编码和类型编码，再将编码后得到的特征向量进行拼接，最终得到如图7所示的目标序列，其中，上述目标序列包括预设表征向量E_cls，表示文字信息的第一中间层特征E_t，表示视觉信息的第二中间层特征E_v。此外，特殊字符E_sep也被加入至目标序列，E_cls和E_sep使用特殊值进行初始化，E_cls为一个特定的字符表示图文融合后的特征，用于计算图像对相似度，E_sep用于分割视觉信息和文字信息的编码。

作为一种可选的方案，对目标序列执行自注意力机制运算，确定目标权重参数，包括：

将目标序列输入预训练的目标注意力模型，得到目标权重参数，其中，目标注意力模型是将一组样本媒体资源和一组样本标签输入初始注意力模型进行训练得到的模型，一组样本媒体资源包括第一样本媒体资源和第二样本媒体资源组成的目标样本对，一组样本标签中与目标样本对对应的样本标签表示第一样本媒体资源与第二样本媒体资源之间的相似度是否满足预设相似条件。

可选地，在本实施例中，上述目标注意力模型可以包括但不限于基于自注意力机制的神经网络模型，该模型通过输入一组样本媒体资源和一组样本标签来对初始注意力模型进行训练得到。上述一组样本媒体资源可以包括但不限于预先标注的样本媒体资源，标注的内容通过样本标签记录，每次输入初始注意力模型的数据为目标样本对。

在一个示例性的实施例中，以媒体资源是图像资源为例，上述目标样本对可以理解为一个图像对，上述与目标样本对对应的样本标签可以理解为该图像对是否相似，通过将一个图像对和表示该图像对是否相似的标签输入初始注意力模型进行，最终得到上述目标注意力模型。

作为一种可选的方案，上述方法还包括：利用一组样本媒体资源和一组样本标签对初始注意力模型进行多轮训练，得到目标参数集合，其中，每轮训练包括：将多个目标样本对和多个样本标签输入初始注意力模型，得到目标参数，其中，目标参数表示初始注意力模型的输出结果与对应的样本标签指示的结果相同的次数，一组样本媒体资源包括多个样本媒体资源，一组样本标签包括多个样本标签，目标参数集合包括目标参数；将目标参数集合中取值最大的目标参数对应的初始注意力模型确定为目标注意力模型。

可选地，在本实施例中，以媒体资源是图像资源为例，对初始注意力模型进行训练的流程可以包括但不限于如下步骤：

S1，将多个图像对依次输入上述初始注意力模型，得到该初始注意力模型输出的多个相似结果；

S2，将多个相似结果与对应的样本标签进行比较，得到多个图像对判断相似的准确率(对应于前述的目标参数)，其中，当相似结果与样本标签相同时，则认为该次输入的图像对的相似判断准确，当相似结果与样本标签不同时，则认为该次输入的图像对的相似判断不准确；

S3，重复执行上述步骤多轮，直到输出多个准确率(对应于前述的目标参数集合)，将准确率取值最高的一轮对应的初始注意力模型确定为上述目标注意力模型。

作为一种可选的方案，将目标序列输入预训练的目标注意力模型，得到目标权重参数，包括：

将目标序列输入目标注意力模块，确定目标权重矩阵，其中，目标权重矩阵的一个元素表示目标序列中的两个元素之间的相关程度；

根据目标权重矩阵确定目标权重参数，其中，目标权重参数是目标权重矩阵中与预设表征向量对应的元素。

可选地，在本实施例中，上述目标注意力模块可以包括但不限于由多个注意力模块组成，每个注意力模块的输入为上述目标序列，输出为加权融合后的序列。

在一个示例性的实施例中，图8是根据本申请实施例的又一种可选的媒体资源的处理方法的示意图，如图8所示，self-attention有三个输入，分别为query(Q)，key(K)和value(V)，在本实施例中，Q、K和V的值都是一致的，即为输入的目标序列的编码值。首先，计算Q和K之间的点乘，然后为了防止该结果过大，会在结果后除以一个尺度标度√d_k,其中，d_k为一个Q和K向量的维度，再利用Softmax操作将其结果归一化为概率分布，然后再乘以矩阵V就得到权重求和的表示。该操作可表示如下：

图8展示了self-attention的计算过程。图9是根据本申请实施例的又一种可选的媒体资源的处理方法的示意图，如图9所示，以X₃为例，每个输入的token都与其他token进行交互计算，输出新的加权后的特征值。E_cls作为一个特殊的字符用来表示图文融合后的特征，将输入的每一个token元素进行交互计算，从而为每个元素分配权重，使得最终输出为加权后的目标表征向量。

需要说明的是，上述目标权重矩阵可以包括但不限于为上述其中，该权重矩阵中的一个元素用于表示对相关的媒体信息进行加权的概率参数，通过查找与预设表征向量对应的元素进行加权的概率参数，将该概率参数确定为上述目标权重参数。

作为一种可选的方案，根据目标表征向量确定目标媒体资源，包括：获取预设媒体资源集合中各个媒体资源集合对应的表征向量集合；根据目标表征向量从表征向量集合中确定出目标媒体资源，其中，目标媒体资源对应的表征向量与目标表征向量的距离最小。

可选地，在本实施例中，上述预设媒体资源集合可以包括但不限于待查找相似图像的图像集合，该图像集合中各个图像已确定出对应的表征向量作为上述表征向量集合，此时，在表征向量集合中查找与目标表征向量距离最小的表征向量，并将该表征向量对应的媒体资源确定为上述目标媒体资源。

下面结合具体的示例，对本申请进行进一步的解释说明：

本申请主要可以应用在图像检索、匹配上，如给定一张输入图像(对应于前述的初始媒体资源)，检索与其相似的图像(对应于前述的目标媒体资源)，或对图像样本库利用相似度距离度量进行聚类。

本申请所提方法的流程包括：给定一张图像，首先利用文字检测和识别算法，检测出文字的位置并识别文字内容，并对文字进行预处理。其次，利用现有模型提取视觉的网格特征。最后，再将文字序列和视觉模态的特征同时输入至多模态融合网络，得到模态重要性加权的融合特征。通过以上步骤可获取单独图像的特征，本申请之后从数据集中采样图像对计算融合特征距离。若特征距离大于给定的阈值，则判定为不相似，反之为相似图像对。

S1，对于给定的图像对，首先利用OCR算法提取图片中的文字，首先将文本句子划分为词的组合，并将文字数量不同的图片中的文字都补齐至相同的长度，方便后期的训练，然后使用自然语言处理Bert模型对词进行编码，其中每个词的编码都是相同长度的一维向量。对于视觉部分，将图片按照网格形状划分一个个的图像块，将图像块由二维展平至一维，再使用卷积神经网络对其进行线性映射得到编码。随后将文本的短词编码和图像块中的编码加入位置编码和类型编码，三种编码按照维度进行拼接。在本申请中，E_t用来表示文本的编码，E_v表示视觉部分的编码。此外，两个特殊的字符E_cls和E_sep也被加入至输入序列中，两个字符使用特殊值进行初始化，E_cls为一个特定的字符表示图文融合后的特征，用于后面图像对相似度的计算。E_sep用于分割视觉和文本的编码。

S2，本申请利用S1中处理得到的文本和图片编码后，再将两种编码同时输入至多模态融合网络得到新特征(对应于前述的目标表征向量)，新特征具有感知到不同模态在计算相似度时的重要性的能力。为了实现该目标，本申请提出多模态融合网络，多模态融合网络输入为文字、图像的特征和两个特殊符号(token)的融合特征tokenE_cls和分割符号tokenE_sep(图中用Input tokens表示)，输出(Output tokens)是和输入相同维度的特征,本申请取E_cls通过该网络计算后的特征为图像的最终特征。该网络基于多个transformer模块组成，每个模块有三个基础的模块：multi head self attention,MLP,和两个Layer Norm。其中，multi head self attention是将输入沿通道维度划分为n个特征，单独用n个不共享的分支分别进行self attention，然后将输出的n个特征进行拼接。由于n个分支不共享参数，互相独立，可以建模不同的关系，可理解为模型集成。

Layer Norm:根据网络层的维度进行归一化。首先，求取每个输入token中的方差和均值，使用方差和均值对输入token进行标准化，以稳定模型的学习。

MLP：多层感知机，由一系列全链接层组成，一方面可降低编码的维度，另一方面通过线性运算可以提升模型对融合特征的表达能力。

Self-attention：将输入的每一个token元素进行交互计算，从而为每个元素分配权重，使得最终输出为加权后的图像特征，self-attention有三个输入，分别为query(Q)，key(K)和value(V)，在本申请中Q、K和V的值都是一致的，即为输入序列的编码值。首先，计算Q和K之间的点乘，然后为了防止该结果过大，会在结果后除以一个尺度标度其中d_k为一个Q和K向量的维度。再利用Softmax操作将其结果归一化为概率分布，然后再乘以矩阵V就得到权重求和的表示。该操作可表示如下：

图9展示了self-attention的计算过程，以X₃为例，每个输入的token都与其他token进行交互计算，输出新的加权后的特征值。E_cls作为一个特殊的字符用来表示图文融合后的特征，

S3，相似度度量，在实际应用过程中，将图像输入步骤S2得到特征值E_c _l _s输出来表示图文的融合特征，计算各图像间特征值的欧式距离即为图像之间的相似度距离，距离越小则越相似。一般可通过设定一个阈值判断最终是否相似，小于阈值则相似，否则不相似。

本申请提出的基于动态加权的图像文字相似度学习方法，可以自适应为图像中的文字模态和视觉模态分配权重，关注到图片所传达的主要信息，减少相似图片被误检为不相似的图像对，从而使得模型更加鲁棒。本申请中对文字编码的Bert模型也可采用其他的文字编码模型，视觉中的网格特征也可以采用其他的编码模型。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述媒体资源的处理方法的媒体资源的处理装置。如图10所示，该装置包括：

获取模块1002，用于获取待识别的初始媒体资源，其中，所述初始媒体资源包括待识别的第一媒体信息和第二媒体信息，所述第一媒体信息与所述第二媒体信息是属于不同模态的媒体信息；

识别模块1004，用于对所述初始媒体资源执行目标识别操作，得到目标表征向量，其中，所述目标识别操作用于分别对所述第一媒体信息和所述第二媒体信息进行识别，得到第一中间层特征和第二中间层特征，所述目标表征向量是对所述第一中间层特征和所述第二中间层特征加权融合得到的表征向量；

确定模块1006，用于根据所述目标表征向量确定目标媒体资源，其中，所述目标媒体资源是与所述初始媒体资源之间的相似度满足预设相似条件的媒体资源，所述相似度由所述目标表征向量和所述目标媒体资源对应的表征向量确定。

作为一种可选的方案，所述装置用于通过如下方式对所述初始媒体资源执行目标识别操作，得到目标表征向量：获取预设表征向量，其中，所述预设表征向量表示预先确定的融合了不同模态的媒体信息的表征向量；对所述初始媒体资源执行目标识别操作，确定目标权重参数，其中，所述目标权重参数用于表示所述初始媒体资源中所述第一媒体信息和所述第二媒体信息各自的重要性；根据所述预设表征向量和所述目标权重参数共同确定所述目标表征向量。

作为一种可选的方案，所述装置用于通过如下方式对所述初始媒体资源执行目标识别操作，确定目标权重参数：对所述初始媒体资源执行第一识别操作，得到所述第一中间层特征，其中，所述第一中间层特征用于表示对所述第一媒体信息进行提取得到的特征向量；对所述初始媒体资源执行第二识别操作，得到第二中间层特征，其中，所述第二中间层特征用于表示对所述第二媒体信息进行提取得到的特征向量；根据所述预设表征向量、所述第一中间层特征以及所述第二中间层特征生成目标序列；对所述目标序列执行自注意力机制运算，确定所述目标权重参数。

作为一种可选的方案，所述装置用于通过如下方式对所述初始媒体资源执行第一识别操作，得到所述第一中间层特征：在所述初始媒体资源是图像资源的情况下，对所述初始媒体资源执行文字识别操作，得到一组词组，其中，所述一组词组中每个词组的长度相同；对所述一组词组执行第一编码操作，得到所述第一中间层特征，其中，所述第一中间层特征包括一组第一特征向量，所述一组第一特征向量中的特征向量与所述一组词组中的词组一一对应。

作为一种可选的方案，所述装置用于通过如下方式对所述初始媒体资源执行第二识别操作，得到第二中间层特征：在所述初始媒体资源是图像资源的情况下，将所述初始媒体资源划分为一组图像块集合；对所述一组图像块集合中的每个图像块分别执行第二编码操作，得到所述第二中间层特征，其中，所述第二中间层特征包括一组第二特征向量，所述一组第二特征向量中的特征向量与所述一组图像块中的一个图像块一一对应。

作为一种可选的方案，所述装置用于通过如下方式根据所述预设表征向量、所述第一中间层特征以及所述第二中间层特征生成目标序列：为所述第一中间层特征以及所述第二中间层特征分别添加位置编码，生成第一序列，其中，所述位置编码用于表示所述第一中间层特征中各个特征向量的位置和所述第二中间层特征中各个特征向量的位置；对所述第一序列中各个特征向量添加类型编码，得到所述目标序列，其中，所述类型编码用于表示所述第一序列中各个特征向量对应的模态。

作为一种可选的方案，所述装置用于通过如下方式对所述目标序列执行自注意力机制运算，确定所述目标权重参数：将所述目标序列输入预训练的目标注意力模型，得到所述目标权重参数，其中，所述目标注意力模型是将一组样本媒体资源和一组样本标签输入初始注意力模型进行训练得到的模型，所述一组样本媒体资源包括第一样本媒体资源和第二样本媒体资源组成的目标样本对，所述一组样本标签中与所述目标样本对对应的样本标签表示所述第一样本媒体资源与所述第二样本媒体资源之间的相似度是否满足所述预设相似条件。

作为一种可选的方案，所述装置还用于：利用所述一组样本媒体资源和所述一组样本标签对所述初始注意力模型进行多轮训练，得到目标参数集合，其中，每轮训练包括：将多个所述目标样本对和多个样本标签输入所述初始注意力模型，得到目标参数，其中，所述目标参数表示所述初始注意力模型的输出结果与对应的所述样本标签指示的结果相同的次数，所述一组样本媒体资源包括所述多个样本媒体资源，所述一组样本标签包括所述多个样本标签，所述目标参数集合包括所述目标参数；将所述目标参数集合中取值最大的所述目标参数对应的初始注意力模型确定为所述目标注意力模型。

作为一种可选的方案，所述装置用于通过如下方式将所述目标序列输入预训练的目标注意力模型，得到所述目标权重参数：将所述目标序列输入目标注意力模块，确定目标权重矩阵，其中，所述目标权重矩阵的一个元素表示所述目标序列中的两个元素之间的相关程度；根据所述目标权重矩阵确定所述目标权重参数，其中，所述目标权重参数是所述目标权重矩阵中与所述预设表征向量对应的元素。

作为一种可选的方案，所述装置用于通过如下方式根据所述目标表征向量确定目标媒体资源：获取预设媒体资源集合中各个媒体资源集合对应的表征向量集合；根据所述目标表征向量从所述表征向量集合中确定出所述目标媒体资源，其中，所述目标媒体资源对应的表征向量与所述目标表征向量的距离最小。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理器1111执行时，执行本申请实施例提供的各种功能。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

图11示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理器1111(Central Processing Unit，CPU)，其可以根据存储在只读存储器1102(Read-Only Memory，ROM)中的程序或者从存储部分1108加载到随机访问存储器1103(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1103中，还存储有系统操作所需的各种程序和数据。中央处理器1111、在只读存储器1102以及随机访问存储器1103通过总线1104彼此相连。输入/输出接口1105(Input/Output接口，即I/O接口)也连接至总线1104。

以下部件连接至输入/输出接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至输入/输出接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理器1111执行时，执行本申请的系统中限定的各种功能。

根据本申请实施例的又一个方面，还提供了一种用于实施上述媒体资源的处理方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图12所示，该电子设备包括存储器1202和处理器1204，该存储器1202中存储有计算机程序，该处理器1204被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待识别的初始媒体资源，其中，初始媒体资源包括待识别的第一媒体信息和第二媒体信息，第一媒体信息与第二媒体信息是属于不同模态的媒体信息；

S2，对初始媒体资源执行目标识别操作，得到目标表征向量，其中，目标识别操作用于分别对第一媒体信息和第二媒体信息进行识别，得到第一中间层特征和第二中间层特征，目标表征向量是对第一中间层特征和第二中间层特征加权融合得到的表征向量；

S3，根据目标表征向量确定目标媒体资源，其中，目标媒体资源是与初始媒体资源之间的相似度满足预设相似条件的媒体资源，相似度由目标表征向量和目标媒体资源对应的表征向量确定。

可选地，本领域普通技术人员可以理解，图12所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图12中所示更多或者更少的组件(如网络接口等)，或者具有与图12所示不同的配置。

其中，存储器1202可用于存储软件程序以及模块，如本申请实施例中的媒体资源的处理方法和装置对应的程序指令/模块，处理器1204通过运行存储在存储器1202内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的媒体资源的处理方法。存储器1202可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1202可进一步包括相对于处理器1204远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1202具体可以但不限于用于存储媒体资源等信息。作为一种示例，如图12所示，上述存储器1202中可以但不限于包括上述媒体资源的处理装置中的获取模块1002、识别模块1004以及确定模块1006。此外，还可以包括但不限于上述媒体资源的处理装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1206包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1206为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1208，用于显示上述媒体资源；和连接总线1210，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述媒体资源的处理方面的各种可选实现方式中提供的媒体资源的处理方法。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种媒体资源的处理方法，其特征在于，包括：

获取待识别的初始媒体资源，其中，所述初始媒体资源包括待识别的第一媒体信息和第二媒体信息，所述第一媒体信息与所述第二媒体信息是属于不同模态的媒体信息；

对所述初始媒体资源执行目标识别操作，得到目标表征向量，其中，所述目标识别操作用于分别对所述第一媒体信息和所述第二媒体信息进行识别，得到第一中间层特征和第二中间层特征，所述目标表征向量是对所述第一中间层特征和所述第二中间层特征加权融合得到的表征向量；

根据所述目标表征向量确定目标媒体资源，其中，所述目标媒体资源是与所述初始媒体资源之间的相似度满足预设相似条件的媒体资源，所述相似度由所述目标表征向量和所述目标媒体资源对应的表征向量确定。

2.根据权利要求1所述的方法，其特征在于，所述对所述初始媒体资源执行目标识别操作，得到目标表征向量，包括：

获取预设表征向量，其中，所述预设表征向量表示预先确定的融合了不同模态的媒体信息的表征向量；

对所述初始媒体资源执行目标识别操作，确定目标权重参数，其中，所述目标权重参数用于表示所述初始媒体资源中所述第一媒体信息和所述第二媒体信息各自的重要性；

根据所述预设表征向量和所述目标权重参数共同确定所述目标表征向量。

3.根据权利要求2所述的方法，其特征在于，所述对所述初始媒体资源执行目标识别操作，确定目标权重参数，包括：

对所述初始媒体资源执行第一识别操作，得到所述第一中间层特征，其中，所述第一中间层特征用于表示对所述第一媒体信息进行提取得到的特征向量；

对所述初始媒体资源执行第二识别操作，得到第二中间层特征，其中，所述第二中间层特征用于表示对所述第二媒体信息进行提取得到的特征向量；

根据所述预设表征向量、所述第一中间层特征以及所述第二中间层特征生成目标序列；

对所述目标序列执行自注意力机制运算，确定所述目标权重参数。

4.根据权利要求3所述的方法，其特征在于，所述对所述初始媒体资源执行第一识别操作，得到所述第一中间层特征，包括：

在所述初始媒体资源是图像资源的情况下，对所述初始媒体资源执行文字识别操作，得到一组词组，其中，所述一组词组中每个词组的长度相同；

对所述一组词组执行第一编码操作，得到所述第一中间层特征，其中，所述第一中间层特征包括一组第一特征向量，所述一组第一特征向量中的特征向量与所述一组词组中的词组一一对应。

5.根据权利要求3所述的方法，其特征在于，所述对所述初始媒体资源执行第二识别操作，得到第二中间层特征，包括：

在所述初始媒体资源是图像资源的情况下，将所述初始媒体资源划分为一组图像块集合；

对所述一组图像块集合中的每个图像块分别执行第二编码操作，得到所述第二中间层特征，其中，所述第二中间层特征包括一组第二特征向量，所述一组第二特征向量中的特征向量与所述一组图像块中的一个图像块一一对应。

6.根据权利要求3所述的方法，其特征在于，所述根据所述预设表征向量、所述第一中间层特征以及所述第二中间层特征生成目标序列，包括：

为所述第一中间层特征以及所述第二中间层特征分别添加位置编码，生成第一序列，其中，所述位置编码用于表示所述第一中间层特征中各个特征向量的位置和所述第二中间层特征中各个特征向量的位置；

对所述第一序列中各个特征向量添加类型编码，得到所述目标序列，其中，所述类型编码用于表示所述第一序列中各个特征向量对应的模态。

7.根据权利要求3所述的方法，其特征在于，所述对所述目标序列执行自注意力机制运算，确定所述目标权重参数，包括：

将所述目标序列输入预训练的目标注意力模型，得到所述目标权重参数，其中，所述目标注意力模型是将一组样本媒体资源和一组样本标签输入初始注意力模型进行训练得到的模型，所述一组样本媒体资源包括第一样本媒体资源和第二样本媒体资源组成的目标样本对，所述一组样本标签中与所述目标样本对对应的样本标签表示所述第一样本媒体资源与所述第二样本媒体资源之间的相似度是否满足所述预设相似条件。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

利用所述一组样本媒体资源和所述一组样本标签对所述初始注意力模型进行多轮训练，得到目标参数集合，其中，每轮训练包括：将多个所述目标样本对和多个样本标签输入所述初始注意力模型，得到目标参数，其中，所述目标参数表示所述初始注意力模型的输出结果与对应的所述样本标签指示的结果相同的次数，所述一组样本媒体资源包括所述多个样本媒体资源，所述一组样本标签包括所述多个样本标签，所述目标参数集合包括所述目标参数；

将所述目标参数集合中取值最大的所述目标参数对应的初始注意力模型确定为所述目标注意力模型。

9.根据权利要求7所述的方法，其特征在于，所述将所述目标序列输入预训练的目标注意力模型，得到所述目标权重参数，包括：

将所述目标序列输入目标注意力模块，确定目标权重矩阵，其中，所述目标权重矩阵的一个元素表示所述目标序列中的两个元素之间的相关程度；

根据所述目标权重矩阵确定所述目标权重参数，其中，所述目标权重参数是所述目标权重矩阵中与所述预设表征向量对应的元素。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述根据所述目标表征向量确定目标媒体资源，包括：

获取预设媒体资源集合中各个媒体资源集合对应的表征向量集合；

根据所述目标表征向量从所述表征向量集合中确定出所述目标媒体资源，其中，所述目标媒体资源对应的表征向量与所述目标表征向量的距离最小。

11.一种媒体资源的处理装置，其特征在于，包括：

12.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序可被终端设备或计算机运行时执行所述权利要求1至10任一项中所述的方法。

13.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至10任一项中所述方法的步骤。

14.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。