CN114186093A

CN114186093A - 多媒体数据的处理方法、装置、设备和介质

Info

Publication number: CN114186093A
Application number: CN202111521051.5A
Authority: CN
Inventors: 陈帅; 汪琦; 冯知凡; 柴春光; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-15
Anticipated expiration: 2041-12-13
Also published as: US20230115737A1; CN114186093B; EP4123471A2; EP4123471A3

Abstract

本公开提供了一种多媒体数据的处理方法、装置、设备和介质，涉及人工智能领域，具体涉及知识图谱领域和深度学习领域。该处理多媒体数据的方法包括：识别多媒体数据，获得多媒体数据的至少一个关键信息；根据至少一个关键信息查询预定知识库，确定与至少一个关键信息关联的多媒体名称以及多媒体名称与至少一个关键信息之间的关联度；以及在关联度小于第一阈值的情况下，基于针对多媒体名称的备选多媒体数据与多媒体数据之间的相似度，确定多媒体名称中多媒体数据的名称。

Description

多媒体数据的处理方法、装置、设备和介质

技术领域

本公开涉及人工智能领域，具体涉及知识图谱领域和深度学习领域，更具体地涉及一种多媒体数据的处理方法、装置、电子设备和存储介质。

背景技术

随着电子技术和互联网技术的发展，传播多媒体数据的形式越来越多样化。例如，存在从完整的多媒体数据中截取部分数据进行传播的形式。为了对多媒体数据的传播进行更好的管理，通常需要对多媒体数据进行深层次的理解。

发明内容

提供了一种提高处理效率和处理准确性的多媒体数据的处理方法、装置、电子设备和存储介质。

本公开的一个方面提供了一种多媒体数据的处理方法，包括：识别多媒体数据，获得多媒体数据的至少一个关键信息；根据至少一个关键信息查询预定知识库，确定与至少一个关键信息关联的多媒体名称以及多媒体名称与至少一个关键信息之间的关联度；以及在关联度小于第一阈值的情况下，基于针对多媒体名称的备选多媒体数据与多媒体数据之间的相似度，确定多媒体名称中多媒体数据的名称。

本公开的另一个方面提供了一种多媒体数据的处理装置，包括：关键信息获得模块，用于识别多媒体数据，获得所述多媒体数据的至少一个关键信息；信息确定模块，用于根据至少一个关键信息查询预定知识库，确定与至少一个关键信息关联的多媒体名称以及多媒体名称与至少一个关键信息之间的关联度；以及名称确定模块，用于在关联度小于第一阈值的情况下，基于针对多媒体名称的备选多媒体数据与多媒体数据之间的相似度，确定多媒体名称中多媒体数据的名称。

本公开的另一个方面提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的多媒体数据的处理方法。

根据本公开的另一个方面提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的多媒体数据的处理方法。

根据本公开的另一个方面提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的多媒体数据的处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的多媒体数据的处理方法和装置的应用场景示意图；

图2是根据本公开实施例的多媒体数据的处理方法的流程示意图；

图3是根据本公开实施例的确定多媒体名称及多媒体名称与关键信息之间的关联度的原理示意图；

图4是根据本公开实施例的得到第一特征数据的原理示意图；

图5是根据本公开实施例的得到每个特征序列的目标特征的原理示意图；

图6是根据本公开实施例的多媒体数据的处理方法的原理示意图；

图7是根据本公开实施例的训练编码网络的原理示意图；

图8是根据本公开实施例的多媒体数据的处理装置的结构框图；以及

图9是用来实施本公开实施例的多媒体数据的处理方法的电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本公开的实施例，在对从完整的多媒体数据中截取的部分数据进行深层次理解时，对截取的部分数据所属多媒体数据的名称的识别尤其重要。例如，在得知截取的部分数据所属多媒体数据的名称后，可以便于融合完整的多媒体数据，来对截取的部分数据进行内容理解。

基于此，本公开提供了一种多媒体数据的处理方法，该方法包括关键信息获得阶段、信息确定阶段和名称确定阶段。在关键信息获得阶段中，识别多媒体数据，获得多媒体数据的至少一个关键信息。在信息确定阶段中，根据至少一个关键信息查询预定知识库，确定与至少一个关键信息关联的多媒体名称以及多媒体名称与至少一个关键信息之间的关联度。在名称确定阶段中，在关联度小于第一阈值的情况下，基于针对多媒体名称的备选多媒体数据与多媒体数据之间的相似度，确定多媒体名称中多媒体数据的名称。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的多媒体数据的处理方法和装置的应用场景图。

如图1所示，该应用场景100可以包括终端设备110，该终端设备110可以为具有处理功能的任意电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机等等。

该终端设备110例如可以对输入的多媒体数据120进行识别，从而确定该多媒体数据120的名称130。例如，在对该多媒体数据120进行识别时，可以通过根据多媒体数据的关键信息来查询预定知识库140，该预定知识库140中维护有关键信息与多媒体名称之间的关联关系。

在一实施例中，该应用场景100还可以包括服务器150，该服务器150例如可以维护前述的预定知识库140。终端设备110可以通过网络与服务器150通信连接。例如，终端设备110可以向服务器150发送获取请求，服务器150响应于该获取请求向终端设备110发送该预定知识库140，以便于终端设备110查询。

在一实施例中，终端设备110还可以将多媒体数据120发送至服务器150，由服务器150对该多媒体数据120进行识别，确定该多媒体数据120的名称130。

需要说明的是，本公开提供的多媒体数据的处理方法例如可以由终端设备110或服务器150执行。相应地，本公开提供的多媒体数据的处理装置可以设置在终端设备110或者服务器150中。

可以理解的是，该应用场景中的终端设备、服务器的类型和数目仅仅是示意性的。根据实现需要，可以具有任意数目和类型的终端设备、服务器。

以下将结合图2～图7对本公开提供的多媒体数据的处理方法进行详细描述。

图2是根据本公开实施例的多媒体数据的处理方法的流程示意图。

如图2所示，该实施例的多媒体数据的处理方法200可以包括操作S210～操作S230。

在操作S210，识别多媒体数据，获得多媒体数据的至少一个关键信息。

根据本公开的实施例，多媒体数据例如可以为文本数据、音频数据和/或图像数据。例如，该多媒体数据可以为包括文本数据、音频数据和图像数据的视频。

在多媒体数据为文本数据时，该实施例可以将从文本数据中提取的关键词等作为关键信息。在多媒体数据为音频数据时，该实施例可以将音频数据转换得到的文本中的关键词作为关键信息。在多媒体数据为图像数据时，该实施例可以对图像数据进行目标检测，将检测得到的目标的名称作为关键信息。

在多媒体数据为多种类型的数据时，该实施例可以将从多种类型的数据中提取的信息的并集作为关键信息。

在操作S220，根据至少一个关键信息查询预定知识库，确定与至少一个关键信息关联的多媒体名称以及多媒体名称与至少一个关键信息之间的关联度。

根据本公开的实施例，可以从预定知识库中获取与至少一个关键信息具有关联关系的多媒体名称，从而得到至少一个多媒体名称。在关键信息为多个，且有多媒体名称与至少两个关键信息有关联时，该实施例可以对与多个关键信息关联的多媒体名称进行去重，从而得到至少一个多媒体名称。

例如，若多媒体数据为文本数据，则多媒体名称可以为文章的题目名称。若多媒体数据为音频数据/图像数据，则多媒体名称可以为音频/图像的名称。若多媒体数据为影视视频时，则多媒体名称可以为影视剧名。

根据本公开的实施例，该预定知识库中例如可以维护有关键信息与多媒体名称之间的关联度。因此，该实施例可以直接从该预定知识库中获取该关联度。在关键信息为多个，且有多媒体名称与至少两个关键信息有关联时，可以将多媒体名称与该至少两个关键信息的关联度中的最大关联度，作为操作S220确定的关联度。或者，该预定知识库例如可以为知识图谱，该实施例可以根据多媒体名称与关键信息之间的距离，来确定关联度。距离越近，则关联度越高。该多媒体名称与关键信息之间的距离例如可以与两者之间的跳数正相关。两者之间的跳数是指：从表示关键信息的节点为起点，查找到表示多媒体名称的节点所经过的边的个数。

可以理解的是，对于每个多媒体名称，都有一个与至少一个关键信息之间的关联度。即，关联度与多媒体名称一一对应。

在操作S230，在关联度小于第一阈值的情况下，基于针对多媒体名称的备选多媒体数据与多媒体数据之间的相似度，确定多媒体名称中多媒体数据的名称。

若与多媒体名称一一对应的关联度中存在大于或等于第一阈值的关联度，则将该关联度对应的多媒体名称作为多媒体数据的名称。若与多媒体名称一一对应的关联度中，存在多个大于或等于第一阈值的关联度，则将最高关联度对应的多媒体名称作为多媒体数据的名称。其中，第一阈值可以根据实际需求进行设定，例如可以为0.5、0.3等，本公开对此不做限定。

若与多媒体名称一一对应的关联度中不存在大于或等于第一阈值的关联度，则可以先从媒体库中获取针对多媒体名称的备选多媒体数据。若操作S220获取的多媒体名称为多个，则可以获取到多组备选多媒体数据，每组备选多媒体数据针对一个多媒体名称。该每组备选多媒体数据可以包括一个或多个多媒体数据。

该实施例可以将多媒体数据的特征数据与备选多媒体数据的特征数据之间的相似度，作为多媒体数据与备选多媒体数据之间的相似度。其中，可以采用神经网络模型来提取多媒体数据的特征数据及备选多媒体数据的特征数据。例如，神经网络模型的类型可以根据多媒体数据的类型来确定。若多媒体数据为文本，则神经网络可以为基于Transformer的双向编码表示网络(Bidirectional Encoder Representation from Transformers，BERT)、具有信息实体的增强语言表示网络(Enhanced language Representation withInformative Entity，ERNIE)等，若多媒体数据为图像，则神经网络可以为残差网络(Residual Network，ResNet)、起点网络(Inception Network)、极端起点网络(ExtremeInception Network，Xception)等网络。若多媒体数据为音频，则神经网络可以包括将音频转为文本的网络(例如隐马尔科夫模型等)及前述的BERT、ERNIE等，或者，该神经网络可以为基于TensorFlow框架的视觉几何群网络(VGGish)等，本公开对此不做限定。其中，视觉几何群网络的全称为VisualGeometry Group Network，缩写为VGG。

在得到多媒体数据与备选多媒体数据之间的相似度后，可以将与多媒体数据的相似度最高的备选多媒体数据所针对的多媒体名称，作为多媒体数据的名称。

综上可知，本公开实施例的多媒体数据的处理方法，通过先根据关键信息查询预定知识库的显示推理方式来找到关联的多媒体名称，随后在多媒体名称与关键信息的关联度小的情况下，仅确定针对多媒体名称的多媒体数据为备选多媒体数据，可以过滤掉多媒体数据库中的绝大多数无关数据。因此，可以有效提高确定多媒体数据的名称的效率。再者，通过在多媒体名称与关键信息的关联度小的情况下，根据备选多媒体数据与待处理的多媒体数据之间的相似度的隐式推理方式来确定多媒体名称，可以在一定程度上弥补显示推理方式存在的短板，更为准确地确定关键信息作为查询证据不充分的多媒体数据的名称。

在一实施例中，前述的多媒体数据可以包括图像及针对图像的文本。例如，多媒体数据例如可以为视频，多媒体数据包括的图像可以为视频中的关键帧，多媒体数据包括的文本可以为该关键帧对应的字幕。例如，视频可以为短视频平台中的短视频，多媒体数据包括的文本还可以包括视频的标题等。

相应地，在获得多媒体数据的至少一个关键信息时，可以识别图像中的目标对象，获得目标对象的对象信息，同时识别针对图像的文本，获得文本中的实体信息。将得到的对象信息和实体信息作为关键信息。

其中，可以采用人脸检测模型等来对图像中的目标对象进行识别，模型的输入为图像，输出为图像中目标对象的对象名称。例如，可以对视频中的演员进行识别，输出为演员的姓名。可以采用与实体词库匹配的方法或深度学习方法来获取文本中的实体信息。其中，深度学习方法例如可以为：将文本输入长短期记忆网络与条件随机场网络相结构构成的模型(Long-Short Term Memory Network+Conditional Random Field，LSTM+CRF)等实体识别模型中，由该实体识别模型为文本中的每个词输出的标注来确定文本中的实体信息。该实体识别模型输出的标注可以表征该文本中的每个词是否为实体词，将标注为实体词的词作为实体信息。在多媒体数据为影视剧的短视频时，识别得到的实体词例如可以包括角色名、影视剧名等，本公开对此不做限定。

该实施例通过结合图像和文本来获得多媒体数据的关键信息，可以在一定程度上提高获得的关键信息的全面性，从而便于提高从预定知识库中查询的多媒体名称的多样性和准确性。

图3是根据本公开实施例的确定多媒体名称及多媒体名称与关键信息之间的关联度的原理示意图。

根据本公开的实施例，预定知识库可以包括知识图谱，该知识图谱由节点(Point)和边(Edge)组成。其中，节点表示实体，边表示实体与实体之间的关系。例如，该预定知识库中的节点表示的实体可以包括：多媒体数据的名称和多媒体数据的关键信息。在多媒体数据为视频时，节点表示的实体可以包括：演员名、角色名、影视剧名等，也可以包括动物名、植物名等。边表示的关系可以包括实体之间的从属关系、同义关系、相关关系和/或因果关系等。可以理解的是，该知识图谱中边和节点表示的信息仅作为示例以利于理解本公开，本公开对此不做限定。

如图3所示，该实施例300中，设定多媒体数据310的关键信息为N个，该N可以为大于等于2的任意值。该实施例300在确定多媒体名称及关联度时，对于N个关键信息中的第1关键信息321～第N关键信息322，可以根据每个关键信息查询知识图谱330，确定知识图谱330中表示该每个关键信息的节点，并确定与表示该每个关键信息的节点连接的节点所表示的信息中是否包括多媒体名称。若包括，则将该多媒体名称作为知识图谱中与该每个关键信息连接的多媒体名称。如此，针对第1关键信息321，可以得到第1多媒体名称341，针对第N关键信息322，可以得到第N多媒体名称342。其中，与每个关键信息连接的多媒体名称可以为一个或多个，本公开对此不做限定。

该实施例可以将与N个关键信息连接的所有多媒体名称进行汇总，并执行去重操作，得到多媒体名称集合350，以作为前述的与至少一个关键信息关联的多媒体名称。例如，该多媒体名称集合350中可以包括“名称1”、...、“名称M”共计M个名称。随后，针对该多媒体名称集合350中的每个名称，确定N个关键信息中与该每个名称连接的关键信息的个数。例如，若确定知识图谱中与关键信息“演员a”连接的多媒体名称包括“电视剧A”，且知识图谱中与关键信息“角色b”连接的多媒体名称也包括“电视剧A”，则对于名称“电视剧A”，确定的连接的关键信息的个数即为2。例如，与多媒体名称集合350中的“名称1”连接的关键信息个数为第1个数361，...，与“名称M”连接的关键信息个数为第M个数362，共计得到M个个数。其中，M为大于等于2的整数，且该M可以小于等于N，也可以大于N。

在一实例中，还可以将与N个关键信息关联的所有多媒体名称进行汇总，得到多媒体名称组，并对该名称组中的名称进行归类，将相同的名称归为一类。该实施例可以确定每类名称中名称的个数，该个数与前文确定的与每个名称连接的关键信息个数相等。

随后，可以根据该M个个数，确定每个名称与至少两个关键信息之间的关联度。例如，可以得到“名称1”与至少两个关键信息之间的第1关联度371，得到“名称M”与至少两个关键信息之间的第M关联度372，共计M个关联度。至此，完成多媒体名称和关联度的确定。

例如，该实施例可以先计算M个个数的总和，然后将第j个数与该总和的比值作为M个名称中第j个名称与N个关键信息之间的关联度。其中，j为大于等于1，且小于等于M的整数。例如，设定n_j为第j个个数的取值，则第j个名称与N个关键信息之间的关联度P_j可以表示为：

通过采用上述方法来确定关联度，可以使得确定的关联度能够更贴合地表达从知识图谱中确定的多媒体名称与多媒体数据之间的关联关系，并因此在M个关联度中存在大于等于第一阈值的关联度的情况下，可以提高确定的多媒体数据的名称的准确性。

图4是根据本公开实施例的得到第一特征数据的原理示意图。

根据本公开的实施例，在确定多媒体名称中多媒体数据的名称时，可以先对多媒体数据进行编码，得到多媒体数据的第一特征数据。然后确定每个备选多媒体数据的第二特征数据与第一特征数据之间的相似度。最后，将多个备选多媒体数据中，第二特征数据与第一特征数据之间的相似度大于等于第二阈值的备选多媒体数据，作为目标数据。最终将该目标数据所针对的多媒体名称作为多媒体数据的名称。

在一实施例中，多媒体数据例如可以包括以下至少一个模态的数据：图像模态、文本模态和音频模态。例如，多媒体数据可以为视频数据，该视频数据包括连续的多个视频帧(即图像模态的数据)、连续的多个文本(文本模态的数据)和连续的多个音频段(即音频模态的数据)。该实施例可以采用前文描述的根据多媒体数据的类型确定的神经网络模型来对该至少一个模态的数据编码，得到分别对应该至少一个模态的至少一个特征序列。随后，融合至少一个特征序列中的特征，得到第一特征数据。其中，连续的多个文本可以为字幕中的多个语句文本，连续的多个音频段可以为与多个语句文本对应的音频段。

例如，在融合至少一个特征序列中的特征时，可以先对每个特征序列包括的特征进行融合，得到针对每个特征序列的目标特征。随后根据针对每个特征序列的目标特征，得到第一特征数据。

如图4所示，在一实施例400中，以多媒体数据410包括连续的多个视频帧411、连续的多个文本412和连续的多个音频段413为例，对多个视频帧411编码，可以得到图像特征序列421，对多个文本412编码，可以得到文本特征序列422，对多个音频段413编码，可以得到音频特征序列423。其中，图像特征序列421中的每个特征对应一个视频帧，文本特征序列422中的每个特征对应一个文本，音频特征序列423中的每个特征对应一个音频段。

例如，针对每个特征序列，可以融合该每个特征序列中的多个特征，得到针对一个模态的目标特征，最后将针对至少一个模态的至少一个目标特征拼接，得到第一特征数据。融合每个特征序列中的多个特征时，可以将该多个特征拼接后，经由多层感知机来对拼接后的特征进行处理，从而得到针对一个模态的特征。或者，可以将每个特征序列输入递归神经网络中进行编码，将递归神经网络输出的特征作为针对一个模态的特征。其中，递归神经网络例如可以为LSTM网络或者基于注意力机制的编码网络等。在一实施例中，可以采用Transformer网络的编码器来对每个特征序列进行编码。

该实施例通过融合每个特征序列中的多个特征来得到目标特征，并根据目标特征来得到第一特征数据，可以在一定程度上提高第一特征数据的表达能力，使得该第一特征数据可以表达多媒体数据的上下文信息。基于此，便于提高确定的多媒体数据的名称的准确性。

在一实施例中，在对每个特征序列进行编码之前，还可以对每个特征序列包括的特征进行池化操作，得到针对每个特征序列的标识特征。例如，对于图像特征序列421，经池化操作可以得到图像标识特征431。对于文本特征序列422，经池化操作可以得到文本标识特征432。对于音频特征序列423，经池化操作可以得到音频标识特征433。其中，池化操作例如可以包括最大池化操作或者平均池化操作。池化操作得到的标识特征可以在一定程度上表示特征序列中的每个特征。

在得到每个特征序列的标识特征后，可以将该标识特征添加至每个特征序列，从而得到调整后特征序列。例如，可以将标识特征加入到每个特征序列的首位。对于图像特征序列421，通过添加图像标识特征431，可以得到调整后图像特征序列441。对于文本特征序列422，通过添加文本标识特征432，可以得到调整后文本特征序列442。对于音频特征序列423，通过添加音频标识特征433，可以得到调整后音频特征序列443。

在得到调整后特征序列后，可以采用编码网络对调整后特征序列编码，得到针对每个特征序列的编码特征序列。其中，编码网络可以为前文描述的递归神经网络。例如，该实施例可以采用基于注意力机制的编码网络，以此提高得到的编码特征序列的表达能力，使得该编码特征序列能够表达更长的上下文信息。例如，对于调整后图像特征序列441，通过编码网络编码后可以得到图像编码特征序列451。对于调整后文本特征序列442，通过编码网络编码后可以得到文本编码特征序列452。对于调整后音频特征序列443，通过编码网络编码后可以得到音频编码特征序列453。

在得到针对每个特征序列的编码特征序列后，可以基于编码特征序列中与标识特征对应的编码特征，确定多媒体数据的特征数据。例如，将图像编码特征序列451中与图像标识特征431对应的第一编码特征461、文本编码特征序列452中与文本标识特征432对应的第二编码特征462、及音频编码特征序列453中与音频标识特征433对应的第三编码特征463拼接，从而得到第一特征数据470。

在一实施例中，还可以先采用编码网络对每个特征序列编码，得到一个编码特征序列。然后对该编码特征序列包括的特征进行池化操作，得到针对该每个特征序列的标识特征。最后，将针对至少一个特征序列的至少一个标识特征拼接，得到第一特征数据。

本公开实施例通过对特征池化操作得到标识特征，并根据该标识特征来得到第一特征数据，可以在保证第一特征数据的表达能力的同时，缩减该第一特征数据的数据量。

图5是根据本公开实施例的得到每个特征序列的目标特征的原理示意图。

在一实施例中，在得到每个模态的特征序列时，除了通过采用前文描述的根据多媒体数据的类型确定的神经网络模型来对该每个模态的数据编码外，例如还可以为该每个模态的数据分配位置编码，以此便于在融合每个模态的特征序列中的特征时，可以借助该位置编码更好地学习该每个模态的数据的上下文信息，并因此利于提高得到的每个特征序列的目标特征的准确性。

在一实施例中，在得到每个模态的特征序列时，该可以为该每个模态的数据分配唯一表征该每个模态的编码。以此便于为每个特征序列的目标特征添加唯一标识，便于在得到第一特征数据时，确定拼接至少一个特征序列的目标特征的拼接顺序。

如图5所示，在一实施例500中，在得到分别对应至少一个模态的至少一个特征序列时，可以先针对每个模态，采用与每个模态匹配的编码器520对每个模态的数据510进行编码，得到一个特征序列，作为第一子特征序列531。以该每个模态的数据510为连续的多个视频帧为例，采用ResNet网络作为编码器对该连续的多个视频帧编码后，可以得到图像特征序列。例如，该第一子特征序列531可以表示为：[F₁，...，F_l]，其中，l为多个视频帧的个数。同时，可以采用位置编码器540来对每个模态的数据进行编码，得到一个特征序列，作为第二子特征序列532。其中，位置编码器540例如可以采用正弦/余弦位置编码方法来对每个模态的数据进行编码。例如，该第二子特征序列532可以表示为：[P₁，...，P_l]。另外，还可以为每个模态的数据随机分配模态特征，得到一个特征序列，并作为第三子特征序列533。其中，可以采用随机初始化的方法来分配模态特征。例如，该第三子特征序列533可以表示为：[Q₁，...，Q_l]。其中，得到的三个子特征序列的尺寸可以相等。

最后，该实施例可以拼接第一子特征序列531、第二子特征序列532和第三子特征序列533，从而得到与每个模态对应的特征序列550。例如，得到的与每个模态的对应的特征序列550可以表示为：[F₁P₁Q₁，...，F_lP_lQ_l]。

该实施例在对特征序列550进行池化操作时，例如可以分别对第一子特征序列531、第二子特征序列532和第三子特征序列533进行池化操作，得到第一子特征序列531、第二子特征序列532和第三子特征序列533各自的标识特征。并将该各自的标识特征添加至各子特征序列，得到调整后的三个子特征序列F_agg、P_agg、Q_agg。随后，将该调整后的三个子特征序列拼接后，得到调整后特征序列。或者，也可以对拼接三个子特征序列得到的特征序列550直接进行池化操作，将池化操作得到的标识特征添加至特征序列550，得到调整后特征序列560。该调整后特征序列560例如可以表示为：[F_aggP_aggQ_agg，F₁P₁Q₁，...，F_lP_lQ_l]。随后，将该调整后特征序列560输入Transformer的编码网络570，可以得到编码特征序列580。该编码特征序列580例如可以表示为：[H_agg，H₁，...，H_l]。该实施例可以取该编码特征序列中的特征H_agg，作为图像特征序列的目标特征。

采用与图5描述的原理类似的原理，可以得到文本特征序列的目标特征和音频特征序列的目标特征。该实施例可以将该三部分目标特征拼接起来，从而得到第一特征数据。

图6是根据本公开实施例的多媒体数据的处理方法的原理示意图。

如图6所示，以多媒体数据为影视视频为例，该实施例600可以结合显式推理方式和隐式推理方式来对多媒体数据601进行处理。

例如，先采用显式推理方式来确定该多媒体数据601的名称，该名称即为影视剧名。在采用显式推理方式无法确定多媒体数据601的名称时，再采用隐式推理方式来确定多媒体数据601的名称。

其中，在隐式推理方式中，可以先采用基础感知模块611来对多媒体数据601进行识别，得到至少一个关键信息。该基础感知模块611可以用于进行人脸识别和实体识别。随后，可以采用信息归一模块612来对获得的关键信息进行去重操作等，并采用去重操作后的关键信息查询预定知识库613，从而得到与去重操作后的关键信息关联的多媒体名称，作为候选影视剧名602。同时，还可以采用前文描述的方法得到针对每个候选影视剧名的关联度。

随后，可以通过操作S631确定关联度是否均小于第一阈值。若存在关联度大于等于第一阈值的候选影视剧名，则将该候选影视剧名作为多媒体数据601的名称，即作为影视剧名603输出。若针对每个候选影视剧名的关联度均小于第一阈值，则继续采用隐式推理方式来确定多媒体数据601的名称。

在采用隐式推理方式来确定名称时，可以采用视频表示模块621来对多媒体数据601进行编码，从而得到多媒体数据601的第一特征数据。该视频表示模块621可以采用前文描述的方法来得到第一特征数据。同时，可以根据候选影视剧名602查询视频资源库622，获取针对候选影视剧名602的备选多媒体数据的第二特征数据。随后，由相似度检测模块623来检测第一特征数据与第二特征数据之间的相似度。在检测得到相似度后，通过操作S632判断第二特征数据中是否存在与第一特征数据之间的相似度大于等于第二阈值的特征数据，若存在，则将查询得到该第二特征数据的候选影视剧名作为多媒体数据601的名称输出，否则结束通过推理确定多媒体数据的名称的流程。结束推理流程后，例如还可以转由人工来确定多媒体数据的名称。

图7是根据本公开实施例的训练编码网络的原理示意图。

根据本公开的实施例，在采用前述的编码网络对特征序列进行编码之前，该实施例可以对该编码网络进行训练，以提高编码网络编码得到的特征的准确性。

根据本公开的实施例，例如可以采用无监督的对比学习机制来训练编码网络。采用该无监督的机制训练编码网络，可以省去样本的标注流程，从而在一定程度上降低训练成本。

在一实施例中，编码网络例如可以包括有Dropout层，该Dropout层用于采用Dropout函数来对编码网络得到的特征做细微的变换。具体地，该Dropout层可以按照一定的概率将编码网络中的部分神经网络单元按照一定的概率暂时丢弃。通过设置该Dropout层，为了实现无监督的训练，该实施例可以将同一样本数据与其自身构成的样本对作为一个正样本对，将不同的两个样本数据构成的样本对作为一个负样本对。正样本对的标签为1，表示正样本对中的两个样本数据编码得到的两个编码特征序列之间的实际相似度为1。负样本对的标签为0，表示负样本对中的两个样本数据编码得到的两个编码特征序列之间的实际相似度为0。

如此，该实施例在训练编码网络时，可以将编码网络的损失设置为：与对正样本对处理得到的两个编码特征序列之间的相似度负相关，与对负样本对处理得到的两个编码特征序列之间的相似度正相关。

在一实施例中，在训练编码网络时，对于一个batch中的样本数据，可以将同一样本数据的调整后特征序列经过编码网络进行两次编码得到的两个编码特征序列，作为正样本对的两个编码特征序列。可以将不同样本数据的调整后特征序列经过编码网络编码得到的两个编码特征序列，作为负样本对的两个编码特征序列。

例如，如图7所示，该实施例700在训练编码网络时，对于一个batch中的样本数据(以包括第1样本数据711～第T样本数据712，总计T个样本数据)为例，将一个batch中的样本数据中的第i个样本数据经由编码网络(以Transformer网络的编码器720为例)先后进行两次编码，可以分别得到编码特征序列

知

其中，α的取值为1、2，i为大于等于1、且小于等于T的整数。例如，第1样本数据711经由Transformer网络的编码器720先后进行两次编码后，可以得到编码特征序列

知

分别作为第1序列731和第2序列732。第T样本数据712经由Transformer网络的编码器720先后进行两次编码后，可以得到编码特征序列

知

分别作为第(2T-1)序列733和第(2T)序列734，T个样本数据共计得到2T个序列。将该2T个序列任意组合，并将任意组合中的第(2i-1)序列与第2i序列构成的组合作为正样本对的编码结果，剩余组合作为负样本对的编码结果，来计算编码网络720的损失。例如，可以将第1序列731和第2序列732组成的组合、...、第(2T-1)序列733和第(2T)序列734组成的组合作为正样本对的T个编码结果，将第1序列731和第(2T-1)序列733组成的组合、第2序列732和第(2T-1)序列733组成的组合、第1序列731和第(2T)序列734组成的组合、...、第2序列732和第(2T)序列734组成的组合等作为负样本对的T(2T-2)个编码结果。

在一实施例中，编码网络的损失采用以下函数表示：

其中，

表示对第i个样本数据的调整后特征序列经过第α次编码所得到的编码特征序列，

表示对第i个样本数据的调整后特征序列经过第(3-α)次编码所得到的编码特征序列；T为样本数据的个数，τ为超参数。

基于本公开提供的多媒体数据的处理方法，本公开还提供了一种多媒体数据的处理装置。以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的多媒体数据的处理装置的结构框图。

如图8所示，该实施例的多媒体数据的处理装置800可以包括关键信息获得模块810、信息确定模块820和名称确定模块830。

关键信息获得模块810用于识别多媒体数据，获得多媒体数据的至少一个关键信息。在一实施例中，关键信息获得模块810可以用于执行前文描述的操作S210，在此不再赘述。

信息确定模块820用于根据至少一个关键信息查询预定知识库，确定与至少一个关键信息关联的多媒体名称以及多媒体名称与至少一个关键信息之间的关联度。在一实施例中，信息确定模块820可以用于执行前文描述的操作S220，在此不再赘述。

名称确定模块830用于在关联度小于第一阈值的情况下，基于针对多媒体名称的备选多媒体数据与多媒体数据之间的相似度，确定多媒体名称中多媒体数据的名称。在一实施例中，名称确定模块830可以用于执行前文描述的操作S230，在此不再赘述。

根据本公开的实施例，多媒体数据包括图像及针对图像的文本。上述关键信息获得模块810可以包括图像识别子模块和文本识别子模块。图像识别子模块用于识别图像中的目标对象，获得目标对象的对象信息。文本识别子模块用于识别针对图像的文本，获得文本中的实体信息。其中，至少一个关键信息包括实体信息和对象信息。

根据本公开的实施例，至少一个关键信息的个数为至少两个，预定知识库包括知识图谱。上述信息确定模块820可以包括第一名称确定子模块、个数确定子模块和关联度确定子模块。第一名称确定子模块用于针对至少两个关键信息中的每个关键信息，确定知识图谱中与每个关键信息连接的多媒体名称。个数确定子模块用于针对多媒体名称中的每个名称，确定至少两个关键信息中与每个名称连接的关键信息个数。关联度确定子模块用于根据关键信息个数，确定每个名称与至少两个关键信息之间的关联度。其中，知识图谱包括多个节点和连接节点的多个边，多个节点包括表示至少两个关键信息的节点和表示多媒体名称的节点。

根据本公开的实施例，备选多媒体数据为多个，上述名称确定模块830可以包括编码子模块、相似度确定子模块和第二名称确定子模块。编码子模块用于对多媒体数据编码，得到多媒体数据的第一特征数据。相似度确定子模块用于确定多个备选多媒体数据中每个备选多媒体数据的第二特征数据与第一特征数据之间的相似度。第二名称确定子模块用于在多个备选多媒体数据中存在目标数据的情况下，确定目标数据所针对的多媒体名称为多媒体数据的名称。其中，目标数据的第二特征数据与第一特征数据之间的相似度大于等于第二阈值。

根据本公开的实施例，多媒体数据包括以下至少一个模态的数据：图像模态、文本模态和音频模态。上述编码子模块可以包括编码单元、融合单元和特征确定单元。编码单元用于对至少一个模态的数据编码，得到分别对应至少一个模态的至少一个特征序列。融合单元用于针对至少一个特征序列中的每个特征序列，融合每个特征序列包括的特征，得到针对每个特征序列的目标特征。特征确定单元用于根据针对每个特征序列的目标特征，确定第一特征数据。

根据本公开的实施例，融合单元可以包括池化子单元、添加子单元、第一编码子单元和确定子单元。池化子单元用于对每个特征序列包括的特征进行池化操作，得到针对每个特征序列的标识特征。添加子单元用于将标识特征添加至每个特征序列，获得调整后特征序列。第一编码子单元用于采用编码网络对调整后特征序列编码，得到针对每个特征序列的编码特征序列。确定子单元用于确定编码特征序列中与标识特征对应的编码特征为目标特征。其中，编码网络为基于注意力机制的编码网络。

根据本公开的实施例，编码单元可以包括第二编码子单元、第三编码子单元、特征分配子单元和拼接子单元。第二编码子单元用于针对至少一个模态中的每个模态，采用与每个模态匹配的编码器对每个模态的数据进行编码，得到第一子特征序列。第三编码子单元用于采用位置编码器对每个模态的数据进行编码，得到第二子特征序列。特征分配子单元用于为每个模态的数据随机分配模态特征，得到第三子特征序列。拼接子单元用于拼接第一子特征序列、第二子特征序列和第三子特征序列，得到与每个模态对应的特征序列。其中，模态特征用于表征每个模态。

根据本公开的实施例，编码网络包括Dropout层。在训练编码网络时编码网络的损失：与同一样本数据的调整后特征序列经过两次编码得到的两个编码特征序列之间的相似度负相关；且与两个不同样本数据的调整后特征序列经过编码得到的两个编码特征序列之间的相似度正相关。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开实施例的多媒体数据的处理方法的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如多媒体数据的处理方法。例如，在一些实施例中，多媒体数据的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的多媒体数据的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行多媒体数据的处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种多媒体数据的处理方法，包括：

识别多媒体数据，获得所述多媒体数据的至少一个关键信息；

根据所述至少一个关键信息查询预定知识库，确定与所述至少一个关键信息关联的多媒体名称以及所述多媒体名称与所述至少一个关键信息之间的关联度；以及

在所述关联度小于第一阈值的情况下，基于针对所述多媒体名称的备选多媒体数据与所述多媒体数据之间的相似度，确定所述多媒体名称中所述多媒体数据的名称。

2.根据权利要求1所述的方法，其中，所述多媒体数据包括图像及针对所述图像的文本；所述识别多媒体数据，获得所述多媒体数据的至少一个关键信息包括：

识别所述图像中的目标对象，获得所述目标对象的对象信息；以及

识别针对所述图像的文本，获得所述文本中的实体信息，

其中，所述至少一个关键信息包括所述实体信息和所述对象信息。

3.根据权利要求1所述的方法，其中，所述至少一个关键信息的个数为至少两个；所述预定知识库包括知识图谱；确定与所述至少一个关键信息关联的多媒体名称以及所述多媒体名称与所述至少一个关键信息之间的关联度包括：

针对至少两个关键信息中的每个关键信息，确定所述知识图谱中与所述每个关键信息连接的多媒体名称；

针对所述多媒体名称中的每个名称，确定所述至少两个关键信息中与所述每个名称连接的关键信息个数；以及

根据所述关键信息个数，确定所述每个名称与所述至少两个关键信息之间的关联度，

其中，所述知识图谱包括多个节点和连接节点的多个边，所述多个节点包括表示所述至少两个关键信息的节点和表示所述多媒体名称的节点。

4.根据权利要求1所述的方法，其中，所述备选多媒体数据为多个；所述基于针对所述多媒体名称的备选多媒体数据与所述多媒体数据之间的相似度，确定所述多媒体名称中所述多媒体数据的名称包括：

对所述多媒体数据编码，得到所述多媒体数据的第一特征数据；

确定多个备选多媒体数据中每个备选多媒体数据的第二特征数据与所述第一特征数据之间的相似度；以及

在所述多个备选多媒体数据中存在目标数据的情况下，确定所述目标数据所针对的多媒体名称为所述多媒体数据的名称，

其中，所述目标数据的第二特征数据与所述第一特征数据之间的相似度大于等于第二阈值。

5.根据权利要求4所述的方法，其中，所述多媒体数据包括以下至少一个模态的数据：图像模态、文本模态和音频模态；所述对所述多媒体数据编码，得到所述多媒体数据的第一特征数据包括：

对所述至少一个模态的数据编码，得到分别对应所述至少一个模态的至少一个特征序列；

针对所述至少一个特征序列中的每个特征序列，融合所述每个特征序列包括的特征，得到针对所述每个特征序列的目标特征；以及

根据针对所述每个特征序列的目标特征，确定所述第一特征数据。

6.根据权利要求5所述的方法，其中，融合所述每个特征序列包括的多个特征，得到针对所述每个特征序列的目标特征包括：

对所述每个特征序列包括的特征进行池化操作，得到针对所述每个特征序列的标识特征；

将所述标识特征添加至所述每个特征序列，获得调整后特征序列；

采用编码网络对所述调整后特征序列编码，得到针对所述每个特征序列的编码特征序列；以及

确定所述编码特征序列中与所述标识特征对应的编码特征为所述目标特征，

其中，所述编码网络为基于注意力机制的编码网络。

7.根据权利要求5或6所述的方法，其中，对所述至少一个模态的数据编码，得到分别对应所述至少一个模态的至少一个特征序列包括：

针对所述至少一个模态中的每个模态，采用与所述每个模态匹配的编码器对所述每个模态的数据进行编码，得到第一子特征序列；

采用位置编码器对所述每个模态的数据进行编码，得到第二子特征序列；

为所述每个模态的数据随机分配模态特征，得到第三子特征序列；以及

拼接所述第一子特征序列、所述第二子特征序列和所述第三子特征序列，得到与所述每个模态对应的特征序列，

其中，所述模态特征用于表征所述每个模态。

8.根据权利要求6所述的方法，其中：

所述编码网络包括Dropout层；

在训练所述编码网络时所述编码网络的损失：与同一样本数据的调整后特征序列经过两次编码得到的两个编码特征序列之间的相似度负相关；且与两个不同样本数据的调整后特征序列经过编码得到的两个编码特征序列之间的相似度正相关。

9.一种多媒体数据的处理装置，包括：

关键信息获得模块，用于识别多媒体数据，获得所述多媒体数据的至少一个关键信息；

信息确定模块，用于根据所述至少一个关键信息查询预定知识库，确定与所述至少一个关键信息关联的多媒体名称以及所述多媒体名称与所述至少一个关键信息之间的关联度；以及

名称确定模块，用于在所述关联度小于第一阈值的情况下，基于针对所述多媒体名称的备选多媒体数据与所述多媒体数据之间的相似度，确定所述多媒体名称中所述多媒体数据的名称。

10.根据权利要求9所述的装置，其中，所述多媒体数据包括图像及针对所述图像的文本；所述关键信息获得模块包括：

图像识别子模块，用于识别所述图像中的目标对象，获得所述目标对象的对象信息；以及

文本识别子模块，用于识别针对所述图像的文本，获得所述文本中的实体信息，

11.根据权利要求9所述的装置，其中，所述至少一个关键信息的个数为至少两个；所述预定知识库包括知识图谱；所述信息确定模块包括：

第一名称确定子模块，用于针对至少两个关键信息中的每个关键信息，确定所述知识图谱中与所述每个关键信息连接的多媒体名称；

个数确定子模块，用于针对所述多媒体名称中的每个名称，确定所述至少两个关键信息中与所述每个名称连接的关键信息个数；以及

关联度确定子模块，用于根据所述关键信息个数，确定所述每个名称与所述至少两个关键信息之间的关联度，

12.根据权利要求9所述的装置，其中，所述备选多媒体数据为多个；所述名称确定模块包括：

编码子模块，用于对所述多媒体数据编码，得到所述多媒体数据的第一特征数据；

相似度确定子模块，用于确定多个备选多媒体数据中每个备选多媒体数据的第二特征数据与所述第一特征数据之间的相似度；以及

第二名称确定子模块，用于在所述多个备选多媒体数据中存在目标数据的情况下，确定所述目标数据所针对的多媒体名称为所述多媒体数据的名称，

13.根据权利要求12所述的装置，其中，所述多媒体数据包括以下至少一个模态的数据：图像模态、文本模态和音频模态；所述编码子模块包括：

编码单元，用于对所述至少一个模态的数据编码，得到分别对应所述至少一个模态的至少一个特征序列；

融合单元，用于针对所述至少一个特征序列中的每个特征序列，融合所述每个特征序列包括的特征，得到针对所述每个特征序列的目标特征；以及

特征确定单元，用于根据针对所述每个特征序列的目标特征，确定所述第一特征数据。

14.根据权利要求13所述的装置，其中，所述融合单元包括：

池化子单元，用于对所述每个特征序列包括的特征进行池化操作，得到针对所述每个特征序列的标识特征；

添加子单元，用于将所述标识特征添加至所述每个特征序列，获得调整后特征序列；

第一编码子单元，用于采用编码网络对所述调整后特征序列编码，得到针对所述每个特征序列的编码特征序列；以及

确定子单元，用于确定所述编码特征序列中与所述标识特征对应的编码特征为所述目标特征，

其中，所述编码网络为基于注意力机制的编码网络。

15.根据权利要求13或14所述的装置，其中，所述编码单元包括：

第二编码子单元，用于针对所述至少一个模态中的每个模态，采用与所述每个模态匹配的编码器对所述每个模态的数据进行编码，得到第一子特征序列；

第三编码子单元，用于采用位置编码器对所述每个模态的数据进行编码，得到第二子特征序列；

特征分配子单元，用于为所述每个模态的数据随机分配模态特征，得到第三子特征序列；以及

拼接子单元，用于拼接所述第一子特征序列、所述第二子特征序列和所述第三子特征序列，得到与所述每个模态对应的特征序列，

其中，所述模态特征用于表征所述每个模态。

16.根据权利要求14所述的装置，其中：

所述编码网络包括Dropout层；

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～8中任一项所述的方法。