CN111767461A

CN111767461A - 数据处理方法及装置

Info

Publication number: CN111767461A
Application number: CN202010588596.7A
Authority: CN
Inventors: 张轩玮
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-13
Anticipated expiration: 2040-06-24
Also published as: CN111767461B

Abstract

本发明实施例提供了一种数据处理方法及装置，其中方法包括：获取多媒体数据和用于对所述多媒体数据进行描述的文本信息；确定文本信息中每个分词的embedding词向量；对多媒体数据进行特征提取，得到多媒体数据对应的embedding图像向量；对embedding词向量和embedding图像向量进行特征融合，得到融合后embedding向量；将各个融合后embedding向量按照预设的加权策略进行整合，得到多模态embedding向量。通过本实施例中的方法，通过提取文本信息和多媒体数据对应的向量，进而得到具体内容中包括的信息，粒度很细，可以更加准确的反映出文本信息和多媒体数据的关键信息，以便于据此得到用户的兴趣点，能够在后期更加准确的对用户进行推荐。

Description

数据处理方法及装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种数据处理方法及装置。

背景技术

随着互联网的普及，越来越多的内容出现在各个网站中，为了对不同的视频内容或图文内容(例如漫画等等)进行分类，都会给对应的内容选择相应的标签进行标注，并且后期给用户进行内容推荐时，也会基于用户曾经点击过的内容的标签进行推荐。但是，通过标签对视频等进行标注时很多情况下无法体现出其有效的关键信息，在基于标签对用户进行推荐时容易出现推荐不准确的问题。

发明内容

本发明实施例的目的在于提供一种数据处理方法及装置，以实现抽取得到细粒度的信息的目的。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种数据处理方法，包括：

获取多媒体数据和用于对所述多媒体数据进行描述的文本信息；其中，所述多媒体数据包括：视频或图像；

确定所述文本信息中每个分词的embedding词向量；

对所述多媒体数据进行特征提取，得到所述多媒体数据对应的embedding图像向量；

对所述embedding词向量和所述embedding图像向量进行特征融合，得到融合后embedding向量；

将各个所述融合后embedding向量按照预设的加权策略进行整合，得到多模态embedding向量。

可选的，如前述的方法，所述确定所述文本信息中每个分词的embedding词向量，包括：

对所述文本信息进行分词处理，得到构成所述文本信息的所述分词；

根据所述分词以及预设的标签词得到对应的词表；

根据预先训练得到的词向量模型以及所述词表确定每个所述分词的所述embedding词向量。

可选的，如前述的方法，所述对所述多媒体数据进行特征提取，得到所述多媒体数据对应的embedding图像向量，包括：

将所述多媒体数据输入预设的深度神经网络中；

获取所述深度神经网络中的特征提取层对所述多媒体数据进行特征提取后得到的所述embedding图像向量。

可选的，如前述的方法，所述对所述embedding词向量和所述embedding图像向量进行特征融合，得到融合后embedding向量，包括：

对所述embedding词向量进行embedding向量维度调整得到调维embedding词向量，对所述embedding图像向量进行embedding向量维度调整得到所述调维embedding图像向量；

将各个所述调维embedding词向量与所述调维embedding图像向量进行拼接融合后，获得各个所述调维embedding词向量与所述调维embedding图像向量的对应的embedding向量信息；

通过自注意力机制得到各个所述embedding向量信息之间的全局联系；

根据所述全局联系对所述embedding向量信息进行调整，得到所述融合后embedding向量信息；

根据所述融合后embedding向量信息得到对应的所述融合后embedding向量。

可选的，如前述的方法，在得到所述融合后embedding向量信息之后，还包括：

确定将各个所述融合后embedding向量信息进行解码的次序信息；

按照所述次序信息确定所有所述融合后embedding向量信息中第一个进行解码的初始embedding向量信息，并对所述初始embedding向量信息进行解码得到初始embedding向量；

确定前一embedding向量信息对后一全局向量信息的影响权重；

按照所述影响权重，根据所述初始embedding向量信息对所述次序信息中的下一embedding向量信息进行调整，并解码得到调整后下一embedding向量；按此循环直至得到进过调整的调整后embedding向量；

确定所述词表中各个词语的候选词向量；

分别确定与所述调整后embedding向量的距离最近的所述候选词向量；

将所述距离最近的所述候选词向量对应的词语作为所述调整后embedding向量对应的内容标签。

可选的，如前述的方法，将所述embedding词向量和所述embedding图像向量按照预设的加权策略进行整合，得到多模态embedding向量，包括：

对所有所述embedding词向量和所述embedding图像向量进行平均值计算，得到平均embedding向量；

根据所述平均embedding向量得到所述多模态embedding向量。

在本发明实施的第二方面，还提供了一种数据处理方法，包括：

获取用于进行信息匹配的待匹配多媒体数据和待匹配文本信息；

确定所述待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量，所述待匹配多模态embedding向量通过如前任一项所述的方法生成；

从预设数据库获取与所述待匹配图文embedding向量相匹配的目标多模态embedding向量，所述预设数据库中的视频有对应的多模态embedding向量；将所述目标多模态embedding向量对应的视频推荐给用户。

在本发明实施的另一方面，还提供了一种数据处理装置，包括：

获取模块，用于获取多媒体数据和用于对所述多媒体数据进行描述的文本信息；其中，所述多媒体数据包括：视频或图像；

确定模块，用于确定所述文本信息中每个分词的embedding词向量；

特征提取模块，用于对所述多媒体数据进行特征提取，得到所述多媒体数据对应的embedding图像向量；

融合模块，用于对所述embedding词向量和所述embedding图像向量进行特征融合，得到融合后embedding向量；

整合模块，用于将各个所述融合后embedding向量按照预设的加权策略进行整合，得到多模态embedding向量。

可选的，如前述的装置，所述确定模块包括：

分词单元，用于对所述文本信息进行分词处理，得到构成所述文本信息的所述分词；

词表单元，用于根据所述分词以及预设的标签词得到对应的词表；

词向量单元，用于根据预先训练得到的词向量模型以及所述词表确定每个所述分词的所述embedding词向量。

可选的，如前述的装置，所述特征提取模块包括：

输入单元，用于将所述多媒体数据输入预设的深度神经网络中；

获取单元，用于获取所述深度神经网络中的特征提取层对所述多媒体数据进行特征提取后得到的所述embedding图像向量。

可选的，如前述的装置，所述融合模块包括：

调维单元，用于对所述embedding词向量进行embedding向量维度调整得到调维embedding词向量，对所述embedding图像向量进行embedding向量维度调整得到所述调维embedding图像向量；

融合单元，用于将各个所述调维embedding词向量与所述调维embedding图像向量进行拼接融合后，获得各个所述调维embedding词向量与所述调维embedding图像向量的对应的embedding向量信息；

自注意力单元，用于通过自注意力机制得到各个所述embedding向量信息之间的全局联系；

向量信息单元，用于根据所述全局联系对所述embedding向量信息进行调整，得到所述融合后embedding向量信息；

向量单元，用于根据所述融合后embedding向量信息得到对应的所述融合后embedding向量。

可选的，如前述的装置，还包括标签模块；所述标签模块包括：

次序单元，用于确定将各个所述融合后embedding向量信息进行解码的次序信息；

解码单元，用于按照所述次序信息确定所有所述融合后embedding向量信息中第一个进行解码的初始embedding向量信息，并对所述初始embedding向量信息进行解码得到初始embedding向量；

调整单元，用于确定所述初始embedding向量信息对下一进行解码的全局向量信息的影响权重；按照所述影响权重，根据所述初始embedding向量信息对所述下一进行解码的融合后embedding向量信息进行调整，并解码得到调整后embedding向量；按此循环直至对所有所述融合后embedding向量信息进行调整并得到所有所述调整后embedding向量；

第一确定单元，用于确定所述词表中各个词语的候选词向量；

第二确定单元，用于分别确定与所述调整后embedding向量的距离最近的所述候选词向量；

内容标签单元，用于将所述距离最近的所述候选词向量对应的词语作为所述调整后embedding向量对应的内容标签。

可选的，如前述的装置，所述整合模块包括：

平均单元，用于对所有所述embedding词向量和所述embedding图像向量进行平均值计算，得到平均embedding向量；

向量确定单元，用于根据所述平均embedding向量得到所述多模态embedding向量。

在本发明实施的又一方面，还提供了一种数据处理装置，包括：

接收模块，用于获取用于进行信息匹配的待匹配多媒体数据和待匹配文本信息；

确定模块，用于确定所述待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量，所述待匹配多模态embedding向量通过如前述的任一所述的方法生成；

查询模块，用于从预设数据库获取与所述待匹配图文embedding向量相匹配的目标多模态embedding向量，所述预设数据库中的视频有对应的多模态embedding向量；

发送模块，用于将所述目标多模态embedding向量对应的视频推荐给用户。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的方法。

本发明实施例提供的一种生成多模态embedding向量的数据处理方法及装置，其中方法包括：获取多媒体数据和用于对所述多媒体数据进行描述的文本信息；其中，所述多媒体数据包括：视频或图像；确定所述文本信息中每个分词的embedding词向量；对所述多媒体数据进行特征提取，得到所述多媒体数据对应的embedding图像向量；对所述embedding词向量和所述embedding图像向量进行特征融合，得到融合后embedding向量；将各个所述融合后embedding向量按照预设的加权策略进行整合，得到多模态embedding向量。通过本实施例中的方法，通过提取文本信息和多媒体数据对应的向量，进而得到具体内容中包括的信息，粒度很细，可以更加准确的反映出文本信息和多媒体数据的关键信息，以便于据此得到用户的兴趣点，能够在后期更加准确的对用户进行推荐。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中一种数据处理方法的流程图；

图2为本发明另一实施例中一种数据处理方法的流程图；

图3为本发明另一实施例中一种数据处理方法的流程图；

图4为本发明另一实施例中一种数据处理方法的流程图；

图5为本发明另一实施例中一种数据处理方法的流程图；

图6为本发明实施例中一种数据处理装置的框图；

图7为本发明另一实施例中一种数据处理装置的框图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

如图1所示为本申请一种实施例中数据处理方法，包括如下所述步骤S1至S4：

步骤S1.获取多媒体数据和用于对多媒体数据进行描述的文本信息；其中，所述多媒体数据包括：视频或图像。

具体的，多媒体数据可以包括但不限于：图片、视频或动图文件中的一种或多种；文本信息可以是：一个或多个关键词、长句或文章等等；由于本申请是用于对包含多媒体数据及文本信息的数据进行关键词提取，并进行打标签，因此文本信息与多媒体数据是属于同一个数据的信息；举例来说：当多媒体数据是一段视频时，则文本信息可以是用于对该段视频进行内容概述的文本内容。embedding向量是一种连续向量例如：[0.53，0.85，0.60,0.80，-0.78，-0.62]。

步骤S2.确定文本信息中每个分词的embedding词向量。

具体的，不管是机器学习还是深度学习本质上都是得到数据的相关性，embedding词向量做的事情就是将词语映射到向量空间里，并用向量来表示。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络，单词共生矩阵的降维，概率模型，可解释的知识库方法，和术语的显式表示单词出现的背景。

确定文本信息中每个分词的embedding词向量可以通过诸如word2vec、glove、ELMo、BERT等语言模型方法实现。

步骤S3.对多媒体数据进行特征提取，得到多媒体数据对应的embedding图像向量。

具体的，对多媒体数据进行特征提取，是用于识别得到该多媒体数据中的关键信息，且可以通过CNN等神经网络模型对多媒体数据进行特征提取，进而得到对应的图像特征信息。

步骤S4.对embedding词向量和embedding图像向量进行特征融合，得到融合后embedding向量。

将embedding词向量和embedding图像向量进行融合，用于使得通过embedding图像向量为表征方式的图像特征能够对embedding词向量产生影响，以及使embedding词向量对embedding图像向量产生影响；得到的融合后embedding向量即为根据受到相互影响后的embedding词向量和embedding图像向量。

步骤S5.将各个融合后embedding向量按照预设的加权策略进行整合，得到多模态embedding向量。

具体的，加权策略可以是对各个融合后embedding向量进行平均，也可以是对各个融合后embedding向量赋予不同的权重，再进行整合得到多模态embedding向量；此处的多模态embedding向量为：能够表征多种类型特征(即：能够表征词向量的特征以及图像特征)的embedding向量。

采用本实施例中的方法，解决相关技术中，基于文本，图像等融合后进行类型分类任务训练得到的多模态embedding,因此能够表达的类型也只是少量的有限集合，导致粒度很粗(能够进行表达的信息数量很少)，对embedding的特征抽取能力不足，不能很好的反应用户的兴趣，本实施例能够使用基于词向量和图像向量生成的多模态embedding,是通过内容标签对相关信息进行表达，内容能够比类型标签更丰富；进而使最终得到的多模态embedding的粒度更细，可以更加准确地反映数据的关键信息以及用户的兴趣词，对下游的业务有更大的提升。其中一种应用效果为：通过本实施例方法来实现根据历史访问推荐关联相近的物品(例如：商品)或数据(例如：视频、图文信息等等)，其能达到的效果为；整体：PV(Page View，访问量)增加21.18％,点击量增加12.45％。因而能够达到良好的推荐效果。

在一些实施例中，如前述的方法，确定文本信息中每个分词的embedding词向量，包括如下所述步骤P1至P3：

步骤P1.对文本信息进行分词处理，得到构成文本信息的分词；

步骤P2.根据分词以及预设的标签词得到对应的词表；

步骤P3.根据预先训练得到的词向量模型以及词表确定每个分词的词向量。

具体的，对文本信息进行分词处理是用于将一个文本拆分为多个分词，举例来说：当文本信息为“奇葩音效师坑惨演员为配合音效也是拼了演个戏容易吗”，对其进行分词处理后，得到的分词包括：“奇葩”、“音效”、“师”、“坑惨”、“演员”、“为”、“配合”、“音效”、“也”、“是”、“拼”、“了”、“演”、“个”、“戏”、“容易”、“吗”。

预设的标签词可以是预先选择得到的词组，且所述词表中的词包括标签词以及根据文本信息进行分词处理得到的分词。

其中，预先训练得到的词向量模型可以是word2vec模型(用于计算词向量的工具)；因此得到每个分词的词向量可以通过训练得到的word2vec模型进行确定。进一步的，在训练时，可以对词表中的词分别进行随机初始化成512维的向量作为每个分词的初始词向量和初始标签向量(标签词的词向量)，其中每一维的向量可以分配一浮点值(例如：0.96,0.53等等)；具体的，在确定词表以及对词向量模型完成训练后之后，即可确定词表中每个分词的embedding词向量。

通过本实施例中的方法，可以通过词向量得到文本信息中各个分词之间的联系，可以有效获取每个分词在文本信息中的语义，进而可以有效提高标签结果的准确性。

如图2所示，在一些实施例中，如前述的方法，所述步骤S3对多媒体数据进行特征提取，得到多媒体数据对应的embedding图像向量，包括如下所述步骤S31和S32：

步骤S31.将多媒体数据输入预设的深度神经网络中；

步骤S32.获取深度神经网络中的特征提取层对多媒体数据进行特征提取后得到的embedding图像向量。

具体的，深度神经网络具有对多媒体数据进行特征提取的能力，因此将多媒体数据输入深度神经网络可以得到对应的embedding图像向量。

其中一种可选的实现方法为：将多媒体数据输入xception(深度可分离卷积)模型中，由于xception模型倒数第二层的提取的图像特征最为丰富，因此提取模型倒数第二层2048维的向量作为图像特征。

采用本实施例中的方法，通过深度神经网络中的特征提取层对视频信息进行特征提取可以提取得到丰富的视频特征向量，以得到视频提供的更多信息。

如图3所示，在一些实施例中，如前述的方法，所述步骤S4对所述embedding词向量和所述embedding图像向量进行特征融合，得到融合后embedding向量，包括如下所述步骤S41至S46：

步骤S41.对embedding词向量进行向量维度调整得到调维embedding词向量，对embedding图像向量进行向量维度调整得到调维embedding图像向量。

具体的，在前述实施例的基础上，由于分词的词向量为512维，而embedding图像向量为2048维；由于两者的维度各不相同，因此两者无法进行拼接融合，需要对两者的维度进行统一；可选的，由于embedding图像向量的维度更高，可以对其进行降维处理，一般可以通过全连接网络降维度的方法，将2048维的embedding图像向量降维得到512维的调维embedding图像向量。

步骤S42.将各个调维embedding词向量与调维embedding图像向量输入进行拼接融合后，获得各个调维embedding词向量与调维embedding图像向量的对应的embedding向量信息；

具体的，编码器可以对输入的数据进行编码，一般的，编码器为一种循环神经网络。之所以对调维词向量与调维embedding图像向量输入编码器进行拼接融合,是为了使其构成上下文关系，以便于找到各个调维词向量与调维embedding图像向量之间的全局联系，在实现时，可以将embedding图像向量看成一个词和其他词向量进行拼接；而向量信息即为调维词向量与调维embedding图像向量输入编码器即可快速实现拼接融合的目的。

拼接融合的方法可以是：将调维embedding图像向量作为一个词向量和各个调维词向量放到同一等级。

步骤S43.通过自注意力机制得到各个embedding向量信息之间的全局联系。

具体的，注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务，特别是机器翻译。而自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。因此，通过自注意力机制，可以得到各个向量信息之间的全局联系。

为了准确的得到不同的embedding向量信息之间的全局联系，可以预先通过不同的多媒体数据以及关键词对自注意力机制对应的自注意力网络进行训练，在通过验证集数据(用于验证的多媒体数据以及关键词)对训练后的自注意力网络进行验证时，判定能够找到两者之间的全局联系时，判定其满足预设的使用条件，将其运用于进行不同的embedding向量信息之间的全局联系的关联。

步骤S44.根据全局联系对embedding向量信息进行调整，得到融合后embedding向量信息；举例的，当存在向量a,b,c；其中b对a的影响权重为a1,以及c对a的影响权重为a2,那么a对应的全局向量信息则为：a+a1*b+a2*c。向量b，c的全局向量信息可采用相似方法获得，在此不再进行赘述。

步骤S45.根据所述融合后embedding向量信息得到对应的所述融合后embedding向量。

具体的，根据向量信息得到对应的向量，可以通过解码器进行解码输出。

采用本实施例中的方法，可以对各个embedding向量进行融合，找到各个向量间的全局联系，可以更加准确地通过向量表征出不同图像以及文本的整体含义，能更好的反应用户的兴趣词，描述的更加精确。

在一些实施例中，如前述的方法，步骤S45将全局向量信息输入解码器得到输出向量，包括如下所述步骤S451至S455：

步骤S451.确定将各个所述融合后embedding向量信息进行解码的次序信息。

具体的，一般向量信息都是逐个输入解码器中进行解码的用于通过解码将向量信息转换成对应的向量，因此本实施例中的融合后embedding向量信息也可以通过输入解码器进行解码。

此外，次序信息可以根据文本信息中各个分词的次序得到，举例的：由于融合后embedding向量信息对应有特定的调维embedding词向量，而每个调维embedding词向量都有对应的embedding词向量，且每个embedding词向量对应有分词，因此，可以通过分词的次序确定embedding词向量对应的各个融合后embedding向量信息的次序，最后只需再确定调维embedding图像向量对应的次序(可以置于首位或末尾)，即可得到次序信息。

步骤S452.按照次序信息确定所有融合后embedding向量信息中第一个进行解码的初始embedding向量信息，并对初始embedding向量信息进行解码得到初始embedding向量。

具体的，初始embedding向量信息即为所有融合后embedding向量信息中第一个输入解码器中进行解码的向量信息，一般的，在解码时，前一个进行解码的向量信息会对后一个进行解码的向量信息造成影响，以使解码得到的各个向量之间的相关性更强，由于初始embedding向量信息是第一个输入解码器中进行解码的向量信息，而解码器所执行的程序是固定的，因此会在接收初始embedding向量信息之前，预先输入一个信息“0”，也就是说，初始embedding向量信息在解码时是不存在对其产生影响的其它向量的，因此初始embedding向量信息解码得到的初始embedding向量表征的特征与初始embedding向量信息表征的特征是完全一致的。

步骤S453.确定初始embedding向量信息对下一进行解码的全局向量信息的影响权重；按照影响权重，根据所述初始embedding向量信息对所述下一进行解码的融合后embedding向量信息进行调整，并解码得到调整后embedding向量；按此循环直至对所有融合后embedding向量信息进行调整并得到所有调整后embedding向量。

具体的，可以通过序列解码的方式确定初始embedding向量信息对下一进行解码的全局向量信息的影响权重，以及按照影响权重，根据所述初始embedding向量信息对所述下一进行解码的融合后embedding向量信息进行调整，进一步的，可以通过seq2seq的解码器按序对各个embedding向量进行解码，以使输出的向量信息之间能够进一步相互关联。

步骤S454.确定所述词表中各个词语的候选词向量；

步骤S455.分别确定与所述调整后embedding向量的距离最近的所述候选词向量；

步骤S456.将所述距离最近的所述候选词向量对应的词语作为所述调整后embedding向量对应的内容标签。

具体的，步骤S454至步骤S456可以是：先确定词表中的每个词语对应的候选词向量；然后确定每一个输出向量与词表中各个候选词向量之间的第一距离(一般的，第一距离可以是余弦距离)，并从中确定与每一个调整后embedding向量第一距离最近的候选词向量；最后，将与各个调整后embedding向量的第一距离最近的候选词向量对应的词语作为该输出向量对应的内容标签。

可选的，可以将embedding图像向量输入解码器作为第一输入，将其代替预先输入一个信息“0”；进而可以通过embedding图像向量指导接下来对所有融合后embedding向量信息的解码过程，使得多媒体数据能够进一步对最终标签的生成产生影响。

综上所述，采用本实施例中的方法，可以捕捉各个特征的内部相关性，进而更加准确地分析得到在当前数据中各个特征的具体含义，进而可以有效提高标签结果的准确性。

如图4所示，在一些实施例中，如前述的方法，步骤S5将embedding词向量和embedding图像向量按照预设的加权策略进行整合，得到多模态embedding向量，包括如下所述步骤S51和S52：

步骤S51.对所有embedding词向量和embedding图像向量进行平均值计算，得到平均embedding向量；

步骤S52.根据平均embedding向量得到多模态embedding向量。

具体的，由于所有embedding词向量和embedding图像向量都是维度相同的向量，因此，可以将各个向量相加，最后再计算平均值，即可得到平均embedding向量。最后，将该平均embedding向量作为最终用于表征文本信息和多媒体数据的综合含义的多模态embedding向量。

具体的，通过本实施例中的方法，可以使最终得到的embedding向量包括所有embedding词向量和embedding图像向量的特征，同时，可以有效避免少数无法准确表征文本信息或多媒体数据的综合含义的个别向量造成的偏差，保障最终得到的多模态embedding向量的准确性。

如图5所以，在本发明提供的又一实施例中，作为上述实施例的具体应用，本发明实施例还提供了一种数据处理方法，包括如下所述步骤A1至A4：

步骤A1.获取用于进行信息匹配的待匹配多媒体数据和待匹配文本信息。

在本发明提供的实施例中，例如可以根据用户的历史观看记录，通过该历史观看记录中的视频及其对该视频进行描述的文本信息，通过上述实施例提供的生成多模态embedding向量的数据处理方法，生成对应的多模态embedding向量，进而通过该多模态embedding向量与视频库中的各个视频对应的多模态embedding向量进行匹配，进而得到相匹配的视频，以便给用户推荐相应内容的视频。

这里的待匹配多媒体数据可以是用户的历史观看记录中的视频，该待匹配文本信息用于描述该视频。当然，本发明实施例还可以应用到其他场景中，例如，用户当前在观看一视频时，根据视频在播放即将结束时为用户推荐相关视频等，本发明实施例并不局限于此。

步骤A2.确定待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量，待匹配多模态embedding向量通过前述实施例中的方法生成。

具体的，在上传待匹配多媒体数据和待匹配文本信息之后，即可通过前述任一实施例中的方法确定待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量，而该待匹配多模态embedding向量能够表征待匹配多媒体数据和待匹配文本信息的综合含义。

步骤A3.从预设数据库获取与待匹配图文embedding向量相匹配的目标多模态embedding向量，预设数据库中的视频有对应的多模态embedding向量。

具体的，与待匹配图文embedding向量相匹配的目标多模态embedding向量，可以是获取与待匹配图文embedding向量相似度在预设范围内的目标多模态embedding向量在；其中一种可选的实现方式中，可以采用余弦值作为两个向量之间相似度，并进行向量的匹配；在预设数据库中可以预先存储与不同的图文信息对应的多模态embedding向量，以快速在已有数据中进行搜索。预设范围可以是一数值大小，可以根据匹配的精度进行调整，此外，在当前预设范围无法匹配得到对应的目标多模态embedding向量时，可以自动对该预设范围按照预设调整值进行一次或多次调整，以匹配到对应的目标多模态embedding向量，由于预设数据库中的每个多模态embedding向量都是根据一组合信息(包括：多媒体数据和文本信息)生成的，因此必然能够查询得到与目标多模态embedding向量对应的目标信息。

步骤A4.将所述目标多模态embedding向量对应的视频推荐给用户。

在得到目标信息之后，将其发送至该用户，即可达到进行推荐的目的。

综上所述，采用本实施例中的方法，由于多模态embedding向量中的粒度更细，因此可以对更多的维度的信息进行匹配，使最终匹配得到的目标信息与待匹配多媒体数据和待匹配文本信息之间的相似度更高，可以有效提升内容匹配的准确性，提升用户体验。

如图6所示，在本发明实施的第三方面，还提供了一种数据处理装置，包括：

获取模块11，用于获取多媒体数据和用于对多媒体数据进行描述的文本信息；多媒体数据包括：视频或图像

确定模块12，用于确定文本信息中每个分词的embedding词向量；

特征提取模块13，用于对多媒体数据进行特征提取，得到多媒体数据对应的embedding图像向量；

融合模块14，用于对embedding词向量和embedding图像向量进行特征融合，得到融合后embedding向量；

整合模块15，用于将各个融合后embedding向量按照预设的加权策略进行整合，得到多模态embedding向量。

在一些实施例中，如前述的装置，确定模块12包括：

分词单元，用于对文本信息进行分词处理，得到构成文本信息的分词；

词表单元，用于根据分词以及预设的标签词得到对应的词表；

词向量单元，用于根据预先训练得到的词向量模型以及词表确定每个分词的embedding词向量。

在一些实施例中，如前述的装置，特征提取模块包括：

输入单元，用于将多媒体数据输入预设的深度神经网络中；

获取单元，用于获取深度神经网络中的特征提取层对多媒体数据进行特征提取后得到的embedding图像向量。

在一些实施例中，如前述的装置，融合模块14包括：

调维单元，用于对embedding词向量进行embedding向量维度调整得到调维embedding词向量，对embedding图像向量进行embedding向量维度调整得到调维embedding图像向量；

融合单元，用于将各个调维embedding词向量与调维embedding图像向量进行拼接融合后，获得各个调维embedding词向量与调维embedding图像向量的对应的embedding向量信息；

自注意力单元，用于通过自注意力机制得到各个embedding向量信息之间的全局联系；

向量信息单元，用于根据全局联系对embedding向量信息进行调整，得到融合后embedding向量信息；

向量单元，用于根据融合后embedding向量信息得到对应的融合后embedding向量。

在一些实施例中，如前述的装置，还包括标签模块；标签模块包括：

次序单元，用于确定将各个融合后embedding向量信息进行解码的次序信息；

解码单元，用于按照次序信息确定所有融合后embedding向量信息中第一个进行解码的初始embedding向量信息，并对初始embedding向量信息进行解码得到初始embedding向量；

调整单元，用于确定初始embedding向量信息对下一进行解码的全局向量信息的影响权重；按照影响权重，根据初始embedding向量信息对下一进行解码的融合后embedding向量信息进行调整，并解码得到调整后embedding向量；按此循环直至对所有融合后embedding向量信息进行调整并得到所有调整后embedding向量；

第一确定单元，用于确定词表中各个词语的候选词向量；

第二确定单元，用于分别确定与调整后embedding向量的距离最近的候选词向量；

内容标签单元，用于将距离最近的候选词向量对应的词语作为调整后embedding向量对应的内容标签。

在一些实施例中，如前述的装置，整合模块15包括：

平均单元，用于对所有embedding词向量和embedding图像向量进行平均值计算，得到平均embedding向量；

向量确定单元，用于根据平均embedding向量得到多模态embedding向量。

如图7所示，在本发明实施的第四方面，还提供了一种生成内容标签的数据处理装置，包括：

接收模块21，用于获取用于进行信息匹配的待匹配多媒体数据和待匹配文本信息；

确定模块22，用于确定待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量，待匹配多模态embedding向量通过如前任一实施例的方法生成；

查询模块23，用于从预设数据库获取与待匹配图文embedding向量相匹配的目标多模态embedding向量，预设数据库中的视频有对应的多模态embedding向量；

发送模块24，用于将目标多模态embedding向量对应的视频推荐给用户。

本发明实施例还提供了一种电子设备，如图8所示，包括处理器1501、通信接口1502、存储器1503和通信总线1504，其中，处理器1501，通信接口1502，存储器1503通过通信总线1504完成相互间的通信，

存储器1503，用于存放计算机程序；

处理器1501，用于执行存储器1503上所存放的程序时，实现如下步骤：

上述终端提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的生成内容标签的数据处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的生成内容标签的数据处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据处理方法，其特征在于，包括：

确定所述文本信息中每个分词的embedding词向量；

2.根据权利要求1所述的方法，其特征在于，所述确定所述文本信息中每个分词的embedding词向量，包括：

根据所述分词以及预设的标签词得到对应的词表；

3.根据权利要求1所述的方法，其特征在于，所述对所述多媒体数据进行特征提取，得到所述多媒体数据对应的embedding图像向量，包括：

将所述多媒体数据输入预设的深度神经网络中；

4.根据权利要求2所述的方法，其特征在于，所述对所述embedding词向量和所述embedding图像向量进行特征融合，得到融合后embedding向量，包括：

5.根据权利要求4所述的方法，其特征在于，在得到所述融合后embedding向量信息之后，还包括：

确定所述初始embedding向量信息对下一进行解码的全局向量信息的影响权重；按照所述影响权重，根据所述初始embedding向量信息对所述下一进行解码的融合后embedding向量信息进行调整，并解码得到调整后embedding向量；按此循环直至对所有所述融合后embedding向量信息进行调整并得到所有所述调整后embedding向量；

确定所述词表中各个词语的候选词向量；

6.根据权利要求1所述的方法，其特征在于，将所述embedding词向量和所述embedding图像向量按照预设的加权策略进行整合，得到多模态embedding向量，包括：

根据所述平均embedding向量得到所述多模态embedding向量。

7.一种数据处理方法，其特征在于，包括：

获取用于进行信息匹配的待匹配多媒体数据和待匹配文本信息；其中，所述多媒体数据包括：视频或图像；

确定所述待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量，所述待匹配多模态embedding向量通过权利要求1至6任一项所述的方法生成；

从预设数据库获取与所述待匹配图文embedding向量相匹配的目标多模态embedding向量，所述预设数据库中的视频有对应的多模态embedding向量；

将所述目标多模态embedding向量对应的视频推荐给用户。

8.一种数据处理装置，其特征在于，包括：

获取模块，用于获取多媒体数据和用于对所述多媒体数据进行描述的文本信息；其中，所述多媒体数据包括：视频信息和/或图像信息；

9.一种数据处理装置，其特征在于，包括：

确定模块，用于确定所述待匹配多媒体数据和待匹配文本信息对应的待匹配多模态embedding向量，所述待匹配多模态embedding向量通过权利要求1至6任一项所述的方法生成；

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。