CN111222011B

CN111222011B - 一种视频向量确定方法和装置

Info

Publication number: CN111222011B
Application number: CN202010010761.0A
Authority: CN
Inventors: 李伟康; 陈小帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2023-11-14
Anticipated expiration: 2040-01-06
Also published as: CN111222011A

Abstract

本申请实施例公开了一种基于人工智能的视频向量确定方法和装置，至少涉及人工智能中的机器学习技术，获取待处理视频的多个视频特征；所述多个视频特征所包括视频特征的特征来源不同，任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容；根据所述多个视频特征进行特征拼接，得到多模态向量；根据所述多模态向量确定所述待处理视频的视频向量。用于确定视频向量的多个视频特征来自待处理视频的不同特征来源，从而确定出的视频向量可以从多个维度体现出待处理视频的内容，丰富了视频向量的视频表示能力，提高了视频向量对待处理视频的标识精度。

Description

一种视频向量确定方法和装置

技术领域

本申请涉及数据处理领域，特别是涉及一种视频向量确定方法和装置。

背景技术

视频向量是一种对应视频的、包含语义信息的表示形式，可以体现视频的内容特点，相当于视频的一种内容标签。视频向量有助于进行视频检索和视频推荐，是视频相关业务所必需具备的重要且有效的能力。

相关技术中，主要采用视频的相关说明文字例如标题、来源等作为构建视频向量的依据，借助深度学习方法，如卷积神经网络、循环神经网络、注意力网络等，针对特定任务进行训练和学习，最终得到包含语义信息的视频向量。

然而，目前的所确定的视频向量没能充分利用视频内容特征，导致视频表示能力不足。

发明内容

为了解决上述技术问题，本申请提供了一种视频向量确定方法和装置，丰富了视频向量的视频表示能力，提高了视频向量对待处理视频的标识精度。。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种视频向量确定方法，所述方法包括：

获取待处理视频的多个视频特征；所述多个视频特征所包括视频特征的特征来源不同，任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容；

根据所述多个视频特征进行特征拼接，得到多模态向量；

根据所述多模态向量确定所述待处理视频的视频向量。

另一方面，本申请实施例提供了一种视频向量确定装置，所述装置包括获取单元、拼接单元和确定单元：

所述获取单元，用于获取待处理视频的多个视频特征；所述多个视频特征所包括视频特征的特征来源不同，任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容；

所述拼接单元，用于根据所述多个视频特征进行特征拼接，得到多模态向量；

所述确定单元，用于根据所述多模态向量确定所述待处理视频的视频向量。

另一方面，本申请实施例提供了一种用于视频向量确定的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面描述的方法。

另一方面，本申请实施例提供了一种计算机存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面描述的方法。

由上述技术方案可以看出，获取待处理视频的多个视频特征；所述多个视频特征所包括视频特征的特征来源不同，任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容；根据所述多个视频特征进行特征拼接，得到多模态向量；根据所述多模态向量确定所述待处理视频的视频向量。用于确定视频向量的多个视频特征来自待处理视频的不同特征来源，从而确定出的视频向量可以从多个维度体现出待处理视频的内容，丰富了视频向量的视频表示能力，提高了视频向量对待处理视频的标识精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的视频向量确定方法的应用场景图；

图2为本申请实施例提供的一种视频向量确定方法的流程示意图；

图3为本申请实施例提供的视频预处理的流程示意图；

图4为本申请实施例提供的多模态视频向量表示模型的结构示意图；

图5为本申请实施例提供的另一种视频向量确定方法的流程示意图；

图6为本申请实施例提供的视频向量确定方法的应用场景示意图；

图7为本申请实施例提供的视频向量确定装置的结构示意图；

图8是本申请实施例提供的一种服务器结构示意图；

图9为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

为了丰富视频向量的视频表示能力，本申请实施例提供了一种视频向量确定方法，利用待处理视频的不同特征来源的多个视频特征，确定出该待处理视频的视频向量，从多个维度体现了待处理视频的内容，丰富了视频向量的视频表示能力，提高了视频向量对待处理视频的标识精度。

本申请实施例所提供的视频向量确定方法是基于人工智能实现的，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述计算机视觉技术、语音处理技术、自然语言处理技术和深度学习等方向。

例如可以涉及计算机视觉技术(Computer Vision)中的视频处理(Videoprocessing)技术、图像处理(Image processing)技术，其中包括图像二值化(Imagebinaryzation)、图像特征提取(Image feature extraction)等。

例如可以涉及语音技术(Speech Technology)中的语音识别技术，其中包括语音信号预处理(Speech signal preprocessing)、语音信号特征提取(Speech signalfeature extraction)、语音信号特征匹配/识别(Speech signal feature matching/recognition)、语音的训练(Speech training)等。

例如可以涉及自然语言处理(Nature Language processing,NLP)中的文本预处理(Textpreprocessing)和机器翻译(Machine Translation)等，其中包括词、句切分(word/sentence segementation)、词性标注(word tagging)、语句分类(word/sentenceclassification)、译词选择(word selection)、语句生成(sentence generation)、词性变化(word-activity)、编辑输出(Editting and outputting)等。

例如可以涉及机器学习(Machine Learning，ML)技术中的深度学习(DeepLearning)，其中包括人工神经网络(Artificial neural network)、注意学习(Attentionlearning)等

本申请实施例提供的视频向量表示方法可以应用于具有视频向量表示能力的视频处理设备上，该视频处理设备可以具有实施机器学习的能力，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本申请实施例中，视频处理设备通过实施上述机器学习技术，可以实现通过待处理视频确定出该视频的视频向量的过程。本申请实施例提供的视频向量确定方法可以应用于具有数据处理能力的设备，例如终端设备或服务器，该方法可以通过终端设备独立执行，也可以通过服务器独立执行，也可以应用于终端设备和服务器通信的网络场景，通过终端设备和服务器配合执行。其中，终端设备可以为手机、台式计算机、便携式计算机等；服务器可以理解为是应用服务器，也可以为Web服务器，在实际部署时，该服务器可以为独立服务器，也可以为集群服务器。下面以服务器作为执行主体，对本申请提供的视频向量确定方法进行介绍。

参见图1，图1为本申请实施例提供的视频向量确定方法的应用场景图。在图1所示的场景中，包括服务器101。

服务器101获取待处理视频的多个视频特征；所述多个视频特征所包括视频特征的特征来源不同，任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容。其中，特征来源可以理解为待处理视频携带的不同维度的数据。因此，可以根据每个视频特征的来源，标识待处理视频相应维度的视频信息。

如图1所示，将一部电影M作为待处理视频，该电影携带有多种维度的数据，包括：文本数据(例如，字幕文本文件T)、图像数据(例如，图像帧序列I)和语音数据(例如，一段音频A)。

针对该电影的多维度数据，服务器可以分别获取多个视频特征。也就是，服务器可以根据上述字幕文本文件T中的文本信息内容，可以提取出电影M中的文本特征。由于该文本特征是电影M一种维度的视频特征，因此，可以将该文本特征作为第一视频特征h_T。

同样的，服务器可以根据图像帧序列I中的视频图像内容提取出电影M中的图像特征。由于该图像特征是电影M另一种维度的视频特征，因此，可以将该图像特征作为第二视频特征h_I。

同样的，服务器可以根据音频A中的音频内容提取出电影M中的语音特征。由于该语音特征是电影M另一种维度的视频特征，因此，可以将该语音特征作为第三视频特征h_A。

基于上述，第一视频特征h_T，可以用于标识电影M文本维度的视频内容；第二视频特征h_I，可以用于标识电影M图像维度的视频内容；第三视频特征h_A可以用于标识电影M语音维度的视频内容。

基于上述，可以针对待处理视频不同维度的数据，获取多个维度的多个视频特征，以视频特征的形式标识待处理视频的多个维度的视频内容，用以后续利用多个视频特征进行视频向量表示时，视频向量中携带有待处理视频的多个维度的视频内容，从而丰富视频向量的视频表示能力。

服务器101可以对上述获取的多个视频特征进行特征拼接，得到多模态向量。其中，特征拼接，可以理解为将多个特征向量直接进行向量拼接；多模态向量，可以理解为融合有待处理上视频不同维度信息的向量。

如图1所示，服务器101将上述第一视频特征h_T，第二视频特征h_I和第三视频特征h_A进行特征拼接，得到多模态向量h_C，该多模态向量h_C携带有电影M三种维度的视频内容。

基于上述，对多个视频特征进行特征拼接处理，得到的多模态向量包括待处理数据多个维度的视频内容，基于该多模态向量确定出的视频向量充分考虑了视频不同维度的视频内容，提高了视频向量对待处理视频的标识精度。

服务器101可以根据上述多模态向量确定出该待处理视频的视频向量。其中，视频向量就是针对待处理视频进行处理，期望得到的处理结果。

如图1所示，利用本申请实施例提供的视频向量确定方法，针对电影M进行处理后，期望得到电影M的分类结果，则服务器101可以根据上述多模态h_C进行分类，得到电影M的视频分类结果，该视频分类结果就是针对电影M的多模态向量h_C确定出的视频向量h_M。

基于上述，由于多模态向量包括待处理视频多个维度的视频内容，因此，根据该多模态向量确定出的视频向量也包括有待处理视频多个维度的视频内容。鉴于此，该视频向量充分利用了待处理视频多维度信息，提高了对于待处理视频的标识精度。

下面通过实施例对本申请提供的视频向量确定方法进行介绍。

参见图2，图2为本申请实施例提供的一种视频向量确定方法的流程示意图。如图2所示，该方法包括以下步骤：

S201：获取待处理视频的多个视频特征；所述多个视频特征所包括视频特征的特征来源不同，任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容。

服务器可以根据待处理视频不同维度的信息，获取该待处理视频的多个视频特征。其中，每个视频特征来自待处理视频一个维度，且标识该对应维度的视频内容。

本申请提供了一种可行的实施方式，服务器可以根据待处理视频，获取以下一种或多种视频特征，即：服务器可以根据所述待处理视频的文本信息所确定的第一视频特征；服务器也可以根据所述待处理视频的视频图像内容所确定的第二视频特征；服务器也可以根据所述待处理视频的音频内容所确定的第三视频特征。

其中，上述第一视频特征来自待处理视频中的文本信息，用于标识待处理视频中文本维度的内容；上述第二视频特征来自待处理视频中的视频信息，用于标识待处理视频的视频维度的内容；上述第三视频特征来自待处理视频中的音频信息，用于标识待处理视频中音频维度的内容。

可以理解的是，服务器可以根据待处理视频，同时获取第一视频特征、第二视频特征和第三视频。

服务器根据待处理视频获取同时获取上述第一视频特征、第二视频特征和第三视频特征之前，可以对该待处理视频进行预处理。

本申请提供了一种可行的获取待处理视频的实施方式，即服务器可以利用视频唯一标识vid下载待处理视频，从而，服务器可以对该待处理视频进行预处理，以便获取多个视频特征。

参见图3，图3为本申请实施例提供的视频预处理的流程示意图。如图3所示，服务器根据待处理视频vid分别进行视频、音频和文本三个维度的预处理包括两个部分：获取原始数据部分和获取原始特征部分。

对于待处理视频vid中自身携带的视频内容，服务器可以对该待处理视频vid进行抽取关键帧处理，以此减少服务器的数据处理量，提高服务器的处理速度。在一种可行的方式中，服务器可以预先部署ffmpeg工具，利用ffmpeg工具对待处理视频vid进行均匀抽帧，得到图像帧序列。

其中，ffmpeg工具是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。也就是说，服务器利用ffmpeg对待处理视频vid抽帧处理后，服务器可以继续对上述得到的图像帧数据进行后续处理，以便得到待处理视频vid的视频向量化表示。

基于上述，服务器得到图像帧序列后，可以对该图像帧序列中的每帧图像数据以其对应的像素值表示，进一步地，将像素值进行归一化，得到像素归一化表示地图像帧序列。

对于待处理视频vid中的音频内容，本申请提供了一种可行的实施方式，即服务器也可以利用上述ffmpeg工具对待处理视频vid抽取出音频数据，并从该音频数据中提取出梅尔频谱图特征。

对于待处理视频vid中的文字内容，本申请提供了一种可行的实施方式，即服务器可以从待处理视频vid中获取原始文本内容，然后，对该原始文本内容进行分词，并借助词典将其转换为词典ID序列。其中，词典可以是服务器预先存储的，用于文本预处理的。

基于上述S201中描述的预处理过程，服务器根据待处理视频vid的视频、音频和文本三个维度的信息，经过预处理过程后，构造出Tfrecord格式的视频数据，用于获取该待处理视频对应的三个维度的视频特征。

参见图4，图4为本申请实施例提供的多模态视频向量表示模型的结构示意图。如图4所示，包括三种模态的视频信息，即视频、音频和文本。

针对第二视频特征，本申请提供了一种根据待处理视频的视频图像内容确定第二视频特征的实施方式，即通过图像识别模型确定所述待处理视频的视频帧分别对应的像素特征；根据所述视频帧在所述待处理视频中的时序顺序和所述像素特征确定所述第二视频特征。

上述图像识别模型可以预先部署在服务器中。如图4所示，针对预处理后以Tfrecord格式存储的待处理视频，图像识别模型可以包括Resnet模型和NetVlad模型。其中，Resnet模型，用于确定出该待处理视频中每帧视频帧的像素特征；NetVlad模型，用于按照视频帧在该待处理视频中的时序顺序和Resnet模型确定的像素特征，确定其第二视频特征。

可以理解的是，上述NetVlad模型确定出待处理视频的第二视频特征的过程是：NetVlad模型，先定义出预处理后的待处理视频的中心视频帧，然后，计算出其他视频帧距离该中心视频帧的距离，从而得到该待处理视频的所有视频帧的第二视频特征。

针对第三视频特征，本申请提供了一种根据待处理视频的音频内容确定第三视频特征的实施方式，即通过声学模型确定所述待处理视频的音频帧分别对应的声学特征；根据所述音频帧在所述待处理视频中的时序顺序和所述声学特征确定所述第三视频特征。

上述声学模型也可以预先部署在服务器中。如图4所示，针对预处理后以Tfrecord格式存储的待处理视频，声学模型可包括Vggish模型和NetVlad模型。其中，Vggish模型，用于确定出该待处理视频中每帧音频帧的声学特征；NetVlad模型，用于按照音频帧在该待处理视频中的时序顺序和Vggish模型确定的声学特征，确定其第三特征。

其中，声学模型中的NetVlad模型确定第三视频特征，与图像识别模型中的NetVlad模型确定第二视频特征类似，在此不再赘述。

针对第一视频特征，本申请提供了一种根据待处理视频的文本信息确定第一视频内容的实施方式，即通过对待处理视频的文本信息进行分词确定出词向量；根据文本模型和所述词向量确定所述第一视频特征。

可以理解的是，待处理视频中的文本信息可以包括标题、描述等内容。基于此，服务器可以待处理视频中的标题、描述等不同的文本信息进行分词，并利用词典查询出标题、描述文本对应分词的词向量。

如图4所示，上述文本模型预先部署在服务器中，且该文本模型可以为BERT模型。基于上述，服务器确定出标题和描述对应的词向量后，分别将标题对应的词向量和描述文本对应的词向量输入BERT模型后，分别确定出该待处理视频标题文本和描述文本对应的标题文本特征和描述文本特征。

针对上述待处理视频中标题和描述不同类型的文本信息，分别确定出的标题文本特征和描述文本特征，服务器可以对该不同类型的文本特征进行融合作为该待处理视频的第一视频特征，例如，服务器可以直接将标题文本特征和描述文本特征进行特征拼接；或者，将标题文本特征和描述文本特征统一维度后，取两特征向量的最大值或最小值作为第一视频特征。

由上述S201的内容可知，服务器可以根据待处理视频中文本、视频和音频三个维度，分别获取该待处理视频的第一视频特征、第二视频特征和第三视频特惠总能，因此，服务器可以基于该第一视频特征、第二视频和第三视频特征确定出融合了三种模态的视频向量，该视频向量包括了待处理视频三个维度的内容，视频表示能力较单一模态视频向量的视频表示能力更强。

S202：根据所述多个视频特征进行特征拼接，得到多模态向量。

基于上述S201，服务器可以获取待处理视频的第一视频特征、第二视频特征和第三视频特征。如图4所示，当服务器同时获取上述三种视频特征时，服务器可以将该三种视频特征进行特征拼接，得到多模态向量，该多模态向量包括第一视频特征、第二视频特征和第三视频特征标识的视频、音频和文本这三个维度的视频内容。

S203：根据所述多模态向量确定所述待处理视频的视频向量。

服务器获取多模态向量后，可以根据该多模态向量确定出该待处理视频的视频向量。其中，视频向量，可以理解为对待处理视频进行视频处理后，期待获取的该待处理视频的结果。例如，期望对某一待处理视频进行分类，则进行上述视频处理后，最终确定出的视频向量为该待处理视频的分类结果。

本申请提供了一种根据多模态向量确定视频向量的实施方式，即根据所述多模态向量，通过神经网络模型确定所述待处理视频的视频向量；所述神经网络模型根据如下方式训练得到：获取已标记视频，所述已标记视频具有确定的视频向量；根据所述已标记视频的多模态向量和视频向量作为训练样本对所述神经网络模型进行训练。

其中，神经网络模型可以预先部署在服务器中。当服务器确定出多模态向量后，服务器可以利用该神经网络模型确定出该待处理视频的视频向量。可以理解的是，该神经网络模型可以根据实际的视频处理需求设定具体的网络结构，例如，针对上述视频分类需求，可以将该神经网络模型的输入设置为多模态向量，输出设置为待处理视频的分类结果。在该神经网络模型训练过程中，服务提通过获取带有分类标记的视频，以该视频的多模态向量作为输入，以分类标记作为输出，对该神经网络模型进行训练。

上述实施例提供的视频向量确定方法，获取待处理视频的多个视频特征；所述多个视频特征所包括视频特征的特征来源不同，任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容；根据所述多个视频特征进行特征拼接，得到多模态向量；根据所述多模态向量确定所述待处理视频的视频向量。用于确定视频向量的多个视频特征来自待处理视频的不同特征来源，从而确定出的视频向量可以从多个维度体现出待处理视频的内容，丰富了视频向量的视频表示能力，提高了视频向量对待处理视频的标识精度。

需要说明的是，上述实施例提供的视频向量确定方法，可以用于视频搜索、视频推荐等系统中，即在进行搜索或推荐时，可以通过视频向量表示计算不同视频间的相关性，优化系统视频的搜索和推荐能力。例如，在进行视频标准化时，可基于上述视频向量确定方法进行相似视频计算，用以构建视频候选标签；或者，对某个网站底层页面推荐时，可以采用上述视频向量确定方法进行候选推荐视频的筛选。

由于不同的用户，对于同一视频可能有不同的评价或不同的喜爱程度。针对用户这一个性化因素，本申请实施例提供了另一种视频向量确定方法。

参见图5，图5为本申请实施例提供的另一种视频向量确定方法的流程示意图。如图5所示，该方法包括S501-S505。其中，S501-S502的操作过程与上述S201-S202类似，在此不再赘述。

S501：获取待处理视频的多个视频特征；所述多个视频特征所包括视频特征的特征来源不同，任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容。

S502：根据所述多个视频特征进行特征拼接，得到多模态向量。

S503：获取目标用户的用户画像信息。

S504：根据所述用户画像信息确定用户特征向量。

S505：根据所述多模态向量和所述用户特征向量确定所述待处理视频对应所述目标用户的视频向量。

服务器根据待处理视频获取多个视频特征的同时，可以获取目标用户的用户画像信息。其中，用户画像信息，可以理解为用于标识目标用户个性化特征的信息。用户画像信息可以包括：目标用户的年龄、职业、爱好等。

针对上述S505，本申请提供了一种可行的实施方式，即服务器可以将多模态向量和用户特征向量进行特征拼接，并根据拼接后的向量确定出该待处理视频对应该目标用户的视频向量。

针对上述S505，本申请提供了另一种可行的实施方式，即服务器利用注意力模型对待处理视频进行用户向量表示，并根据该用户向量表示对基于多模态向量确定的视频向量进行裁剪，确定出最终的用户个性化视频向量。

其中，注意力模型可以预先部署在服务器中。在实际应用中，可以根据实际情况决定基于用户特征向量和多模态向量确定视频向量的方式，在此不作任何限定。

上述实施例提供的视频向量确定方法，在图2所示方法的基础上，通过增加目标用户的用户画像信息，并根据该用户画像信息确定用户特征向量，从而，根据多模态向量和该用户特征向量确定待处理视频对应该目标用户的视频向量。由于多模态视频向量中增加了用户个性化信息，因此，基于该视频向量确定方法确定出的视频向量在用户搜索视频或对平台进行推荐时，提供了更准确的内容，提升了基于视频向量展现相关视频的能力，降低了无关视频对用户观看兴趣的干扰，优化了用户体验。

针对上述描述的视频向量确定方法，下面对本申请实施例使用视频向量确定方法的应用场景进行介绍。

参见图6，图6为本申请实施例提供的视频向量确定方法的应用场景示意图。下面以用户使用A视频网站搜索期望类型的视频为例进行说明。其中，本申请实施例提供的视频向量确定方法应用于A视频网站。

在图6所示的场景中，包括用显示屏601和服务器602。其中，显示屏601与服务器602通过物理连接实现信息交互；显示屏601，用于用户与A视频网站进行信息交互；服务器602，用于应用视频向量确定方法搜索用户期望获取的相关视频。

在应用过程中，用户利用显示屏601，打开A视频网站，在A视频网站界面的搜索框输入期望获取的视频类型，例如喜剧，显示屏601将接收到的信息发送给服务器602，服务器602利用视频向量确定方法对存储的视频进行视频向量表示，选出符合“喜剧”这一分类结果的相关视频，并通过显示屏601展示给用户，供用户选择。

针对上述描述的视频向量确定方法，下面对本申请实施例提供的视频向量确定装置进行介绍。

参见图7，图7为本申请实施例提供的视频向量确定装置的结构示意图。如图7所述，该视频向量确定装置700包括获取单元701、拼接单元702和确定单元703：

所述获取单元701，用于获取待处理视频的多个视频特征；所述多个视频特征所包括视频特征的特征来源不同，任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容；

所述拼接单元702，用于根据所述多个视频特征进行特征拼接，得到多模态向量；

所述确定单元703，用于根据所述多模态向量确定所述待处理视频的视频向量。

在一种可行的实施方式中，所述确定单元703，还用于：

根据所述多模态向量，通过神经网络模型确定所述待处理视频的视频向量；

所述获取单元701，还用于获取已标记视频，所述已标记视频具有确定的视频向量；

所述装置700还包括训练单元：

所述训练单元，用于根据所述已标记视频的多模态向量和视频向量作为训练样本对所述神经网络模型进行训练。

在一种可行的实施方式中，所述获取单元701，还用于：

获取目标用户的用户画像信息；

所述确定单元703，还用于：

根据所述用户画像信息确定用户特征向量；

根据所述多模态向量和所述用户特征向量确定所述待处理视频对应所述目标用户的视频向量。

在一种可行的实施方式中，所述确定单元703，还用于：

根据所述待处理视频的文本信息所确定的第一视频特征；

根据所述待处理视频的视频图像内容所确定的第二视频特征；

根据所述待处理视频的音频内容所确定的第三视频特征。

在一种可行的实施方式中，所述确定单元703，还用于：

通过图像识别模型确定所述待处理视频的视频帧分别对应的像素特征；

根据所述视频帧在所述待处理视频中的时序顺序和所述像素特征确定所述第二视频特征。

在一种可行的实施方式中，所述确定单元703，还用于：

通过声学模型确定所述待处理视频的音频帧分别对应的声学特征；

根据所述音频帧在所述待处理视频中的时序顺序和所述声学特征确定所述第三视频特征。

上述实施例提供的视频向量确定装置，获取待处理视频的多个视频特征；所述多个视频特征所包括视频特征的特征来源不同，任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容；根据所述多个视频特征进行特征拼接，得到多模态向量；根据所述多模态向量确定所述待处理视频的视频向量。用于确定视频向量的多个视频特征来自待处理视频的不同特征来源，从而确定出的视频向量可以从多个维度体现出待处理视频的内容，丰富了视频向量的视频表示能力，提高了视频向量对待处理视频的标识精度。

针对上述实施例提供的视频向量确定方法，本申请实施例还提供了一种执行视频向量确定方法的服务器和终端设备，下面结合附图对视频向量确定设备进行介绍。

参见图8，图8是本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

根据所述多个视频特征进行特征拼接，得到多模态向量；

根据所述多模态向量确定所述待处理视频的视频向量。

其中，CPU1422还可以执行本申请实施例中视频向量确定方法任一具体实现方式的方法步骤。

参见图9，图9为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(英文全称：Personal DigitalAssistant，英文缩写：PDA)等任意终端设备：

图9示出的是与本申请实施例提供的终端相关的部分结构的框图。参考图9，该终端包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现终端的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1580是终端的控制中心，利用各种接口和线路连接整个平板电脑的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行平板电脑的各种功能和处理数据。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1580中。

在本申请实施例中，该终端所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。

该终端所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的视频向量确定的方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的视频向量确定方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-onlymemory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视频向量确定方法，其特征在于，所述方法包括：

获取待处理视频的多个视频特征；所述多个视频特征所包括视频特征的特征来源不同，任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容；所述多个视频特征包括如下任意多个的组合：根据文本模型确定的第一视频特征、根据图像识别模型确定的第二视频特征及根据声学模型确定的第三视频特征；

根据所述多个视频特征进行特征拼接，得到多模态向量；

获取目标用户的用户画像信息，并根据所述用户画像信息确定用户特征向量；所述用户画像信息包括所述目标用户的年龄、职业和爱好；

根据所述多模态向量确定所述待处理视频的视频向量；所述根据所述多模态向量确定所述待处理视频的视频向量，包括：根据所述多模态向量和所述用户特征向量确定所述待处理视频对应所述目标用户的视频向量；

所述根据所述多模态向量和所述用户特征向量确定所述待处理视频对应所述目标用户的视频向量，包括：利用注意力模型对所述待处理视频进行用户向量表示，并根据所述用户向量表示对基于多模态向量确定的视频向量进行裁剪，确定最终的用户个性化视频向量。

2.根据权利要求1所述的方法，其特征在于，若所述多个视频特征包括所述第一视频特征，所述第一视频特征根据如下方式确定：

通过对所述待处理视频的文本信息进行分词确定出词向量；

根据文本模型和所述词向量确定所述第一视频向量。

3.根据权利要求1所述的方法，其特征在于，若所述多个视频特征包括所述第二视频特征，所述第二视频特征根据如下方式确定：

4.根据权利要求1所述的方法，其特征在于，若所述多个视频特征包括所述第三视频特征，所述第三视频特征根据如下方式确定：

5.一种视频向量确定装置，其特征在于，所述装置包括获取单元、拼接单元和确定单元：

所述获取单元，获取待处理视频的多个视频特征；所述多个视频特征所包括视频特征的特征来源不同，任意一个视频特征用于从所属特征来源标识所述待处理视频的视频内容，所述多个视频特征包括如下任意多个的组合：根据文本模型确定的第一视频特征、根据图像识别模型确定的第二视频特征及根据声学模型确定的第三视频特征；

所述获取单元，还用于获取目标用户的用户画像信息；所述用户画像信息包括：所述目标用户的年龄、职业、爱好；

所述确定单元，用于根据所述用户画像信息确定用户特征向量；

所述确定单元，还用于所述根据所述多模态向量确定所述待处理视频的视频向量；所述根据所述多模态向量确定所述待处理视频的视频向量，包括：根据所述多模态向量和所述用户特征向量确定所述待处理视频对应所述目标用户的视频向量；

所述确定单元，还用于所述根据所述多模态向量和所述用户特征向量确定所述待处理视频对应所述目标用户的视频向量，包括：利用注意力模型对所述待处理视频进行用户向量表示，并根据所述用户向量表示对基于多模态向量确定的视频向量进行裁剪，确定最终的用户个性化视频向量。

6.根据权利要求5所述的装置，其特征在于，若所述多个视频特征包括所述第一视频特征，所述第一视频特征根据如下方式确定：

通过对所述待处理视频的文本信息进行分词确定出词向量；

根据文本模型和所述词向量确定所述第一视频向量。

7.根据权利要求5所述的装置，其特征在于，若所述多个视频特征包括所述第二视频特征，所述第二视频特征根据如下方式确定：

8.根据权利要求5所述的装置，其特征在于，若所述多个视频特征包括所述第三视频特征，所述第三视频特征根据如下方式确定：

9.一种用于视频向量确定的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-4任意一项所述的方法。