CN117851640A

CN117851640A - 基于复合特征的视频数据处理方法、装置、设备和介质

Info

Publication number: CN117851640A
Application number: CN202410239558.9A
Authority: CN
Inventors: 邓立邦
Original assignee: Guangdong Zhimeiyuntu Tech Corp ltd
Current assignee: Guangdong Zhimeiyuntu Tech Corp ltd
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-04-09
Anticipated expiration: 2044-03-04
Also published as: CN117851640B

Abstract

本申请实施例公开了基于复合特征的视频数据处理方法、装置、设备和介质。本申请实施例通过均由图像提取子模型和文字提取子模型组成的第一子模型和第二子模型复合形成特征提取模型，第一子模型提取的图像特征向量的维度数量小于第二子模型提取的图像特征向量的维度数量，在具体提取时，根据第一子模型提取的图像特征向量与其在前一图像帧提取的图像特征向量的相似度，最终确认需要保存的图像特征向量，在搜索时通过特征提取模型提取搜索初始信息的信息特征向量与保存的图像特征向量进行一次或两次匹配，根据匹配程度确认搜索结果。以图像特征向量极小的存储空间需求，实现了以各种形式的搜索初始信息对灵活动态变化的视频数据进行高效精准的搜索。

Description

基于复合特征的视频数据处理方法、装置、设备和介质

技术领域

本申请实施例涉及视频数据处理技术领域，尤其涉及基于复合特征的视频数据处理方法、装置、设备和介质。

背景技术

随着电子技术中图像采集、数据存储、图像处理等各个分支的不断发展，视频数据因为其呈现的信息直观、操作方式简洁，成为很多传统行业发展和新兴行业诞生的核心。

随着电子技术的不断发展，视频安防、视频娱乐、视频学习等行业存量的视频数据越来越多，信息量越来越大，从大量视频数据中快速找到用户所需要的数据也越来越难。

视频数据在信息呈现方案具备优势的同时，也存在因为信息表征模糊较难从存储空间中进行搜索的问题。现有对视频数据进行搜索的方案，主要基于对视频数据的标题、分类、简介等预设置的信息标签或基于具体图文内容进行搜索，现有的视频数据搜索方式中对搜索参考数据的精度要求较高，无法实现对灵活动态变化的视频数据进行高效精准的搜索。

对于需要逐帧显示，并且具体数据内容很难唯一且精准表达的视频数据，对其进行精准目标搜索一直是行业内的解决目标。为提高对视频数据的搜索速度和精准度，工程师们设计了视频管理架构，例如将自身领域内的视频数据进一步按领域特征进行划分，例如视频学习可以进一步按学科、年级等进行分类，用户可以通过分类先缩小搜索范围然后进行具体视频数据的搜索。但是这种搜索最多只能快速确认出一个视频，无法对视频内的具体内容进行搜索，而且对于分类方式较为复杂，每个最小分类都有大量视频数据的领域，缩小搜索范围之后的搜索难度也较大。

除了整体数据管理架构上对搜索的支持，还可以基于元数据对视频数据进行搜索，也即基于视频数据的标题、描述、标签、上传者和发布日期等信息标签进行搜索。例如在各种综合视频分享网站上，主要就是基于提供的标题、描述和标签等进行搜索。但是这种搜索仍然不涉及对具体视频内容的搜索。

对视频内容的搜索主要包括基于视觉内容的搜索和基于文字的搜索。基于视频内容的搜索，例如基于颜色和纹理的搜索：通过分析视频帧中的颜色分布和纹理信息，生成颜色直方图或纹理特征，然后将用户查询与这些特征进行比较。例如基于形状的搜索：识别视频帧中的物体轮廓或形状，并根据这些形状进行搜索。例如基于运动的搜索：分析视频中的运动模式，如物体的移动轨迹或相机的运动，并基于这些运动特征进行搜索。例如基于关键帧的搜索：从视频中提取一系列关键帧，然后利用这些帧中的视觉信息（如颜色、纹理、形状等）来进行搜索。基于文字的搜索是指当视频中包含可识别的文字，例如场景中的文字或字幕，可以使用光学字符识别技术从视频帧中提取文本信息，然后基于这些文本进行搜索。

以上搜索方式通常依赖于大量的手动操作和简单的模式匹配，往往搜索效果不佳。发明人对现有搜索方式综合分析发现：1、现有的搜索方式高度依赖元数据的准确性、完整性，以及搜索时用户输入的关键词与已设置描述信息的一致性，对于标题、描述和标签等元数据如果不准确、不完整或缺失，搜索关键词时使用模糊描述，使用关键词与元数据含义近似但词语不同时（例如标签用词是“SUV”，搜索时用词是“越野车”），搜索效果就会受到严重影响。此外，这种方法也容易受到关键词填充等欺诈性行为的影响。2、现有的搜索方式无法理解视频内容的语义信息，例如可能无法区分不同场景中相同物体的语境含义，或者无法识别视频中人物的行为和意图。3、视觉特征提取和匹配存在局限性，基于内容的搜索方法（如颜色直方图、形状匹配）通常涉及手工特征提取，这些特征可能不够鲁棒，易受视角、光照、遮挡等因素的影响。此外，简单的模式匹配往往无法准确地识别复杂的场景和对象。4、处理能力和效率过低，对视频内容进行分析和索引是一个计算密集型的过程，在大规模数据集上进行传统的视频搜索可能会非常耗时，并需要大量的计算资源，从搜索速度上无法满足用户的搜索需要。5、对动态内容的处理不足，传统的视频搜索方法往往无法有效地处理视频中的动态内容，如动作识别和事件检测，基于运动的搜索通常局限于简单的运动模式，并缺乏对复杂动态事件的理解。6、缺乏个性化，传统搜索方法通常不能适应用户的个人偏好，必须用准确的关键词搜索，不支持多样化的、包括有修辞关系的文本进行检索，因此提供的结果可能并不总是最相关或最有用的。综合而言，现有的视频数据搜索方式中对搜索参考数据的精度要求较高，无法实现对灵活动态变化的视频数据进行高效精准的搜索。

发明内容

本申请实施例提供了基于复合特征的视频数据处理方法、装置、设备和介质，能够解决现有的视频数据搜索方式中对搜索参考数据的精度要求较高，无法实现对灵活动态变化的视频数据进行高效精准的搜索的技术问题。

第一方面，本申请实施例提供了基于复合特征的视频数据处理方法，该基于复合特征的视频数据处理方法包括：

将待处理的视频数据的图像帧逐帧输入预训练的特征提取模型，通过所述特征提取模型中的第一子模型进行第一次特征提取得到第一图像特征向量，并在满足预设特征条件下通过所述特征提取模型中的第二子模型进行第二次特征提取得到第二图像特征向量，关联所述图像帧对应保存所述特征提取模型输出的图像特征向量，所述第一图像特征向量的维度小于所述第二图像特征向量的维度，所述第一子模型和第二子模型均包括对应的图像提取子模型和文字提取子模型，所述第一子模型和第二子模型均通过对对应的图像提取子模型和文字提取子模型进行网络权重调整控制输出差异完成训练，且所述第二子模型输出的靠前的子特征向量通过所述第一子模型对同一图像帧的输出生成；所述预设特征条件为当前图像帧对应的第一图像特征向量与前一图像帧对应的第一图像特征向量的相似度小于预设条件阈值；

接收到搜索初始信息时，将所述搜索初始信息输入所述特征提取模型，根据所述搜索初始信息的类型，通过所述第一子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第一信息特征向量；

根据所述第一信息特征向量与所述第一图像特征向量的相似度；

确认所述的数量初始目标位置小于预设数量阈值时，将所述初始目标位置作为所述搜索初始信息的目标搜索结果；

确认所述初始目标位置的数量在预设数量阈值以上时，通过所述第二子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第二信息特征向量；

根据所述第二信息特征向量，与每个所述初始目标位置对应的第一图像特征向量或第二图像特征向量的相似度，从所述初始目标位置确认所述搜索初始信息在所述视频数据中的目标搜索结果。

其中，所述根据所述第二信息特征向量，与每个所述初始目标位置对应的第一图像特征向量或第二图像特征向量的相似度，从所述初始目标位置确认所述搜索初始信息在所述视频数据中的目标搜索结果，包括：

从所述初始目标位置对应的所有第一图像特征向量和第二图像特征向量中，确认与所述第二信息特征向量的相似度达到预设门限值的最高图像特征向量，将所述最高图像特征向量对应的图像帧确认为所述搜索初始信息在所述视频数据中的目标搜索结果。

所述初始目标位置对应的所有第一图像特征向量和第二图像特征向量与所述第二信息特征向量的相似度均低于所述预设门限值的情况下，确认所述目标搜索结果为空。

其中，所述输出差异为方差，所述方差通过如下方式确认：

其中，表示同一子模型中的图像提取子模型和文字提取子模型的输出的差异向量D的方差，/>表示差异向量D的第i个分量，/>表示差异向量D的均值，n表示差异向量D的维度数量。

其中，所述图像提取子模型为卷积神经网络模型，所述文字提取子模型为循环神经网络模型。

其中，所述第一子模型中的图像提取子模型和文字提取子模型输出的特征向量的维度数量相同；所述第二子模型中的图像提取子模型和文字提取子模型输出的特征向量的维度数量相同。

第二方面，本申请实施例提供了基于复合特征的视频数据处理装置，该基于复合特征的视频数据处理装置包括：

特征提取存储单元，用于将待处理的视频数据的图像帧逐帧输入预训练的特征提取模型，通过所述特征提取模型中的第一子模型进行第一次特征提取得到第一图像特征向量，并在满足预设特征条件下通过所述特征提取模型中的第二子模型进行第二次特征提取得到第二图像特征向量，关联所述图像帧对应保存所述特征提取模型输出的图像特征向量，所述第一图像特征向量的维度小于所述第二图像特征向量的维度，所述第一子模型和第二子模型均包括对应的图像提取子模型和文字提取子模型，所述第一子模型和第二子模型均通过对对应的图像提取子模型和文字提取子模型进行网络权重调整控制输出差异完成训练，且所述第二子模型输出的靠前的子特征向量通过所述第一子模型对同一图像帧的输出生成；所述预设特征条件为当前图像帧对应的第一图像特征向量与前一图像帧对应的第一图像特征向量的相似度小于预设条件阈值；

第一初始特征提取单元，用于接收到搜索初始信息时，将所述搜索初始信息输入所述特征提取模型，根据所述搜索初始信息的类型，通过所述第一子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第一信息特征向量；

第一相似度确认单元，用于根据所述第一信息特征向量与所述第一图像特征向量的相似度，确认所述搜索初始信息在所述视频数据中的初始目标位置的数量，所述初始目标位置为与所述第一信息特征向量的相似度达到预设相似度阈值的第一图像特征向量对应的图像帧在所述视频数据中的位置；

第一目标确认单元，用于确认所述初始目标位置的数量小于预设数量阈值时，将所述初始目标位置作为所述搜索初始信息的目标搜索结果；

第二初始特征提取单元，用于确认所述初始目标位置的数量在预设数量阈值以上时，通过所述第二子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第二信息特征向量；

第二目标确认单元，用于根据所述第二信息特征向量，与每个所述初始目标位置对应的第一图像特征向量或第二图像特征向量相似度，从所述初始目标位置确认所述搜索初始信息在所述视频数据中的目标搜索结果。

其中，第二目标确认单元，包括：

第一匹配搜索模块，用于从所述初始目标位置对应的所有第一图像特征向量或第二图像特征向量中，确认与所述第二信息特征向量的相似度达到预设门限值的最高图像特征向量，将所述最高图像特征向量对应的图像帧确认为所述搜索初始信息在所述视频数据中的目标搜索结果。

其中，所述第二目标确认单元，包括：

第二匹配搜索模块，用于所述初始目标位置对应的所有第一图像特征向量和第二图像特征向量与所述第二信息特征向量的相似度均低于所述预设门限值的情况下，确认所述目标搜索结果为空。

其中，所述输出差异为方差，所述方差通过如下方式确认：

第三方面，本申请实施例提供了电子设备，该电子设备包括：

存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的基于复合特征的视频数据处理方法。

第四方面，本申请实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的基于复合特征的视频数据处理方法。

本申请实施例提供的基于复合特征的视频数据处理方法、装置、设备和介质中，将待处理的视频数据的图像帧逐帧输入预训练的特征提取模型，通过所述特征提取模型中的第一子模型进行第一次特征提取得到第一图像特征向量，并在满足预设特征条件下通过所述特征提取模型中的第二子模型进行第二次特征提取得到第二图像特征向量，关联所述图像帧对应保存所述特征提取模型输出的图像特征向量，所述第一图像特征向量的维度小于所述第二图像特征向量的维度，所述第一子模型和第二子模型均包括对应的图像提取子模型和文字提取子模型，所述第一子模型和第二子模型均通过对对应的图像提取子模型和文字提取子模型进行网络权重调整控制输出差异完成训练，且所述第二子模型输出的靠前的子特征向量通过所述第一子模型对同一图像帧的输出生成；所述预设特征条件为当前图像帧对应的第一图像特征向量与前一图像帧对应的第一图像特征向量的相似度小于预设条件阈值；接收到搜索初始信息时，将所述搜索初始信息输入所述特征提取模型，根据所述搜索初始信息的类型，通过所述第一子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第一信息特征向量；根据所述第一信息特征向量与所述第一图像特征向量的相似度，确认所述搜索初始信息在所述视频数据中的初始目标位置的数量，所述初始目标位置为与所述第一信息特征向量的相似度达到预设相似度阈值的第一图像特征向量对应的图像帧在所述视频数据中的位置；确认所述初始目标位置的数量小于预设数量阈值时，将所述初始目标位置作为所述搜索初始信息的目标搜索结果；确认所述初始目标位置的数量在预设数量阈值以上时，通过所述第二子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第二信息特征向量根据所述第二信息特征向量，与每个所述初始目标位置对应的第一图像特征向量或第二图像特征向量相似度，从所述初始目标位置确认所述搜索初始信息在所述视频数据中的目标搜索结果。通过均由图像提取子模型和文字提取子模型组成的第一子模型和第二子模型复合形成特征提取模型，第一子模型提取的图像特征向量的维度数量小于第二子模型提取的图像特征向量的维度数量，在具体提取时，根据第一子模型提取的图像特征向量与其在前一图像帧提取的图像特征向量的相似度，最终确认通过第一子模型或第二子模型提取出的视频数据中每个图像帧的图像特征向量进行保存，在搜索时通过特征提取模型提取搜索初始信息的信息特征向量，通过信息特征向量与图像特征向量进行一次或两次匹配，根据匹配程度确认搜索结果。以图像特征向量极小的存储空间需求，实现了以各种形式的搜索初始信息对灵活动态变化的视频数据进行高效精准的搜索。

附图说明

图1是本申请实施例提供的一种基于复合特征的视频数据处理方法的方法流程图；

图2是本申请实施例提供的特征提取模型的第一子模型的结构示意图；

图3是本申请实施例提供的特征提取模型的整体结构示意图；

图4-图6是本申请实施例提供的图像数据中画面内容变化示意图；

图7是本申请实施例提供的一种基于复合特征的视频数据处理装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作（或步骤）描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本申请提供的基于复合特征的视频数据处理方法，通过均由图像提取子模型和文字提取子模型组成的第一子模型和第二子模型复合形成特征提取模型，第一子模型提取的图像特征向量的维度数量小于第二子模型提取的图像特征向量的维度数量，在具体提取时，根据第一子模型提取的图像特征向量与其在前一图像帧提取的图像特征向量的相似度，最终确认通过第一子模型或第二子模型提取出的视频数据中每个图像帧的图像特征向量进行保存，在搜索时通过特征提取模型提取搜索初始信息的信息特征向量，通过信息特征向量与图像特征向量进行一次或两次匹配，根据匹配程度确认搜索结果。以图像特征向量极小的存储空间需求，实现了以各种形式的搜索初始信息对灵活动态变化的视频数据进行高效精准的搜索。

请参考图1，其为本申请实施例提供的一种基于复合特征的视频数据处理方法的方法流程图。如图1所示，该基于复合特征的视频数据处理方法包括且不限于步骤S110-步骤S130：

步骤S110：将待处理的视频数据的图像帧逐帧输入预训练的特征提取模型，通过所述特征提取模型中的第一子模型进行第一次特征提取得到第一图像特征向量，并在满足预设特征条件下通过所述特征提取模型中的第二子模型进行第二次特征提取得到第二图像特征向量，关联所述图像帧对应保存所述特征提取模型输出的图像特征向量。

在具体实现步骤S110的过程中，所述第一图像特征向量的维度小于所述第二图像特征向量的维度，所述第一子模型和第二子模型均包括对应的图像提取子模型和文字提取子模型，所述第一子模型和第二子模型均通过对对应的图像提取子模型和文字提取子模型进行网络权重调整控制输出差异完成训练，且所述第二子模型输出的靠前的子特征向量通过所述第一子模型对同一图像帧的输出生成；所述预设特征条件为当前图像帧对应的第一图像特征向量与前一图像帧对应的第一图像特征向量的相似度小于预设条件阈值。

在本申请实施例中，待处理的视频数据是指需要采用本申请实施例中的基于复合特征的视频数据处理方法进行存储的视频数据，以供后续对这些视频数据进行快速搜索。待处理的视频数据具体可以是在先已经存储的视频数据，也可以是当前从其它存储位置接收的视频数据，还可以是实时进行图像采集生成的视频数据等。整体而言，不管这些视频数据的来源如何，用于通过步骤S110进行特征提取和图像特征向量的保存的视频数据，均属于本申请实施例中的待处理的视频数据。

视频数据是摄像头前方的画面进行图像采集或者对电子设备的显示画面进行图像截取得到，从内容上是连续的画面变化或者静态画面的持续显示，但是从数据结构方面均是按帧进行编码，即视频数据实际是多个连续的图像帧的集合。对于待处理的视频数据，图像帧逐帧输入预训练的特征提取模型进行特征提取。在本申请实施例中，特征提取模型包括两个子模型（即第一子模型和第二子模型），两个子模型的特征提取能力有所不同。例如第一子模型能提取a维的图像特征向量（即对应第一图像特征向量），第二子模型能提取b维的图像特征向量（即第二图像特征向量），所述第一图像特征向量的维度小于所述第二图像特征向量的维度，也即a<b。在进行特征提取过程中，不是每个图像帧都必然通过第一子模型和第二子模型进行特征提取，而是先使用第一子模型进行较为粗放的特征提取得到第一图像特征向量，相当于每个图像帧都至少有第一子模型进行特征提取，获得每个图像帧较为粗略的特征信息。然后将提取到的第一图像特征向量与前一个图像帧的第一图像特征向量进行比较，只有在这两个图像帧的内容差异较大，也即比较得到的相似度小于预设条件阈值的情况下，才对图像帧通过第二子模型进一步进行特征提取，获得图像帧更丰富的特征信息进行保存，以供后续进行检索。

在具体保存时，根据提取次数的不同，提取的图像特征向量的维度数量不同，具体有可能是仅第一次通过第一子模型进行提取得到的a维的第一图像特征向量，也可能是第二次通过第二子模型进行提取得到的b维的第二图像特征向量。也即待处理的视频数据中每一个图像帧都存储了图像特征向量，但是存储的图像特征向量维度数量有可能不同，可能是较短的a维，也可能是较长的b维。相当于通过第一图像特征向量中反应出的图像帧的内容变化情况，选择是否进行更深入的特征提取，从而实现视频数据中每一帧长短不同的维度数量的特征向量搭配存储，能够在尽可能减少特征提取深度、特征提取时长以及后续存储空间需求的同时，保证对视频数据中特征信息的全面提取。

进行特征提取的过程具体由预训练的特征提取模型完成，特征提取模型中的第一子模型和第二子模型的整体训练策略相同，故对训练过程不分别做展开说明，而是整体描述训练策略。在具体设计特征提取模型时，考虑到视频数据内容为画面内容，以及用户表达为文字（对应为文本内容）或图片（对应为画面内容）的特性，特征提取模型需要能实现对画面内容的特征提取以及对文本内容的特征提取，并且特征提取的结果能够补充到画面内容和文本内容之间的深层次语义关系。在此设计思路的基础上，特征提取模型设计为包括图像提取子模型和文字提取子模型，所述特征提取模型通过对所述图像提取子模型和文字提取子模型进行网络权重调整控制输出差异完成训练，且所述第二子模型输出的靠前的子特征向量通过所述第一子模型对同一图像帧的输出生成。相当于第一子模型和第二子模型对同一图像帧进行特征提取时，得到的第一图像特征向量和第二图像特征向量并不是两个随意表达的向量，而是第二子模型在提取到第一子模型能提取到的所有特征的同时，还将这些特征以相同方式记录在第二图像特征向量中从第一维向量开始的靠前位置。具体实现上，第二子模型输出的靠前的子特征向量通过第一子模型对同一图像帧的输出生成，即第二图像特征向量包括一个从第一维向量开始的子特征向量。对应不同神经网络模型在特征提取方面的优势，所述图像提取子模型设计为卷积神经网络模型，所述文字提取子模型设计为循环神经网络模型，从而实现对画面内容或文本内容的精准特征提取。

请参考图2和图3，整个特征提取模型包括第一子模型（即ModelA）和第二子模型（即ModelB）。对于其中的子模型，以图2中的ModelA为例，其中包括循环神经网络模型RNN1和卷积神经网络模型CNN1，循环神经网络模型RNN1输入的是文本内容，卷积神经网络模型CNN1输入的画面内容。对应到具体训练过程中，先构建大规模的图文配对数据集作为训练样本，图文配对数据集中的每个训练样本包括一个图像和对应的文本描述，其中图像用于对卷积神经网络模型CNN进行训练，对应的输出为一个a维向量N2；文本描述用于对循环神经网络模型RNN进行训练，对应的输出为一个a维向量N1。第二子模型的结构与第一子模型的整体架构相同，在图3中也示出了第二子模型包含第一子模型，以及在已训练完成并冻结参数的第一子模型的基础上再整体进行训练得到的循环神经网络模型RNN2和卷积神经网络模型CNN2，第二子模型输出的是b维向量，循环神经网络模型RNN2和卷积神经网络模型CNN2对应输出的均为(b - a)维向量。从特征提取能力而言，如图3所示，第二子模型完全覆盖第一子模型的特征提取能力，并对与第一子模型的提取结果相同的这部分特征向量有固定的记录方式，即记录于特征向量中靠前的位置。如果某个图像帧只提取第一图像特征向量，则最终需要保存的是a维向量，如果某个图像帧需要提取第二图像特征向量，则最终需要保存的是b维向量，在这b维向量中，前a维向量与第一子模型对该图像帧的提取结果相同，后面的(b - a)维向量是相较于第一子模型提取到的更为精确的特征向量。具体到对不同类型数据的特征提取，具体的输出的关系可以进一步参考图3，第一子模型中的文字提取子模型输出的特征向量为一个a维向量N1，第二子模型中的文字提取子模型对同一个数据进行特征提取输出的特征向量为一个b维向量M1，且b维向量M1的前a维向量即为a维向量N1。第一子模型中的图像提取子模型输出的特征向量为一个a维向量N2，第二子模型中的图像提取子模型对同一个图像进行特征提取输出的特征向量为一个b维向量M2，且b维向量M2的前a维向量即为a维向量N2。

具体获取到的特征向量可以参考图4-图6，假设视频数据中记录的是一个主人牵着宠物狗进入画面再离开的过程，整个过程持续了30s，在这30s中以30FPS的帧率采集到了900个图像帧。这900个图像帧中的第1个图像帧如图4所示，对应识别出的图像特征向量是有一个人；中间的898个图像帧如图5所示，对应识别出的特征信息是有一个人牵着一条狗；最后一个图像帧如图6所示，对应识别出的图像特征向量是有一条狗。其中第1个图像帧和第2个图像帧之间的特征信息变化很大，第一图像特征向量的相似度较低，第二个图像帧相应需要提取第二图像特征向量，从第2个图像帧开始连续的898个图像帧的第一图像特征向量相似度都很高，那么从第3个图像帧开始均只需要提取第一图像特征向量。直到第900个图像帧与前一帧的第一图像特征向量的相似度较低，那么第900个图像帧需要提取第二图像特征向量。可以看出，第二图像特征向量不只用于表征一个图像帧的画面内容特征，还用于表征从这个图像帧开始画面内容相较于前一个图像帧有了明显变化，相当于通过第二图像特征向量的存在状态构建对视频数据按内容进行划分的结构性目录，并可以在此基础上进行快速搜索。

另一方面，通过本实施例可知，视频数据中采集到900个图像帧，这900个图像帧的图像特征向量均予以存储。不同的是，根据每一帧与前一帧的画面内容相似度比较结果，相似度超过阈值则只提取第一图像特征向量，并存储a维向量（较短）；相似度低于阈值则代表画面内容差异较大，则在提取第一图像特征向量后，还需提取第二图像特征向量，并存储b维向量（较长）。需留意的是，在本实施例中，从第3个图像帧开始均只需要提取第一图像特征向量，即a维向量，但在第3个图像帧到第899个图像帧所提取的第一图像特征向量中，其维度数量相同，内容相似，但还是存在不完全一致的特征向量，也即帧与帧之间内容上微弱差异部分的特征向量也会被存储，所以能够实现对每一帧的特征信息的全面提取，也即能够识别到视频内容里复杂的场景和对象、能够理解复杂的动态事件，继而能为后续的搜索提供全面的信息数据基础。整体上实现了在尽可能控制数据存储空间大小的情况下对图像特征尽可能全面的保存。这种灵活弹性存储方法根据内容变化动态调整向量存储结构，实现了存储空间的优化利用。

基于以上对于第一子模型和第二子模型的整体训练策略描述，本领域技术人员应可依据以上训练策略，将子模型扩展为更多弹性层级的模型，进一步进行更精细、更深入的不同颗粒度的特征提取。

在具体训练过程中，对所述图像提取子模型和文字提取子模型进行网络权重调整控制输出差异完成训练。例如，所述网络权重通过Adam优化算法、随机梯度下降算法进行调整。其中第一子模型中的图像提取子模型和文字提取子模型输出的特征向量的维数相同，第二子模型中的图像提取子模型和文字提取子模型输出的特征向量的维数相同，以便同一子模型中的图像提取子模型和文字提取子模型进行二者输出的差异比较和控制。最终训练得到一个能够理解图像内容并将其与文本描述相关联的特征提取模型。

在对第一子模型和第二子模型进行训练时，具体确认n维向量N2和 N1的差异、M2和M1的差异时，可以通过如下方式进行确认：

其中，表示n维向量N2与n维向量N1的方差，/>表示差异向量D的第i个分量，/>表示差异向量D的均值，n表示差异向量D的维度数量。若n维向量N1=[n11,n12,…, n1n]，n维向量N2=[n21,n22,…,n2n]，即差异向量D的各个分量/>=n1i-n2i，其中i =1, 2，…，n。对应到前文描述的第一子模型和第二子模型各自特征向量的维度数量，n = a或b。

利用图文配对数据集进行训练，直至模型参数输出的n维向量N2和N1的差异方差、M2和M1的差异方差小于预设目标值时，停止训练，确认得到特征提取模型。特征提取模型具体用于对从视频数据中按预设提取规律提取出的图像帧进行特征提取，以及后续搜索过程中对用户输入的搜索初始信息进行特征提取。其中对图像帧的特征提取结果用于与对应的图像帧关联保存，对搜索初始信息的特征提取结果用于从保存到的特征提取结果中匹配出接近的结果，进而根据保存关联确认可以作为搜索结果的视频数据以及在搜索结果中的具体位置。

步骤S120：接收到搜索初始信息时，将所述搜索初始信息输入所述特征提取模型，根据所述搜索初始信息的类型，通过所述第一子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第一信息特征向量。

搜索初始信息是用户需要从视频数据中搜索某个目标时输入的信息，相当于对文本进行文字搜索时输入的关键字。搜索初始信息可以是用户对想要搜索的目标中画面内容的文字描述（文字描述可以是直接输入的文字，也可以是输入语音进行语音识别得到的文字），可以是想要找的静态图来源视频提供的相应图像（例如从一段视频中截图的图像），也可以是用各种数据渠道获取到的静态图或者使用图像采集设备拍摄的图像。应当理解，文字描述应当是用户对期望的视频中画面内容相对详细的文字描述，而不是对视频标签信息的文字描述，例如用户想要找某个视频制作者上传的宠物猫戏弄宠物狗的视频，其应当输入“宠物猫戏弄宠物狗”作为搜索初始信息，而不是输入视频制作者的个人账号。用户输入的搜索初始信息的类型不同，即接收到的搜索初始信息的类型不同，特征提取模型中具体进行特征提取的路径不同，但是对应的特征提取结果均定义为信息特征向量。在已经完成训练的基础上，特征提取模型对图像或文字进行特征提取得到特征向量是基本功能实现，在此不做展开说明，对应于前文描述的图像提取子模型或文字提取子模型输出的是a维特征向量，信息特征向量也是a维特征向量。

步骤S130：根据所述第一信息特征向量与所述第一图像特征向量的相似度，确认所述搜索初始信息在所述视频数据中的初始目标位置的数量，所述初始目标位置为与所述第一信息特征向量的相似度达到预设相似度阈值的第一图像特征向量对应的图像帧在所述视频数据中的位置。

步骤S140：确认所述初始目标位置的数量小于预设数量阈值时，将所述初始目标位置作为所述搜索初始信息的目标搜索结果。

步骤S150：确认所述初始目标位置的数量在预设数量阈值以上时，通过所述第二子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第二信息特征向量。

步骤S160：根据所述第二信息特征向量，与每个所述初始目标位置对应的第一图像特征向量或第二图像特征向量相似度，从所述初始目标位置确认所述搜索初始信息在所述视频数据中的目标搜索结果。

步骤S130-步骤S160整体上描述的是如何在根据初始搜索信息得到第一信息特征向量的基础上进行搜索目标确认，以及如何进一步提取第二信息特征向量和进行搜索目标确认的过程。第一信息特征向量和第二信息特征向量的特征提取方式相同，相似度的判断也相同，区别主要在于基于相似度如何做后续处理。故在此将确认相似度的处理过程不分开描述。

具体的搜索结果由信息特征向量与对应图像特征向量的相似度确认，相似度具体可以是对特征向量进行相似度确认的相关技术中的已有实现，例如余弦相似度、欧氏距离等，在此不做限定。

相似度也可以是通过转换后的百分比进行表征，具体相似度的处理在神经网络和特征匹配相关领域多有实现，在此不做展开说明。在既有的视频数据已经直接保存图像特征向量的情况下，搜索过程中只需要对搜索初始信息进行特征提取得到对应的信息特征向量，处理耗时很短，而特征向量之间的匹配也可以快速完成，再加上特征向量中全面记录了视频数据中丰富的内容信息，基于步骤S110-步骤S160的搜索实现，可以快速精准从视频数据中得到视频搜索结果，并且是定位到某个视频的某个或多个时刻、某个或多个时间段的结果。

对于具体得到的相似度，因为第一信息特征向量的提取和匹配之后，还可能有第二信息特征向量的提取和匹配，并且第一图像特征向量描述的特征信息相对较少，可能有大量的相似度接近的结果作为初始目标位置，此时可以在初始目标位置的范围内，进一步做基于第二信息特征向量与初始目标位置对应的每个图像帧的第一图像特征向量或第二图像特征向量的相似度确认。当然，也可能初始目标位置的数量较少，此时可以直接将这些初始目标位置确认为搜索初始信息的目标位置。应当理解，不管图像帧对应的图像特征向量中是否包括第二图像特征向量，在基于搜索初始信息进行检索时，均存在先只就第一图像特征向量或者与第一图像特征向量对应的部分进行比较的环节，例如b维向量仅就前a维向量进行比较，满足前文描述的关于预设数量阈值的比较条件时，才有后续第二信息特征向量与b维向量的比较。

在初始目标位置对应的范围内，需要确认第二信息特征向量与每个图像帧的图像特征向量的相似度，而在初始目标位置对应的范围内，有可能出现部分图像帧对应的图像特征向量对应是第一图像特征向量的情况，而第二信息特征向量是b维向量，如果图像帧的特征向量是a维向量，无法直接比较，此时需要将a维向量的后续用0补齐成b维向量，然后再与第二信息特征向量进行比较确认相似度。在初始目标位置对应的范围内将每个图像帧的图像特征向量进行比较的原因是，一般而言，第二图像特征向量描述了更丰富的特征细节，在有较多图像帧与搜索初始信息疑似匹配的情况下，通过第二图像特征向量计算相似度可以更精准确认目标位置，保证搜索下限。但是用第二图像特征向量记录一个图像帧的图像特征向量，仅表明该图像帧与前一图像帧的内容差异相对较大，用第一图像特征向量记录图像特征向量的图像帧，有可能整体内容与前一图像帧的内容比较接近，但是刚好有图像内容与搜索初始信息匹配，这种情况下将第一图像特征向量补齐之后与第二信息特征向量确认相似度，反而能有更高的相似度结果，从而在初始目标位置对应的范围内，从用第一图像特征向量记录图像特征的图像帧中，找到与搜索初始信息匹配的结果，提升搜索上限。如果从所述第二图像特征向量中确认与所述信息特征向量的相似度达到预设门限值的最高图像特征向量，则将所述最高图像特征向量对应的图像帧确认为所述搜索初始信息在所述视频数据中的目标位置。

相较于文字比较中只有相同和不同的二维结果，基于特征向量的比较存在相同和不同之间丰富的程度状态结果，而用户想要的是与期望搜索结果相同或者高度接近的视频，因此，只有视频数据中的图像帧与搜索初始信息的相似度达到预设门限值，且排名靠前的才作为搜索目标。也即最高图像特征向量可以是相似度最高的一个图像特征向量，也可以是相似度最高的多个图像特征向量。如果是相似度最高的多个第二图像特征向量，因为搜索是以图像帧为基本比较单位，可能出现一个视频数据中连续多个图像帧的相似度都很高的情况，此时可以进一步对多个图像帧进行过滤，对于预设帧长度范围内的多个图像特征向量，可按相似度从高到低排序，保留其中相似度高于阈值的图像特征向量的集合，对于集合中对应于连续图像帧的图像特征向量，将每组连续图像帧对应的时段作为搜索初始信息的目标位置进行反馈。也即前文中描述的可以是定位到某个视频的某一个或多个时刻、某一个或多个时间段的结果。

在具体确认信息特征向量与所述图像特征向量的相似度之后，也可能出现所述图像特征向量与所述信息特征向量的相似度均低于所述预设门限值的情况，在这种情况下，确认所述目标位置为空，即没有满足用户检索期望的结果。在具体实现过程中，也可以进一步提示用户确认是否需要查看相似度更低的视频数据，如果用户确认需要，则可以按相似度从高到低显示搜索结果。

上述，本申请实施例将待处理的视频数据的图像帧逐帧输入预训练的特征提取模型，通过所述特征提取模型中的第一子模型进行第一次特征提取得到第一图像特征向量，并在满足预设特征条件下通过所述特征提取模型中的第二子模型进行第二次特征提取得到第二图像特征向量，关联所述图像帧对应保存所述特征提取模型输出的图像特征向量，所述第一图像特征向量的维度小于所述第二图像特征向量的维度，所述第一子模型和第二子模型均包括对应的图像提取子模型和文字提取子模型，所述第一子模型和第二子模型均通过对对应的图像提取子模型和文字提取子模型进行网络权重调整控制输出差异完成训练，且所述第二子模型输出的靠前的子特征向量通过所述第一子模型对同一图像帧的输出生成；所述预设特征条件为当前图像帧对应的第一图像特征向量与前一图像帧对应的第一图像特征向量的相似度小于预设条件阈值；接收到搜索初始信息时，将所述搜索初始信息输入所述特征提取模型，根据所述搜索初始信息的类型，通过所述第一子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第一信息特征向量；根据所述第一信息特征向量与所述第一图像特征向量的相似度；确认所述初始目标位置的数量小于预设数量阈值时，将所述初始目标位置作为所述搜索初始信息的目标搜索结果；确认所述初始目标位置的数量在预设数量阈值以上时，通过所述第二子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第二信息特征向量；根据所述第二信息特征向量，与每个所述初始目标位置对应的第一图像特征向量或第二图像特征向量相似度，从所述初始目标位置确认所述搜索初始信息在所述视频数据中的目标搜索结果。通过均由图像提取子模型和文字提取子模型组成的第一子模型和第二子模型复合形成特征提取模型，第一子模型提取的图像特征向量的维度数量小于第二子模型提取的图像特征向量的维度数量，在具体提取时，根据第一子模型提取的图像特征向量与其在前一图像帧提取的图像特征向量的相似度，最终确认通过第一子模型或第二子模型提取出的视频数据中每个图像帧的图像特征向量进行保存，在搜索时通过特征提取模型提取搜索初始信息的信息特征向量，通过信息特征向量与图像特征向量中进行一次或两次匹配，根据匹配程度确认搜索结果。以图像特征向量极小的存储空间需求，实现了以各种形式的搜索初始信息对灵活动态变化的视频数据进行高效精准的搜索。

图7为本申请实施例提供的一种基于复合特征的视频数据处理装置的结构示意图。如图7所示，该基于复合特征的视频数据处理装置包括特征提取存储单元210、第一初始特征提取单元220、第一相似度确认单元230、第一目标确认单元240、第二初始特征提取单元250和第二目标确认单元260。

其中，特征提取存储单元210，用于将待处理的视频数据的图像帧逐帧输入预训练的特征提取模型，通过所述特征提取模型中的第一子模型进行第一次特征提取得到第一图像特征向量，并在满足预设特征条件下通过所述特征提取模型中的第二子模型进行第二次特征提取得到第二图像特征向量，关联所述图像帧对应保存所述特征提取模型输出的图像特征向量，所述第一图像特征向量的维度小于所述第二图像特征向量的维度，所述第一子模型和第二子模型均包括对应的图像提取子模型和文字提取子模型，所述第一子模型和第二子模型均通过对对应的图像提取子模型和文字提取子模型进行网络权重调整控制输出差异完成训练，且所述第二子模型输出的靠前的子特征向量通过所述第一子模型对同一图像帧的输出生成；所述预设特征条件为当前图像帧对应的第一图像特征向量与前一图像帧对应的第一图像特征向量的相似度小于预设条件阈值；第一初始特征提取单元220，用于接收到搜索初始信息时，将所述搜索初始信息输入所述特征提取模型，根据所述搜索初始信息的类型，通过所述第一子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第一信息特征向量；第一相似度确认单元230，用于根据所述第一信息特征向量与所述第一图像特征向量的相似度，确认所述搜索初始信息在所述视频数据中的初始目标位置的数量，所述初始目标位置为与所述第一信息特征向量的相似度达到预设相似度阈值的第一图像特征向量对应的图像帧在所述视频数据中的位置；第一目标确认单元240，用于确认所述初始目标位置的数量小于预设数量阈值时，将所述初始目标位置作为所述搜索初始信息的目标搜索结果；第二初始特征提取单元250，用于确认所述初始目标位置的数量在预设数量阈值以上时，通过所述第二子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第二信息特征向量；第二目标确认单元260，用于根据所述第二信息特征向量，与每个所述初始目标位置对应的第一图像特征向量或第二图像特征向量相似度，从所述初始目标位置确认所述搜索初始信息在所述视频数据中的目标搜索结果。

在上述实施例的基础上，第二目标确认单元260，包括：

在上述实施例的基础上，所述第二目标确认单元260，包括：

在上述实施例的基础上，所述输出差异为方差，所述方差通过如下方式确认：

在上述实施例的基础上，所述图像提取子模型为卷积神经网络模型，所述文字提取子模型为循环神经网络模型。

在上述实施例的基础上，所述第一子模型中的图像提取子模型和文字提取子模型输出的特征向量的维数相同；所述第二子模型中的图像提取子模型和文字提取子模型输出的特征向量的维数相同。

本申请实施例提供的基于复合特征的视频数据处理装置包含在电子设备中，且可用于执行上述实施例中提供的对应的基于复合特征的视频数据处理方法，具备相应的功能和有益效果。

值得注意的是，上述基于复合特征的视频数据处理装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

图8为本申请实施例提供的一种电子设备的结构示意图。如图8所示，该电子设备包括处理器310和存储器320，并可以还包括输入装置330、输出装置340以及通信装置350；电子设备中处理器310的数量可以是一个或多个，图8中以一个处理器310为例；电子设备中的处理器310、存储器320、输入装置330、输出装置340以及通信装置350可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储器320作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的基于复合特征的视频数据处理方法对应的程序指令/模块。处理器310通过运行存储在存储器320中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的基于复合特征的视频数据处理方法。

存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。

上述电子设备包含基于复合特征的视频数据处理装置，可以用于执行任意基于复合特征的视频数据处理方法，具备相应的功能和有益效果。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序在被处理器执行时用于执行本申请任意实施例中提供的基于复合特征的视频数据处理方法中的相关操作，且具备相应的功能和有益效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。

因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.基于复合特征的视频数据处理方法，其特征在于，包括：

根据所述第一信息特征向量与所述第一图像特征向量的相似度，确认所述搜索初始信息在所述视频数据中的初始目标位置的数量，所述初始目标位置为与所述第一信息特征向量的相似度达到预设相似度阈值的第一图像特征向量对应的图像帧在所述视频数据中的位置；

确认所述初始目标位置的数量小于预设数量阈值时，将所述初始目标位置作为所述搜索初始信息的目标搜索结果；

2.根据权利要求1所述的基于复合特征的视频数据处理方法，其特征在于，所述根据所述第二信息特征向量，与每个所述初始目标位置对应的第一图像特征向量或第二图像特征向量的相似度，从所述初始目标位置确认所述搜索初始信息在所述视频数据中的目标搜索结果，包括：

3.根据权利要求2所述的基于复合特征的视频数据处理方法，其特征在于，所述根据所述第二信息特征向量，与每个所述初始目标位置对应的第一图像特征向量或第二图像特征向量的相似度，从所述初始目标位置确认所述搜索初始信息在所述视频数据中的目标搜索结果，包括：

4.根据权利要求1-3任一项所述的基于复合特征的视频数据处理方法，其特征在于，所述输出差异为方差，所述方差通过如下方式确认：

5.根据权利要求1-3任一项所述的基于复合特征的视频数据处理方法，其特征在于，所述图像提取子模型为卷积神经网络模型，所述文字提取子模型为循环神经网络模型。

6.根据权利要求1-3任一项所述的基于复合特征的视频数据处理方法，其特征在于，所述第一子模型中的图像提取子模型和文字提取子模型输出的特征向量的维度数量相同；所述第二子模型中的图像提取子模型和文字提取子模型输出的特征向量的维度数量相同。

7.基于复合特征的视频数据处理装置，其特征在于，包括：

第一目标确认单元，用于确认所述初始目标位置小于预设数量阈值时，将所述初始目标位置作为所述搜索初始信息的目标位置；

第二初始特征提取单元，用于确认所述初始目标位置在预设数量阈值以上时，通过所述第二子模型对应的图像提取子模型或文字提取子模型提取所述搜索初始信息的第二信息特征向量；

第二目标确认单元，用于根据所述第二信息特征向量，与每个所述初始目标位置对应的第一图像特征向量或第二图像特征向量的相似度，从所述初始目标位置确认所述搜索初始信息在所述视频数据中的目标搜索结果。

8.根据权利要求7所述的基于复合特征的视频数据处理装置，其特征在于，所述第二目标确认单元，包括：

9.电子设备，其特征在于，包括：

存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一所述的基于复合特征的视频数据处理方法。

10.包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6任一所述的基于复合特征的视频数据处理方法。