CN117708379A

CN117708379A - 视频检索方法、装置、系统、电子设备及存储介质

Info

Publication number: CN117708379A
Application number: CN202311607228.2A
Authority: CN
Inventors: 付哲; 张永增; 袁彬彬
Original assignee: Traffic Control Technology TCT Co Ltd
Current assignee: Traffic Control Technology TCT Co Ltd
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-03-15

Abstract

本发明提供一种视频检索方法、装置、系统、电子设备及存储介质，该方法包括：获取用户输入的视频检索信息；基于视频检索信息对视频标签信息库进行数据检索，确定与视频检索信息相匹配的目标标签信息，并确定目标标签信息对应的目标视频文件；视频标签信息库是基于对输入的多个视频文件的身份信息和每个视频文件的标签信息进行关联存储得到的；标签信息是通过将视频文件输入至预设的混合专家模型进行对象识别所确定的；混合专家模型包括多个用于执行不同视觉识别任务的专家模型。本发明可以在提升视频检索结果准确率的同时，也极大地减少了由人工查看视频带来的庞大工作量，大大提高了视频检索的效率，降低了开发成本。

Description

视频检索方法、装置、系统、电子设备及存储介质

技术领域

本发明涉及视频信息处理技术领域，尤其涉及一种视频检索方法、装置、系统、电子设备及存储介质。

背景技术

在高精度地图构建、目标识别、目标追踪、限界检测等与雷达、摄像头相关的感知功能开发过程中，会有大量人力和工作投入到视频数据集的构建和标注中。在此过程中，数据工程师或算法工程师需要根据不同的场景、环境条件、车辆条件和时间范围收集有效视频数据，反复进行数据的切分以及数据集之间的组合。

为了避免工程师对逐个视频文件进行人工查找及审查，需要有一种自动化的方式来提升此类工作的效率。对此，现有技术中出现了许多基于预训练模型实现自动检索视频文件的方案。然而，此类方案中设计预训练模型的过程非常复杂，现行多数预训练模型的参数量在亿级以上，训练过程需要庞大的云平台和显卡资源作为支撑，成本较高，同时，视频数据的检索效率也不高。

发明内容

本发明提供一种视频检索方法、装置、系统、电子设备及存储介质，用以解决现有技术中基于预训练模型的视频检索方案过程复杂，成本较高，同时，视频数据的检索效率也不高的缺陷。

本发明提供一种视频检索方法，包括：

获取用户输入的视频检索信息；

基于所述视频检索信息对视频标签信息库进行数据检索，确定与所述视频检索信息相匹配的目标标签信息，并确定所述目标标签信息对应的目标视频文件；

所述视频标签信息库是基于对输入的多个视频文件的身份信息和每个所述视频文件的标签信息进行关联存储得到的；所述标签信息是通过将所述视频文件输入至预设的混合专家模型进行对象识别所确定的；所述混合专家模型包括多个用于执行不同视觉识别任务的专家模型。

根据本发明提供的一种视频检索方法，所述混合专家模型包括权重路由模型、多个特征提取器和多个专家模型；每个所述特征提取器对应处理一类视频文件；在所述基于所述视频检索信息对视频标签信息库进行数据检索之前，所述方法还包括：

对于任一所述视频文件，将所述视频文件输入至对应的特征提取器进行视频特征提取，得到所述视频文件对应的视频特征向量；

将所述视频特征向量输入至所述权重路由模型，确定每个所述专家模型的权重信息，以根据每个所述专家模型的权重信息，确定用于识别所述视频特征向量的多个目标专家模型；

将所述视频特征向量分别输入至每个所述目标专家模型进行对象识别，得到每个所述目标专家模型输出的所述视频文件对应的标签子信息；

将每个所述目标专家模型输出的标签子信息发送给所述视频标签信息库，以供所述视频标签信息库对每个所述标签子信息进行分类组合，得到所述视频文件的标签信息，并将所述视频文件的身份信息和所述视频文件的标签信息进行关联存储。

根据本发明提供的一种视频检索方法，在所述将所述视频特征向量输入至所述权重路由模型之前，所述方法还包括：

获取多个视频文件样本的视频特征向量及每个所述视频文件样本对应的专家模型权重信息标签；

将每个所述视频文件样本的视频特征向量及对应的专家模型权重信息标签作为一组训练样本，获取多组所述训练样本；

利用多组所述训练样本，对所述权重路由模型进行训练。

根据本发明提供的一种视频检索方法，所述利用多组所述训练样本，对所述权重路由模型进行训练，包括：

对于任意一组训练样本，将所述训练样本输入至权重路由模型，输出所述训练样本对应的预测概率；

利用预设损失函数，根据所述训练样本对应的预测概率和所述训练样本中的专家模型权重信息标签计算损失值；

基于所述损失值，对所述权重路由模型的模型参数进行调整，直至模型训练次数达到预设次数；

将模型训练次数达到所述预设次数时所得到的模型参数作为训练好的权重路由模型的模型参数。

根据本发明提供的一种视频检索方法，所述预设损失函数是基于下述公式确定的：

其中，L_MI表示损失值；P(D_i)表示选取任务i的概率；P(D_i,E_j)是专家模型j在任务i上被选到的概率；P(E_j)是专家模型j在所有任务上被选到的期望；M表示任务数量，其基于所述视频文件样本的视频特征向量确定的；K表示专家模型数量。

根据本发明提供的一种视频检索方法，所述视频检索信息包括多个关键词；基于所述视频检索信息对视频标签信息库进行数据检索，确定与所述视频检索信息相匹配的目标标签信息，并确定所述目标标签信息对应的目标视频文件，包括：

将每个所述关键词分别与所述视频标签信息库中的各个标签信息进行文本匹配；

在确定所述各个标签信息中存在目标标签信息与至少两个所述关键词匹配成功的情况下，获取所述目标标签信息，并确定所述目标标签信息对应的视频文件的身份信息；

基于所述目标标签信息对应的视频文件的身份信息，获取所述身份信息对应的目标视频文件。

本发明还提供一种视频检索装置，包括：

获取模块，用于获取用户输入的视频检索信息；

检索模块，用于基于所述视频检索信息对视频标签信息库进行数据检索，确定与所述视频检索信息相匹配的目标标签信息，并确定所述目标标签信息对应的目标视频文件；

本发明还提供一种视频检索系统，包括：

识别模块、标签模块和检索模块；所述识别模块包括上述任一种所述的视频检索方法中的混合专家模型；所述标签模块包括上述任一种所述的视频检索方法中的视频标签信息库；

所述识别模块用于对输入的每个视频文件进行对象识别，输出每个所述视频文件的标签子信息；

所述标签模块用于对所述识别模块输出的每个所述视频文件的标签子信息进行分类组合，确定每个所述视频文件的标签信息，并对每个所述视频文件的标签信息和身份信息进行关联存储；

所述检索模块用于获取用户输入的视频检索信息，基于所述视频检索信息对所述标签模块存储的视频标签信息库进行数据检索，确定与所述视频检索信息相匹配的目标标签信息，并输出所述目标标签信息对应的目标视频文件。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视频检索方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视频检索方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述视频检索方法。

本发明提供的视频检索方法、装置、系统、电子设备及存储介质，通过构建包括多个用于执行不同视觉识别任务的专家模型的混合专家模型，并利用训练好的混合专家模型对不同场景下的多类别视频文件进行多对象识别，高效提取各类视频文件的标签信息；同时，通过构建视频标签信息库，对各个视频文件的身份信息和标签信息进行关联存储，由此，在获取前端用户输入的视频检索信息之后，可以基于该视频检索信息对视频标签信息库进行数据检索，快速检索出与视频检索信息相匹配的目标标签信息，并根据目标标签信息对应的身份信息输出目标视频文件，可以在提升视频检索结果准确率的同时，也极大地减少了由人工查看视频带来的庞大工作量，大大提高了视频检索的效率，降低了开发成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的视频检索方法的流程示意图；

图2是本发明提供的视频检索装置的结构示意图；

图3是本发明提供的视频检索系统的结构示意图；

图4是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合图1-图4描述本发明的视频检索方法、装置、系统、电子设备及存储介质。

图1是本发明提供的视频检索方法的流程示意图，如图1所示，包括：步骤110和步骤120。

步骤110，获取用户输入的视频检索信息；

步骤120，基于视频检索信息对视频标签信息库进行数据检索，确定与视频检索信息相匹配的目标标签信息，并确定目标标签信息对应的目标视频文件；

视频标签信息库是基于对输入的多个视频文件的身份信息和每个视频文件的标签信息进行关联存储得到的；标签信息是通过将视频文件输入至预设的混合专家模型进行对象识别所确定的；混合专家模型包括多个用于执行不同视觉识别任务的专家模型。

具体地，本发明实施例所描述的视频检索信息指的是前端用户输入的用于检索视频文件的文本信息，其可以是多个关键词，或者是描述性文本信息。

本发明实施例所描述的标签信息指的是通过对视频文件进行多对象识别而提取到的多个标签子信息所组成的信息，每个标签子信息对应一类对象。例如，视频文件的标签信息可以是：大雨、弯道、地面线路、高速行驶、信号机的组合，其中，大雨、弯道、地面线路、高速行驶、信号机分别为5个标签子信息，该标签信息描述了当前列车以自动驾驶模式在大雨天气中以60-80km/h的速度在有信号机的弯道上高速行驶。

本发明实施例所描述的身份信息指的是视频文件的ID号，其可以唯一指向对应的视频文件。

本发明实施例所描述的视频标签信息库存储有多类不同场景的视频文件的身份信息以及每个视频文件对应的标签信息。

本发明实施例所描述的混合专家模型(Mixture of Experts，MoE)是一种神经网络，其将多个模型整合到一个单独的任务中。不同于一般的神经网络的是，其根据数据进行分离训练多个模型，各个模型被称为专家(Expert)，也称为专家模型。各个专家模型可采用不同的函数(各种线性或非线性函数)进行权重组合，即选择多个不同专家模型对视频文件进行识别。

其中，专家模型(即MoE中的专家)是一种对不同的视觉识别任务具有良好适应能力的神经网络，例如用于执行检测动物、检测设备、检测天气状况、分割特定区域等视觉任务的神经网络。一般情况下，专家模型采用同一类神经网络为骨干，使用不同模型层级或参数配置作为区分。MoE中专家模型的具体数量可以根据实际场景特点来确定。

本发明实施例所描述的目标标签信息指的是视频标签信息库存储的所有标签信息中，与视频检索信息相匹配的标签信息。

在本发明的实施例中，将海量不同场景下的视频文件输入至预设训练好的混合专家模型中，从中选择多个不同专家模型对对应的每个视频文件进行识别，每个专家模型执行一类视觉识别任务，如检测设备、检测天气状况等，因此，每个视频文件会因为多个专家模型的识别判断，输出多个标签子信息。

在本发明的实施例中，通过预设的视频标签信息库，可以对每个视频文件对应的多个标签子信息进行分类组合，组成标签信息，并将每个视频文件的身份信息以及对应的标签信息进行关联存储。

其中，标签类别可以包括线路类型、天气类型、设备类型和光线强度等。线路类型包括直道、弯道等标签子信息；天气类型包括雨、雾、大雨、大雾等标签子信息；设备类型包括信号机、计轴设备、道岔等标签子信息；光线强度包括强灯光、弱灯光、对向强光等标签子信息。

在本发明的实施例中，用户可以在系统前端输入想要检索的视频文件的视频检索信息，这样，通过步骤110，可以获取用户输入的视频检索信息。例如，视频检索信息可以是大雨、弯道、地面线路、高速行驶、信号机的组合。

进一步地，在本发明的实施例中，步骤120中，利用视频检索信息对预设的视频标签信息库进行数据检索，可以快速确定出与视频检索信息相匹配的目标标签信息。基于标签信息与视频文件身份信息的关联存储，可以进一步获取目标标签信息对应的视频文件ID信息，进而可以最终检索到目标视频文件。

本发明实施例的视频检索方法，通过构建包括多个用于执行不同视觉识别任务的专家模型的混合专家模型，并利用训练好的混合专家模型对不同场景下的多类别视频文件进行多对象识别，高效提取各类视频文件的标签信息；同时，通过构建视频标签信息库，对各个视频文件的身份信息和标签信息进行关联存储，由此，在获取前端用户输入的视频检索信息之后，可以基于该视频检索信息对视频标签信息库进行数据检索，快速检索出与视频检索信息相匹配的目标标签信息，并根据目标标签信息对应的身份信息输出目标视频文件，可以在提升视频检索结果准确率的同时，也极大地减少了由人工查看视频带来的庞大工作量，大大提高了视频检索的效率，降低了开发成本。

基于上述实施例的内容，作为一种可选的实施例，混合专家模型包括权重路由模型、多个特征提取器和多个专家模型；每个特征提取器对应处理一类视频文件；在基于视频检索信息对视频标签信息库进行数据检索之前，该方法还包括：

对于任一视频文件，将视频文件输入至对应的特征提取器进行视频特征提取，得到视频文件对应的视频特征向量；

将视频特征向量输入至权重路由模型，确定每个专家模型的权重信息，以根据每个专家模型的权重信息，确定用于识别视频特征向量的多个目标专家模型；

将视频特征向量分别输入至每个目标专家模型进行对象识别，得到每个目标专家模型输出的视频文件对应的标签子信息；

将每个目标专家模型输出的标签子信息发送给视频标签信息库，以供视频标签信息库对每个标签子信息进行分类组合，得到视频文件的标签信息，并将视频文件的身份信息和视频文件的标签信息进行关联存储。

具体地，本发明实施例所描述的特征提取器用于提取视频文件的视频特征。在本实施例中，对不同的视觉任务保留了不同的特征抽取器，以确保每个视频文件中各帧图像特征都已经被充分提取。对于每个视频，预置的特征提取器会各自提取一次视频特征。特征提取器向专家模型的输出为特征向量，其可以表征视频帧图像中各实体对象的特征向量表示。在后续进行识别对象的扩展时，只需要新训练一个可以提取新识别对象图像特征的特征提取器即可。

本发明实施例所描述的权重路由模型是一个独立的神经网络模型，用于解决每个专家模型或者前k个专家模型的权重，使混合专家模型最终输出为这些专家模型的加权求和，其具体可以通过如下公式表示：

G(x)＝TopK(Softmax(xW_g),k)；

式中，G^k(x)表示权重路由模型分配给第k个专家模型的权重信息，x表示输入，E_k(x)表示第k个专家模型的输出，W_g表示权重矩阵。

在本发明的实施例中，因为每个专家模型的针对领域和适应的数据特征不同，因此需要在输入视频文件数据集进行识别时，为视频数据集选择合适的专家模型执行分析任务，选择的过程即由权重路由完成。

更具体地，在本发明的实施例中，在基于视频检索信息对视频标签信息库进行数据检索之前，需要对视频标签信息库进行构建。

本实施例中，混合专家模型包括权重路由模型、多个特征提取器和多个专家模型；每个特征提取器对应处理一类视频文件。首先，需要将每个视频文件输入至对应的特征提取器进行视频特征提取，由特征提取器对视频文件的视频特征进行充分提取，得到各个视频文件对应的视频特征向量。

进一步地，在本实施例中，将这些视频特征向量分别输入至权重路由模型，为各个视频特征向量选择合适的专家模型执行分析任务，确定出每个专家模型对应的权重信息，从而可以根据每个专家模型的权重信息，筛选出用于识别每个视频特征向量所需的多个目标专家模型。

在本实施例中，针对每个视频特征向量，进一步将单个视频特征向量分别输入至分配好的每个目标专家模型中进行对象识别，实现视觉识别任务的拆分，每个目标专家模型完成自己所属类型的对象识别任务，这样就可以得到每个目标专家模型输出的该视频文件对应的标签子信息。例如，一个目标专家模型用于检测天气状况，输出大雨、雾等标签子信息；另一个目标专家模型用于检测设备，输出信号机等标签子信息。

进一步地，在本实施例中，将每个目标专家模型输出的标签子信息发送给视频标签信息库，视频标签信息库收到各类标签子信息后，将每个标签子信息按照线路类型、天气类型、设备类型等进行分类，并对这些标签子信息进行组合，组成该视频文件的标签信息，并与该视频文件进行一一对应，将该视频文件的ID信息和该视频文件的标签信息进行关联存储，以用于后续的检索。

本发明实施例的方法，通过构建混合专家模型，自适应处理视频文件的标签标注，快速有效地构建视频标签信息库，用于后续视频文件的检索，有效避免了现有技术中常用的单模型运行带来的功能不足，也可以避免现行多数预训练模型的参数量在亿级以上且训练成本高所带来的资源浪费和设计复杂性问题。

基于上述实施例的内容，作为一种可选的实施例，在将视频特征向量输入至权重路由模型之前，该方法还包括：

获取多个视频文件样本的视频特征向量及每个视频文件样本对应的专家模型权重信息标签；

将每个视频文件样本的视频特征向量及对应的专家模型权重信息标签作为一组训练样本，获取多组训练样本；

利用多组训练样本，对权重路由模型进行训练。

具体地，在本发明的实施例中，在将视频特征向量输入至权重路由模型之前，还需对权重路由模型进行训练，以得到训练好的权重路由模型。

在本发明的实施例中，对权重路由模型进行训练的具体训练过程如下：

将每个视频文件样本的视频特征向量及对应的专家模型权重信息标签作为一组训练样本，针对不同的视频文件样本，则可以获取到多组上述训练样本。

在本发明的实施例中，视频文件样本的视频特征向量与其携带的专家模型权重信息标签是一一对应的。

然后，在获得多组训练样本之后，再将多组训练样本依次输入至权重路由模型中，利用多组训练样本对权重路由模型进行训练，即：

将每组训练样本中的视频文件样本的视频特征向量及对应的专家模型权重信息标签同时输入至权重路由模型中，根据权重路由模型中的每一次输出结果，通过计算损失函数值，对权重路由模型中的模型参数进行调整，在满足预设训练终止条件的情况下，最终完成权重路由模型的整个训练过程，得到训练好的权重路由模型。

本发明实施例的方法，通过将视频文件样本的视频特征向量及对应的专家模型权重信息标签作为一组训练样本，利用多组训练样本对权重路由模型进行训练，有利于提升训练好的权重路由模型的模型精度。

基于上述实施例的内容，作为一种可选的实施例，利用多组训练样本，对权重路由模型进行训练，包括：

对于任意一组训练样本，将训练样本输入至权重路由模型，输出训练样本对应的预测概率；

利用预设损失函数，根据训练样本对应的预测概率和训练样本中的专家模型权重信息标签计算损失值；

基于损失值，对权重路由模型的模型参数进行调整，直至模型训练次数达到预设次数；

将模型训练次数达到预设次数时所得到的模型参数作为训练好的权重路由模型的模型参数。

具体地，本发明实施例所描述的预设损失函数指的是预先设置在权重路由模型里的损失函数，用于进行模型评估。

基于上述实施例的内容，作为一种可选的实施例，预设损失函数是基于下述公式确定的：

其中，L_MI表示损失值；P(D_i)表示选取任务i的概率；P(D_i,E_j)是专家模型j在任务i上被选到的概率；P(E_j)是专家模型j在所有任务上被选到的期望；M表示任务数量，其基于视频文件样本的视频特征向量确定的；K表示专家模型数量。

具体地，在本发明的实施例中，针对视频文件样本的视频特征向量进行视觉任务的拆分，确定视觉识别任务的数量，从而可以进一步确定出用于执行对应任务所需的多个专家模型。

本发明实施例的方法，通过考虑各个专家模型被选为执行每类任务的概率和期望，以此考虑多类不同损失来构建权重路由模型训练过程中的预设损失函数，有助于提升训练得到的权重路由模型的模型精度。

本发明实施例所描述的预设阈值指的是模型预先设置的阈值，用于获得最小损失值，完成模型训练；预设次数指的是预先设置的模型迭代训练的最大次数。

进一步地，在获得多组训练样本之后，对于任意一组训练样本，将每组训练样本中的视频文件样本的视频特征向量及对应的专家模型权重信息标签同时输入至权重路由模型，输出该训练样本对应的预测概率。

在此基础上，利用预设损失函数，根据该训练样本对应的预测概率和该训练样本对应的专家模型权重信息标签，计算损失值。

进一步地，在计算获得损失值之后，本次训练过程结束。可以再利用如反向传播(Back Propagation，BP)算法，基于该损失值对权重路由模型的模型参数进行调整，来更新权重路由模型中的模型的各层权重参数，之后再进行下一次训练，如此反复迭代进行模型训练。

在训练的过程中，若针对某组训练样本的训练结果满足预设训练终止条件，如对应计算获得的损失值小于预设阈值，或当前的迭代次数达到预设次数时，模型的损失值可以控制在收敛范围内，则权重路由模型训练结束。此时，可以将所得到的模型参数作为最终训练好的权重路由模型的模型参数，由此权重路由模型训练完成，则可以得到训练好的权重路由模型。

本发明实施例的方法，通过利用多组训练样本对权重路由模型进行反复迭代训练，将权重路由模型的损失值控制在收敛范围内，从而有利于提高模型输出结果的准确性，提升权重路由模型的模型精度。

基于上述实施例的内容，作为一种可选的实施例，视频检索信息包括多个关键词；基于视频检索信息对视频标签信息库进行数据检索，确定与视频检索信息相匹配的目标标签信息，并确定目标标签信息对应的目标视频文件，包括：

将每个关键词分别与视频标签信息库中的各个标签信息进行文本匹配；

在确定各个标签信息中存在目标标签信息与至少两个关键词匹配成功的情况下，获取目标标签信息，并确定目标标签信息对应的视频文件的身份信息；

基于目标标签信息对应的视频文件的身份信息，获取身份信息对应的目标视频文件。

在本发明的实施例中，当用户输入的视频检索信息是若干独立的关键词时，与视频标签信息库中各视频文件的标签信息进行多对多匹配。

具体地，将视频检索信息中的每个关键词分别与视频标签信息库中的各个标签信息进行文本匹配。在确定各个标签信息中存在某一标签信息与至少两个关键词匹配成功的情况下，将该标签信息作为目标标签信息，并获取目标标签信息，进而可以确定目标标签信息对应的视频文件的ID信息，从而获取该ID信息对应的目标视频文件。

在本实施例中，在检索任务较为简单的情况下，以上检索功能可以通过配置搜索数据分析引擎Elastic Search数据库并调用检索接口的方式实现。

本发明实施例的方法，通过利用关键词文本匹配的方法进行多关键词与标签信息的匹配，实现对目标视频文件的快速检索，提高视频检索的效率。

下面对本发明提供的视频检索装置进行描述，下文描述的视频检索装置与上文描述的视频检索方法可相互对应参照。

图2是本发明提供的视频检索装置的结构示意图，如图2所示，包括：

获取模块210，用于获取用户输入的视频检索信息；

检索模块220，用于基于视频检索信息对视频标签信息库进行数据检索，确定与视频检索信息相匹配的目标标签信息，并确定目标标签信息对应的目标视频文件；

本实施例所述的视频检索装置可以用于执行上述视频检索方法实施例，其原理和技术效果类似，此处不再赘述。

本发明实施例的视频检索装置，通过构建包括多个用于执行不同视觉识别任务的专家模型的混合专家模型，并利用训练好的混合专家模型对不同场景下的多类别视频文件进行多对象识别，高效提取各类视频文件的标签信息；同时，通过构建视频标签信息库，对各个视频文件的身份信息和标签信息进行关联存储，由此，在获取前端用户输入的视频检索信息之后，可以基于该视频检索信息对视频标签信息库进行数据检索，快速检索出与视频检索信息相匹配的目标标签信息，并根据目标标签信息对应的身份信息输出目标视频文件，可以在提升视频检索结果准确率的同时，也极大地减少了由人工查看视频带来的庞大工作量，大大提高了视频检索的效率，降低了开发成本。

图3是本发明提供的视频检索系统的结构示意图，如图3所示，包括：

识别模块310、标签模块320和检索模块330；识别模块包括上述任一种所述的视频检索方法中的混合专家模型；标签模块包括上述任一种所述的视频检索方法中的视频标签信息库；

识别模块310用于对输入的每个视频文件进行对象识别，输出每个视频文件的标签子信息；

标签模块320用于对识别模块310输出的每个视频文件的标签子信息进行分类组合，确定每个视频文件的标签信息，并对每个视频文件的标签信息和身份信息进行关联存储；

检索模块330用于获取用户输入的视频检索信息，基于视频检索信息对标签模块320存储的视频标签信息库进行数据检索，确定与视频检索信息相匹配的目标标签信息，并输出目标标签信息对应的目标视频文件。

本实施例所述的视频检索系统也可以用于执行上述视频检索方法实施例，其原理和技术效果类似，此处不再赘述。

本发明的实施例的系统，在检索过程中，除了上述多关键词组合检索的方式外，对于检索任务较为复杂的情况，如用户经常使用描述性文本信息作为检索目标，用户需要在检索到视频文件的同时，同步得到对应的解释性文档。此时，需要通过以下工作对检索工具进行升级，实现模糊检索。

首先，构建一个非结构化转结构化数据组件，该组件负责将描述性文本转换为结构化可索引的数据，并从中抽取关键的相关信息用于构建文档索引；然后，构建一个分布式检索组件，该组件基于文本元信息构建文档索引，构建分布式倒排索引系统；如果使用词向量构建索引的话，则构建高性能多机向量化检索系统；最后，构建一个用户交互组件，用户发出检索请求后，经过领域知识分词器的处理，与库内倒排文档关键词进行匹配，从而返回检索结果。

在本发明的实施例中，还可以在检索过程中融合人为标注的功能。当检索结果不符合检索目的时，通过人为添加标签的方式解决。此时分为以下几种情况：

(1)没有检索到目标视频文件，检索目标为新增，但实体目标对象确实存在于视频文件中，但没有提取出来，此时可以添加用于识别目标对象的专家模型。

(2)没有检索到视频文件，检索目标为既有类别，系统会从检索的范围内随机抽取15％的视频文件，经过人为确认后，如确定是不存在目标对象的实体，则结束本次查询；若发现有目标对象存在，则需要进行人为添加视频标签，并将此类数据整理为重训练数据集，用于专家模型的重新训练。关于专家模型的训练可以按照现有训练方式实施，本发明对此不做具体描述。

(3)给出的视频文件不符合目标需求(对象检索错误，例如目标对象是信号机，但是模型错误的将某些柱状物识别为信号机)，此时可以人为修改视频标签，并将此类数据整理为重训练数据集，用于专家模型的重新训练，以纠正错误的目标对象类别提取。

在本发明的实施例中，系统还可以针对检索成功并已经下载的数据进行标记，定期使用这些数据对训练数据集进行补充，以提升混合专家模型对各类目标对象的识别能力。

本发明实施例中，通过有针对性地设置检索效果不佳情况下的修正方法，融合人为标注的功能，扩充了系统针对不同场景数据的检索功能，提升了系统的检索性能。

本发明实施例的视频检索系统，基于构建包括多个专家模型的混合专家模型来设计识别模块，识别模块利用训练好的混合专家模型对不同场景下的多类别视频文件进行多对象识别，高效提取各类视频文件的标签信息；同时，通过设计存储有视频标签信息库的标签模块，对各个视频文件的身份信息和标签信息进行关联存储，检索模块在获取前端用户输入的视频检索信息之后，可以基于该视频检索信息对视频标签信息库进行数据检索，快速检索出与视频检索信息相匹配的目标标签信息，并根据目标标签信息对应的身份信息输出目标视频文件，实现视频检索系统的模块化设计，可以在提升视频检索结果准确率的同时，也极大地减少了由人工查看视频带来的庞大工作量，大大提高了视频检索的效率，降低了开发成本。

图4是本发明提供的电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行上述各方法所提供的视频检索方法，该方法包括：获取用户输入的视频检索信息；基于所述视频检索信息对视频标签信息库进行数据检索，确定与所述视频检索信息相匹配的目标标签信息，并确定所述目标标签信息对应的目标视频文件；所述视频标签信息库是基于对输入的多个视频文件的身份信息和每个所述视频文件的标签信息进行关联存储得到的；所述标签信息是通过将所述视频文件输入至预设的混合专家模型进行对象识别所确定的；所述混合专家模型包括多个用于执行不同视觉识别任务的专家模型。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的视频检索方法，该方法包括：获取用户输入的视频检索信息；基于所述视频检索信息对视频标签信息库进行数据检索，确定与所述视频检索信息相匹配的目标标签信息，并确定所述目标标签信息对应的目标视频文件；所述视频标签信息库是基于对输入的多个视频文件的身份信息和每个所述视频文件的标签信息进行关联存储得到的；所述标签信息是通过将所述视频文件输入至预设的混合专家模型进行对象识别所确定的；所述混合专家模型包括多个用于执行不同视觉识别任务的专家模型。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的视频检索方法，该方法包括：获取用户输入的视频检索信息；基于所述视频检索信息对视频标签信息库进行数据检索，确定与所述视频检索信息相匹配的目标标签信息，并确定所述目标标签信息对应的目标视频文件；所述视频标签信息库是基于对输入的多个视频文件的身份信息和每个所述视频文件的标签信息进行关联存储得到的；所述标签信息是通过将所述视频文件输入至预设的混合专家模型进行对象识别所确定的；所述混合专家模型包括多个用于执行不同视觉识别任务的专家模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频检索方法，其特征在于，包括：

获取用户输入的视频检索信息；

2.根据权利要求1所述的视频检索方法，其特征在于，所述混合专家模型包括权重路由模型、多个特征提取器和多个专家模型；每个所述特征提取器对应处理一类视频文件；在所述基于所述视频检索信息对视频标签信息库进行数据检索之前，所述方法还包括：

3.根据权利要求2所述的视频检索方法，其特征在于，在所述将所述视频特征向量输入至所述权重路由模型之前，所述方法还包括：

利用多组所述训练样本，对所述权重路由模型进行训练。

4.根据权利要求3所述的视频检索方法，其特征在于，所述利用多组所述训练样本，对所述权重路由模型进行训练，包括：

5.根据权利要求4所述的视频检索方法，其特征在于，所述预设损失函数是基于下述公式确定的：

6.根据权利要求1-5任一项所述的视频检索方法，其特征在于，所述视频检索信息包括多个关键词；基于所述视频检索信息对视频标签信息库进行数据检索，确定与所述视频检索信息相匹配的目标标签信息，并确定所述目标标签信息对应的目标视频文件，包括：

7.一种视频检索装置，其特征在于，包括：

获取模块，用于获取用户输入的视频检索信息；

8.一种视频检索系统，其特征在于，包括：

识别模块、标签模块和检索模块；所述识别模块包括上述权利要求1至6任一项所述的视频检索方法中的混合专家模型；所述标签模块包括上述权利要求1至6任一项所述的视频检索方法中的视频标签信息库；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述视频检索方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述视频检索方法。