CN110674350B

CN110674350B - 视频人物检索方法、介质、装置和计算设备

Info

Publication number: CN110674350B
Application number: CN201910899459.2A
Authority: CN
Inventors: 蔡成飞; 姜波; 周泽生
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2022-02-08
Anticipated expiration: 2039-09-23
Also published as: CN110674350A

Abstract

本发明的实施方式提供了一种基于多模态融合的视频人物检索方法、介质、基于多模态融合的视频人物检索装置和计算设备。该方法包括：从待检索视频中提取对应于不同模态的多个单模态特征；将所述多个单模态特征融合后得到所述待检索视频的多模态融合特征；将所述多模态融合特征输入预先训练的人物分类器，以得到所述待检索视频中的目标人物。该方法通过对多种单模态特征进行特征融合，可以降低单一特征的误差，得到包含多种模态特征信息的具有强鲁棒性的多模态融合特征，利用多模态融合特征进行人物分类可以大幅提升视频人物检索的效率和准确率。

Description

视频人物检索方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及计算机技术领域，更具体地，本发明的实施方式涉及基于多模态融合的视频人物检索方法、介质、基于多模态融合的视频人物检索装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

人物检索是多媒体领域最常见的应用之一，无论是在安防领域、内容分析审核领域、交互领域等等，都有着广泛的应用。

为了从视频中检索人物对象，一般可以采用人脸识别或者语音识别等特征识别技术提取视频对象的某一种辨识性特征，然后基于提取到的特征与已有数据库中的人物进行逐一比对。这种基于人物比对的检索方式存在检索效率低、准确性差等问题。

发明内容

本发明的目的在于提供一种基于多模态融合的视频人物检索方法、介质、基于多模态融合的视频人物检索装置和计算设备，从而至少在一定程度上克服由于相关技术的缺陷和限制而导致的人物检索效率低、检索准确性差等问题。

根据本发明的第一方面，提供一种基于多模态融合的视频人物检索方法，包括：

从待检索视频中提取对应于不同模态的多个单模态特征；

将所述多个单模态特征融合后得到所述待检索视频的多模态融合特征；

将所述多模态融合特征输入预先训练的人物分类器，以得到所述待检索视频中的目标人物。

在本发明的一些示例性实施方式中，基于以上技术方案，所述从待检索视频中提取多个对应于不同模态的单模态特征，包括：

从待检索视频中提取对应于音频模态的音频模态特征以及对应于图像模态的图像模态特征；其中，所述图像模态特征包括人脸图像特征、场景图像特征、人头图像特征和肢体图像特征中的一种或者多种。

在本发明的一些示例性实施方式中，基于以上技术方案，所述从待检索视频中提取对应于音频模态的音频模态特征以及对应于图像模态的图像模态特征，包括：

获取所述待检索视频中的音频数据和多个视频帧；

将所述音频数据输入预先训练的音频特征提取模型以得到对应于音频模态的音频模态特征；

将所述多个视频帧分别输入预先训练的图像特征提取模型以得到对应于图像模态的多个图像模态特征。

在本发明的一些示例性实施方式中，基于以上技术方案，所述将所述多个单模态特征融合后得到所述待检索视频的多模态融合特征，包括：

将对应于多个视频帧的多个所述图像模态特征进行池化后得到一个池化图像特征；

分别对所述池化图像特征和所述音频模态特征进行特征映射后得到映射图像特征和映射音频特征；

将所述映射图像特征和所述映射音频特征拼接后得到所述待检索视频的多模态融合特征。

在本发明的一些示例性实施方式中，基于以上技术方案，所述将对应于多个视频帧的多个所述图像模态特征进行池化后得到一个池化图像特征，包括：

获取目标对象在相邻两个视频帧中的位置关系，并根据所述位置关系判断所述待检索视频是否为动态视频或者静态视频；

当判定所述待检索视频为动态视频时，获取所述待检索视频中各个视频帧与目标对象相关的图像质量分数，根据所述图像质量分数选取多个目标视频帧，并将对应于所述多个目标视频帧的多个图像模态特征进行加权池化后得到加权池化图像特征；

当判定所述待检索视频为静态视频时，从所述待检索视频中随机选取多个目标视频帧，并将对应于所述多个目标视频帧的多个图像模态特征进行平均池化后得到平均池化图像特征。

在本发明的一些示例性实施方式中，基于以上技术方案，所述将对应于所述多个目标视频帧的多个图像模态特征进行加权池化后得到加权池化图像特征，包括：

获取各个目标视频帧在同一像素位置处的图像模态特征的特征值；

以所述图像质量分数为权重，将同一像素位置处的各个所述特征值加权平均后得到加权池化特征值；

由各个像素位置的加权池化特征值组成加权池化图像特征。

在本发明的一些示例性实施方式中，基于以上技术方案，所述将对应于所述多个目标视频帧的多个图像模态特征进行平均池化后得到平均池化图像特征，包括：

将同一像素位置处的各个所述特征值的平均值作为平均池化特征值；

由各个像素位置的平均池化特征值组成平均池化图像特征。

在本发明的一些示例性实施方式中，基于以上技术方案，所述分别对所述池化图像特征和所述音频模态特征进行特征映射后得到映射图像特征和映射音频特征，包括：

获取所述音频特征提取模型以及所述图像特征提取模型的测试准确率，并根据所述测试准确率确定加权系数；

基于所述加权系数分别确定对应于所述池化图像特征和所述音频模态特征的加权映射函数；

利用所述加权映射函数对所述池化图像特征和所述音频模态特征进行特征映射后得到映射图像特征和映射音频特征。

在本发明的一些示例性实施方式中，基于以上技术方案，所述加权映射函数为线性加权映射函数或者非线性加权映射函数；所述基于所述加权系数分别确定对应于所述池化图像特征和所述音频模态特征的加权映射函数，包括：

获取所述待检索视频的检索模式，所述检索模式为高速度检索模式或者高精度检索模式；

当所述待检索视频的检索模式为高速度检索模式时，基于所述加权系数分别确定对应于所述池化图像特征和所述音频模态特征的线性加权映射函数；

当所述待检索视频的检索模式为高精度检索模式时，基于所述加权系数分别确定对应于所述池化图像特征和所述音频模态特征的非线性加权映射函数。

根据本发明的第二方面，提供一种介质，其上存储有程序，该程序被处理器执行时实现如以上各技术方案中的方法。

根据本发明的第三方面，提供一种基于多模态融合的视频人物检索装置，包括：

特征提取模块，被配置为从待检索视频中提取对应于不同模态的多个单模态特征；

特征融合模块，被配置为将所述多个单模态特征融合后得到所述待检索视频的多模态融合特征；

人物分类模块，被配置为将所述多模态融合特征输入预先训练的人物分类器，以得到所述待检索视频中的目标人物。

在本发明的一些示例性实施方式中，基于以上技术方案，所述特征提取模块被配置为：

在本发明的一些示例性实施方式中，基于以上技术方案，所述特征提取模块包括：

数据获取模块，被配置为获取所述待检索视频中的音频数据和多个视频帧；

音频特征提取模块，被配置为将所述音频数据输入预先训练的音频特征提取模型以得到对应于音频模态的音频模态特征；

图像特征提取模块，被配置为将所述多个视频帧分别输入预先训练的图像特征提取模型以得到对应于图像模态的多个图像模态特征。

在本发明的一些示例性实施方式中，基于以上技术方案，所述特征融合模块包括：

特征池化模块，被配置为将对应于多个视频帧的多个所述图像模态特征进行池化后得到一个池化图像特征；

特征映射模块，被配置为分别对所述池化图像特征和所述音频模态特征进行特征映射后得到映射图像特征和映射音频特征；

特征组合模块，被配置为将所述映射图像特征和所述映射音频特征拼接后得到所述待检索视频的多模态融合特征。

在本发明的一些示例性实施方式中，基于以上技术方案，所述特征池化模块包括：

视频类型判断模块，被配置为获取目标对象在相邻两个视频帧中的位置关系，并根据所述位置关系判断所述待检索视频是否为动态视频或者静态视频；

动态视频池化模块，被配置为当判定所述待检索视频为动态视频时，获取所述待检索视频中各个视频帧与目标对象相关的图像质量分数，根据所述图像质量分数选取多个目标视频帧，并将对应于所述多个目标视频帧的多个图像模态特征进行加权池化后得到加权池化图像特征；

静态视频池化模块，被配置为当判定所述待检索视频为静态视频时，从所述待检索视频中随机选取多个目标视频帧，并将对应于所述多个目标视频帧的多个图像模态特征进行平均池化后得到平均池化图像特征。

在本发明的一些示例性实施方式中，基于以上技术方案，所述动态视频池化模块包括：

动态特征值获取模块，被配置为获取各个目标视频帧在同一像素位置处的图像模态特征的特征值；

动态特征值池化模块，被配置为以所述图像质量分数为权重，将同一像素位置处的各个所述特征值加权平均后得到加权池化特征值；

动态特征值组合模块，被配置为由各个像素位置的加权池化特征值组成加权池化图像特征。

在本发明的一些示例性实施方式中，基于以上技术方案，所述静态视频池化模块包括：

静态特征值获取模块，被配置为获取各个目标视频帧在同一像素位置处的图像模态特征的特征值；

静态特征值池化模块，被配置为将同一像素位置处的各个所述特征值的平均值作为平均池化特征值；

静态特征值组合模块，被配置为由各个像素位置的平均池化特征值组成平均池化图像特征。

在本发明的一些示例性实施方式中，基于以上技术方案，所述特征映射模块包括：

加权系数确定模块，被配置为获取所述音频特征提取模型以及所述图像特征提取模型的测试准确率，并根据所述测试准确率确定加权系数；

映射函数确定模块，被配置为基于所述加权系数分别确定对应于所述池化图像特征和所述音频模态特征的加权映射函数；

特征映射子模块，被配置为利用所述加权映射函数对所述池化图像特征和所述音频模态特征进行特征映射后得到映射图像特征和映射音频特征。

在本发明的一些示例性实施方式中，基于以上技术方案，所述加权映射函数为线性加权映射函数或者非线性加权映射函数；所述映射函数确定模块包括：

检索模式获取模块，被配置为获取所述待检索视频的检索模式，所述检索模式为高速度检索模式或者高精度检索模式；

线性函数确定模块，被配置为当所述待检索视频的检索模式为高速度检索模式时，基于所述加权系数分别确定对应于所述池化图像特征和所述音频模态特征的线性加权映射函数；

非线性函数确定模块，被配置为当所述待检索视频的检索模式为高精度检索模式时，基于所述加权系数分别确定对应于所述池化图像特征和所述音频模态特征的非线性加权映射函数。

根据本发明的第四方面，提供一种计算设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如以上各技术方案中的方法。

在本发明提供的技术方案中，通过对多种单模态特征进行特征融合，可以降低单一特征的误差，得到包含多种模态特征信息的具有强鲁棒性的多模态融合特征，利用多模态融合特征进行人物分类可以大幅提升视频人物检索的效率和准确率。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示出了应用本发明示例性实施方式的系统架构示意图。

图2示意性地示出了本发明在一应用场景下进行视频人物检索的流程框架。

图3示意性地示出了本发明一些示例性实施方式中的基于多模态融合的视频人物检索方法的步骤流程。

图4示意性地示出了本发明一些示例性实施方式中的人物分类器的结构组成。

图5示意性地示出了本发明一些实施方式中提取音频模态特征和图像模态特征的步骤流程。

图6示意性地示出了一种卷积神经网络模型的网络结构。

图7示意性地示出了本发明的一些示例性实施方式中进行特征融合的步骤流程。

图8示出了传统特征图池化方式与本发明示例性实施方式使用的多帧特征池化方式的对比示意图。

图9示意性地示出了本发明的一些示例性实施方式中根据视频类型进行特征池化的步骤流程。

图10示意性地示出了本发明的一些示例性实施方式中针对动态视频进行加权池化的步骤流程。

图11示意性地示出了本发明的一些示例性实施方式中针对静态视频进行平均池化的步骤流程。

图12示意性地示出了本发明一些示例性实施方式中进行特征映射的步骤流程。

图13示意性地示出了本发明一些示例性实施方式中确定加权映射函数的步骤流程。

图14示意性地示出了本发明基于多模态融合的视频人物检索方法在一应用场景下的具体实施方式。

图15示意性地示出了本发明一些示例性实施方式中基于多模态融合的视频人物检索装置的组成结构。

图16示意性地示出了本发明一些示例性实施方式中特征池化模块的组成结构。

图17示意性地示出了本发明一些示例性实施方式中的特征映射模块的组成结构。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

本发明中涉及的技术术语解释如下：

模态：在特定物理媒介上信息的表示及交换方式，一种模态可以代表信息的一种来源或者表示形式。多媒体媒介可以被分解为多个单模态，例如视频可以分解为动态图像、动态语音、动态文本等多个模态。

此外，本发明中涉及的相关元素数量仅用于示例而非限制，以及相关元素的命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

在本发明的相关技术中，通过特征识别和特征比对是最为直接的人物检索方法。

例如，在计算机视觉领域，可以使用人脸识别技术来进行对图片或者视频帧中出现的人物进行识别。该技术一般首先提取数据库中人脸图片的特征作为人脸特征库，在比对检索阶段提取待测试的人脸图片的特征与人脸特征库进行比对，查找数据库中最相似的人脸特征对应的人脸。

又如，在语音识别领域，可以使用语音识别技术来进行人物的检索。该技术一般首先提取数据库中不同人物说话的声音，使用语音识别算法提取不同人物的声音特征作为语音特征库，在对比检索阶段提取待测试人物的语音特征与语音特征库进行对，查找数据库中最相似的语音特征对应的语音。

基于人脸识别的视频人物检索方法的检索效果严重受到人脸质量的影响。在实际应用场景中，采集到的视频或者图片中的人脸经常存在着不同姿态、不同光照、不同遮挡、化妆等等问题，这导致无法检测到图片中的人脸或者提取到的人脸特征鲁棒性较差，可判别性很低。基于语音识别的视频人物检索方法也强依赖于语音质量。在实际应用场景中，如果视频中的人物没有说话，或者说话的人和视频画面对应的人不一致，则会导致无法检索到正确的人物。

由此可见，如人脸识别、语音识别等人物检索方法只有在特定场景和限制性条件下才能实现。例如人脸识别要求图片或者视频帧中包含完整清晰的人的正脸图片、语音识别则要求视频或者音频中出现有效的人物语音。然而在实际场景应用中，如监控视频画面或者短视频中，很难保证所要求的场景和条件都能被满足。

基于以上问题，本发明提出了一种基于多模态融合的视频人物检索方法。该方法首先可以使用深度神经网络等特征提取模型提取视频中人物的人脸特征，人物的语音特征，视频的场景特征等多种单模态特征。然后使用多模态特征的融合算法将多个视频帧的多种模态的特征进行融合，使用该融合后的特征作为该视频最终的特征表达。最后基于该特征表达进行人物分类，完成视频人物的检索。

本发明提出的方法，结合了人脸、语音、场景等多种模态的深度特征，克服了单一人物识别算法的局限性，同时更加充分利用视频中多帧信息，也进一步提升了检索的准确率。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

需要注意的是，下述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图1示出了应用本发明示例性实施方式的系统架构示意图。如图1所示，系统架构100可以包括客户端110、网络120和服务端130。客户端110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种终端设备。服务端130可以包括网络服务器、应用服务器、数据库服务器等各种服务器设备，服务端130可以为客户端110提供网络资源和数据服务。网络120可以是能够在客户端110和服务端130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路、无线通信链路或者光纤电缆等等。

根据实现需要，应用本发明示例性实施方式的系统架构可以具有任意数目的客户端、网络和服务端。例如，服务端130可以是由多个服务器设备组成的服务器群组。本发明示例性实施方式提供的基于多模态融合的视频人物检索方法可以应用于客户端110，也可以应用于服务端130，本发明对此不做特殊限定。

例如，当本发明示例性实施方式提供的基于多模态融合的视频人物检索方法应用于服务端130时，客户端110可以通过网络120向服务端130发送待检索视频，然后由服务端130对待检索视频进行人物检索，最后再通过网络120将人物检索结果返回给客户端110。图2示意性地示出了本发明在一应用场景下进行视频人物检索的流程框架。如图2所示，针对接收到的待检索视频，首先对其进行深度特征提取，具体可以先从待检索视频中提取视频帧和音频，再从视频帧中提取人脸特征和场景特征，同时从音频中提取音频特征。然后再对提取到的多种模态的深度特征进行特征融合得到多模态融合特征。最后将多模态融合特征输入至分类器中，由分类器根据多模态融合特征进行特征分类进而输出关于视频中人物的预测结果，完成对待检索视频的人物检索。

示例性方法

下面结合上述的应用场景，参考3至图14来描述根据本发明示例性实施方式的基于多模态融合的视频人物检索方法。

图3示意性地示出了本发明一些示例性实施方式中的基于多模态融合的视频人物检索方法的步骤流程。如图3所示，该视频人物检索方法主要可以包括以下步骤：

步骤S310.从待检索视频中提取对应于不同模态的多个单模态特征。

待检索视频主要可以从图像和音频两个维度进行特征提取，基于图像维度可以提取分别与人物、物品、场景等模态相对应的单模态特征，基于音频维度则可以提取与人物独白、对话、背景音乐、环境音效等模态相对应的单模态特征。

步骤S320.将多个单模态特征融合后得到待检索视频的多模态融合特征。

基于步骤S310提取到的多个单模态特征，本步骤可以按照预设的融合规则对多个单模态特征进行特征融合，从而得到待检索视频的一个多模态融合特征。例如，步骤S310提取到的单模态特征可以表示为特征向量，本步骤通过向量变换和拼接等处理方式对这些对应于单模态特征的特征向量进行融合得到一个对应于多模态融合特征的特征向量。

步骤S330.将多模态融合特征输入预先训练的人物分类器，以得到待检索视频中的目标人物。

为了对视频人物进行检索，本示例性实施方式可以预先训练一个人物分类器，将步骤S320得到的多模态融合特征作为输入数据，输入至人物分类器后，可以由人物分类器输出该多模态融合特征对不同预测人物的分类概率，分类概率最高的一个预测人物即可作为待检索视频中的目标人物。

本示例性实施方式中使用的人物分类器可以是基于神经网络的多层感知器(Multi-Layer Perception，简称MLP)，图4示意性地示出了本发明一些示例性实施方式中的人物分类器的结构组成。如图4所示，该人物分类器包括输入层、第一全连接层FC1、第二全连接层FC2和输出层。其中，输入层用于输入待检索视频的多模态融合特征，例如可以输入一个2048维的特征向量。第一全连接层FC1和第二全连接层FC2可以分别由4096个节点组成，用于对多模态融合特征中具有类别区分性的局部信息进行连接整合。输出层可以基于softmax函数计算多模态融合特征对于不同预测人物的分类概率。

在本示例性实施方式提供的基于多模态融合的视频人物检索方法中，通过对多种单模态特征进行特征融合，可以降低单一特征的误差，得到包含多种模态特征信息的具有强鲁棒性的多模态融合特征，利用多模态融合特征进行人物分类可以大幅提升视频人物检索的效率和准确率。

在本发明的一些示例性实施方式中，步骤S310.从待检索视频中提取多个对应于不同模态的单模态特征，可以进一步包括：

从待检索视频中提取对应于音频模态的音频模态特征以及对应于图像模态的图像模态特征；其中，图像模态特征包括人脸图像特征、场景图像特征、人头图像特征和肢体图像特征中的一种或者多种。

针对待检索视频，本示例性实施方式可以训练多种不同的特征提取模型以提取对应于不同模态的各种单模态特征。图5示意性地示出了本发明一些实施方式中提取音频模态特征和图像模态特征的步骤流程。如图5所示，在以上各实施方式的基础上，步骤S310中的从待检索视频中提取对应于音频模态的音频模态特征以及对应于图像模态的图像模态特征，可以包括以下步骤：

步骤S510.获取待检索视频中的音频数据和多个视频帧。

本步骤首先可以从待检索视频中获取音频数据作为从音频维度进行模态特征提取的数据基础，本步骤获取到的音频数据可以是待检索视频的完整音频，或者是从完整音频中截取得到的音频片段，另外也可以是由截取的音频片段组合而成的音频数据。与此同时，本步骤可以从待检索视频中获取多个视频帧作为从图像维度进行模态特征提取的数据基础，本步骤中获取到的视频帧可以是构成待检索视频的所有视频帧，或者是待检索视频中的一个或者多个视频片段的视频帧，也可以是从所有视频帧中抽取得到的多个视频帧。

步骤S520.将音频数据输入预先训练的音频特征提取模型以得到对应于音频模态的音频模态特征。

由步骤S510获得的音频数据被输入至预先训练的音频特征提取模型中，由音频特征提取模型对其进行特征提取以得到对应于音频模态的音频模态特征。举例而言，本步骤中使用的音频特征提取模型可以是基于深度学习的卷积神经网络模型，本步骤可以先将获取到的原始的音频数据转化为单通道8kHz采样频率的32比特音频信号，再对音频信号进行预处理得到音频特征提取模型的输入数据，在将其输入音频特征提取模型后，便可以由模型输出512维的特征向量，该特征向量即作为待检索视频的音频模态特征。

步骤S530.将多个视频帧分别输入预先训练的图像特征提取模型以得到对应于图像模态的多个图像模态特征。

与音频特征提取模型相似的，本步骤中使用的图像特征提取模型也可以是基于深度学习的卷积神经网络模型。图6示意性地示出了一种卷积神经网络模型的网络结构，如图6所示，该卷积神经网络模型由多个卷积层和全连接层组成，输入图像在经过多个卷积层和全连接层进行处理后可以得到具有指定维数的特征向量。可选地，本示例性实施方式中的可以使用网络层数为101层的残差网络模型ResNet101作为训练图像特征提取模型的基础模型。另外，针对人脸图像特征、场景图像特征等各种不同类型的图像模态特征，需要分别训练不同的图像特征提取模型。例如，将视频帧输入针对人脸图像模态的图像特征提取模型可以得到512维的作为人脸图像特征的特征向量，将视频帧输入针对场景图像模态的图像特征提取模型可以得到512维的作为场景图像特征的特征向量。

利用各种不同的特征提取模型可以对待检索视频中的音频数据和视频帧进行特征提取得到多种待融合的单模态特征，图7示意性地示出了本发明的一些示例性实施方式中进行特征融合的步骤流程。如图7所示，在以上各实施方式的基础上，步骤S320.将多个单模态特征融合后得到待检索视频的多模态融合特征，可以包括以下步骤：

步骤S710.将对应于多个视频帧的多个图像模态特征进行池化后得到一个池化图像特征。

针对步骤S510获取到的多个视频帧，每个视频帧均可以提取到对应不同模态类型的图像模态特征，例如每个视频帧可以提取得到人脸图像特征和场景图像特征，如果步骤S510获取到N个视频帧，那么由步骤S530可以提取得到N个人脸图像特征和N个场景图像特征。本步骤在对N个人脸图像特征进行池化后得到一个与人脸图像特征相关的池化图像特征，同时在对N个场景图像特征进行池化后得到一个与场景图像特征相关的池化图像特征。

步骤S720.分别对池化图像特征和音频模态特征进行特征映射后得到映射图像特征和映射音频特征。

考虑到不同模态的特征所包含的信息量有所不同，导致不同特征的识别性能也会有所差异。因此，本步骤可以对池化图像特征和音频模态特征进行映射处理，得到在差异化的权重分配基础上的映射图像特征和映射音频特征。在本示例性实施方式中，针对不同模态的特征，可以使用不同的映射函数进行映射处理；另外，针对同一模型的特征，也可以使用不同的映射函数进行映射处理。例如，当使用两种不同的映射函数对某一池化图像特征进行映射处理后，可以得到与该池化特征相对应的两个不同的映射图像特征。

步骤S730.将映射图像特征和映射音频特征拼接后得到待检索视频的多模态融合特征。

在经过池化和映射处理后可以得到多个对应于不同模态的映射图像特征以及映射音频特征。本步骤将这些映射图像特征和映射音频特征进行拼接处理组成一个多模态融合特征，多模态融合特征中既包含了不同视频帧以及不同模态类型的特征信息，同时也对具有不同识别能力的各种模态特征进行了差异化的权重分配，因此具有极强的特征区分能力和鲁棒性。

通过池化处理可以对待检索视频中的多个视频帧进行特征信息融合。图8示出了传统特征图池化方式与本发明示例性实施方式使用的多帧特征池化方式的对比示意图。传统池化操作针对于单帧图片输入到神经网络，得到某一网络层多个特征图(feature map)，分别对不同通道(channel)上的部分相邻区域内的像素点进行平均或者取最大值，而并不考虑和周围特征图的交流和相互作用，也不改变特征图的数量。如图8左侧部分所示，对应于三个不同通道的特征图C1、C2和C3在相互独立地进行池化操作后将得到相同数量的特征图C1’、C2’和C3’。而本发明的示例性实施方式中使用的池化操作则是对多帧图像得到的特征进行多通道的平均池化或者是加权池化。如图8右侧部分所示，对应于三个视频帧的图像特征F1、F2和F3在共同进行多帧特征池化操作后将得到一个图像特征F’。这种多帧特征池化操作将不同视频帧中提取到的相关图像特征在对应的像素位置上进行平均或者加权，考虑了不同视频帧的图像特征的相互作用，同时减少了特征数量。在以上示例性实施方式中，步骤S710将对应于多个视频帧的多个图像模态特征进行池化处理后得到的池化图像特征中包含了不同视频帧的信息，有效改善了传统池化方式只能获取单帧图像信息而无法充分利用多个视频帧的特征信息且会带来误差的缺陷，大幅度提高了特征鲁棒性和区分性，从而可以增加在此基础上进行人物检索的检索精度，同时可以减少特征数量，增加人物检索速度。

本发明示例性实施方式中涉及的多帧特征池化方法可以采用平均池化或者加权池化两种方式，图9示意性地示出了本发明的一些示例性实施方式中根据视频类型进行特征池化的步骤流程。如图9所示，在以上各实施方式的基础上，步骤S710.将对应于多个视频帧的多个图像模态特征进行池化后得到一个池化图像特征，可以包括以下步骤：

步骤S910.获取目标对象在相邻两个视频帧中的位置关系，并根据位置关系判断待检索视频是否为动态视频或者静态视频。

在本示例性实施方式中，待检索视频可以被分为动态视频和静态视频两类，通过在待检索视频中选定一个人物、物品或者其他任意的场景元素作为目标对象，然后判断在相邻两个视频帧中的目标对象的位置关系，根据该位置关系即可判断待检索视频的视频类型，若两个视频帧中的目标对象位置变化较小，可以将待检索视频判定为静态视频，否则可以将待检索视频判定为动态视频。

举例而言，以待检索视频中的一个人脸作为目标对象，该人脸在第i个视频帧中的位置由其左上角坐标(x_i,1，y_i,1)和右下角坐标(x_i,2，y_i,2)共同确定，如果相邻两个视频帧中的人脸位置坐标的变化量均小于一个预设阈值T，即可认为该待检索视频为静态视频，否则便可以认为该待检索视频为动态视频。可选地，本步骤可以通过以下两个条件对待检索视频的视频类型做出判断：

当以上两个条件均满足时，将待检索视频判定为静态视频，否则将其判定为动态视频。

步骤S920.当判定待检索视频为动态视频时，获取待检索视频中各个视频帧与目标对象相关的图像质量分数，根据图像质量分数选取多个目标视频帧，并将对应于多个目标视频帧的多个图像模态特征进行加权池化后得到加权池化图像特征。

如果判定一个待检索视频为动态视频，那么本步骤可以获取待检索视频中各个视频帧与目标对象相关的图像质量分数。可选地，本示例性实施方式可以根据目标对象的特征表达能力对各个视频帧进行评分。例如，本示例性实施方式可以预先对大量的视频帧数据样本进行分数标注，然后利用经过分数标注的视频帧数据样本训练一个用于拟合图像质量分数的神经网络。将待检索视频的各个视频帧分别输入至训练得到的神经网络中即可得到各个视频帧与目标对象相关的图像质量分数。根据各个视频帧的图像质量分数，本步骤可以从待检索视频帧中选取多个目标视频帧，例如可以按照图像质量分数对各个视频帧进行排序，将图像质量分数大于某一阈值或者分数排序高于某一位置的多个视频帧选作目标视频帧。针对选取得到的目标视频帧，本步骤可以按照预设权重将对应于各个目标视频帧的多个图像模态特征进行加权池化以得到加权池化图像特征。

步骤S930.当判定待检索视频为静态视频时，从待检索视频中随机选取多个目标视频帧，并将对应于多个目标视频帧的多个图像模态特征进行平均池化后得到平均池化图像特征。

如果判定一个待检索视频为静态视频，那么可以认为待检索视频中的各个视频帧具有基本相似的特征表达能力，因此本步骤可以直接从待检索视频中随机选取多个目标视频帧，然后将对应于各个目标视频帧的多个图像模态特征进行平均池化后得到平均池化图像特征。

本示例性实施方式通过判断待检索视频的视频类型，针对不同类型的待检索视频采用不同形式的池化方法，可以在提高视频人物检索准确性的同时，提高视频人物检索效率，降低计算成本的消耗。

图10示意性地示出了本发明的一些示例性实施方式中针对动态视频进行加权池化的步骤流程。如图10所示，在以上各实施方式的基础上，步骤S920中的将对应于多个目标视频帧的多个图像模态特征进行加权池化后得到加权池化图像特征，可以包括以下步骤：

步骤S1010.获取各个目标视频帧在同一像素位置处的图像模态特征的特征值。

如以上各示例性实施方式中所记载的，本示例性实施方式需要对多个视频帧的图像模态特征进行共同池化，因此本步骤首先获取各个目标视频帧在同一像素位置处的图像模态特征的特征值。

步骤S1020.以图像质量分数为权重，将同一像素位置处的各个特征值加权平均后得到加权池化特征值。

在获取到各个视频帧在同一像素位置处的特征值后，本步骤以各个视频帧的图像质量分数为权重，对相应的各个特征值进行加权池化，以得到该像素位置处的加权池化特征值。例如，在步骤S920中可以从待检索视频中抽取得到n个目标视频帧，那么本步骤可以按照以下公式计算加权池化特征值F_加权：

其中，s_n为第n个目标视频帧的图像质量分数，F_n为对应于第n个目标视频帧的图像模态特征的特征值。

步骤S1030.由各个像素位置的加权池化特征值组成加权池化图像特征。

通过执行步骤S1020可以分别获得各个像素位置处的加权池化特征值，本步骤对这些加权池化特征值进行组合即得到待检索视频的加权池化图像特征。

图11示意性地示出了本发明的一些示例性实施方式中针对静态视频进行平均池化的步骤流程。如图11所示，在以上各实施方式的基础上，步骤S930中的将对应于多个目标视频帧的多个图像模态特征进行平均池化后得到平均池化图像特征，可以包括以下步骤：

步骤S1110.获取各个目标视频帧在同一像素位置处的图像模态特征的特征值。

与上一实施方式相似地，为了对多个视频帧的图像模态特征进行共同池化，本步骤首先获取各个目标视频帧在同一像素位置处的图像模态特征的特征值。

步骤S1120.将同一像素位置处的各个特征值的平均值作为平均池化特征值。

在获取到各个目标视频帧在同一像素位置处的特征值后，本步骤可以直接对各个特征值进行无差别地平均池化，以得到平均池化特征值。例如，在步骤S930中可以从待检索视频中抽取得到n个目标视频帧，那么本步骤可以按照以下公式计算平均池化特征值F_平均：

F_平均＝(F₁+F₂+…+F_n)/n

其中，F_n为对应于第n个目标视频帧的图像模态特征的特征值。

步骤S1130.由各个像素位置的平均池化特征值组成平均池化图像特征。

通过执行步骤S1120可以分别获得各个像素位置处的平均池化特征值，本步骤对这些平均池化特征值进行组合即得到待检索视频的平均池化图像特征。

池化操作是对不同的模态特征进行的单独的操作，在此基础上可以对各模态特征进行映射操作以得到更高维度的特征抽象。图12示意性地示出了本发明一些示例性实施方式中进行特征映射的步骤流程。如图12所示，在以上各实施方式的基础上，步骤S720.分别对池化图像特征和音频模态特征进行特征映射后得到映射图像特征和映射音频特征，可以包括以下步骤：

步骤S1210.获取音频特征提取模型以及图像特征提取模型的测试准确率，并根据测试准确率确定加权系数。

在本发明的一些示例性实施方式中，利用预先训练的音频特征提取模型和图像特征提取模型可以分别从待检索视频中提取音频模态特征和图像模态特征，而在相关模型的训练过程中，可以利用测试集对其特征提取的准确性做出测试从而确定各个模型对应的测试准确率。根据音频特征提取模型以及图像特征提取模型的测试准确率，本步骤可以确定用于进行映射处理的加权系数。例如，本步骤可以根据各个模型的测试准确率之间的比值关系确定加权系数。

步骤S1220.基于加权系数分别确定对应于池化图像特征和音频模态特征的加权映射函数。

基于步骤S1210确定的加权系数，本步骤可以分别确定用于对池化图像特征进行特征映射的加权映射函数以及用于对音频模态特征进行特征映射的加权映射函数。

步骤S1230.利用加权映射函数对池化图像特征和音频模态特征进行特征映射后得到映射图像特征和映射音频特征。

利用步骤S1220确定的加权映射函数，本步骤可以分别对经过池化处理后的池化图像特征以及原始的音频模态特征进行特征映射，从而得到映射图像特征和映射音频特征。针对不同模态类型的原始模态特征或者池化模态特征可以使用不同的加权映射函数。而针对同一模态类型的原始模态特征或者池化模态特征也可以使用多种不同的加权映射函数分别对其进行多次特征映射，例如使用两种加权映射函数对同一个池化图像特征进行特征映射可以得到两个不同的映射图像特征。

用于对原始模态特征或者池化模态特征进行特征映射的加权映射函数主要可以包括线性加权映射函数和非线性加权映射函数两种类型，针对不同的用户需求，可以使用不同类型的加权映射函数进行特征映射。图13示意性地示出了本发明一些示例性实施方式中确定加权映射函数的步骤流程。如图13所示，在以上各实施方式的基础上，步骤S1220.基于加权系数分别确定对应于池化图像特征和音频模态特征的加权映射函数，可以包括以下步骤：

步骤S1310.获取待检索视频的检索模式，检索模式为高速度检索模式或者高精度检索模式。

根据不同的用户需求，可以预先设定两种不同的针对待检索视频的检索模式，即高速度检索模式和高精度检索模式。其中，如果用户对待检索检索视频的检索速度要求较高，可以使用高速度检索模式；如果用户对待检索视频的检索精度要求较高，则可以使用高精度检索模式。

步骤S1320.当待检索视频的检索模式为高速度检索模式时，基于加权系数分别确定对应于池化图像特征和音频模态特征的线性加权映射函数。

当一个待检索视频的检索模式为高速度检索模式时，本步骤可以基于步骤S1210确定的加权系数，分别确定对应于池化图像特征和音频模态特征的线性加权映射函数。例如，该线型加权映射函数可以表示为F’＝k*w*F。其中，F是需要进行特征映射的原始模态特征或者池化模态特征，F’是经过特征映射后的映射模态特征，k是加权系数，w是通过网格查找由函数模型自行学习得到的映射参数。

步骤S1330.当待检索视频的检索模式为高精度检索模式时，基于加权系数分别确定对应于池化图像特征和音频模态特征的非线性加权映射函数。

当一个待检索视频的检索模式为高精度检索模式时，本步骤可以基于步骤S1210确定的加权系数，分别确定对应于池化图像特征和音频模态特征的非线性加权映射函数。例如，本步骤可以利用基于神经网络的一个1X1的卷积层进行特征映射，卷积层中每个神经元对应的非线性加权映射函数可以表示为F’＝k*S(w*F+b)。其中，F是需要进行特征映射的原始模态特征或者池化模态特征，F’是经过特征映射后的映射模态特征，k是加权系数，w和b是通过卷积层自行学习得到的映射参数，S为激活函数。可选地，激活函数S可以采用sigmoid函数：

另外，本步骤也可以采用多个卷积层、全连接层或者其他非线性函数进行特征映射，本示例性实施方式对此不做特殊限定。

在本示例性实施方式中，通过提供高速度检索模式和高精度检索模式两种检索模式，可以提高视频人物检索的灵活性。

基于以上各示例性实施方式提供的技术方案，图14示意性地示出了本发明基于多模态融合的视频人物检索方法在一应用场景下的具体实施方式。如图14所示，针对待检索视频可以提取得到人脸图像特征1401和场景图像特征1402两种图像模态特征，同时可以提取得到音频模态特征1403。

针对由多个视频帧的人脸图像特征1401组成的人脸图像特征集合，在对其进行池化处理后可以得到一个人脸池化特征1404，然后再使用两种不同的加权映射函数分别对人脸池化特征1404进行特征映射后可以得到第一人脸映射特征1405和第二人脸映射特征1406。

针对由多个视频帧的场景图像特征1402组成的场景图像特征集合，在对其进行池化处理后可以得到一个场景池化特征1407，然后再对其进行特征映射后可以得到场景映射特征1408。

针对音频模态特征1403，直接对其进行特征映射可以得到音频映射特征1409。

在将全部的池化模态特征或者原始模态特征进行映射处理得到映射特征后，可以将第一人脸映射特征1405、第二人脸映射特征1406、场景映射特征1408以及音频映射特征1409进行拼接处理以得到一个涵盖了人脸、场景、音频等多种模态信息的多模态融合特征1410。例如，各个池化模态特征或者原始模态特征均为512维的特征向量，那么经过拼接处理得到的多模态融合特征1410便是一个2048维的特征向量。最后将多模态融合特征1410输入预先训练的人物分类器1411即得到待检索视频的人物检索结果。通过对多种模态信息进行特征融合，可以使各种单模态特征的误差相互抵消，使其具有极强的鲁棒性和区分判别能力，因此能够获得很好的人物检索效果。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，对本发明示例性实施方式的介质进行说明。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种介质，其上存储有程序代码，当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的基于多模态融合的视频人物检索方法中的步骤。

在本发明的一些示例性实施方式中，所述设备的处理器执行所述程序代码时可以用于实现如图3所示的以下步骤：

在本发明的其他一些实施方式中，所述设备的处理器执行所述程序代码时也可以用于实现如图4至图14中所示的各个方法步骤。

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、RF等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图15至图17对本发明示例性实施方式的基于多模态融合的视频人物检索装置进行说明。

图15示意性地示出了本发明一些示例性实施方式中基于多模态融合的视频人物检索装置的组成结构。如图15所示，视频人物检索装置1500主要可以包括：

特征提取模块1510，被配置为从待检索视频中提取对应于不同模态的多个单模态特征；

特征融合模块1520，被配置为将多个单模态特征融合后得到待检索视频的多模态融合特征；

人物分类模块1530，被配置为将多模态融合特征输入预先训练的人物分类器，以得到待检索视频中的目标人物。

在本发明的一些示例性实施方式中，基于以上各实施方式，特征提取模块1510可以进一步被配置为：

在本发明的一些示例性实施方式中，基于以上各实施方式，特征提取模块1510可以进一步包括：

数据获取模块1511，被配置为获取待检索视频中的音频数据和多个视频帧；

音频特征提取模块1512，被配置为将音频数据输入预先训练的音频特征提取模型以得到对应于音频模态的音频模态特征；

图像特征提取模块1513，被配置为将多个视频帧分别输入预先训练的图像特征提取模型以得到对应于图像模态的多个图像模态特征。

在本发明的一些示例性实施方式中，基于以上各实施方式，特征融合模块1520可以进一步包括：

特征池化模块1521，被配置为将对应于多个视频帧的多个图像模态特征进行池化后得到一个池化图像特征；

特征映射模块1522，被配置为分别对池化图像特征和音频模态特征进行特征映射后得到映射图像特征和映射音频特征；

特征组合模块1523，被配置为将映射图像特征和映射音频特征拼接后得到待检索视频的多模态融合特征。

图16示意性地示出了本发明一些示例性实施方式中特征池化模块的组成结构。如图16所示，基于以上各实施方式，特征池化模块1521可以包括：

视频类型判断模块1610，被配置为获取目标对象在相邻两个视频帧中的位置关系，并根据位置关系判断待检索视频是否为动态视频或者静态视频；

动态视频池化模块1620，被配置为当判定待检索视频为动态视频时，获取待检索视频中各个视频帧与目标对象相关的图像质量分数，根据图像质量分数选取多个目标视频帧，并将对应于多个目标视频帧的多个图像模态特征进行加权池化后得到加权池化图像特征；

静态视频池化模块1630，被配置为当判定待检索视频为静态视频时，从待检索视频中随机选取多个目标视频帧，并将对应于多个目标视频帧的多个图像模态特征进行平均池化后得到平均池化图像特征。

在本发明的一些示例性实施方式中，基于以上各实施方式，动态视频池化模块1620可以进一步包括：

动态特征值获取模块1621，被配置为获取各个目标视频帧在同一像素位置处的图像模态特征的特征值；

动态特征值池化模块1622，被配置为以图像质量分数为权重，将同一像素位置处的各个特征值加权平均后得到加权池化特征值；

动态特征值组合模块1623，被配置为由各个像素位置的加权池化特征值组成加权池化图像特征。

在本发明的一些示例性实施方式中，基于以上各实施方式，静态视频池化模块1630可以进一步包括：

静态特征值获取模块1631，被配置为获取各个目标视频帧在同一像素位置处的图像模态特征的特征值；

静态特征值池化模块1632，被配置为将同一像素位置处的各个特征值的平均值作为平均池化特征值；

静态特征值组合模块1633，被配置为由各个像素位置的平均池化特征值组成平均池化图像特征。

图17示意性地示出了本发明一些示例性实施方式中的特征映射模块的组成结构。如图17所示，基于以上各实施方式，特征映射模块1522可以包括：

加权系数确定模块1710，被配置为获取音频特征提取模型以及图像特征提取模型的测试准确率，并根据测试准确率确定加权系数；

映射函数确定模块1720，被配置为基于加权系数分别确定对应于池化图像特征和音频模态特征的加权映射函数；

特征映射子模块1730，被配置为利用加权映射函数对池化图像特征和音频模态特征进行特征映射后得到映射图像特征和映射音频特征。

在本发明的一些示例性实施方式中，基于以上各实施方式，加权映射函数为线性加权映射函数或者非线性加权映射函数；映射函数确定模块1720可以进一步包括：

检索模式获取模块1721，被配置为获取待检索视频的检索模式，检索模式为高速度检索模式或者高精度检索模式；

线性函数确定模块1722，被配置为当待检索视频的检索模式为高速度检索模式时，基于加权系数分别确定对应于池化图像特征和音频模态特征的线性加权映射函数；

非线性函数确定模块1723，被配置为当待检索视频的检索模式为高精度检索模式时，基于加权系数分别确定对应于池化图像特征和音频模态特征的非线性加权映射函数。

以上各示例性实施方式中的基于多模态融合的视频人物检索装置的具体细节已在相应的示例性方法部分做出详细说明，因此此处不再赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，介绍根据本发明的另一示例性实施方式的计算设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明实施方式的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的基于多模态融合的视频人物检索方法中的步骤。

例如，所述处理器可以执行如图3中所示的以下方法步骤：

又如，所述处理器也可以执行如图4至图14中所示的各个方法步骤。

应当注意，尽管在上文详细描述中提及了基于多模态融合的视频人物检索装置的若干单元或子单元，但是这种划分仅仅是示例性的，并非是强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或单元的特征和功能可以在一个模块或单元中具体化。反之，上文描述的一个模块或单元的特征和功能可以进一步划分为由多个模块或单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所发明的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种基于多模态融合的视频人物检索方法，包括：

获取待检索视频中的音频数据和多个视频帧；

将所述多个视频帧分别输入预先训练的图像特征提取模型以得到对应于图像模态的多个图像模态特征；其中，所述图像模态特征包括人脸图像特征、场景图像特征、人头图像特征和肢体图像特征中的一种或者多种；

当判定所述待检索视频为静态视频时，从所述待检索视频中随机选取多个目标视频帧，并将对应于所述多个目标视频帧的多个图像模态特征进行平均池化后得到平均池化图像特征；

将所述映射图像特征和所述映射音频特征拼接后得到所述待检索视频的多模态融合特征；

2.根据权利要求1所述的基于多模态融合的视频人物检索方法，所述将对应于所述多个目标视频帧的多个图像模态特征进行加权池化后得到加权池化图像特征，包括：

由各个像素位置的加权池化特征值组成加权池化图像特征。

3.根据权利要求1所述的基于多模态融合的视频人物检索方法，所述将对应于所述多个目标视频帧的多个图像模态特征进行平均池化后得到平均池化图像特征，包括：

由各个像素位置的平均池化特征值组成平均池化图像特征。

4.根据权利要求1所述的基于多模态融合的视频人物检索方法，所述分别对所述池化图像特征和所述音频模态特征进行特征映射后得到映射图像特征和映射音频特征，包括：

5.根据权利要求4所述的基于多模态融合的视频人物检索方法，所述加权映射函数为线性加权映射函数或者非线性加权映射函数；所述基于所述加权系数分别确定对应于所述池化图像特征和所述音频模态特征的加权映射函数，包括：

6.一种介质，其上存储有程序，该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。

7.一种基于多模态融合的视频人物检索装置，包括：

数据获取模块，被配置为获取待检索视频中的音频数据和多个视频帧；

图像特征提取模块，被配置为将所述多个视频帧分别输入预先训练的图像特征提取模型以得到对应于图像模态的多个图像模态特征；其中，所述图像模态特征包括人脸图像特征、场景图像特征、人头图像特征和肢体图像特征中的一种或者多种；

静态视频池化模块，被配置为当判定所述待检索视频为静态视频时，从所述待检索视频中随机选取多个目标视频帧，并将对应于所述多个目标视频帧的多个图像模态特征进行平均池化后得到平均池化图像特征；

特征组合模块，被配置为将所述映射图像特征和所述映射音频特征拼接后得到所述待检索视频的多模态融合特征；

8.根据权利要求7所述的基于多模态融合的视频人物检索装置，所述动态视频池化模块包括：

9.根据权利要求7所述的基于多模态融合的视频人物检索装置，所述静态视频池化模块包括：

10.根据权利要求7所述的基于多模态融合的视频人物检索装置，所述特征映射模块包括：

11.根据权利要求10所述的基于多模态融合的视频人物检索装置，所述加权映射函数为线性加权映射函数或者非线性加权映射函数；所述映射函数确定模块包括：

12.一种计算设备，包括：处理器和存储器，所述存储器存储有可执行指令，所述处理器用于调用所述存储器存储的可执行指令执行如权利要求1至5中任一项所述的方法。