CN115761571A

CN115761571A - 基于视频的目标检索方法、装置、设备以及存储介质

Info

Publication number: CN115761571A
Application number: CN202211316414.6A
Authority: CN
Inventors: 朱祥祥
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-03-07

Abstract

本公开提供了基于视频的目标检索方法、装置、设备以及存储介质，本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于人脸识别等场景。具体实现方案为：确定目标视频中包括目标对象的优选帧图像；根据优选帧图像，提取目标对象的目标局部区域的第一特征信息；将第一特征信息发送至云端，以与云端的特征库中的第二特征信息进行目标检索。根据本公开技术，仅将第一特征信息发送云端进行目标检索，可以降低与云端交互的网络开销。

Description

基于视频的目标检索方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于人脸识别等场景。

背景技术

目前安防监控领域，基于摄像头的实时目标检测与报警应用的越来越广泛。业界应用已经从基础的目标识别和目标轨迹检索，拓展到了视频大数据分析应用上，因而对视频流多目标检索预警能力，有了更高的需求。

发明内容

本公开提供了一种基于视频的目标检索方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种基于视频的目标检索方法，包括：

确定目标视频中包括目标对象的优选帧图像；

根据优选帧图像，提取目标对象的目标局部区域的第一特征信息；

将第一特征信息发送至云端，以与云端的特征库中的第二特征信息进行目标检索。

根据本公开的另一方面，提供了一种基于视频的目标检索装置，包括：

第一确定模块，用于确定目标视频中包括目标对象的优选帧图像；

提取模块，用于根据优选帧图像，提取目标对象的目标局部区域的第一特征信息；

发送模块，用于将第一特征信息发送至云端，以与云端的特征库中的第二特征信息进行目标检索。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。

根据本公开技术，仅将第一特征信息发送云端进行目标检索，可以降低与云端交互的网络开销。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的基于视频的目标检索方法的流程示意图；

图2是根据本公开实施例的基于视频的目标检索方法的应用场景示意图；

图3是根据本公开另一实施例的基于视频的目标检索方法的流程示意图；

图4是根据本公开实施例的基于视频的目标检索装置的结构示意图；

图5是用来实现本公开实施例的基于视频的目标检索方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本公开实施例提供了一种基于视频的目标检索方法，包括：

步骤S101：确定目标视频中包括目标对象的优选帧图像。

步骤S102：根据优选帧图像，提取目标对象的目标局部区域的第一特征信息。

步骤S103：将第一特征信息发送至云端，以与云端的特征库中的第二特征信息进行目标检索。

根据本公开实施例，需要说明的是：

目标视频，可以是预先录制的视频，也可以是实时的视频流，在此不做具体限定。例如，目标视频可以是摄像头录制的某一时间段的视频，也可以是当下实时采集到并传输的视频。

目标对象，可以包括人物、动物、车、飞行器等任何物体，在此不做具体限定，根据应用场景进行选择和调整。

优选帧图像，可以理解为目标视频中的任一帧或多帧包含有目标对象的帧图像。该优选帧图像可以较好的显示出目标对象的相关特征信息。

目标局部区域，可以理解为在的优选帧图像中目标对象所在图像区域中的一部分图像区域。例如，在目标对象为人物时，目标局部区域可以理解为是优选帧图像中的人物图像的面部图像。

第一特征信息，可以理解为能够表征目标对象的任何维度的信息，在此不做具体限定。

云端可以理解为远程的特征检索系统、服务器或数据库等。目标检索的目的在于判断目标对象是否为需要关注的目标，如果检索判断与特征库内的第二特征信息不匹配，则说明目标对象不是需要关注的目标，忽略该目标对象。若检索判断与特征库内的第二特征信息匹配，则说明目标对象是需要关注的目标。

第二特征信息，可以理解为基于所需关注的目标的图像，预先进行特征提取所得到的特征信息。第二特征信息能够表征该需要关注的目标。

根据本公开实施例，可以实现对视频中的目标对象进行检索和在复杂网络条件下的异常目标实时预警。本公开实施例输送至云端的仅包括第一特征信息，此时网络交互数据量仅限于极少的第一特征信息，数据量大小在KB(千字节，Kilobyte)级别，在极差的网络环境下也能够进行本公开实施例的方法。相比通过网络远程传输视频的帧图像到云端进行目标检索的方式，本公开实施例的方法仅传输第一特征信息可以大大减少网络压力，降低了网络开销，可以在弱网络条件下，使用更少的服务器资源，处理更多的实时视频流，同时可以达到提高检索准确度、完整度、以及提升检索效率的检索效果，可以较低的成本支持大规模的实际应用。

在一个示例中，在目标对象包括人物，目标局部区域包括面部区域的情况下，本公开实施例的基于视频的目标检索方法可应用于安防预警、人流统计等场景中。可以实现实时视频流的人脸目标检索和预警。可以实现在复杂网络条件下的异常目标实时预警。本公开实施例输送至云端的仅包括人物面部的第一特征信息，相比通过网络远程传输视频中包含人物的帧图像的方式，大大减少网络压力，降低了网络开销，可以在弱网络条件下，使用更少的服务器资源，处理更多的实时视频流。同时可以达到提高视频流中的人脸检索准确度、完整度、以及提升视频流中的人脸检索效率的检索效果。

在一个示例中，本公开实施例的步骤S101至S103，可以由CPU(中央处理器，central processing unit)和/或GPU(图形处理器，graphics processing unit)执行。对于视频的实时处理，可以使用CPU与GPU结合的方法，将较为耗时的步骤放在GPU上进行，对硬件CPU要求降低。

在一个示例中，在目标对象包括人物，目标局部区域包括面部区域的情况下，本公开实施例提供了一种基于视频的目标检索方法，包括：

步骤S101：确定目标视频中包括人物的优选帧图像。

步骤S102：根据优选帧图像，提取人物的面部区域的第一特征信息。

根据本公开实施例，可以从目标视频中快速准确的识别出所需检索的目标人物，可应用于罪犯等特殊人物的检索。

在一个示例中，在目标对象包括飞行器，目标局部区域包括飞行器的螺旋桨区域的情况下，本公开实施例提供了一种基于视频的目标检索方法，包括：

步骤S101：确定目标视频中包括飞行器的优选帧图像。

步骤S102：根据优选帧图像，提取飞行器的螺旋桨区域的第一特征信息。

在一个示例中，在目标对象包括车辆，目标局部区域包括车辆的车牌区域的情况下，本公开实施例提供了一种基于视频的目标检索方法，包括：

步骤S101：确定目标视频中包括车辆的优选帧图像。

步骤S102：根据优选帧图像，提取车辆的车牌区域的第一特征信息。

根据本公开实施例，可以从目标视频在快速准确的识别出目标车辆，可应用于检索违章车辆的场景。

在一种实施方式中，本公开实施例的基于视频的目标检索方法，包括步骤S101至S103，其中，步骤S101：确定目标视频中包括目标对象的优选帧图像，包括：

步骤S1011：对根据第一抽帧频率从目标视频中得到的第一帧图像进行图像识别。

步骤S1012：在根据第一帧图像的图像识别结果确定第一帧图像包括目标对象的情况下，将第一抽帧频率提升为第二抽帧频率。

步骤S1013：在根据第二抽帧频率从目标视频中得到的多个第二帧图像中，根据预设筛选规则，确定包含有目标对象的目标局部区域的优选帧图像。

根据本公开实施例，需要说明的是：

第一帧图像，可以理解为按第一抽帧频率对目标视频进行图像帧提取时，所提取出的任一帧的帧图像。也即是说，按第一抽帧频率对目标视频进行图像帧提取时，所提取出的每一帧图像都可以作为第一帧图像。

对第一帧图像进行图像识别，可以采用任何图像识别模型，在此不做具体限定。例如，可以采用卷积神经网络模型。

图像识别的结果确定第一帧图像中所包含的目标对象的数量可以是一个或多个，在此不做具体限定。

第二抽帧频率的抽帧频次高于第一抽帧频率的抽帧频次，以使在目标视频中的目标对象出现时，尽可能多的提取到多帧包含有目标对象的第二帧图像。

第二帧图像，可以理解为包含有目标对象的帧图像。

根据本公开实施例，根据视频内容实时调整抽帧频率，可以尽可能多的提取到所需的第二帧图像，提高目标对象的识别效率和效果。

在一种实施方式中，在目标对象包括人物，目标局部区域包括面部区域的情况下，本公开实施例的基于视频的目标检索方法，包括步骤S101至S103，其中，步骤S101：确定目标视频中包括目标对象的优选帧图像，包括：

步骤S1011：利用预设识别方法，对根据第一抽帧频率从目标视频中得到的第一帧图像进行图像识别。

步骤S1012：在根据图像识别的结果确定第一帧图像包括人物的情况下，将第一抽帧频率提升为第二抽帧频率。

步骤S1013：在根据第二抽帧频率从目标视频中得到的多个第二帧图像中，根据预设筛选规则，确定包含有人物的面部区域的优选帧图像。

在一种实施方式中，本公开实施例的基于视频的目标检索方法，包括步骤S101至S103，以及步骤S1011至S1013，其中，步骤S1013：在根据第二抽帧频率从目标视频中得到的多个第二帧图像中，根据预设筛选规则，确定包含有目标对象的目标局部区域的优选帧图像，包括：

步骤S10131：根据第二抽帧频率，对目标视频进行抽帧，得到多个第三帧图像。

步骤S10132：从多个第三帧图像中确定出包含目标对象的多个第二帧图像。

步骤S10133：根据预设筛选规则，从多个第二帧图像中确定包含有目标对象的目标局部区域的优选帧图像。

根据本公开实施例，需要说明的是：

预设筛选规则，可以根据目标对象和目标局部区域的不同进行调整，在此不做具体限定。

确定的优选帧图像可以是一个或多个，在此不做具体限定。

根据本公开实施例，利用预设筛选规则，可以筛选出包含目标对象且目标局部区域质量最优的优选帧图像，以便于基于优选帧图像可以提取出更能够表征目标对象的第一特征信息。

在一种实施方式中，本公开实施例的基于视频的目标检索方法，包括步骤S101至S103，其中，步骤S10132：从多个第三帧图像中确定出包含目标对象的多个第二帧图像，包括：

根据质心跟踪算法，从多个第三帧图像中确定出包含目标对象的多个第二帧图像。

根据本公开实施例，需要说明的是：

通过质心跟踪算法，可以确定出各个第三帧图像中所显示的待确定对象之间的关系，根据不同第三帧图像中待确定对象的移动轨迹，可以确定出哪些第三帧图像中包含的待确定对象是同一个对象，从而在多个第三帧图像中确定出包含目标对象的多个第二帧图像。

根据本公开实施例，利用质心跟踪算法，可以快速准确的获取到目标对象的多个第二帧图像。

在一个示例中，在第三帧图像中包含有多个待确定对象时，需要对其中显示的每一个待确定对象基于质心跟踪算法，从其他第三帧图像中确定是否有与其相同的对象。如图2所示，可以将一张第三帧图像中的多个待确定对象分别通过目标框标记，以便于在其他第三帧图像中根据移动轨迹等信息，判断出是否为同一个对象。

在一种实施方式中，本公开实施例的基于视频的目标检索方法，包括步骤S101至S103，以及步骤S1011至S1013，其中，步骤S1013：在根据第二抽帧频率从目标视频中得到的多个第二帧图像中，根据预设筛选规则，确定包含有人物的面部区域的优选帧图像，包括：

根据第二抽帧频率从目标视频中得到的多个第二帧图像中，确定包含有目标对象的目标局部区域的多个候选帧图像。

根据预设筛选规则定义的目标局部区域的角度、大小、模糊程度中的至少一个指标，从多个候选帧图像中确定出优选帧图像。

根据本公开实施例，需要说明的是：

目标局部区域，可以理解为第二帧图像上的目标对象所在图像区域中的一部分图像区域。例如，在目标对象为人物时，目标局部区域可以理解为是人物的面部图像。

目标局部区域的角度，可以理解为目标局部所显露出的面积多少、以及视角方位。例如，在目标对象为人物时，目标局部区域的角度可以理解为人物的面部显露出的面积多少，以及是从正面显露、上方角度显示的等等。

目标局部区域的模糊程度，可以理解为目标局部区域的清晰度。

目标局部区域的大小，可以理解为目标局部区域的图像尺寸。

根据本公开实施例，预设筛选规则定义的目标局部区域的角度、大小、模糊程度中的至少一个指标，可以快速准确的筛选出目标对象的优选帧图像。

在一种实施方式中，本公开实施例的基于视频的目标检索方法，包括步骤S101至S103，其中，步骤S102：根据优选帧图像，提取目标对象的目标局部区域的第一特征信息，包括：

利用深度学习方法，根据优选帧图像，提取目标对象的目标局部区域的第一特征信息。

根据本公开实施例，需要说明的是：

目标局部区域的第一特征信息，可以采用任何图像识别模型，在此不做具体限定。例如，可以采用卷积神经网络模型。

根据本公开实施例，利用深度学习方法，可以快速准确的提取出目标局部区域的第一特征信息。

在一个示例中，在目标对象包括人物，目标局部区域包括面部区域的情况下，利用深度学习方法，根据优选帧图像，提取目标局部区域的第一特征信息，包括：

利用预设人脸识别方法，对优选帧图像进行人脸识别，以检测优选帧图像中的人脸关键点。根据人脸关键点提取面部区域的第一特征信息。

在一种实施方式中，本公开实施例的基于视频的目标检索方法，包括步骤S101至S103，还包括：

在根据云端的检索结果确定第一特征信息与第二特征信息匹配的情况下，生成预警信息。

根据本公开实施例，需要说明的是：

在第一特征信息与第二特征信息匹配的情况下，基本可以确定第一特征信息对应的目标对象与第二特征信息对应的对象是大概率是同一个对象。

根据本公开实施例，通过生成预警信息，可以提示用户关注目标视频中的目标对象的轨迹动向。

根据预警信息，在目标视频中包含有目标对象的帧图像上进行可视化标记。

根据本公开实施例，需要说明的是：

可视化标记的方式在此不做具体限定，能够基于目标视频直观看到其中的目标对象即可。

可视化标记的帧图像的数量，在此不做具体限定。

根据本公开实施例，可以便于用户关注到目标视频中的目标对象的轨迹动向。

在一种实施方式中，本公开实施例的基于视频的目标检索方法，包括步骤S101至S103，以及步骤S1011至S1013，其中，步骤S1011：对根据第一抽帧频率从目标视频中得到的第一帧图像进行图像识别，之前，还包括：

对目标视频进行解封装和解码的预处理。

根据第一抽帧频率，对预处理后的目标视频进行抽帧，得到初始帧图像。

对初始帧图像进行格式转换，得到RGB(red，green，blue)格式的第一帧图像。

根据本公开实施例，需要说明的是：

解封装和解码的预处理具体方式，可以采用现有技术中的任意视频解码和解封装的方式，在此不做具体限定，能够为后续顺利提取帧图像做好基础即可。

根据本公开实施例，通过预处理，可以得到便于后续进行图像识别的第一帧图像。

在一个示例中，先对原始输入的实时视频流进行解封装和解码。解封装和解码的方式不做限制，可采用FFmpeg(Fast Forward Mpeg)进行协议解封装，之后的解码可基于GPU实现，将解码得到的YUV(Luminance、Luma明亮度；Chrominance色度；Chroma浓度)数据加载到GPU缓存中，默认按照预先设置的抽帧频率进行抽帧选取，将选取到的YUV帧通过GPU进行色彩空间转换，得到RGB图像，也加载到GPU纹理缓存中。

在一个示例中，首先对接入的实时视频流根据不同的流媒体协议进行解封装，得到实际视频数据，之后先采用默认的抽帧策略进行解码与抽帧，根据实际需要可使用CPU或GPU计算获得帧数据，再经过色彩转换等图像处理，得到RGB图。

在一种实施方式中，本公开实施例的基于视频的目标检索方法，包括步骤S101至S103，以及步骤S1011至S1013，还包括：

在根据第一帧图像的图像识别结果确定第一帧图像不包括目标对象的情况下，将第一抽帧频率降低为第三抽帧频率。

对根据第三抽帧频率从目标视频中得到的第三帧图像进行图像识别。

在根据第三帧图像的图像识别结果确定第三帧图像包括目标对象的情况下，将第三抽帧频率提升为第二抽帧频率。

在根据第二抽帧频率从目标视频中得到的多个第二帧图像中，根据预设筛选规则，确定包含优选帧图像。

根据本公开实施例，需要说明的是：

第三抽帧频率的抽帧频次低于第一抽帧频率的抽帧频次，以使在目标视频中无目标对象出现时，尽可能少的提取帧图像，降低资源消耗。

根据本公开实施例，可以动态调整抽帧频率，在目标视频的少目标对象的时间段，可以大大降低抽帧负载，提升能接入的视频流路数，从而使本公开实施例的方法的执行主体可以同时对更多的目标视频进行同步检测。

在一种实施方式中，本公开实施例的基于视频的目标检索方法，包括步骤S101至S103，其中，步骤S103：将第一特征信息发送至云端，以与云端的特征库中的第二特征信息进行目标检索，包括：

将第一特征信息发送至云端，以与云端的特征库中的第二特征信息进行目标检索，其中，第二特征信息根据预警人物的面部区域所得到。

根据本公开实施例，需要说明的是：

预警人物，可以理解为自定义的需要关注的人。

根据本公开实施例，可以实现实时视频流的人脸目标检索和预警。可以实现在复杂网络条件下的异常目标实时预警。能根据视频内容实时调整抽帧频率，效率和效果都更好。本公开实施例输送至云端的仅包括第一特征信息，相比通过远程传输视频的帧图像的方式，大大减少网络压力，降低了网络开销，可以在弱网络条件下，使用更少的服务器资源，处理更多的实时视频流。

在一个示例中，如图3所示，本公开实施例的基于视频的目标检索方法，包括：

步骤一：先对原始输入的实时视频流A进行解封装和解码。解封装和解码的方式不做限制，可采用FF mpeg进行协议解封装，之后的解码可基于GPU实现，将解码得到的YUV数据加载到GPU缓存中，默认按照预先设置的抽帧频率进行抽帧选取，将选取到的YUV帧通过GPU进行色彩空间转换，得到RGB图像B，以实现对视频流的动态解码抽帧。

步骤二：采集图像B中的人脸关键点序列，先对图像B中人脸进行检测，人脸检测方法和检测数目不做限制，可采用深度学习方法进行人脸检测，将当前图像B的检测结果进行保存记录，同时如果有检测到人脸目标时，提高步骤一中的抽帧频率，保证原始视频流中有更多图像进入到步骤二。

步骤三：进行人脸目标跟踪，循环步骤二，对连续图像帧产生的目标，通过质心跟踪算法等方式确定目标间的关系，得到是否是同一个目标C以及目标的轨迹，进而选取同一个目标在连续帧间质量最优的目标图。其中质量最优可以通过目标角度、目标大小、模糊程度等进行综合判断。同时基于目标检测和目标跟踪的结果，可以动态调整抽帧的频率，在有目标时，增加后续抽帧频率，在没有目标时，降低抽帧频率。

步骤四：最优目标C人脸特征提取，先对目标C进行脸部关键点检测。关键点的检测方法和关键点数目不做限制，可采用当前比较热门的深度学习方法进行关键点检测，之后进行特征提取，获得当前目标C的人脸特征值。为了加速计算过程，以上步骤都可在同一台机器的GPU上进行加速处理。

步骤五：人脸特征检索，将步骤四中获取的人脸特征信息，发送到远程的特征检索系统，与特征检索系统中记录的底库数据进行比对，获得检索比对结果D，进而判断是否需要预警。此时网络交互数据量，仅限于极少的人脸特征信息，数据量大小在KB级别，可在极差的网络环境中进行。

步骤六：根据步骤五得到的检索比对结果D，决定是否需要进行预警，如需要预警，则将目标C、比对结果D叠加在视频流A上动态解码抽帧的包含有目标C的帧图像上，做整体可视化展示。

如图4所示，本公开实施例提供一种基于视频的目标检索装置，包括：

第一确定模块410，用于确定目标视频中包括目标对象的优选帧图像。

提取模块420，用于根据优选帧图像，提取目标对象的目标局部区域的第一特征信息。

发送模块430，用于将第一特征信息发送至云端，以与云端的特征库中的第二特征信息进行目标检索。

在一种实施方式中，第一确定模块410包括：

第一识别子模块，用于对根据第一抽帧频率从目标视频中得到的第一帧图像进行图像识别。

第一频率子模块，用于在根据第一帧图像的图像识别结果确定第一帧图像包括目标对象的情况下，将第一抽帧频率提升为第二抽帧频率。

第一确定子模块，用于在根据第二抽帧频率从目标视频中得到的多个第二帧图像中，根据预设筛选规则，确定包含有目标对象的目标局部区域的优选帧图像。

在一种实施方式中，第一确定子模块用于：

根据第二抽帧频率，对目标视频进行抽帧，得到多个第三帧图像。

从多个第三帧图像中确定出包含目标对象的多个第二帧图像。

根据预设筛选规则，从多个第二帧图像中确定包含有目标对象的目标局部区域的优选帧图像。

在一种实施方式中，从多个第三帧图像中确定出包含目标对象的多个第二帧图像，包括：

在一种实施方式中，第一确定子模块用于：

在一种实施方式中，提取模块420用于：

利用深度学习方法，根据优选帧图像，提取目标局部区域的第一特征信息。

在一种实施方式中，基于视频的目标检索装置还包括：

生成模块，用于在根据云端的检索结果确定第一特征信息与第二特征信息匹配的情况下，生成预警信息。

在一种实施方式中，基于视频的目标检索装置还包括：

标记模块，用于根据预警信息，在目标视频中包含有目标对象的帧图像上进行可视化标记。

在一种实施方式中，基于视频的目标检索装置还包括：

预处理模块，用于对目标视频进行解封装和解码的预处理。

抽帧模块，用于根据第一抽帧频率，对预处理后的目标视频进行抽帧，得到初始帧图像。

转换模块，用于对初始帧图像进行格式转换，得到RGB格式的第一帧图像。

在一种实施方式中，第一确定模块410还包括：

第二频率子模块，用于在根据第一帧图像的图像识别结果确定第一帧图像不包括目标对象的情况下，将第一抽帧频率降低为第三抽帧频率。

第二识别子模块，用于对根据第三抽帧频率从目标视频中得到的第三帧图像进行图像识别。

第三频率子模块，用于在根据第三帧图像的图像识别结果确定第三帧图像包括目标对象的情况下，将第三抽帧频率提升为第二抽帧频率。

第二确定子模块，用于在根据第二抽帧频率从目标视频中得到的多个第二帧图像中，根据预设筛选规则，确定包含目标对象的目标局部区域的优选帧图像。

在一种实施方式中，目标对象包括人物，目标局部区域包括面部区域。

在一种实施方式中，发送模块430用于：

本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如基于视频的目标检索方法。例如，在一些实施例中，基于视频的目标检索方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的基于视频的目标检索方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行基于视频的目标检索方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种基于视频的目标检索方法，包括：

确定目标视频中包括目标对象的优选帧图像；

根据所述优选帧图像，提取所述目标对象的目标局部区域的第一特征信息；以及

将所述第一特征信息发送至云端，以与所述云端的特征库中的第二特征信息进行目标检索。

2.根据权利要求1所述的方法，其中，所述确定目标视频中包括目标对象的优选帧图像，包括：

对根据第一抽帧频率从目标视频中得到的第一帧图像进行图像识别；

在根据所述第一帧图像的图像识别结果确定所述第一帧图像包括目标对象的情况下，将所述第一抽帧频率提升为第二抽帧频率；

在根据所述第二抽帧频率从所述目标视频中得到的多个第二帧图像中，根据预设筛选规则，确定包含有所述目标对象的目标局部区域的优选帧图像。

3.根据权利要求2所述的方法，其中，所述在根据所述第二抽帧频率从所述目标视频中得到的多个第二帧图像中，根据预设筛选规则，确定包含有所述目标对象的目标局部区域的优选帧图像，包括：

根据所述第二抽帧频率，对所述目标视频进行抽帧，得到多个第三帧图像；

从所述多个第三帧图像中确定出包含所述目标对象的多个第二帧图像；

根据预设筛选规则，从所述多个第二帧图像中确定包含有所述目标对象的目标局部区域的优选帧图像。

4.根据权利要求3所述的方法，其中，所述从所述多个第三帧图像中确定出包含所述目标对象的多个第二帧图像，包括：

根据质心跟踪算法，从所述多个第三帧图像中确定出包含所述目标对象的多个第二帧图像。

5.根据权利要求2所述的方法，其中，所述在根据所述第二抽帧频率从所述目标视频中得到的多个第二帧图像中，根据预设筛选规则，确定包含有所述目标对象的目标局部区域的优选帧图像，包括：

根据所述第二抽帧频率从所述目标视频中得到的多个第二帧图像中，确定包含有所述目标对象的目标局部区域的多个候选帧图像；

根据预设筛选规则定义的目标局部区域的角度、大小、模糊程度中的至少一个指标，从所述多个候选帧图像中确定出优选帧图像。

6.根据权利要求1所述的方法，其中，所述根据所述优选帧图像，提取所述目标对象的目标局部区域的第一特征信息，包括：

利用深度学习方法，根据所述优选帧图像，提取所述目标对象的目标局部区域的第一特征信息。

7.根据权利要求1所述的方法，还包括：

在根据所述云端的检索结果确定所述第一特征信息与所述第二特征信息匹配的情况下，生成预警信息。

8.根据权利要求7所述的方法，还包括：

根据所述预警信息，在所述目标视频中包含有所述目标对象的帧图像上进行可视化标记。

9.根据权利要求2所述的方法，其中，所述对根据第一抽帧频率从目标视频中得到的第一帧图像进行图像识别，之前，还包括：

对目标视频进行解封装和解码的预处理；

根据第一抽帧频率，对预处理后的目标视频进行抽帧，得到初始帧图像；

对所述初始帧图像进行格式转换，得到RGB格式的第一帧图像。

10.根据权利要求2所述的方法，还包括：

在根据所述第一帧图像的图像识别结果确定所述第一帧图像不包括所述目标对象的情况下，将所述第一抽帧频率降低为第三抽帧频率；

对根据所述第三抽帧频率从所述目标视频中得到的第三帧图像进行图像识别；

在根据所述第三帧图像的图像识别的结果确定所述第三帧图像包括所述目标对象的情况下，将所述第三抽帧频率提升为所述第二抽帧频率；

在根据所述第二抽帧频率从所述目标视频中得到的多个第二帧图像中，根据所述预设筛选规则，确定包含所述优选帧图像。

11.根据权利要求1至10任一项所述的方法，其中，所述目标对象包括人物，所述目标局部区域包括面部区域。

12.根据权利要求11所述的方法，其中，所述将所述第一特征信息发送至云端，以与所述云端的特征库中的第二特征信息进行目标检索，包括：

将所述第一特征信息发送至云端，以与所述云端的特征库中的第二特征信息进行目标检索，其中，所述第二特征信息根据预警人物的面部区域所得到。

13.一种基于视频的目标检索装置，包括：

提取模块，用于根据所述优选帧图像，提取所述目标对象的目标局部区域的第一特征信息；以及

发送模块，用于将所述第一特征信息发送至云端，以与所述云端的特征库中的第二特征信息进行目标检索。

14.根据权利要求13所述的装置，其中，所述第一确定模块包括：

第一识别子模块，用于对根据第一抽帧频率从目标视频中得到的第一帧图像进行图像识别；

第一频率子模块，用于在根据所述第一帧图像的图像识别结果确定所述第一帧图像包括目标对象的情况下，将所述第一抽帧频率提升为第二抽帧频率；

第一确定子模块，用于在根据所述第二抽帧频率从所述目标视频中得到的多个第二帧图像中，根据预设筛选规则，确定包含有所述目标对象的目标局部区域的优选帧图像。

15.根据权利要求14所述的装置，其中，所述第一确定子模块用于：

16.根据权利要求15所述的装置，其中，所述从所述多个第三帧图像中确定出包含所述目标对象的多个第二帧图像，包括：

17.根据权利要求14所述的装置，其中，所述第一确定子模块用于：

根据所述第二抽帧频率从所述目标视频中得到的多个第二帧图像中，确定包含有所述目标对象的目标局部区域的多个候选帧图像；以及

18.根据权利要求13所述的装置，其中，所述提取模块用于：

19.根据权利要求13所述的装置，还包括：

生成模块，用于在根据所述云端的检索结果确定所述第一特征信息与所述第二特征信息匹配的情况下，生成预警信息。

20.根据权利要求19所述的装置，还包括：

标记模块，用于根据所述预警信息，在所述目标视频中包含有所述目标对象的帧图像上进行可视化标记。

21.根据权利要求14所述的装置，还包括：

预处理模块，用于对目标视频进行解封装和解码的预处理；

抽帧模块，用于根据第一抽帧频率，对预处理后的目标视频进行抽帧，得到初始帧图像；

转换模块，用于对所述初始帧图像进行格式转换，得到RGB格式的第一帧图像。

22.根据权利要求14所述的装置，其中，所述第一确定模块还包括：

第二频率子模块，用于在根据所述第一帧图像的图像识别结果确定所述第一帧图像不包括所述目标对象的情况下，将所述第一抽帧频率降低为第三抽帧频率；

第二识别子模块，用于对根据所述第三抽帧频率从所述目标视频中得到的第三帧图像进行图像识别；

第三频率子模块，用于在根据所述第三帧图像的图像识别结果确定所述第三帧图像包括所述目标对象的情况下，将所述第三抽帧频率提升为所述第二抽帧频率；

第二确定子模块，用于在根据所述第二抽帧频率从所述目标视频中得到的多个第二帧图像中，根据所述预设筛选规则，确定包含所述优选帧图像。

23.根据权利要求13至22任一项所述的装置，其中，所述目标对象包括人物，所述目标局部区域包括面部区域。

24.根据权利要求23所述的装置，其中，所述发送模块用于：

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至12中任一项所述的方法。