CN111898416A

CN111898416A - 视频流处理方法、装置、计算机设备和存储介质

Info

Publication number: CN111898416A
Application number: CN202010551776.8A
Authority: CN
Inventors: 张官兴; 王赟; 郭蔚; 黄康莹; 张铁亮
Original assignee: Shanghai Ewa Intelligent Technology Co ltd; Shaoxing Ewa Technology Co Ltd
Current assignee: Shanghai Ewa Intelligent Technology Co ltd; Shaoxing Ewa Technology Co Ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-11-06

Abstract

本申请涉及一种视频流处理方法、装置、计算机设备和存储介质。方法应用于解码器，包括：接收待检测目标，提取待检测目标对应的目标特征编码；获取终端发送的视频流编码信息，对视频流编码信息进行解析得到视频流以及视频流特征编码；将目标特征编码与视频流特征编码进行匹配；当匹配成功时，获取匹配成功的视频流特征编码对应的匹配位置；根据匹配位置在视频流中定位待检测目标。采用本方法能够提高视频数据的处理效率。

Description

视频流处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种视频流处理方法、装置、设备和介质。

背景技术

随着技术的进步和社会发展需要，为保障人民生活以及财产安全，视频监控系统已经大规模应用到各行各业，

特别是公共安全领域，如公安、交通、安保行业，监控视频流作为直击第一现场，掌握证据的第一手资料，对公安加快破案速度，提高破案效率有着重要的意义。日常中一旦监控区域发生了突发事件或异常事件后，需要从大量视频流中回放，查找事发现场的关键信息如人物，车辆。

但在日常犯罪分子追踪过程中，主要是通过将已知嫌犯目标特征与监控视频流中的人员进行一对多的比对匹配，从而从监控视频流中获取目标特征对应的监控视频信息，但是每次进行目标特征匹配时都需要在监控视频流中重新进行关键目标的识别以及特征提取，使得现有视频监控系统对新发案件的视频检索存在占用大量计算机资源的弊端。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高视频数据处理效率的视频流处理方法、装置、计算机设备和存储介质。

一种视频流处理方法，应用于服务器，方法包括：接收待检测目标，提取待检测目标对应的目标特征编码；获取终端发送的视频流编码信息，对视频流编码信息进行解析得到视频流以及视频流特征编码；将目标特征编码与视频流特征编码进行匹配；当匹配成功时，获取匹配成功的视频流特征编码对应的匹配位置；根据匹配位置在视频流中定位待检测目标。

一种视频流处理方法，应用于终端，方法包括：获取视频流，对视频流进行特征提取得到视频流特征编码；将视频流特征编码以及视频流进行编码处理得到视频流编码信息；将视频流编码信息发送至服务器，以指示服务器根据视频流编码信息进行解码并在视频流中对待检测目标进行定位。

一种视频流处理装置，应用于服务器，装置包括：提取模块，用于接收待检测目标，提取待检测目标对应的目标特征编码；流编码获取模块，用于获取终端发送的视频流编码信息，对视频流编码信息进行解析得到视频流以及视频流特征编码；匹配模块，用于将目标特征编码与视频流特征编码进行匹配；位置获取模块，用于当匹配成功时，获取匹配成功的视频流特征编码对应的匹配位置；定位模块，用于根据匹配位置在视频流中定位待检测目标。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述方法的步骤。

上述视频流处理方法、装置、计算机设备和存储介质，在终端预先从视频流中提取对应的视频流特征编码，然后按照预设规则将视频流特征编码以及视频流进行压缩编码处理，并经容器封装得到视频流编码信息，并将视频流编码信息发送至服务器，当服务器接收到待检测目标时，提取待检测目标对应的目标特征编码，然后对从终端获取到的视频流编码信息进行解析得到视频流以及视频流特征编码；将目标特征编码与视频流特征编码直接进行匹配，当匹配成功时，获取匹配成功时对应的匹配位置；根据匹配位置从视频流中定位待检测目标。由于在服务器中可以直接获取视频流对应的视频流特征编码，而不需要在服务器中执行从视频流提取视频流特征编码的步骤，故而在服务器减少了计算机资源的占有率，提高了在视频流中定位待检测目标的效率和实时性。

附图说明

图1为一个实施例中视频流处理方法的应用环境图；

图2为一个实施例中应用于服务器的视频流处理方法的流程示意图；

图3为一个实施例中提供的一种在终端对视频流进行特征编码得到视频流特征编码的流程示意图；

图4为一个实施例中应用于终端的视频流处理方法的流程示意图；

图5为一个实施例中提供的一种利用特征提取算法从视频流中提取图像帧特征的示意图；

图6为一个实施例中提供的一种视频编码器的原理示意图；

图7为一个实施例中提供的一种获取图像帧特征向量的示意图；

图8为一个实施例中提供的一种图像帧间相似度及感兴趣目标相似度判别的示意图；

图9为一个实施例中提供的一种利用特征提取编码器提取目标物特征信息的示意图；

图10为一个实施例中提供的一种语义特征向量的获取原理图；

图11为一个实施例中的语义信息提取的示意图；

图12为一个实施例中提供的一种数据处理系统的流程示意图；

图13为一个实施例中提供的一种数据处理系统在视频流中定位待检测目标的模块示意图；

图14为一个实施例中在终端对视频流进行编码以及在服务器中进行视频流解码的模块图；

图15为一个实施例中提供的一种应用于服务器的一种视频流处理装置的结构框图；

图16为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视频流处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104接收待检测目标，提取待检测目标对应的目标特征编码；获取终端102发送的视频流编码信息，对视频流编码信息进行解析得到视频流以及视频流特征编码；将目标特征编码与视频流特征编码进行匹配；当匹配成功时，获取匹配成功的视频流特征编码对应的匹配位置；根据匹配位置在视频流中定位待检测目标。其中，终端102可以但不限于是图像采集设备如摄像头、各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在另一个实施例中，本申请提供的视频流处理方法还可以应用于编码器以及解码器，其中在编码器中对获取到的视频流进行编码处理得到视频流特征编码信息，并将视频流特征编码信息发送至解码器，在解码器对接收到的视频流编码信息进行解码得到视频流特征编码，并将目标特征编码与视频流特征编码进行匹配得到匹配位置，进而根据匹配位置在视频流中定位对应的待检测目标。

进一步地，还可以在服务器中调用编码器以及解码器进行上述视频流数据进行处理，在此不作限制。

在一个实施例中，如图2所示，提供了一种视频流处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤210，接收待检测目标，提取待检测目标对应的目标特征编码。

待检测目标可以是待检测图像，具体地可以在预设的一段视频流中检测是否存在该待检测图像。利用预设特征提取算法对待检测目标进行特征提取得到目标特征编码，如可以利用预先训练的神经网络算法或者特征描述子等算法提取待检测目标的目标特征编码。具体地，当服务器接收到待检测目标时，利用预设的特征提取算法提取待检测目标对应的目标特征编码。需要说明的是，目标特征编码可以是待检测目标中的目标物对应的特征信息，如当目标物为人脸时，目标特征编码可以为待检测图像中的人脸对应的编码信息，当目标物为车牌时，目标特征编码可以为待检测图像中的车牌对应的编码信息等，在此不作限制。

步骤220，获取终端发送的视频流编码信息，对视频流编码信息进行解析得到视频流以及视频流特征编码。

视频流可以是图像采集设备采集的一段连续的视频，其中，视频流编码信息中的视频流特征编码可以是对视频流进行特征提取得到的特征向量。具体地，视频流编码信息中可以预先封装了视频流以及视频流对应的视频流特征编码，如可以预先在终端如图像采集设备端提取视频流对应的视频流特征编码，并将视频流特征编码与视频流进行封装编码得到视频流编码信息，然后终端将视频流编码信息发送至服务器，服务器根据预设的解码算法对接收到的视频流编码信息进行解析得到视频流以及视频流特征编码。

其中，终端可以是图像采集设备如监控摄像头等具有图像采集功能的设备。具体地，图像采集设备采集视频流后，按照预设算法对视频流进行特征提取得到视频流对应的视频流特征编码。具体地，终端按照预设频率从视频流中提取多个图像帧，利用预设算法对各个图像帧进行图像特征提取得到各图像帧对应的图像帧特征编码，再根据各图像帧特征编码得到视频流对应的视频流特征编码，终端根据预设的视频编码容器技术将视频流特征编码以及视频流按照预设编码规则进行封装得到视频流编码信息，并将视频流编码信息发送至服务器，以指示服务器对接收到的视频流编码信息进行解析得到封装的视频流以及视频流特征编码。

具体地，参考图3，图3为一个实施例中提供的一种在终端对视频流进行特征编码得到视频流特征编码的流程示意图。包括：终端接收视频流后利用视频编码器对视频流进行数据处理得到输出的视频流特征编码。具体地，视频编码器中包含视频压缩编码打包器、视频特征编码打包器以及事件标识编码打包器，其中视频压缩编码打包器对视频流进行数据处理得到压缩视频包，视频特征编码打包器对视频流进行数据处理得到特征编码包，事件标识编码打包器对视频流进行数据处理得到事件标识包，然后再将得到的数据通过复用器进行数据容器格式封装处理得到终端输出含有视频流特征编码的视频数据。进一步地，终端还可以对音频流进行数据处理，如利用音频编码器对音频流进行数据处理得到音频编码打包器，然后将压缩视频包、特征编码包、事件标识包以及音频包等通过复用器按照预设数据包容器封装格式将流数据封装得到终端输出的对应的视频编码数据包C1、C2.....Cn，并根据时间标签实现数据对齐。进一步地，C1、C2.....Cn的数据中包含数据包包头数据以及封装数据载荷，其中每个数据包包头包含该数据包的主体结构参数信息，如开始标志位、数据类型标志ID、编码器版本信息、压缩格式、其他编码参数等；同时数据载荷部分亦包含分组包头数据和分组载荷数据。以特征编码数据包为例，由于某一帧视频画面中包含多个目标，因此该帧会生成多个目标特征编码向量，构成一个特征编码向量组，因此需要在分组包头对该特征编码向量组进行结构化定义，因此分组包头中包含有起始标志位、特征编码向量组大小、同步时间标签、帧间关联信息等数据；其中起始位用于表示载荷数据起始位置；特征编码向量组大小用于表示该数据包中含有特征数据的数量；帧间关联信息用于表示该数据包代表多少个相似帧，如在一些监控场景中，同一目标可能会长时间出现在多帧视频画面中，因此我们只需要对关键的帧进行目标特征提取，然后通过帧间关联信息表示该目标出现在后续多少个帧中或那个时间段中，便于在后期目标匹配时进行视频内容定位；对于分组载荷数据部分主要包含特征编码向量起始标志位、类型位、特征数据位、下一个特征向量开始标志位。

在一种实施方式中，由于图像帧中可能包含不同类别的目标物如车辆、人物、动物等，为了进一步提高服务器的目标定位效率，在对图像帧进行特征编码时还可以对图像帧中的目标物进行粗粒度分类，并作为视频特征编码的标签。在具体实施中，当服务器需要对人物进行匹配定位时，只需要根据粗粒度分类标注的人物标签对应的特征编码信息中提取人物特征编码即可，而不需要提取所有类别的目标物对应的特征编码，进而提高了特征信息获取的效率。

在本步骤中，终端预先将采集到的视频流进行压缩编码封装得到视频流编码信息，一方面在终端就完成对视频流的编码封装极大地降低了视频流的存储空间，不仅提高了终端向服务器进行数据传输的传输效率，也减少了视频流在服务器中的存储空间。另一方面，在终端完成了对视频流的特征编码的提取，使得服务器可以直接获取到视频流特征编码信息，而不需要服务器再对视频流进行特征提取，提高了服务器获取特征数据的效率，特别是当服务器需要从多个终端获取视频流时，预先在各个终端完成对各视频流的特征提取以及编码封装，极大地降低了服务器的数据处理压力，提高了服务器的处理性能以及降低视频分析服务器部署成本。

步骤230，将目标特征编码与视频流特征编码进行匹配。

需要说明的是，从待检测目标中提取目标特征编码的算法与从视频流中提取视频流特征编码的算法是同一个算法，进而目标特征编码与视频流特征编码的编码方法是一致的，故而可以直接在服务器中将目标特征编码与视频流特征编码进行匹配，并得到匹配度。具体地，视频流特征编码中可包含多个图像帧特征编码，服务器可以将目标特征编码与各图像帧特征编码分别进行匹配。进一步地目标特征编码可以是待检测目标的目标图像指纹信息，视频流特征编码可以是视频流中的各图像帧对应的图像帧指纹信息，将目标图像指纹信息与各图像帧指纹信息进行匹配得到匹配度。其中指纹信息的提取算法可以为哈希感知算法等，在此不作限制。

步骤240，当匹配成功时，获取匹配成功的视频流特征编码对应的匹配位置。

匹配位置可用于标识视频流中的某一个图像帧，具体地，每个图像帧在视频流中可以对应一个位置信息，故而通过匹配位置可以在视频流中定位到对应的图像帧，在一个实施例中匹配位置可以是时间位置信息，通过时间位置信息可以在视频流中定位到对应时间位置处的图像帧。具体地，服务器将目标特征编码与各图像帧特征编码分别进行匹配，当匹配成功时说明在视频流中检测到了与待检测目标对应的图像帧，服务器获取匹配成功时对应的匹配位置，根据匹配位置从视频流中获取对应的图像帧以及图像帧特征编码。在具体实施中可以计算目标特征编码与各图像帧特征编码的匹配度，当匹配度大于预设阈值时判定目标特征编码与图像帧特征编码匹配成功。

步骤250，根据匹配位置在视频流中定位待检测目标。

当匹配成功时说明从视频流中成功检测到了与待检测目标匹配的图像帧，具体地服务器可以根据匹配位置如时间匹配位置在视频流中定位对应的图像帧，进而实现了在视频流中成功定位到待检测目标。

在其中一个实施例中，根据匹配位置在视频流中定位待检测目标，包括：获取匹配位置对应的图像帧特征编码；从图像帧特征编码中提取时间标签；根据时间标签在视频流中定位待检测目标对应的目标视频流信息。

图像帧特征编码中包含图像帧中的目标物对应的特征向量，还包含图像帧的时间标签，时间标签用于标识图像帧在视频流中的时间位置信息。例如当时间标签对应为t1时刻，并且t1时刻的图像帧特征编码与目标特征编码匹配成功时，那么就可以在视频流中直接定位到t1时刻的视频信息，实现了在视频流中对待检测目标的定位；或者当时间标签对应为第3帧图像，并且第3帧图像对应的图像帧特征编码与目标特征编码匹配成功时，那么就可以在视频流中直接定位到第3帧图像对应的视频信息，实现了在视频流中对待检测目标的定位。

在一个具体的实施例中，当服务器接收到对待检测目标的在历史视频中检索指令时，服务器利用特征编码器对待检测目标如待识别人脸目标进行特征提取，得到目标特征编码，服务器还对从历史数据库中获取到的视频流按照数据容器编码规则对应的解码规则进行解码得到对应的视频流以及视频流特征向量数据的一种或多种。然后在服务器中将上述解码的特征向量数据与提取的待识别人脸特征向量进行匹配，对匹配分数高于预设阈值的图像帧进行定位，实现在历史视频流数据中检索待检测目标的目的。进一步地，视频流特征向量中包含有时间标签，且时间标签数据与视频流中的各图像帧对应的时间标签数据同步，用于在视频内容中的精准定位。

在传统技术中当需要对待检测目标在历史数据中进行检索时，需要对整个视频流进行调取，然后服务器或使用专用GPU计算平台设备对视频流中的人脸信息或图像信息进行特征提取，在整个视频流中检测待检测目标，使得视频内容检索效率低、关键帧定位技术路线复杂、能效比低下、耗时长以及数据复用率低、成本高。在本实施例中，由于将视频流的特征提取工作分解到各个终端如图像采集设备，故而在服务器中对待检测目标进行检测时，服务器可以直接调取视频流对应的视频流特征编码信息，而不需要对整个视频流进行调取，降低服务器的计算压力提高了服务器的数据处理效率。

在一个实施例中，如图4所示，提供了一种应用于终端的视频流处理方法的流程示意图，以该方法应用于图1中的终端如图像采集设备为例进行说明，方法包括：

步骤410，获取视频流，对视频流进行特征提取得到视频流特征编码。

其中终端为前端摄像头端或边缘端计算设备，且终端集成有AI处理器，AI处理器可用于对视频流按预设规则和算法进行特征信息的提取，并将特征信息打包发送至后端服务器。其中视频特征信息可以是对视频流中的图像帧画面进行特征编码处理生成的图像帧画面特征编码；视频特征信息还可以是对视频流中的图像帧画面中感兴趣目标进行特征编码处理生成的图像帧画面感兴趣目标特征编码，或者视频特征信息还可以是对视频流中的连续图像帧进行特征编码处理生成的连续帧语义特征编码(事件标签信息)。具体地，以人脸识别或危险动作检测为例，特征编码是指对视频中的人脸进行特征提取或对关键连续图像帧进行语义分析获得特征编码信息或事件描述信息。

具体地，参考图5，图5为一个实施例中提供的一种利用特征提取算法从视频帧中提取图像帧特征编码的示意图。在图5中可以在特征编码器中对图像帧进行特征提取得到图像帧特征编码。具体地可以在AI处理器中配置预先训练的CNN模型，然后利用CNN模型对图像帧进行特征提取得到图像帧特征编码，并且图像帧中可包含人脸或者车辆或者动物等目标物，具体地可以利用CNN模型对图像帧中的目标物进行特征提取得到图像帧中的感兴趣目标物对应的特征编码。进一步地，特征编码器可用于对视频流、音频等关键连续帧做语义特征提取和/或生成内容描述，具体的在AI处理器中配置预先训练好的特征提取算法如神经网络算法、特征描述子算法等，以根据预先配置的算法提取单帧或连续帧目标特征编码信息或语义编码信息，其中对于单帧图像内容中的目标特征编码的提取可使用神经网络或卷积神经网络，生成目标特征向量。

需要说明的是，由于不同目标特征图的大小不一致，故而需要将不同大小的目标特征图约束到统一尺度下，然后继续提取特征，通过全连接层生成目标特征向量也就是特征编码。

在一个实施例中以人脸识别为例，获取经图像增强处理的包含人脸的单帧人脸图像；获取特征编码器和配置神经网络模型及模型参数；将单帧人脸图像输入至特征编码器，进行人脸目标检测；对检测到的人脸目标进行特征提取，生成人脸特征向量；将人脸特征向量与其他数据进行容器封装，发送至后端。具体地，将人脸特征向量数据与视频流统一封装，在后端如图像采集设备端进行存储，使得在服务器中进行特定视频进行历史检索任务时，不需要再在服务器中对历史视频数据重新进行人脸目标特征提取的工作，只需要从终端发送的数据中解析出封装的视频流以及对应人脸特征向量数据即可，然后将提取的数据与待检测目标对应的目标特征向量进行匹配即可，同时每个特征向量数据都带有时间标签，因此在定位到那一帧特征向量时，相应的亦可实现对视频帧的定位，便于回放查看。

步骤420，将视频流特征编码以及视频流进行编码处理得到视频流编码信息。

终端可以将视频流特征编码以及视频流在视频编码容器中进行编码处理得到视频流编码信息。其中，视频编码容器中可包含编码模块、容器模块，其中编码模块是指媒体文件中音视频的编码，如H.264、AAC等，容器模块可根据文件扩展名区分，用于将多部分不同类型的数据内容整合，包括将视频、音频以及特征向量数据进行封装。后端服务器根据上述封装及编码协议，对监控视频内容做解码处理，获得视频流、音频流和视频流图像帧特征编码信息。

在一个实施例中，如图6所示，提供了一种视频编码器的原理示意图，其中视频编码器可包括图像帧增强处理单元、视频压缩单元以及特征编码单元。具体地，终端对采集的视频流进行编码的步骤可包括：利用图像帧增强处理单元对图像传感器采集的RAW_RGB图像数据进行增强、校正处理，具体地可包括但不限于黑电平校正、镜头校正、坏点校正、去噪、白平衡校正、亮度矫正、颜色插值等处理，生成由单帧图像构成的原始视频流数据，如可通过ISP图像信号处理器进行处理，然后利用视频压缩单元对经图像帧增强处理单元增强处理的连续帧图像数据进行视频流压缩处理得到压缩数据，如可经过VSP视频处理器进行处理，以及利用特征编码单元如AI处理器对经图像帧增强处理单元增强处理的连续帧图像数据进行特征编码得到特征编码数据，然后再利用复用器将压缩数据以及特征编码数据进行合并得到视频流编码信息对应的数据包。进一步地可以将数据包发送至服务器。

步骤430，将视频流编码信息发送至服务器，以指示服务器根据视频流编码信息进行解码并在视频流中对待检测目标进行定位。

在本实施例中，通过在终端如图像采集设备端预先对采集到的视频流进行视频流特征提取，然后通过视频编码容器技术将该视频流以及对应的视频流特征信息按照预设编码封装规则封装成新的视频流如视频流编码信息，并将视频流编码信息打包发送至服务器，以指示服务器根据接收到的视频流编码信息进行解码并对待检测目标进行数据处理。

在其中一个实施例中，对视频流进行特征提取得到对应的视频流特征编码，包括：按照预设频率从视频流中提取图像帧；将图像帧输入至预先训练的特征提取模型中得到图像帧对应的图像帧特征向量；根据图像帧特征向量得到视频流对应的视频流特征编码。

具体地，图像帧中包含感兴趣目标物，具体地图像帧特征向量包含但不限于感兴趣目标物对应的特征向量以及语义特征向量等。如当图像帧中的目标物为人脸时此时对应的图像帧特征向量为人脸的特征向量以及人脸的语义描述信息，当目标物对应为车辆时此时对应的图像帧特征向量可以车牌信息以及车辆行驶状态信息等。参考图9，图9提供了一种利用特征提取编码器提取目标物特征信息的示意图。具体地，在图像帧F1中包含目标物A以及目标物B，将图像帧F1输入至特征提取编码器中后得到目标物A对应的A人脸特征编码以及A人脸位置信息编码，以及目标物B对应的B人脸特征编码以及B人脸位置信息编码。其中，特征提取编码器利用预先训练的机器学习算法提取编码信息。

在其中一个实施例中，将图像帧输入至预先训练的特征提取模型中得到图像帧对应的图像帧特征向量，包括：计算各图像帧之间的图像相似度；当图像相似度大于预设阈值时，对相似度大于预设阈值的图像帧进行过滤处理只保留其中一个图像关键帧；将过滤后剩余的各图像帧输入至预先训练的特征提取模型中，根据特征提取模型得到图像帧对应的图像帧特征向量。

具体地，参照一段时间内图像的统计结果表明，在相邻几幅图像画面对应的图像帧中，图像内容基本不会变化。所以对于一段图像内容信息变化不大的视频流来说，只需要对其中的部分图像帧进行特征向量的提取，以获得图像帧画面中感兴趣目标的特征向量或识别结果，而不需要对整段视频流中的所有图像帧序列都做特征向量的提取操作，同时在某一段时间内的内容相似度较低的图像帧之间，亦可能会有相似的感兴趣目标出现在上述不相似的图像帧内，因此在判断图像帧相似后还需要对不同图像帧内相似的目标特征数据进行相似度判断和滤除，以减少数据冗余。

具体的，经过增强处理过的图像帧序列，在经过特征提取编码前进行图像帧间的相似度判断，具体地，参考图7，图7提供了一种获取图像帧特征向量的示意图，包括：利用图像帧间相似度判断器计算输入图像与帧存储器中的图像帧之间的相似度，具体地可利用SSIM、余弦相似度、直方图对比法、ORB算法、PSNR峰值信噪比、感知哈希算法等进行相似度计算，若相似度大于预设阈值则将当前图像帧进行过滤删除；若相似度不大于预设阈值则进行图像帧的输出，并将帧存储器中的图像帧数据进行更新替换；进一步的在一般监控场景中，由于感兴趣运动目标速度较低，因此可以按预设频率对输入的图像帧经过降频采样，然后送入图像帧间相似度判别器中，进一步的减少计算量，提高计算效率。最后将上述过滤后的图像帧送入特征提取网络中用于提取图像帧中的感兴趣目标物对应的目标帧特征向量。在本实施例中，在提取下一图像帧的图像帧特征向量时，事先计算相邻图像帧之间的图像相似度，对图像相似度大于某一阈值的图像帧不做特征抽取，若图像相似度小于阈值则对该图像帧进行图像帧特征向量的提取，提取后判断相邻图像帧内的目标是否有重复的目标，若有则过滤删除重复的特征数据，以减少图像帧特征向量的冗余信息，提高有效数据的占比。并且判断图像帧间相似，第一方面减少了进行图像特征提取的计算量，另一方面减少了冗余的数据量。

进一步地，由于不相似的图像帧中也可能会存在相同的目标物，因此在将图像帧特征向量输出之前还需要对多个图像帧特征向量之间的相似度进行判断。具体地，继续参考图7，在图像帧特征向量相似度判断器中计算输入的目标特征向量和特征编码存储器中存储的特征向量相似度，若其中有相似的目标特征向量则将过滤删除，并将符合不相似的特征向量存储在特征编码存储器中，且对特征编码存储器更新，用于下一帧的对比判断。

在一般的视频分析应用中，需要对目标物在视频预览显示中进行连续跟踪定位，这就需要目标在多帧图像中出现，因此可以根据应用场景，动态调整图像帧间相似度阈值及按预设频率对特征向量进行相似度过滤。具体地可以降低图像帧间相似度阈值，让较多的图像帧通过，按照预设频率对特征向量编码存储器进行置空操作会让一些包含相似目标的特征向量通过判断器。举例来说，F4(A，B，C，D)、F3(A，B，C)、F2(A，B，C)、F1(A，B，C)，其中F为一帧特征编码向量集合，A、B、C、D为分别为该图像帧中的不同目标物对应的目标特征向量，此时的特征编码存储器保存的是F1帧的目标特征编码向量(A，B，C)，按照最初规则，会过滤掉后续帧F4、F3、F2中的目标特征向量A、B、C，那么与这几各图像帧对应的特征向量只保留了D，因此在某些低速或静止场景中不能连续跟踪定位到目标所在图像帧位置以及目标在图像帧中的位置，因此需要通过根据场景或预设规则对特征向量存储器进行置空或其他处理，便于后续图像帧的特向编码向量通过判别器。

在其中一个实施例中，根据图像帧特征向量得到视频流对应的视频流特征编码，包括：计算相邻的至少一个图像帧特征向量之间的特征相似度；当特征相似度大于预设阈值时，对相似度大于预设阈值的图像帧特征向量进行过滤处理只保留其中一个图像帧特征向量；根据过滤后剩余的各图像帧特征向量得到视频流对应的视频流特征编码。

具体地，在本实施例中对特征相似度大于预设阈值的图像帧特征向量进行过滤删除，只保留相似度小于预设阈值的图像帧特征向量，以减少数据冗余。比如在多个相邻的图像帧中会出现同一个目标物如可能会出现同一个人物，此时可以只保留一个人物对应的图像帧特征向量，而不需要将所有人物的图像帧特征向量都进行保存。具体地，可以参考表1，表1提供了一种图像帧特征向量相似度表，表1中包含4个图像帧分别为图像帧L1、图像帧L2、图像帧L3以及图像帧L4。比如可以设置预设阈值为0.85，当4个不同的图像帧中存在相似度大于预设阈值如0.85的图像帧特征向量时，就可以将相似度大于预设阈值的图像帧特征向量进行过滤删除只保留其中一个图像帧特征向量。具体地，在表1中可以看出图像帧L1和图像帧L2的图像帧特征向量的相似度为0.98，大于预设阈值0.85，说明图像帧L1与图像帧L2之间存在相似的目标物，使得图像帧特征向量的相似度较高，故而可以在图像帧L1与图像帧L2之间进行过滤删除操作；再例如图像帧L1与图像帧L3的图像帧特征向量相似度为0.9，也大于预设阈值0.85，故而也判定图像帧L1与图像帧L3之间也存在相似的目标物，此时也可以对图像帧L1与图像帧L3之间执行过滤删除操作以只保留一个图像帧特征向量；再比如在表1中，图像帧L4和图像帧L3之间的相似度为0.9，超过了预设阈值0.85，但图像帧L4和图像帧L1之间的相似度为0.65以及图像帧L4与图像帧L2之间的相似度也为0.65也未超过预设阈值0.85，故而此时可以判定图像帧L4与图像帧L3之间的相似度较大，图像帧L4与图像帧L1以及图像帧L2之间的相似度较小，故而此时可以过滤删除图像帧L2以及图像帧L3而保留图像帧L1和图像帧L4。

表1图像帧特征向量相似度表

	L1	L2	L3	L4
					L1	1	0.98	0.9	0.65
L2	/	1	0.99	0.65
					L3	/	/	1	0.9
L4	/	/	/	1

在本实施例中，由于视频流是帧序列持续连续输出，因此在当前时刻的多帧图像中可能存在同一目标，如果对每一帧或间隔帧都进行特征编码，那么会有很多重复的特征编码信息，因此可以对相关连续帧中的目标在完成特征提取后，然后进行图像帧特征向量比对，对重复的图像帧特征向量进行过滤删除，以减少图像帧特征向量的冗余信息，提高有效数据的占比。

在其中一个实施例中，视频流特征编码中包含多个图像帧对应的图像帧特征编码；将目标特征编码与视频流特征编码进行匹配，包括：从目标图像中提取目标特征向量；从图像帧特征编码中提取图像帧特征向量；将目标特征向量与各图像帧特征向量进行匹配；当匹配度大于预设阈值时，判定目标特征向量与图像帧特征向量匹配成功。

视频流中包含多个图像帧，视频流特征编码中包含多个图像帧对应的图像帧特征编码，具体地，目标特征编码可以为待检测目标对应的目标特征向量。具体地，服务器从目标图像中提取目标特征向量，从图像帧特征编码中提取图像帧特征向量，将目标特征向量与各图像帧特征向量进行匹配，当匹配度大于预设阈值时，判定目标特征向量与图像帧特征向量匹配成功。

进一步地，图像帧特征编码中可包含各图像帧对应的图像帧特征向量以及各图像帧对应的时间标签以及事件标签等信息。其中时间标签可以为图像帧对应的时间位置信息，事件标签可以为图像帧对应的事件语义描述信息。更进一步地，事件标签可以是对某一段视频流进行语义分析，生成的事件描述，然后打上事件标签如抢劫、打架、着火、跌到、未礼让行人等标签，然后将视频发送到监控平台后，用户可直接根据预先标注的事件标签获得当前监控场景的一些突发状况等。具体地，当目标特征向量与图像帧特征向量匹配成功时，还可以获取匹配成功的图像帧特征向量对应的时间标签以及事件标签，以根据事件标签信息得到目标图像对应的事件信息，并且当事件标签对应为危险事件时还可以对危险事件进行预警提示，以及还可以根据时间标签在视频流中定位到具体的视频数据，以对危险事件进行验证。

图8提供了一个实施例中的图像帧间相似度及感兴趣目标相似度判别的示意图，在图8中图像F1为前帧，图像F2以及图像F3为后续帧，通过计算前帧与后续帧的帧间相似度判定图像F1与图像F2为帧间相似，此时可以将F2进行滤除。然后计算图像F1与图像F3的帧间相似度，将帧间相似度与相似度阈值进行比对，可判断F1和F3不相似，然后提取F3图像帧中的感兴趣目标对应的目标特征编码，然后计算F2中的感兴趣目标特征编码与F1中的感兴趣目标的目标特征编码相似度，滤除相似度大于相似度阈值的感兴趣目标特征编码信息。

在其中一个实施例中，将视频流特征编码以及视频流进行编码处理得到视频编码信息，包括：按照预设频率从视频流中提取图像帧；为各图像帧添加对应的时间标签；根据各图像帧对应的时间标签、事件标签、图像帧特征编码以及视频流得到视频编码信息。

具体地，可以根据视频流的时间信息为各图像帧添加对应的时间标签，也可以按照其他时间标定方式为图像帧标定时间标签，在此不作限制。

在其中一个实施例中，根据匹配位置从视频流中定位待检测目标，包括：当匹配成功的图像帧为多个时，获取各图像帧对应的图像帧特征编码；分别从各图像帧特征编码中提取时间标签；根据各时间标签在视频流中定位到待检测目标对应的目标视频流信息，并将各目标视频流信息进行展示。

在本实施例中，当目标特征编码在视频流中成功匹配到多个图像帧时，还包括获取匹配成功的各图像帧对应的时间标签，以根据时间标签在视频流中定位到对应的图像帧，并按照时间标签对应的时间对各图像帧进行排序，进一步的可调取或同步与匹配结果对应的图像帧的画面信息，用于预览。

在一个实施例中，还包括：获取匹配位置对应的图像帧特征编码；从图像帧特征编码中提取事件标签；根据事件标签得到待检测目标对应的事件信息。

事件标签可以是图像帧位置处对应的事件描述，具体地事件标识可以根据图像语义分析算法得到的。具体地，从视频流中获取连续的多张图像帧；获取和配置神经网络视频语义分析模型以及对应的参数；将多张图像帧输入至配置好的神经网络视频语义分析模型中以对多个连续图像帧进行视频语义分析，得到语义分析结果，根据语义分析结果得到事件标签，如事件标签可对应为打架、跌到、纵火、持械等，在此不作限制。进一步地还可以将事件标签与其他信息流进行统一编码封装输出。

在其中一个实施例中，将视频流特征编码以及视频流进行编码处理得到视频编码信息，包括：按照预设频率从视频流中提取连续多帧对应的图像帧；将各图像帧分别输入至预先训练的语义识别模型中得到图像帧对应的语义特征；根据语义特征得到图像帧对应的事件标签；根据各图像帧对应的事件标签、图像帧特征编码以及视频流得到视频编码信息。

参考图10，图10为一个实施例中提供的一种语义特征向量的获取原理图。并且一个语义识别结果对应一个特征行为向量以及一个事件标签，如得到的特征描述可以为男女在谈情说爱，此时的特征行为向量可以为L(0.9 0.2 0.5…0.10.3)。进一步地，连续图像帧生成的语义描述具体可以为安防领域如打架、摔倒、纵火、持械等行为。图11提供了一个实施例中的语义信息提取的示意图，在图11中分别从视频流中获取连续的三张图像帧，根据多个图像帧得到标注描述以及生成描述进而得到图像帧对应的事件标签，如在图11中的事件标签为一个男人在开枪。在本实施例中，通过生成对应的事件标识信息，当检测到不安全信息时可以实现实时预警，提高了安全性。

如图12所示，在一个实施例中提供了一种数据处理系统的流程示意图，包括：步骤121，终端获取视频流，对视频流进行特征提取得到视频流特征编码；

步骤122，终端将视频流特征编码以及视频流进行编码处理得到视频流编码信息；

步骤123，终端将视频流编码信息发送至服务器。步骤124，服务器接收待检测目标，提取待检测目标对应的目标特征编码；步骤125，服务器对终端发送的视频流编码信息进行解析得到视频流以及视频流特征编码；步骤126，服务器将目标特征编码与视频流特征编码进行匹配；步骤127，当匹配成功时，服务器获取匹配成功的视频流特征编码对应的匹配位置；步骤128，服务器根据匹配位置在视频流中定位待检测目标。

图13为一个实施例中提供的一种数据处理系统在视频流中定位待检测目标的模块示意图，图14为一个实施例中在终端对视频流进行编码以及在服务器中进行视频流解码的模块图。具体地，在图13中在终端侧获取图像传感器或者麦克风采集到的的图像或者音频数据流，然后通过编码器对采集的数据进行编码处理得到编码数据流对应的视频流编码信息，将该视频流编码信息进行存储或者将视频流编码信息发送至服务器进行存储，当服务器需要利用该视频流编码信息进行历史数据检索时，根据服务器中的解码器对视频流编码信息进行解码得到视频数据、音频数据、视频特征编码数据以及时间标识数据，其中视频数据以及音频数据可用于音视频回放查看，视频特征编码数据可用于与目标特征进行特征比对，事件标识数据可用于预警事件查看。

在图14中，图像采集设备采集到图像或者音频数据流时，利用数据压缩编码对图像或者音频数据流进行压缩处理，利用数据特征提取编码对图像或者音频数据流进行特征提取，然后将压缩后的数据以及提取到的特征想你想进行容器封装处理，并将将编码和容器封装后的数据流如视频流编码信息通过有线或者无线的方式传输至后端服务器，后端服务器中的解码器对视频流编码信息进行解析得到图像帧、音频帧、视频特征编码帧以及事件标识数据等，进而根据解析到的数据对目标数据进行检索与定位。

目前摄像头端只有压缩编码，根据压缩编码将采集到的视频流进行数据压缩并传输到后端服务器，以使得服务器对接收到的压缩数据进行分析处理，但是在一般监控场景中涉及的摄像头数量成百上千路，尤其在城市公共安防监控领域，所有的摄像头数据都需要传输至统一的安全管理中心服务器中，要对上万视频基于特定任务实现实时分析，一是需要集群化的服务器，二是，对于其他非特定任务的特征编码信息采取了抛弃的策略，若需要重新对存储视频进行分析处理，则需重新对视频内容进行特征提取，因此传统方案一是需要大成本建立集群化视频分析服务器，二是不能很好的实现特征数据复用。同时由于现有视频编码规则的限制，不能将视频流和特征编码流不能统一进行编码存储，即使可实现基于时间标签的视频+特征关联式分离存储，但是这种分离存储方式一是未经压缩编码处理需要的存储空间大，二是由于采用分离方式，可能会有系统错误造成数据丢失。

而本发明通过在摄像头端集成视频特征提取编码器，直接在摄像头端完成特征提取，服务器端不再需要大规模集群化的视频分析服务器；同时通过采用新的视频流容器分装格式，实现音视频和特征编码统一编码处理，统一编码封装一是实现数据压缩(一般特征数据是一串526位的01，因此非常适合无损压缩处理)，减小了特征数据存储的大小；二是由于特征编码数据是同视频流数据统一编码分装在一起，因此不用担心数特征数据的丢失；三是提供一种新的容器分装格式，可通过任务需求利用解码器解析分离需要的数据，并基予数据之间的关联性(时间标签)，实现基于视频帧特征的灵活匹配进而定位。

本发明提取的特征是图像帧的高层表达特征向量数据和基于连续帧的视频语义特征向量数据，同时这种高层次语义的特征向量空间最后输出的是一维的向量表达(01010101…)，使得经过无损压缩后的数据的存储空间更小。并且本发明提供一种编码器对需要检索的目标特征进行提取，直接抽取视频流中的感兴趣目标编码特征向量数据，进行对比，可快速实现视频检索定位。在本实施例中，实时通过终端侧的AI处理器对视频流数据根据配置的AI模型进行特征提取，且对预设突发事件进行连续图像帧进行语义特征提取，生成事件标签，在帧对齐后，与原压缩编码视频数据经容器封装成包含视频感兴趣目标如人脸、车牌、事件的新视频流，然后对齐保存，在需要对历史视频进行定位检索时，只需调取数据中的视频特征编码数据进行比对处理，若有检索目标则添加位置标识生成事件序列，便于按时间浏览回放事件发生经过或目标运行轨迹等。

应该理解的是，虽然图2-14的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-14中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图15所示，提供了应用于服务器的一种视频流处理装置，包括：提取模块150，用于接收待检测目标，提取待检测目标对应的目标特征编码；流编码获取模块151，用于获取终端发送的视频流编码信息，对视频流编码信息进行解析得到视频流以及视频流特征编码；匹配模块152，用于将目标特征编码与视频流特征编码进行匹配；位置获取模块153，用于当匹配成功时，获取匹配成功的视频流特征编码对应的匹配位置；定位模块154，用于根据匹配位置在视频流中定位待检测目标。在其中一个实施例中，视频流特征编码中包含多个图像帧对应的图像帧特征编码；匹配模块，包括：

目标特征向量提取单元，用于从目标图像中中提取目标特征向量；

图像帧特征向量提取单元，用于从图像帧特征编码中提取图像帧特征向量；

匹配单元，用于将目标特征向量与各图像帧特征向量进行匹配；

判定单元，用于当匹配度大于预设阈值时，判定目标特征向量与图像帧特征向量匹配成功。

在其中一个实施例中，定位模块，包括：

图像帧特征编码获取单元，用于获取匹配位置对应的图像帧特征编码；

时间标签提取单元，用于从图像帧特征编码中提取时间标签；

定位单元，用于根据时间标签在视频流中定位待检测目标对应的目标视频流信息。

在其中一个实施例中，定位模块，包括：

多个图像帧特征编码获取单元，用于当匹配成功的图像帧为多个时，获取各图像帧对应的图像帧特征编码；

多个时间标签提取单元，用于分别从各图像帧特征编码中提取时间标签；

展示单元，用于根据各时间标签在视频流中定位到待检测目标对应的目标视频流信息，并将各目标视频流信息进行展示。

在其中一个实施例中，视频流数据处理装置还包括：

图像帧特征编码获取模块，用于获取匹配位置对应的图像帧特征编码；

事件标签提取模块，用于从图像帧特征编码中提取事件标签；

事件信息获取模块，用于根据事件标签得到待检测目标对应的事件信息。

一种视频流处理装置，应用于终端，装置包括：视频流特征编码提取模块，用于获取视频流，对视频流进行特征提取得到视频流特征编码；视频流编码信息获取模块，用于将视频流特征编码以及视频流进行编码处理得到视频流编码信息；发送模块，用于将视频流编码信息发送至服务器，以指示服务器根据视频流编码信息进行解码并在视频流中对待检测目标进行定位。

在其中一个实施例中，视频流特征编码提取模块，包括：

第一图像帧提取单元，用于按照预设频率从视频流中提取图像帧；

图像帧特征向量获取单元，用于将图像帧输入至预先训练的特征提取模型中得到图像帧对应的图像帧特征向量；

视频流特征编码获取单元，用于根据图像帧特征向量得到视频流对应的视频流特征编码。

在其中一个实施例中，图像帧特征向量获取单元，包括：

图像相似度计算子单元，用于计算各图像帧之间的图像相似度；

第一过滤子单元，用于当图像相似度大于预设阈值时，对相似度大于预设阈值的图像帧进行过滤处理只保留其中一个图像帧；

第一图像帧特征向量获取子单元，用于将过滤后剩余的各图像帧输入至预先训练的特征提取模型中，根据特征提取模型得到图像帧对应的图像帧特征向量。

在其中一个实施例中，视频流特征编码获取单元，包括：

特征相似度计算子单元，用于计算相邻的至少一个图像帧特征向量之间的特征相似度；

第二过滤子单元，用于当特征相似度大于预设阈值时，对相似度大于预设阈值的图像帧进行过滤处理只保留其中一个图像帧；

第二图像帧特征向量获取子单元，用于根据过滤后剩余的各图像帧特征向量得到视频流对应的视频流特征编码。

在其中一个实施例中，视频流编码信息获取模块，包括：

第二图像帧提取单元，用于按照预设频率从视频流中提取连续多帧对应的图像帧；

语义特征提取单元，用于将各图像帧分别输入至预先训练的语义识别模型中得到图像帧对应的语义特征；

事件标签获取单元，用于根据语义特征得到图像帧对应的事件标签；

第一视频编码信息获取单元，用于根据各图像帧对应的事件标签、图像帧特征编码以及视频流得到视频编码信息。

在其中一个实施例中，视频流编码信息获取模块，包括：

第三图像帧提取单元，用于按照预设频率从视频流中提取图像帧；

时间标签获取单元，用于为各图像帧添加对应的时间标签；

第二视频编码信息获取单元，用于根据各图像帧对应的时间标签、事件标签、图像帧特征编码以及视频流得到视频编码信息。

关于视频流处理装置的具体限定可以参见上文中对于视频流处理方法的限定，在此不再赘述。上述视频流处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频流处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频流处理方法。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频流处理方法，应用于服务器，其特征在于，所述方法包括：

接收待检测目标，提取所述待检测目标对应的目标特征编码；

获取终端发送的视频流编码信息，对所述视频流编码信息进行解析得到视频流以及视频流特征编码；

将所述目标特征编码与所述视频流特征编码进行匹配；

当匹配成功时，获取匹配成功的视频流特征编码对应的匹配位置；

根据所述匹配位置在所述视频流中定位所述待检测目标。

2.根据权利要求1所述的方法，其特征在于，所述视频流特征编码中包含多个图像帧对应的图像帧特征编码；所述将所述目标特征编码与所述视频流特征编码进行匹配，包括：

从所述目标图像中中提取目标特征向量；

从所述图像帧特征编码中提取图像帧特征向量；

将所述目标特征向量与各所述图像帧特征向量进行匹配；

当匹配度大于预设阈值时，判定所述目标特征向量与所述图像帧特征向量匹配成功。

3.根据权利要求2所述的方法，其特征在于，所述根据所述匹配位置在所述视频流中定位所述待检测目标，包括：

获取所述匹配位置对应的图像帧特征编码；

从所述图像帧特征编码中提取时间标签；

根据所述时间标签在所述视频流中定位所述待检测目标对应的目标视频流信息。

4.根据权利要求3所述的方法，其特征在于，所述根据所述匹配位置从所述视频流中定位所述待检测目标，包括：

当匹配成功的图像帧为多个时，获取各所述图像帧对应的图像帧特征编码；

分别从各所述图像帧特征编码中提取时间标签；

根据各所述时间标签在所述视频流中定位到所述待检测目标对应的目标视频流信息，并将各所述目标视频流信息进行展示。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述方法还包括：

获取所述匹配位置对应的图像帧特征编码；

从所述图像帧特征编码中提取事件标签；

根据所述事件标签得到所述待检测目标对应的事件信息。

6.一种视频流处理方法，应用于终端，其特征在于，所述方法包括：

获取视频流，对所述视频流进行特征提取得到视频流特征编码；

将所述视频流特征编码以及所述视频流进行编码处理得到视频流编码信息；

将所述视频流编码信息发送至服务器，以指示所述服务器根据所述视频流编码信息进行解码并在所述视频流中对待检测目标进行定位。

7.根据权利要求6所述的方法，其特征在于，所述对所述视频流进行特征提取得到对应的视频流特征编码，包括：

按照预设频率从所述视频流中提取图像帧；

将所述图像帧输入至预先训练的特征提取模型中得到所述图像帧对应的图像帧特征向量；

根据所述图像帧特征向量得到所述视频流对应的视频流特征编码。

8.根据权利要求7所述的方法，其特征在于，所述将所述图像帧输入至预先训练的特征提取模型中得到所述图像帧对应的图像帧特征向量，包括：

计算各所述图像帧之间的图像相似度；

当所述图像相似度大于预设阈值时，对所述相似度大于预设阈值的所述图像帧进行过滤处理只保留其中一个所述图像帧；

将过滤后剩余的各所述图像帧输入至预先训练的特征提取模型中，根据所述特征提取模型得到所述图像帧对应的图像帧特征向量。

9.根据权利要求7所述的方法，其特征在于，所述根据所述图像帧特征向量得到所述视频流对应的视频流特征编码，包括：

计算相邻的至少一个所述图像帧特征向量之间的特征相似度；

当所述特征相似度大于预设阈值时，对所述相似度大于预设阈值的所述图像帧特征向量进行过滤处理只保留至少一个所述图像帧特征向量；

根据过滤后剩余的各所述图像帧特征向量得到所述视频流对应的视频流特征编码。

10.根据权利要求6所述的方法，其特征在于，所述将所述视频流特征编码以及所述视频流进行编码处理得到视频编码信息，包括：

按照预设频率从所述视频流中提取连续多帧对应的图像帧；

将各所述图像帧分别输入至预先训练的语义识别模型中得到所述图像帧对应的语义描述；

根据所述语义描述得到所述图像帧对应的事件标签；

根据各所述图像帧对应的所述事件标签、所述图像帧特征编码以及所述视频流得到视频编码信息。

11.根据权利要求10所述的方法，其特征在于，所述将所述视频流特征编码以及所述视频流进行编码处理得到视频编码信息，包括：

按照预设频率从所述视频流中提取图像帧；

为各所述图像帧添加对应的时间标签；

根据各所述图像帧对应的所述时间标签、所述事件标签、所述图像帧特征编码以及所述视频流得到视频编码信息。

12.一种视频流处理装置，应用于服务器，其特征在于，所述装置包括：

提取模块，用于接收待检测目标，提取所述待检测目标对应的目标特征编码；

视频流解码获取模块，用于获取终端发送的视频流编码信息，对所述视频流编码信息进行解析得到视频流以及视频流特征编码；

匹配模块，用于将所述目标特征编码与所述视频流特征编码进行匹配；

位置获取模块，用于当匹配成功时，获取匹配成功的视频流特征编码对应的匹配位置；

定位模块，用于根据所述匹配位置在所述视频流中定位所述待检测目标。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。