CN112019834A

CN112019834A - 视频流处理方法、装置、设备及介质

Info

Publication number: CN112019834A
Application number: CN202010714665.4A
Authority: CN
Inventors: 陈曦
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-12-01
Anticipated expiration: 2040-07-22
Also published as: CN112019834B

Abstract

本发明实施例提供了一种视频流处理方法、装置、设备及介质，所述方法包括：接收原始视频流；从接收到的原始视频流中抽取视频帧，得到目标视频图像；对所述目标视频图像进行识别，得到所述目标视频图像的识别结果；对所述目标视频图像的预设区域进行解码，得到所述目标视频图像的帧号；根据所述目标视频图像的帧号，查询与所述目标视频图像具有相同帧号的原始视频图像的标注信息；根据所述识别结果与所述标注信息之间的匹配度，确定图像识别参数值。采用本发明实施例技术方案，可以提高进行QA测试的效率和准确率。

Description

视频流处理方法、装置、设备及介质

技术领域

本发明涉及信息处理技术领域，特别是涉及一种视频流处理方法、装置、设备及介质。

背景技术

针对一些被测试的设备，例如，嵌入式智能设备(例如智能IPC/智能盒子/面板机)，其整机QA(quality assurance，质量保证)测试非常重要。其中，在智能识别领域，通过QA测试可以快速发现用于智能识别的产品潜在的问题，对智能识别的算法和工程迭代有很强的指导意义。

相关技术中，嵌入式设备的QA测试往往都是基于纯人工或者半自动化的测试，需要人紧密参与。例如，在视频源设备给被测试的设备发送视频流后，被测试的设备会对视频流进行识别，从而得到识别结果，由于视频流在发送的过程中，容易发生丢包，而被测试的设备并不能对丢包进行感知，因此，对该视频流进行识别的结果进行人工确认和纠错，才能完成最终的QA测试。但是，这样带来了极大的人工工作量，导致可扩展性差、测试效率低的问题。

发明内容

鉴于上述问题，提出了本发明实施例的一种视频流处理方法、装置、设备及介质，以便克服上述问题或者至少部分地解决上述问题。

为了解决上述问题，本发明的第一方面，公开了一种视频流处理方法，所述方法包括：

接收原始视频流；

从接收到的原始视频流中抽取视频帧，得到目标视频图像；

对所述目标视频图像进行识别，得到所述目标视频图像的识别结果；

对所述目标视频图像的预设区域进行解码，得到所述目标视频图像的帧号；

根据所述目标视频图像的帧号，查询与所述目标视频图像具有相同帧号的原始视频图像的标注信息；

根据所述识别结果与所述标注信息之间的匹配度，确定图像识别参数值。

可选地，在对所述目标视频图像进行识别，得到所述目标视频图像的识别结果之后，所述方法还包括：

将所述目标视频图像以及所述目标视频图像的识别结果保存至识别日志中；

对所述目标视频图像的预设区域进行解码，得到所述目标视频图像的帧号，包括：

从所述识别日志中读取所述目标视频图像，并对所述目标视频图像的预设区域进行解码，得到所述目标视频图像的帧号；

根据所述识别结果与所述标注信息之间的匹配度，确定图像识别参数值，包括；

从所述识别日志中读取所述目标视频图像的识别结果，并根据所述识别结果与所述标注信息之间的匹配度，确定图像识别参数值。

可选地，对所述目标视频图像的预设区域进行解码，得到所述目标视频图像的帧号，包括：

根据预设模板尺寸，对所述目标视频图像的预设区域进行裁剪，得到多个子图像；

对所述多个子图像中的每个子图像，将多个预设卷积核分别与该子图像进行卷积，得到子图像表征的数字，其中，不同的预设卷积核用于提取不同的数字；

对所述多个子图像各自表征的数字顺次拼接，得到所述目标视频图像的帧号。

可选地，对所述多个子图像中的每个子图像，将多个预设卷积核分别与该子图像进行卷积，得到子图像表征的数字，包括：

对所述多个子图像中的每个子图像，将该子图像分别与所述多个预设卷积核进行尺寸对齐；

根据尺寸对齐后的该子图像中各像素点的像素值以及所述多个预设卷积核中对应像素点的像素值，确定该子图像分别对应于所述多个预设卷积核的响应值；

根据各所述响应值，从所述多个预设卷积核中确定目标预设卷积核，并将所述目标预设卷积核对应的模板数字确定为该子图像表征的数字。

可选地，所述目标视频图像的数量为多个，根据所述识别结果与所述标注信息之间的匹配度，确定图像识别参数值，包括：

确定所述多个目标视频图像各自的识别结果分别与对应的原始视频图像的标注信息之间的匹配度；

根据预设匹配度，对确定出的各个匹配度进行统计，得到图像识别参数值，其中，所述图像识别参数值至少包括：漏识别参数值、错误识别参数值以及正确识别参数值。

可选地，确定所述多个目标视频图像各自的识别结果分别与对应的原始视频图像的标注信息之间的匹配度，包括：

对每个目标图像的识别结果和相应的标注信息，根据该目标图像的识别结果中的人脸信息以及该标注信息中的人脸信息，确定该目标图像的识别结果与相应的标注信息之间的匹配度；

其中，所述人脸信息包括人脸框的位置和/或每张人脸对应的身份信息。

可选地，在查询与所述目标视频图像具有相同帧号的原始视频图像的标注信息之后，所述方法还包括：

将与所述目标视频图像具有相同帧号的原始视频图像，标记为未丢失视频图像；

在对接收到的视频流进行多次视频帧抽取后，根据被标记为未丢失视频图像的数量，确定所述原始视频流的丢帧参数值，和/或，获取丢失的视频图像。

可选地，所述方法还包括：

获得待标注视频流，在所述待标注视频流中的每帧视频图像的预设区域上添加相应的帧号；

将添加有帧号的待标注视频流作为原始视频流。

可选地，在所述待标注视频流中的每帧视频图像的预设区域上添加相应的帧号，包括：

针对所述待标注视频流包括的每帧视频图像，根据该帧视频图像的帧号，在该帧视频图像的预设区域上依次添加相应的数字水印。

本发明实施例的第二方面，还公开了一种视频流处理装置，所述装置包括：

视频流接收模块，用于接收原始视频流；

视频帧抽取模块，用于从接收到的原始视频流中抽取视频帧，得到目标视频图像；

识别模块，用于对所述目标视频图像进行识别，得到所述目标视频图像的识别结果；

解码模块，用于对所述目标视频图像的预设区域进行解码，得到所述目标视频图像的帧号；

查找模块，用于根据所述目标视频图像的帧号，查询与所述目标视频图像具有相同帧号的原始视频图像的标注信息；

匹配模块，用于根据所述识别结果与所述标注信息之间的匹配度，确定图像识别参数值。

本发明实施例的第三方面，还公开了一种电子设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行如本发明第一方面实施例所述的视频流处理方法。

本发明实施例还公开了一种计算机可读存储介质，其存储的计算机程序使得处理器执行如本发明第一方面实施例所述的视频流处理方法。

本发明实施例包括以下优点：

在本发明实施例中，被测试的设备可以从接收到的原始视频流中抽取视频帧，得到目标视频图像；并对目标视频图像的预设区域进行解码，得目标视频图像的帧号，以及对目标视频图像进行识别，得到目标视频图像的识别结果，之后，根据目标视频图像的帧号，查询与目标视频图像具有相同帧号的原始视频图像的标注信息；最后，根据识别结果与标注信息之间的匹配度，确定被测试的设备的图像识别参数值。

由于被测试的设备对目标视频图像的预设区域进行了解码，得到了目标视频图像的帧号，进而可以得到具有相同帧号的原始视频图像的标注信息，从而实现了自动化查找与目标视频图像匹配的原始视频图像。这样，无论原始视频流在传输过程中是否发生丢包，被测试的设备都可以准确查找到用于与目标视频图像进行匹配的标注信息，避免进行人工确认和纠错，从而进行自动的QA测试，缩减了工作量、降低了人力成本、提高了测试效率。同时，由于查找与目标视频图像对应的原始视频图像的标注信息所依据的是目标视频图像的帧号，从而提高了查找原始视频图像的准确性，避免了识别结果与标注信息之间的匹配度产生误差，提高了QA测试的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的视频流处理方法的通信架构图；

图2是本发明实施例的视频流处理方法的又一通信架构图；

图3是本发明实施例的在一帧视频图像中添加帧号的示意图；

图4是本发明实施例的一种视频流处理方法的步骤流程图；

图5是本发明实施例的又一种视频流处理方法的步骤流程图；

图6是本发明一实施例中对目标视频图像的预设区域进行解码得到帧号的步骤流程图；

图7是本发明实施中的一种视频流处理装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于嵌入式设备的QA测试是指：需要对嵌入式设备进行图像识别的识别结果与标准的结果进行比对，从而得到图像识别能力。一般而言，嵌入式设备的QA测试往往都是基于纯人工或者半自动化的测试需要人工参与。

相关技术中，整个QA测试的过程是：开启RTSP((Real Time Streaming Protocol，实时流传输协议))流之后，根据嵌入式智能设备的日志信息，将已经识别出的识别结果与标准的结果进行比对从而得到一个初步的测试结果。但是由于RTSP流可能发生的丢包问题，使得识别结果可能对应了错误的标准结果(例如，将A的识别结果与B的标准结果进行了对应)，此种情况下，需要采用人工去纠错和确认，以对识别结果与标准的结果的对应关系进行纠偏(例如，人工将A的测试结果与A的标准结果进行对应)。

上述利用人工进行纠错和确认的方式，一方面导致了不同的人可能得到不同的结果，无法严格回归测试，使得方法扩展性差。另一方面也给QA测试带来了大量的工作量，无法快速获取对整机产品的性能评估，导致测试效率低。

有鉴于此，为了实现全自动化的QA测试，降低人力成本，申请人提出了以下技术构思：提出了一种视频流处理方法，在被测试的设备所抽取的目标视频图像中嵌入数字水印，该数字水印即为抽取的目标视频图像的帧号，从而在对目标视频图像进行识别后，可以自动查找与目标视频图像具有相同帧号的原始视频图像，该原始视频图像即为与目标视频图像对应正确的图像，进而将原始视频图像对应的标准结果与对目标视频图像识别出的结果进行比对，从而得到测试结果。避免人工对测试结果进行纠错和确认，从而提高了测试效率。

其中，本发明实施例的一种视频流处理方法可以由嵌入式设备执行，当由嵌入式设备执行时，所应用的通信架构可以参照图1所示的通信架构。如图1所示，包括嵌入式设备101和视频源设备102，其中，视频源设备102用于向嵌入式设备101发送原始视频流，以使得嵌入式设备101接收该原始视频流，并对该原始视频流中的视频图像进行识别的识别能力进行QA测试。其中，嵌入式设备101也可以是需要进行性能测试的其他智能终端，而视频源设备102可以是个人计算机、服务器、手机或用于前端视频采集的监控设备。

其中，本发明实施例的一种视频流处理方法也可以由服务器执行，当由服务器执行时，所应用的通信架构可以参照图2所示的通信架构。如图2所示，包括服务器201以及多个与服务器201通信的客户端202(图2中仅示出了3个客户端)。其中，服务器201可以接收客户端202所发送的原始视频流，以使得服务器201接收该原始视频流，并对该原始视频流中的视频图像进行识别的识别能力进行QA测试。

当然，在视频流处理方法由服务器201执行时，服务器201所接收的原始视频流也可以是自身本地存储的视频流，在视频流处理方法由被测试的设备101执行时，被测试的设备101所接收的原始视频流也可以是自身本地存储的视频流，本申请不对原始视频流的来源进行限制。

为便于后续理解，本申请中无论是服务器执行视频流处理方法还是嵌入式设备执行视频流处理方法，均统称为被测试的设备执行视频流处理方法。

本发明实施例中，为实现QA测试，可以预先准备用于识别的原始视频流以及携带有标注信息的标注视频流，其中，标注视频流中的每帧视频图像均携带有标注信息，原始视频流中的每帧视频图像中标注有各自的帧号。

其中，原始视频流和标注视频流可以是对同一待标注视频流进行处理后的视频流。该待标注视频流可以是预先拍摄好的一段视频流，该视频流可以是针对需要识别的对象进行拍摄的视频流，在该待标注视频流中的每帧视频图像中都可以包括待识别的对象的图像。例如，需要对进出某栋大楼的人员的身份进行识别，则可以对该大楼的出入门进行拍摄，得到待标注视频流，在该待标注视频流中的多帧视频图像中可以包括进出大楼的人的人脸图像。

其中，获得标注视频流的过程可以是：获得待标注视频流，并对该待标注视频流中的每帧原始视频图像添加上标注信息。

在该待标注视频流中的每帧视频图像中携带的标注信息可以表征该帧视频图像中需要进行识别的对象的真实识别结果。例如，在待识别的对象是人脸时，则携带的标注信息是人脸对应的人的真实身份，在待识别的对象是动物时，则携带的标注信息是动物所属的真实类别。

当然，待识别的对象可以不限于人脸、动物等，实际中，也可以是物品、植物等需要进行图像识别的对象。

其中，原始视频流的准备过程可以是：获得待标注视频流，在所述待标注视频流中的每帧视频图像的预设区域上添加相应的帧号；将添加有帧号的待标注视频流作为原始视频流。

本实施例中，每帧视频图像的预设区域可以是预先指定的区域，其中，不同帧的视频图像的预设区域可以相同，即在每帧视频图像的同一个区域上标注相应的帧号。其中，标注在一帧视频图像上的帧号可以理解为是该帧视频图像在待标注视频流中的帧序列号，一个视频图像的帧号可以唯一表征该视频图像。

具体实施时，在预设区域上标注的帧号的位数可以是预先确定的位数，例如，预先指定标注的帧号是6位数，则在一些视频帧的帧号不足6位时，可以通过补零的方式补足6位。例如，一帧视频图像的帧号是19208，不足6位，则在左侧补零，最终标注到该帧视频图像中的帧号是“019208”

示例地，参照图3所示，示出了在一帧视频图像中添加帧号的示意图。如图3所示，将该帧视频图像的帧号“19208”补零后加到该帧视频图像的左上角，得到水印“019208”。当然，图3仅为示例性描述，实际中，帧号在视频图像中的添加位置也可以是不影响对对象进行识别的其他位置，例如在目标视频图像的右上角、左下角、右下角等。

在本实施例的一种实施方式中，在每帧图像的预设区域所添加的帧号可以是数字水印。具体地，可以针对所述待标注视频流包括的每帧视频图像，根据该帧视频图像的帧号，在该帧视频图像的预设区域上依次添加相应的数字水印。

其中，数字水印是一种应用计算机算法嵌入载体文件的保护信息，是一种基于内容的、非密码机制的计算机信息隐藏技术。它可以将一些标识信息(即数字水印)直接嵌入数字载体当中(包括多媒体、文档、软件等)且不影响原载体的使用价值，也不容易被探知和再次修改。

实际中，可以将每帧视频图像的帧号补足到预设位数后，在该帧视频图像的预设区域上依次添加相应的数字水印，例如，一帧视频图像的帧号是19208，则在左侧补零，得到的帧号是“019208”，则可以在该帧视频图像中的预设区域依次添加0、1、9、2、0、8的数字水印。

通过在每帧视频图像中添加帧号的数字水印，可以不影响后续对该帧视频图像的识别，保护了原有视频图像的使用价值，从而保证后续进行正常的图像识别，以保证QA测试的正常进行。

实际中，在对待标注视频流中的每帧视频图像标注帧号后，以及对待标注视频流中的每帧视频图像标注标注信息后，在视频流处理方法由服务器201执行时，客户端202或服务器201本身可以按照服务器适配的编码格式对标注有帧号的待标注视频流、和标注有标注信息的待标注视频流进行编码，得到对应的原始视频流和标注视频流。当然，在视频流处理方法由被测试的设备101执行时，被测试的设备101本身或视频发送端102可以按照服务器适配的编码格式对标注有帧号的待标注视频流、和标注有标注信息的待标注视频流进行编码，得到对应的原始视频流和标注视频流。采用此种方式时，该原始视频流便可以被相应的执行设备进行解码以得到其中的视频图像，从而提高了视频格式适配度。

其中，编码格式可以不限于H.264、H.323格式。实际中，得到原始视频流后，视频源设备可以按照RTSP将原始视频流发送给需要进行测试的设备，例如服务器或嵌入式设备，在发送原始视频流的过程中，可以将原始视频流拆分成多个数据包进行发送。

本实施例中，由于原始视频流中的每帧视频图像的预设区域均标注有该帧视频图像的帧号，标注视频流中的每帧视频图像携带有标注信息。因此，使得被测试的设备可以感知原始视频流中被识别的各帧视频图像具体是标注视频流中的哪一帧视频图像，从而方便后续根据帧号，进行识别结果和标注信息之间的对应匹配。

结合图1或图2所示的通信架构，对本申请的视频流处理方法进行详细阐述，参照图4所示，图4示出了视频流处理方法的步骤流程图，如图4所示，具体可以包括以下步骤：

步骤S401：接收原始视频流。

本实施例中，被测试的设备可以接收视频源设备发送的原始视频流也可以从本地存储空间获取原始视频流，如前文所述，在视频源设备按照RTSP协议发送原始视频流时，被测试的设备便也是按照RTSP协议接收原始视频流。当然，在实际实行过程中，也可以按照其他的视频传输协议，例如RTP协议在视频源设备和被测试的设备之间传输原始视频流。

步骤S402：从接收到的原始视频流中抽取视频帧，得到目标视频图像。

本实施例中，被测试的设备可以对接收到的视频流进行视频帧抽取，其中，可以在接收原始视频流的过程中进行视频帧抽取，也可以在接收到完整的原始视频流后，从该原始视频流中进行视频帧抽取。其中，被抽取的一帧视频图像即为目标视频图像。

具体实施时，被测试的设备可以按照预设帧间隔进行视频帧抽取，也可以随机进行视频帧抽取，具体的抽取方式本申请不作限制。

步骤S403：对所述目标视频图像的预设区域进行解码，得到所述目标视频图像的帧号。

本实施例中，由于原始视频流中的每帧视频图像的预设区域均标注有帧号，则可以对目标视频图像中预设区域的图像进行解码，从而解码出帧号。其中，对目标视频图像的预设区域进行解码可以理解为是对预设区域的图像进行数字识别，从而识别出预设区域中的帧号。

步骤S404：对所述目标视频图像进行识别，得到所述目标视频图像的识别结果。

本实施例中，被测试的设备可以采用预配置到其内的识别模型，对目标视频图像进行识别，得到目标视频图像的识别结果。具体地，被测试的设备可以将目标视频图像输入到识别模型中，从而得到该识别模型输出的识别结果，将该识别结果作为识别结果。

实际中，在被测试的设备中可以预先配置多个不同类型的识别模型，以满足对不同类型对象进行识别的需求，例如，人脸识别模型、动物识别模型、姿态识别模型等。进而，被测试的设备可以同时获得多个不同识别需求的原始视频流，并将从多个不同识别需求的原始视频流中抽取的目标视频图像输入不同的识别模型，进而可以满足被测试的设备对不同识别需求进行识别的QA测试。

步骤S405：根据所述目标视频图像的帧号，查询与所述目标视频图像具有相同帧号的原始视频图像的标注信息。

本实施例中，得到目标视频图像的识别结果后，便可以对目标视频图像进行识别的识别准确性进行验证。在进行验证时，需要将目标视频图像的识别结果与对应的标注信息进行匹配，因此，被测试的设备需要查找到用于匹配的标注信息。

由于在上述步骤中，解码得到了目标视频图像的帧号，而帧号可以唯一表征视频图像在原始视频流中的帧序列，因此，可以通过该帧号查找到标注视频流中对应的携带标注信息的原始视频图像，具体地，即是从预先准备好的标注视频流中查找到与目标视频图像具有相同帧号的原始视频图像，由于标注视频流和原始视频流均是对同一待标注视频流进行处理后的视频流，这样，原始视频图像和目标视频图像实际上针对的搜是同一视频画面，原始视频图像中的标注信息便是视频画面中待识别对象的正确识别结果。

步骤S406：根据所述识别结果与所述标注信息之间的匹配度，确定图像识别参数值。

本实施例中，在查找到与目标视频图像对应的携带标注信息的原始视频图像后，便可以将目标视频图像的识别结果和原始视频图像的标注信息进行匹配，得到识别结果与标注信息之间的匹配度，该匹配度可以反映目标视频图像的识别结果与原始视频图像的标注信息之间的相似程度，即实际上反映了对目标视频图像进行识别的正确程度。

其中，匹配度越高，表征对目标视频图像进行识别的识别结果更接近真实情况，反之，则表征对目标视频图像进行识别的识别结果偏离真实情况，即不能准确对目标视频图像进行识别。

本实施例中，图像识别参数值可以表征对目标视频图像进行识别的准确率。其中，确定图像识别参数值的一种方式是：将识别结果与标注信息之间的匹配度作为图像识别参数值。另一种方式是：可以将识别结果与标注信息之间的匹配度与预设匹配度之间的比值，确定为被测试的设备的图像识别参数值。采用此种方式时，可以更加直观反映被测试的设备准确识别图像的性能。例如，预设匹配度为0.9，假设识别结果与标注信息之间的匹配度为0.85，则比值为0.94，即被测试的设备准确识别图像的概率可以达到94％。

采用本实施例的技术方案时，由于被测试的设备可以对目标视频图像的预设区域进行解码，得到了目标视频图像的帧号，进而根据目标视频图像的帧号可以得到具有相同帧号的原始视频图像的标注信息，从而实现了自动化查找与目标视频图像匹配的原始视频图像，而无需人工校对。这样，无论原始视频流在接收和发送过程中是否发生丢包，在被测试的设备都可以对根据帧号查找到携带标注信息的原始视频图像，从而进行标注信息和识别结果的自动匹配，以全自动化完成QA测试，从而降低了人力成本，提高了测试效率

另一方面，由于根据目标视频图像的帧号查找原始视频图像的标注信息，从而提高了查找原始视频图像的标注信息的准确性，即查找到的原始视频图像与目标视频图像针对的均是同一个视频图像，从而减小了对图像识别参数值进行确定的误差，提高了测试准确性。

参照图5所示，图5以被测试的设备为嵌入式设备为例，示出了视频流处理方法的步骤流程图，如图5所示，具体可以包括以下步骤：

步骤S501：接收原始视频流。

本实施例中，嵌入式设备可以按照RTSP协议接收视频源设备发送的原始视频流和标注视频流。其中，视频源设备可以是前端计算机。

其中，嵌入式设备在接收原始视频流之前或者同时，可以接收对应的标注视频流。

步骤S502：从接收到的原始视频流中抽取视频帧，得到目标视频图像。

本步骤S502的过程与步骤S402的过程类似，相关之处参照步骤S402的过程即可，在此不再赘述。

步骤S503：对所述目标视频图像进行识别，得到所述目标视频图像的识别结果。

本步骤S503的过程与步骤S403的过程类似，相关之处参照步骤S403的过程即可，在此不再赘述。

步骤S504：将所述目标视频图像以及所述目标视频图像的识别结果保存至识别日志中。

本实施例中，可以在抽取到目标视频图像后，便将目标视频图像存储到识别日志中，之后，在得到目标视频图像的识别结果后，便可以在识别日志中将识别结果与目标视频图像进行对应存储。

步骤S505：从所述识别日志中读取所述目标视频图像，并对所述目标视频图像的预设区域进行解码，得到所述目标视频图像的帧号。

本实施例中，在需要对识别结果进行测试时，便可以从识别日志中提取出目标视频图像和目标视频图像的识别结果，然后，对目标视频图像的预设区域进行解码，得到目标视频图像的帧号。

在一种示例性实施例中，参照图6所示，示出了一实施例中对目标视频图像的预设区域进行解码得到帧号的步骤流程图，如图6所示，具体可以包括以下步骤：

步骤S5051：根据预设模板尺寸，对所述目标视频图像的预设区域进行裁剪，得到多个子图像。

本实施例中，预设模板尺寸可以是指帧号中的每个数字在预设区域中所占的尺寸。实际中，每个数字在预设区域所占的尺寸可以相同，由于预设区域在目标视频图像是预先指定的，因此，可以直接将预设区域的图像按照预设模板尺寸进行裁剪，得到多个子图像，其中，子图像的数量与帧号所包含的数字的数量(也即标注的帧号的位数)相同，不同子图像表示帧号中的一个不同数字。

示例地，如图3所示，在目标视频图像的预设区域中的帧号是“019208”，则按照模板尺寸可以从预设区域的图像中裁剪出“0”、“1”、“9”、“2”、“0”、“8”的子图像。

步骤S5052：对所述多个子图像中的每个子图像，将多个预设卷积核分别与该子图像进行卷积，得到子图像表征的数字，其中，不同的预设卷积核用于提取不同的数字。

本实施例中，对于每个裁剪出来的子图像，需要识别出每个子图像中的数字，才能得到帧号。因此，对于每个子图像，可以用0-9这10个数字分别对应的预设卷积核分别与该子图像进行卷积，不同的预设卷积核对应0-9中不同的数字，即用于提取不同的数字。

其中，预设卷积核可以理解为是0-9中不同的数字所对应的模板。

为提高本申请识别出的帧号的准确性，在一种示例性实施例中，在将多个预设卷积核分别与该子图像进行卷积，得到子图像表征的数字时，可以对所述多个子图像中的每个子图像，将该子图像分别与所述多个预设卷积核进行尺寸对齐；根据尺寸对齐后的该子图像中各像素点的像素值以及所述多个预设卷积核中对应像素点的像素值，确定该子图像分别对应于所述多个预设卷积核的响应值；之后，根据各所述响应值，从所述多个预设卷积核中确定目标预设卷积核，并将所述目标预设卷积核对应的模板数字确定为该子图像表征的数字。

具体而言，对于每个字图像，卷积的方式可以是将当前预设卷积核对应的数字的尺寸与该子图像中数字的尺寸先拉伸对齐，然后对各自所包含的像素点的像素值进行点乘累加，从而得到一个卷积后的值，该卷积后的值即为响应值，得到的值越高，说明该子图像跟当前模板数字越匹配。这样，便可以将与该子图像进行卷积后得到的响应值最高的预设卷积核所对应的数字作为该子图像表征的数字。

其中，响应值便是预设卷积核中各像素点与该子图像中对应的各像素点进行点乘累加后的值，该响应值可以表征预设卷积核与该子图像之间的相似程度，响应值越大表征预设卷积核与该子图像越相似。

步骤S5053：对所述多个子图像各自表征的数字顺次拼接，得到所述目标视频图像的帧号。

本实施例中，在裁剪得到多个子图像时，可以对每个子图像在预设区域中的位置进行标注，进而按照多个子图像各自在预设区域中的位置，对多个子图像各自表征的数字顺次拼接，从而得到目标视频图像的帧号。

本实施例中，利用预设卷积核对每个子图像分别进行卷积的方式，可以缓解因对原始视频流的编码而带来的个别像素值的变动，例如进行H.264编码，从而正确解码出原有的帧号，提高解码正确率。

步骤S506：根据所述目标视频图像的帧号，查询与所述目标视频图像具有相同帧号的原始视频图像的标注信息。

本实施例中，嵌入式设备可以从标注视频流中查询与目标视频图像具有相同帧号的原始视频图像的标注信息。

步骤S507：从所述识别日志中读取所述目标视频图像的识别结果，并根据所述识别结果与所述标注信息之间的匹配度，确定图像识别参数值。

本实施例中，可以从识别日志中获取目标视频图像的识别结果，其中，所述目标视频图像的数量可以为多个，这样，相应的识别结果便也有多个，如此情况下，便可以从标注视频流中获取到与多个目标视频图像具有相同帧号的多个原始视频图像，也即得到了与多个目标视频图像分别对应的标注信息。则在根据所述识别结果与所述标注信息之间的匹配度，确定图像识别参数值时，可以确定所述多个目标视频图像各自的识别结果分别与对应的原始视频图像的标注信息之间的匹配度；并根据预设匹配度，对确定出的各个匹配度进行统计，得到图像识别参数值。

其中，所述图像识别参数值至少包括：漏识别参数值、错误识别参数值以及正确识别参数值。其中，漏识别参数值表征在对多个目标视频图像进行识别时，未能识别出识别结果的目标视频图像所占的比例；错误识别参数值表征在对多个目标视频图像进行识别时，识别出识别结果与标注信息不匹配的目标视频图像所占的比例；正确识别参数值表征在对多个目标视频图像进行识别时，识别出识别结果与标注信息相匹配的目标视频图像所占的比例。

其中，在根据预设匹配度，对确定出的各个匹配度进行统计，得到图像识别参数值时，可以设置多个不同的预设匹配度，进而可以对确定出的各个匹配度与多个的预设匹配度之间的大小关系，将确定出的各个匹配度划分到多个匹配度范围，从而根据每个范围内对应的匹配度的数量和匹配度的总数量，得到图像识别参数值。

示例的，预设匹配度有二个，分别为0.5、0.65；其中，在确定出的匹配度在0.5-0.65之间时，可以认为其未识别出识别结果，则将落在该范围内的匹配度的个数占总的匹配度的数量的比值确定为漏识别参数值；其中，在确定出的匹配度在0.65及以上时，可以认为其识别出正确的识别结果，则将落在该范围内的匹配度的个数占总的匹配度的数量的比值确定为正确识别参数值；同理，在确定出的匹配度在0.5及以下时，可以认为其错误识别出识别结果，则将落在该范围内的匹配度的个数占总的匹配度的数量的比值确定为错误识别参数值。

其中，在一种示例性实施例中，对目标视频图像进行识别可以是指对目标图像中包括的每张人脸的身份和/或每张人脸框在目标视频图像中的位置进行识别，这样，识别结果中便可以包括每张人脸对应的身份信息和/或人脸框的位置信息。相应地，在确定所述多个目标视频图像各自的识别结果分别与对应的原始视频图像的标注信息之间的匹配度时，可以对每个目标图像的识别结果和相应的标注信息，根据该目标图像的识别结果中的人脸信息以及该标注信息中的人脸信息，确定该目标图像的识别结果与相应的标注信息之间的匹配度。

其中，每个目标图像的识别结果和相应的标注信息中，该相应的标注信息是指：与该目标图像具有相同帧号的原始视频图像所携带的标注信息。

相应地，在所述识别结果不包括所述目标视频图像的人脸信息，且所述标注信息包括所述原始视频图像的人脸信息的情况下，则表示被测试的设备未能识别出识别结果，则此时的匹配度可以被划定到漏识别的范围。相应地，漏识别参数值随着识别结果中不包括人脸信息的目标视频图像的数量增多而变大。

其中，在所述识别结果包括的所述目标视频图像的人脸信息，与所述标注信息包括的所述原始视频图像的人脸信息不一致的情况下，则表示被测试的设备错误地得到了识别结果，则此时的匹配度可以被划定到错误识别的范围。相应地，错误别参数值随着识别结果中人脸信息与标注信息中人脸信息不匹配的目标视频图像的数量增多而变大。

其中，在所述识别结果包括的所述目标视频图像的人脸信息，与所述标注信息包括的所述原始视频图像的人脸信息一致的情况下，则表示被测试的设备准确地得到了识别结果，则此时的匹配度可以被划定到正确识别的范围。相应地，正确别参数值随着识别结果中人脸信息与标注信息中人脸信息匹配的目标视频图像的数量增多而变大。

采用上述实施方式时，由于图像识别参数值可以包括漏识别参数值、错误识别参数值以及正确识别参数值，这样，便可以从多个维度对被测试的设备进行图像识别的性能进行评估，提高了QA测试的全面性和可靠性，可以从更细致的角度分析被测试的设备进行图像识别的性能。

在一种实施方式中，为了解决被测试的设备在从视频源设备(客户端或手机等)接收原始视频流时，可能发生的丢包问题，在查询与所述目标视频图像具有相同帧号的原始视频图像的标注信息之后，还可以执行以下步骤：

步骤S508：将与所述目标视频图像具有相同帧号的原始视频图像，标记为未丢失视频图像。

本实施方式中，可以对抽取到的目标视频图像进行标记，以表征该目标视频图像被接收到。具体地，可以在标注视频流中，对与目标视频图像具有相同帧号的原始视频图像标记为未丢失视频图像。其中，可以在标注视频流对原始视频图像添加上符号、编码或图形标记，以标记为未丢失视频图像。

步骤S408'：在对接收到的视频流进行多次视频帧抽取后，根据被标记为未丢失视频图像的数量，确定所述原始视频流的丢帧参数值，和/或，获取丢失的视频图像。

本实施方式中，由于可以对接收到的视频流进行多次视频帧抽取，在实际中，可以对接收到的视频流中的每帧视频图像进行视频帧抽取，并在标注视频流中，对每帧抽取到的视频图像所对应的原始视频图像均标记为未丢失视频图像。

其中，标注视频流中所包括的全部视频图像的数量是已知的，因此，可以通过标注视频流中所包括的全部视频图像的数量、以及标注视频流中被标记为未丢失视频图像的数量，确定在接收原始视频流过程中被丢失的视频帧的数量，从而可以将该被丢失的视频帧的数量与标注视频流中所包括的全部视频图像的数量的比值，确定为丢帧参数值，该丢帧参数值可以反映视频源设备与被测试的设备之间的视频传输通路的通畅情况，从而可以对该视频传输通路的传输性能进行评估。

在实际中，由于在一个视频流中，各帧视频图像的帧号是连续的，因此，可以根据目标视频图像被解码出的帧号，确定丢失的视频图像的帧号，从而被测试的设备可以向视频源设备请求被丢失的视频图像。具体而言，可以向视频源设备发出图像获取请求，该图像获取请求中可以包括被丢失的视频图像的帧号，进而视频源设备可以响应于图像获取请求，向被测试的设备返回被丢失的视频图像。采用此种方式时，可以使得被测试的设备获取到完整的原始视频流，以使被测试的设备对完整的原始视频流中的各视频图像进行识别，从而使得图像识别参数值能反映对完整的原始视频流进行识别的性能，从而提高QA测试的可靠性和准确性。

当然，在实际中，被测试的设备可以选择确定视频源设备与被测设备之间的视频传输通路的丢帧参数值，也可以选择向视频源设备请求丢失的视频图像，当然，也可以选择同时确定丢帧参数值和请求丢失的视频图像，具体可以根据实际情况确定。

采用本申请的实施例，具有以下优点：

1、在QA测试的自动性方面。

由于被测试的设备可以对目标视频图像的预设区域进行解码，得到了目标视频图像的帧号，进而根据目标视频图像的帧号可以得到具有相同帧号的原始视频图像的标注信息。这样，无论原始视频流在接收和发送过程中是否发生丢包，在被测试的设备都可以对根据帧号查找到携带标注信息的原始视频流，从而进行标注信息和识别结果的自动匹配，以自主完成QA测试，无需人工校对，提高了测试效率。

2、在帧号解码的正确性方面。

由于可以利用预设卷积核对从预设区域裁剪出的子图像进行卷积而得到帧号，如此可以避免编码带来的像素值变动，从而提高对帧号进行解码的正确率。

3、在视频传输通路的评估方面。

由于可以根据目标视频图像的帧号，确定丢帧的视频图像的数量以及那些视频图像被丢帧，从而确定丢帧参数值和请求丢帧的视频图像，因此，被测试的设备可以感知丢帧情况，以获得完整的原始视频流。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7所示，示出了本发明实施例的一种视频流处理装置的结构框图，如图7所示，所述装置可以位于嵌入式设备也可以位于服务器中，具体可以包括以下模块：

视频流接收模块701，用于接收原始视频流；

视频帧抽取模块702，用于从接收到的原始视频流中抽取视频帧，得到目标视频图像；

识别模块703，用于对所述目标视频图像进行识别，得到所述目标视频图像的识别结果；

解码模块704，用于对所述目标视频图像的预设区域进行解码，得到所述目标视频图像的帧号；

查找模块705，用于根据所述目标视频图像的帧号，查询与所述目标视频图像具有相同帧号的原始视频图像的标注信息；

匹配模块706，用于根据所述识别结果与所述标注信息之间的匹配度，确定图像识别参数值。

可选地，所述装置还可以包括以下模块：

存储模块，用于将所述目标视频图像以及所述目标视频图像的识别结果保存至识别日志中；

所述解码模块704，具体用于从所述识别日志中读取所述目标视频图像，并对所述目标视频图像的预设区域进行解码，得到所述目标视频图像的帧号；

所述匹配模块706，具体用于从所述识别日志中读取所述目标视频图像的识别结果，并根据所述识别结果与所述标注信息之间的匹配度，确定图像识别参数值。

可选地，对所述解码模块704，具体可以包括以下单元：

裁剪单元，用于根据预设模板尺寸，对所述目标视频图像的预设区域进行裁剪，得到多个子图像；

卷积单元，用于对所述多个子图像中的每个子图像，将多个预设卷积核分别与该子图像进行卷积，得到子图像表征的数字，其中，不同的预设卷积核用于提取不同的数字；

拼接单元，用于对所述多个子图像各自表征的数字顺次拼接，得到所述目标视频图像的帧号。

可选地，所述卷积单元，具体可以包括以下子单元：

尺寸对齐子单元，用于对所述多个子图像中的每个子图像，将该子图像分别与所述多个预设卷积核进行尺寸对齐；

响应值确定子单元，用于根据尺寸对齐后的该子图像中各像素点的像素值以及所述多个预设卷积核中对应像素点的像素值，确定该子图像分别对应于所述多个预设卷积核的响应值；

数字筛选子单元，用于根据各所述响应值，从所述多个预设卷积核中确定目标预设卷积核，并将所述目标预设卷积核对应的模板数字确定为该子图像表征的数字

可选地，所述目标视频图像的数量为多个，所述匹配模块706，具体可以包括以下单元：

第一单元，用于确定所述多个目标视频图像各自的识别结果分别与对应的原始视频图像的标注信息之间的匹配度；

第二单元，用于根据预设匹配度，对确定出的各个匹配度进行统计，得到图像识别参数值，其中，所述图像识别参数值至少包括：漏识别参数值、错误识别参数值以及正确识别参数值。

可选地，所述第一单元，具体可以用于对每个目标图像的识别结果和相应的标注信息，根据该目标图像的识别结果中的人脸信息以及该标注信息中的人脸信息，确定该目标图像的识别结果与相应的标注信息之间的匹配度；

可选地，所述装置还可以包括以下模块：

标记模块，用于将与所述目标视频图像具有相同帧号的原始视频图像，标记为未丢失视频图像；

丢帧参数值确定模块，用于在对接收到的视频流进行多次视频帧抽取后，根据被标记为未丢失视频图像的数量，确定所述原始视频流的丢帧参数值；和/或，

图像请求模块，获取丢失的视频图像。

可选地，所述装置具体可以包括以下模块：

标注模块，用于获得待标注视频流，在所述待标注视频流中的每帧视频图像的预设区域上添加相应的帧号；

获得模块，用于将添加有帧号的待标注视频流作为原始视频流。

可选地，所述标注模块，具体用于针对所述待标注视频流包括的每帧视频图像，根据该帧视频图像的帧号，在该帧视频图像的预设区域上依次添加相应的数字水印。

需要说明的是，装置实施例与方法实施例相近，故描述的较为简单，相关之处参见方法实施例即可。

本发明实施例还提供了一种电子设备，该电子设备可以用于执行视频流处理方法，可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器被配置为执行所述的视频流处理方法。

本发明实施例还提供了一种计算机可读存储介质，其存储的计算机程序使得处理器执行如本发明实施例所述的视频流处理方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频流处理方法、装置、设备和介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频流处理方法，其特征在于，所述方法包括：

接收原始视频流；

从接收到的原始视频流中抽取视频帧，得到目标视频图像；

2.根据权利要求1所述的方法，其特征在于，在对所述目标视频图像进行识别，得到所述目标视频图像的识别结果之后，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，对所述目标视频图像的预设区域进行解码，得到所述目标视频图像的帧号，包括：

4.根据权利要求3所述的方法，其特征在于，对所述多个子图像中的每个子图像，将多个预设卷积核分别与该子图像进行卷积，得到子图像表征的数字，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述目标视频图像的数量为多个，根据所述识别结果与所述标注信息之间的匹配度，确定图像识别参数值，包括：

6.根据权利要求5所述的方法，其特征在于，确定所述多个目标视频图像各自的识别结果分别与对应的原始视频图像的标注信息之间的匹配度，包括：

7.根据权利要求1-6任一所述的方法，其特征在于，在查询与所述目标视频图像具有相同帧号的原始视频图像的标注信息之后，所述方法还包括：

8.根据权利要求1-6任一所述的方法，其特征在于，所述方法还包括：

将添加有帧号的待标注视频流作为原始视频流。

9.根据权利要求8所述的方法，其特征在于，在所述待标注视频流中的每帧视频图像的预设区域上添加相应的帧号，包括：

10.一种视频流处理装置，其特征在于，所述装置包括：

视频流接收模块，用于接收原始视频流；

11.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如权利要求1-9任一所述的视频流处理方法。

12.一种计算机可读存储介质，其特征在于，其存储的计算机程序使得处理器执行如权利要求1-9任一所述的视频流处理方法。