CN109800678A

CN109800678A - 一种视频中对象的属性确定方法及装置

Info

Publication number: CN109800678A
Application number: CN201811643457.9A
Authority: CN
Inventors: 万一木; 徐珺
Original assignee: Chengdu Yitu Network Technology Co Ltd; Shanghai Is According To Figure Network Technology Co Ltd
Current assignee: Chengdu Yitu Network Technology Co Ltd; Shanghai Is According To Figure Network Technology Co Ltd; Shanghai Yitu Network Science and Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-24

Abstract

本发明公开了一种视频中对象的属性确定方法及装置。所述方法包括：获取监控设备在预设时间段内拍摄得到的待处理视频，针对第一识别对象，根据第一识别对象在不同帧图像中的检测图像信息和预测图像信息，确定第一识别对象的识别图像，并将第一识别对象的识别图像输入预设的属性分类模型，得到第一识别对象对应的多个属性类别的属性。如此，既降低了确定待识别图像中的待识别对象的计算量，同时提高了效率，又提高了识别对象的属性值的准确度，进而也提高了后续对识别对象进行识别和归档的准确度。

Description

一种视频中对象的属性确定方法及装置

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频中对象的属性确定方法及装置。

背景技术

当今社会中，出于安防管理的需要，监控设备布满了街道、社区、楼宇等各种公共场合。在发生警情时，先从监控设备采集的视频数据中确定出嫌疑人或嫌疑车辆的图像，然后由警务人员根据嫌疑人或嫌疑车辆的图像搜捕嫌疑人或嫌疑车辆。

现有技术中，监控设备采集视频流后，多采用对视频流中的每帧图像进行检测和识别，确定每帧图像中的人脸或车辆等对象，然后再将各帧图像中检测出的对象进行匹配，确定出一个对象的所有图像，该方法由于需要对每帧图像进行检测和识别，计算量较大，效率低，进而也导致了对象的属性确定的效率低的问题。

发明内容

本发明实施例提供一种视频中对象的属性确定方法及装置，以解决现有技术中由于需要对每帧图像进行检测和识别，计算量较大，效率低，进而也导致了对象的属性确定的效率低的技术问题。

本发明实施例提供一种视频中对象的属性确定方法，所述方法包括：

获取监控设备在预设时间段内拍摄得到的待处理视频，所述待处理视频包括N帧图像；N大于等于2；

针对第一图像，若所述第一图像为检测帧图像，则检测所述第一图像中各识别对象的类型及各识别对象对应的检测图像信息；若所述第一图像为预测帧图像，则根据第二图像中的各识别对象对应的图像信息，预测所述各识别对象在所述第一图像中对应的预测图像信息；所述第一图像是所述N帧图像中的任一个，所述第二图像是所述第一图像相邻的图像且已确定出或预测出识别对象对应的图像信息；

针对第一识别对象，根据所述第一识别对象在不同帧图像中的检测图像信息和预测图像信息，确定所述第一识别对象的识别图像；将所述第一识别对象的识别图像输入预设的属性分类模型，得到所述第一识别对象对应的多个属性类别的属性值，所述第一识别对象为所述各识别对象中的任一个。

本发明实施例中，一方面，将监控设备采集的视频流中的图像分为检测帧图像和非检测帧图像，对于预测图像，可以采用第二图像中的待识别对象预测第一图像中的识别对象，故不需要对每帧图像进行检测并识别，从而降低了确定待识别图像中的待识别对象的计算量，同时提高了效率；另一方面，采用预设的属性分类模型来确定识别对象对应的多个属性类别的属性值，有效提高了识别对象的属性值的准确度，进而也提高了后续对识别对象进行识别和归档的准确度。

在一种可能的实现方式中，所述预设的属性分类模型包括多个第一分类模型和第二分类模型；各第一分类模型对应的属性类别均不同；所述第二分类模型对应于所有属性类别；

将所述第一识别对象的识别图像输入预设的属性分类模型，得到所述第一识别图像对应的多个属性类别的属性值，包括：

将所述第一识别对象的识别图像分别输入所述多个第一分类模型，根据每个第一分类模型的预测结果，得到所述第一识别对象的识别图像对应的多个属性类别的属性值的置信度；

将所述第一识别对象的识别图像和所述第一识别对象的识别图像对应的多个属性类别的属性值的置信度输入所述第二分类模型，得到所述第一识别对象的识别图像对应的多个类别的属性值。

在一种可能的实现方式中，根据所述第一识别对象在不同帧图像中的检测图像信息和预测图像信息，确定所述第一识别对象的识别图像，包括：

根据所述第一识别对象在不同帧图像中的检测图像信息和预测图像信息，选取K个图像信息作为所述第一识别对象的识别图像。

在一种可能的实现方式中，将所述第一识别对象的识别图像输入预设的属性分类模型，得到所述第一识别图像对应的多个属性类别的属性值，包括：

将所述K个图像信息分别输入所述预设的属性分类模型，得到每个图像信息对应的多个属性类别的属性值；

针对同一属性类别，根据K个图像信息对应的所述属性类别的属性值，确定所述第一识别对象对应的所述属性类别的属性值。

本发明实施例提供一种视频中对象的属性确定装置，所述装置包括：

获取单元，用于获取监控设备在预设时间段内拍摄得到的待处理视频，所述待处理视频包括N帧图像；N大于等于2；

处理单元，用于针对第一图像，若所述第一图像为检测帧图像，则检测所述第一图像中各识别对象的类型及各识别对象对应的检测图像信息；若所述第一图像为预测帧图像，则根据第二图像中的各识别对象对应的图像信息，预测所述各识别对象在所述第一图像中对应的预测图像信息；所述第一图像是所述N帧图像中的任一个，所述第二图像是所述第一图像相邻的图像且已确定出或预测出识别对象对应的图像信息；

所述处理单元，还用于针对第一识别对象，根据所述第一识别对象在不同帧图像中的检测图像信息和预测图像信息，确定所述第一识别对象的识别图像；将所述第一识别对象的识别图像输入预设的属性分类模型，得到所述第一识别对象对应的多个属性类别的属性值，所述第一识别对象为所述各识别对象中的任一个。

所述处理单元具体用于：

在一种可能的实现方式中，所述处理单元具体用于：

本申请实施例的还提供一种装置，该装置具有实现上文所描述的视频中对象的属性确定方法的功能。该功能可以通过硬件执行相应的软件实现，在一种可能的设计中，该装置包括：处理器、收发器、存储器；该存储器用于存储计算机执行指令，该收发器用于实现该装置与其他通信实体进行通信，该处理器与该存储器通过该总线连接，当该装置运行时，该处理器执行该存储器存储的该计算机执行指令，以使该装置执行上文所描述的视频中对象的属性确定方法。

本发明实施例还提供一种计算机存储介质，所述存储介质中存储软件程序，该软件程序在被一个或多个处理器读取并执行时实现上述各种可能的实现方式中所描述的视频中对象的属性确定方法。

本发明实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种可能的实现方式中所描述的视频中对象的属性确定方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍。

图1为本发明实施例适用的系统架构的示意图；

图2为本发明实施例提供的一种视频中对象的属性确定方法所对应的流程示意图；

图3为本发明实施例提供的一种视频中对象的属性确定装置的结构示意图。

具体实施方式

下面结合说明书附图对本申请进行具体说明，方法实施例中的具体操作方法也可以应用于装置实施例中。

图1示例性示出了本发明实施例适用的系统架构的示意图，在该系统架构中包括监控设备101、服务器102。监控设备101实时采集视频流，然后将采集的视频流发送至服务器102，服务器102中包括视频中对象的属性确定装置，服务器102从视频流中获取图像，然后确定图像中的待识别对象对应的图像区域。监控设备101通过无线网络与服务器102连接，监控设备是具备采集图像功能的电子设备，比如摄像头、摄像机、录像机等。服务器102是一台服务器或若干台服务器组成的服务器集群或云计算中心。

基于图1所示的系统架构，图2示例性示出了本发明实施例提供的一种视频中对象的属性确定方法所对应的流程示意图，该方法的流程可以由视频中对象的属性确定装置执行，视频中对象的属性确定装置可以是图1所示的服务器102，如图2所示，具体包括以下步骤：

步骤201，获取监控设备在预设时间段内拍摄得到的待处理视频。

待处理视频包括N帧图像；N大于等于2；

步骤202，针对第一图像，若所述第一图像为检测帧图像，则检测所述第一图像中各识别对象的类型及各识别对象对应的检测图像信息。

预先对待处理视频的图像进行标记，将待处理视频中需要进行检测的图像标记为检测帧图像，将需要进行预测的图像标记为预测帧图像。示例性地，设定一段视频流中包括10帧图像，将第一帧图像和第五帧图像标记为检测帧图像，第二帧图像至第四帧图像标记为预测帧图像，第六帧至第十帧标记为预测帧图像。

由于先将监控设备采集的视频流中的待识别图像分为检测帧图像和非检测帧图像，故在获取第一待识别图像时，先判断第一待识别图像是否为检测帧图像，如果是，则检测第一待识别图像中的待识别对象，否则采用第二待识别图像中的待识别对象预测第一待识别图像中的待识别对象，故不需要对每帧待识别图像进行检测并识别，从而降低了确定待识别图像中的待识别对象的计算量，同时提高了效率。

针对第一图像，若第一图像为检测帧图像，则可以对第一图像进行对象检测，确定第一图像中各识别对象对应的图像信息。

进一步地，可以先对第一图像进行对象检测，确定第一图像中各识别对象对应的检测图像区域，进而可以确定各识别对象对应的检测图像区域中的图像信息，即各识别对象对应的图像信息。其中，图像区域可以是具有规则形状的图像框，或者不具有规则形状的图像框。

可选地，针对任一识别对象，在识别对象的图像区域中检测对象的关键点，进而根据关键点调整待识别对象在第一图像中对应的图像区域。

具体地，对象的关键点是用于识别对象的关键点，比如行人的关键点为头部、四肢、上半身、下半身等。车的关键点包括车牌、车窗、车轮等。

示例性地，检测行人框中的关键点，若检测的关键点中包括四肢、上半身和下半身，则说明该行人框偏下，头部并没有包含在行人框中，则可以向上扩大行人框，使行人框中包含行人的头部。

由于检测识别对象的关键点，然后基于关键点调整图像区域，从而使图像区域更准确。

步骤203，若第一图像为预测帧图像，则根据第二图像中的各识别对象对应的图像信息，预测各识别对象在第一图像中对应的预测图像信息。

若第一图像为预测帧图像，则可以根据第二图像中的各识别对象对应的图像信息，预测各识别对象在第一图像中对应的图像信息。其中，第一图像是N帧图像中的任一个，第二图像是监控设备采集的第一图像相邻的图像且已确定出或预测出识别对象对应的图像信息。具体地，第二图像可以是检测帧图像或者非检测帧图像。

进一步地，可以先根据第二图像中各识别对象对应的图像区域，预测各识别对象在第一图像中对应的图像区域，进而可以预测各识别对象在第一图像中对应图像区域中的图像信息，即各识别对象在第一图像中对应的图像信息。

具体地，针对第二图像中的任一识别对象对应的图像区域，从第一图像中确定出与该识别对象对应的图像区域的相似度大于预设阈值的图像区域，作为该识别对象在第一图像中对应的预测图像区域。

举个例子，设定已知第二图像中各识别对象对应的图像框，针对第二图像中识别对象A对应的图像框，从第一图像中确定出与待识别对象A的图像框的相似度大于预设阈值的图像框，作为待识别对象A在第一图像中的图像框。

在一种可能的实施方式中，从待识别对象中选出特征明显的区域，将该区域与第一图像进行比较，从第一图像中确定出与该区域的相似度大于预设阈值的图像区域，然后将图像区域扩大后作为待识别对象在第一图像中对应的图像区域。

在另一种可能的实现方式中，选取距离第二图像中待识别对象对应的图像区域的位置最近的图像区域，作为待识别对象在第一图像中对应的图像区域。

由于监控设备采集的待识别图像之间的时间间隔较短，故相邻两张待识别图像中同一待识别对象移动的距离较短，预测第二图像中的待识别对象的图像区域在第一图像中的图像区域时，可以选取距离第二图像中待识别对象的图像区域最近的图像区域，作为待识别对象在第一图像中对应的图像区域，从而避免了一个待识别对象在一张图像中对应多个图像区域。

可选地，预测各待识别对象在第一图像中对应的图像区域之后，针对任一待识别对象，在待识别对象的图像区域中检测待识别对象的关键点。根据关键点调整待识别对象在第一图像中对应的图像区域。

由于在预测待识别对象在第一别图像中的图像区域后，检测待识别对象的关键点，然后基于关键点调整待识别对象的图像区域，从而使待识别对象的图像区域更准确。

在执行步骤204之前，还可以对第一待识别对象的M个图像信息(包括检测得到的图像信息和预测得到的图像信息)，可以进一步确定M个图像信息否为待识别图像(如人脸图像、或车辆图像，或其它图像)。

由于先判断检测图像信息和预测图像信息是否为待识别图像，然后根据同一待识别对象的已确定为待识别图像的检测图像信息和预测图像信息，确定待识别对象的识别图像，从而提高待识别对象的识别图像的精度，进一步提高后续使用待识别对象的识别图像进行归档的准确性。

步骤204，针对第一识别对象，根据第一识别对象在不同帧图像中的检测图像信息和预测图像信息，确定第一识别对象的识别图像。

其中，第一识别对象为各识别对象中的任一个。确定第一识别对象的识别图像的方式有多种，下面进行举例说明。

一种可能的实现方式为，根据第一待识别对象的M个图像信息(即第一识别对象在不同帧图像中的检测图像信息和预测图像信息)，选取K个图像信息作为所述待识别对象的识别图像。具体地，K各图像信息的选取方式有多种，可以是根据每个图像信息的质量选取的，比如选取质量较好(图像清晰、图像完整)的图像信息；或者也可以是根据每个图像信息的拍摄角度选取的，比如选取拍摄角度较好(正面的拍摄角度)的图像信息，具体不做限定。

举个例子，设定同一待识别对象在10帧待识别图像中包括10个图像信息，则将从这10个图像信息中选取8个质量较好的作为待识别对象的8个识别图像。

另一种可能的实现方式为，根据第一待识别对象的M个图像信息，选取K个图像信息，并根据K个图像信息生成第一待识别对象的识别图像。具体地，K各图像信息的选取方式与上文所描述的内容类似，此处不再详细描述。

举个例子，设定同一待识别对象在10帧待识别图像中包括10个图像信息，则将从这10个图像信息中选取8个质量较好的图像信息，并将这8个图像信息融合为1张识别图像。

步骤205，将第一识别对象的识别图像输入预设的属性分类模型，得到第一识别对象对应的多个属性类别的属性值。

一个示例中，预设的属性分类模型可以包括多个第一分类模型和第二分类模型。如图3所示，为本发明实施例中预设的属性分类模型的结构示意图。其中，各第一分类模型对应的属性类别均不同，第二分类模型对应于所有属性类别。

基于图3所示的预设的属性分类模型的结构，可以先将第一识别对象的识别图像分别输入多个第一分类模型，根据每个第一分类模型的预测结果，得到第一识别对象的识别图像对应的多个属性类别的属性值的置信度；然后可以将第一识别对象的识别图像和第一识别对象的识别图像对应的多个属性类别的属性值的置信度输入第二分类模型，得到第一识别对象的识别图像对应的多个类别的属性值。

举个例子，以第一识别对象为行人为例，设定多个第一分类模型分别包括用于识别行人性别的第一分类模型、用于识别行人年龄的第一分类模型、用于识别行人上衣颜色的第一分类模型、用于识别行人上衣款式的第一分类模型、用于识别行人下衣颜色的第一分类模型、用于识别行人下衣款式的第一分类模型、用于识别行人鞋子颜色的第一分类模型、用于识别行人是否戴眼镜的第一分类模型及用于识别行人是否背包的第一分类模型。可以将行人的识别图像分别输入以上各第一分类模型，从而得到该行人的识别图像对应的不同性别的置信度、不同年龄层的置信度、不同上衣颜色的置信度、不同上衣款式的置信度、不同下衣颜色的置信度、不同下衣款式的置信度、不同鞋子颜色的置信度、是否戴眼镜的置信度及是否背包的置信度。进而，可以将行人的识别图像分别对应的上述不同类别的属性值的置信度输入第二分类模型，从而得到对应的多个类别的属性值。

进一步地，在识别同一类型的属性值时，也可以增加第一分类模型的数量。举个例子，可以采用两个或两个以上的第一分类模型，用于识别行人性别。

另一个示例中，预设的属性分类模型也可以对应于所有属性类别。如此，输入第一待识别对象的识别图像后，可以直接得到第一识别对象对应的所有属性类别的属性值。

根据上述步骤204中描述的第一待识别对象的识别图像包括K个图像信息，则可以将K个图像信息分别输入预设的属性分类模型，得到每个图像信息对应的多个属性类别的属性值；进而，针对同一属性类别，可以根据K个图像信息对应的属性类别的属性值，确定第一识别对象对应的所述属性类别的属性值。

可选地，在执行步骤205之后，可以根据识别对象对应的至少一个类别的属性值，以及预先存储的多个已识别对象对应的至少一个类别的属性值，从多个已识别对象中确定识别对象的相似对象；其中，已识别对象对应的至少一个类别的属性值可以是根据已识别对象的识别图像确定的，已识别对象的识别图像可以是根据第一监控设备拍摄得到的第一监控视频中包括的M帧图像确定的，M大于等于2；进而，可以根据相似对象的识别图像，确定待识别对象的轨迹。

为了更好的解释本发明实施例，下面结合具体的实施场景描述本发明实施例提供的一种视频中对象的确定方法，该方法可以由视频中对象的确定装置执行。

设定视频流中包括10帧待识别图像，其中第一帧待识别图像为检测帧图像、第三帧待识别图像为检测帧图像。首先对第一帧待识别图像进行检测，确定第一帧待识别图像中的各识别对象的第一检测框。针对第一帧待识别图像中识别对象A的第一检测框，先对第一检测框中识别对象A的关键点进行检测，根据检测的关键点调整第一检测框。然后预测识别对象A的第一检测框在第二帧待识别图像对应的第二预测框。对第二预测框中识别对象A的关键点进行检测，根据检测的关键点调整第二预测框。之后再预测识别对象A的第二预测框在第三帧待识别图像中对应的第三预测框，对第三预测框中识别对象A的关键点进行检测，根据检测的关键点调整第三预测框。同时对第三帧待识别图像进行检测，确定第三帧待识别图像的第三检测框。依次类推，直到不能预测识别对象A在下一帧待识别图像中预测框。设定10帧待识别图像中，识别对象A对应8个框，则将这8个框作为识别对象A的识别图像，进而可以将这8个框所对应的图像分别数据预设的属性分类模型，从而得到识别对象A的多个属性类别的属性值，后续可以根据识别对象A的多个属性类别的属性值对识别对象A进行识别或对识别对象A进行归档。

基于同样的发明构思，本发明实施例提供一种视频中对象的属性确定装置，如图3所示，所述装置包括获取单元301和处理单元302，其中：

获取单元301，用于获取监控设备在预设时间段内拍摄得到的待处理视频，所述待处理视频包括N帧图像；N大于等于2；

处理单元302，用于针对第一图像，若所述第一图像为检测帧图像，则检测所述第一图像中各识别对象的类型及各识别对象对应的检测图像信息；若所述第一图像为预测帧图像，则根据第二图像中的各识别对象对应的图像信息，预测所述各识别对象在所述第一图像中对应的预测图像信息；所述第一图像是所述N帧图像中的任一个，所述第二图像是所述第一图像相邻的图像且已确定出或预测出识别对象对应的图像信息；

所述处理单元302，还用于针对第一识别对象，根据所述第一识别对象在不同帧图像中的检测图像信息和预测图像信息，确定所述第一识别对象的识别图像；将所述第一识别对象的识别图像输入预设的属性分类模型，得到所述第一识别对象对应的多个属性类别的属性值，所述第一识别对象为所述各识别对象中的任一个。

所述处理单元302具体用于：

在一种可能的实现方式中，所述处理单元302具体用于：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频中对象的属性确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预设的属性分类模型包括多个第一分类模型和第二分类模型；各第一分类模型对应的属性类别均不同；所述第二分类模型对应于所有属性类别；

3.根据权利要求1所述的方法，其特征在于，根据所述第一识别对象在不同帧图像中的检测图像信息和预测图像信息，确定所述第一识别对象的识别图像，包括：

4.根据权利要求3所述的方法，其特征在于，将所述第一识别对象的识别图像输入预设的属性分类模型，得到所述第一识别图像对应的多个属性类别的属性值，包括：

5.一种视频中对象的属性确定装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述预设的属性分类模型包括多个第一分类模型和第二分类模型；各第一分类模型对应的属性类别均不同；所述第二分类模型对应于所有属性类别；

所述处理单元具体用于：

7.根据权利要求5所述的装置，其特征在于，所述处理单元具体用于：

8.根据权利要求7所述的装置，其特征在于，所述处理单元具体用于：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有指令，当所述指令在计算机上运行时，使得计算机实现执行权利要求1至4中任一项所述的方法。

10.一种计算机设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行如权利要求1至4中任一权利要求所述的方法。