CN113449581A

CN113449581A - 目标区域检测方法、装置和电子设备

Info

Publication number: CN113449581A
Application number: CN202110075630.5A
Authority: CN
Inventors: 任亦立
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-03-24
Filing date: 2021-01-20
Publication date: 2021-09-28

Abstract

本申请实施例提供一种目标区域的检测方法、装置和电子设备，方法包括：将目标视频帧输入预先训练的用于检测铭牌的区域信息和/或椅背的区域信息的模型，得到所述目标视频帧中铭牌的区域信息和/或椅背的区域信息；根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息。该方法在一个摄像装置拍摄的视频中实现了多位人员的目标区域的检测，为后续进行人员行为分析提供了具体的区域信息，摄像装置的配置费用大大降低；而且，通过一个视频就可以检测到多位人员所在区域，降低了视频数据处理量。

Description

目标区域检测方法、装置和电子设备

技术领域

本申请涉及智能视频监控领域，特别涉及目标区域检测方法、装置和电子设备。

背景技术

目前，在会议进行过程中，如果需要对参与会议的人员如会议主持人、记录人员、发言人员等进行行为分析，确定其行为是否符合某些预设的行为要求，可以通过为每位人员分别配置摄像头、对每位人员的视频进行行为分析来实现。但是，为每位人员分别配置摄像头，使得部署摄像头的费用高；分别对每位人员的视频进行行为分析，使得需要处理的视频数据量大。

发明内容

本申请实施例提供了一种目标区域检测方法、装置和电子设备，能够在人员位置相对稳定的环境如会议中，仅配置很少的摄像装置如摄像头甚至仅配置一个摄像装置，就可以实现多位人员的目标区域的检测，为完成每位人员的行为分析提供所需分析的目标区域，降低摄像装置的配置费用；而且，无需处理多个摄像装置拍摄的视频数据，降低了视频数据处理量。

第一方面，本申请实施例提供了一种目标区域的检测方法，包括：

将目标视频帧输入预先训练的用于检测铭牌的区域信息和/或椅背的区域信息的模型，得到所述目标视频帧中铭牌的区域信息和/或椅背的区域信息；所述用于检测铭牌的区域信息和/或椅背的区域信息的模型是通过将标注了铭牌的区域信息和/或椅背的区域信息的图像作为样本输入卷积神经网络模型进行训练得到的；所述目标视频帧是视频中需要被处理的视频帧，所述视频由位于目标区域前上方的摄像装置拍摄得到；

根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息。

在一种可能的实现方式中，所述根据所述铭牌的区域信息确定所述目标视频帧中各目标区域的区域信息，包括：

对于每个铭牌，对该铭牌的区域信息进行区域扩展，得到该铭牌对应的目标区域的区域信息。

在另一种可能的实现方式中，所述根据所述椅背的区域信息确定所述目标视频帧中各目标区域的区域信息，包括：

对于每个椅背，对该椅背的区域信息进行区域扩展，得到该椅背对应的目标区域的区域信息。

在又一种可能的实现方式中，所述根据所述铭牌的区域信息和所述椅背的区域信息确定所述目标视频帧中各目标区域的区域信息，包括：

对于所述铭牌和所述椅背，按照区域信息的位置关系确定所述铭牌和所述椅背之间的对应关系；

对于具有对应关系的一对铭牌和椅背，根据该对铭牌和椅背的区域信息进行区域扩展，得到该对铭牌和椅背对应的目标区域的区域信息。

在一种可能的实现方式中，所述区域信息是矩形不相邻两个顶点的二维坐标；所述根据该对铭牌和椅背的区域信息进行区域扩展，得到该对铭牌和椅背对应的目标区域的区域信息，包括：

获得铭牌的区域信息、和椅背的区域信息中横纵坐标的最小值和最大值；

根据获得的横纵坐标值确定目标区域的区域信息。

在一种可能的实现方式中，得到所述目标视频帧中铭牌的区域信息之后，还包括：

根据所述铭牌的区域信息，对所述铭牌所在区域进行文字识别，得到所述铭牌对应的目标区域的人员信息。

第二方面，本申请实施例提供一种行为分析方法，包括：

将视频划分为视频片段；所述视频由位于目标区域前上方的摄像装置拍摄得到；

对于一视频片段，获得该视频片段的至少一个目标视频帧中铭牌的区域信息和/或椅背的区域信息；所述目标视频帧是该视频片段中需要被处理的视频帧；根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息；

根据获得的目标区域的区域信息确定该视频片段中目标区域的区域信息；

根据该视频片段中目标区域的区域信息，进行下一视频片段中人员行为分析。

在一种可能的实现方式中，所述获得该视频片段的至少一个目标视频帧中铭牌的区域信息和/或椅背的区域信息之前，还包括：

对于一视频片段，获得视频片段的目标视频帧中每一人员的头肩区域信息，根据视频片段的目标视频帧中每一人员的头肩区域信息判断该视频片段是否有效；

如果该视频片段有效，执行所述获得该视频片段中至少一个目标视频帧中铭牌的区域信息和/或椅背的区域信息的步骤；

如果该视频片段无效，获得该视频片段的上一视频片段中目标区域的区域信息；根据获得的上一视频片段中目标区域的区域信息，进行下一视频片段中人员行为分析。

在一种可能的实现方式中，根据视频片段的目标视频帧中每一人员的头肩区域信息判断该视频片段是否有效，包括：

根据相邻两个目标视频帧中每一人员的头肩区域信息，计算相邻两个目标视频帧中同一人员的头肩区域位移；

计算所有头肩区域位移的总和；

判断所述总和是否超过预设阈值，如果超过预设阈值，判断该视频片段无效；如果没有超过预设阈值，判断该视频片段有效。

在一种可能的实现方式中，所述获得目标视频帧中每一人员的头肩区域信息，包括：

预先训练用于检测人员的头肩区域信息的模型；

将目标视频帧输入上述用于检测人员的头肩区域信息的模型，得到目标视频帧中每一人员的头肩区域信息。

在一种可能的实现方式中，所述预先训练用于检测人员的头肩区域信息的模型，包括：

获得标注了人员的头肩区域信息的图像作为样本；

将所述样本输入卷积神经网络模型进行训练，得到用于检测人员的头肩区域信息的模型。

第三方面，本申请实施例提供一种目标区域的检测装置，包括：

信息获得单元，用于将目标视频帧输入预先训练的用于检测铭牌的区域信息和/或椅背的区域信息的模型，得到所述目标视频帧中铭牌的区域信息和/或椅背的区域信息；所述用于检测铭牌的区域信息和/或椅背的区域信息的模型是通过将标注了铭牌的区域信息和/或椅背的区域信息的图像作为样本输入卷积神经网络模型进行训练得到的；所述目标视频帧是视频中需要被处理的视频帧，所述视频由位于目标区域前上方的摄像装置拍摄得到；

信息确定单元，用于根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息。

第四方面，本申请实施例提供一种行为分析装置，包括：

划分单元，用于将视频划分为视频片段；所述视频由位于目标区域前上方的摄像装置拍摄得到；

第一信息获得单元，用于对于一视频片段，获得该视频片段的至少一个目标视频帧中铭牌的区域信息和/或椅背的区域信息；所述目标视频帧是该视频片段中需要被处理的视频帧；根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息；

信息确定单元，用于根据获得的目标区域的区域信息确定该视频片段中目标区域的区域信息；

行为分析单元，用于根据该视频片段中目标区域的区域信息，进行下一视频片段中人员行为分析。

第五方面，本申请实施例提供一种电子设备，包括：

显示屏；一个或多个处理器；存储器；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行以下步骤：

第六方面，本申请实施例提供一种电子设备，包括：

第七方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行第一方面或第二方面所述的方法。

第八方面，本申请提供一种计算机程序，当所述计算机程序被计算机执行时，用于执行第一方面或第二方面所述的方法。

在一种可能的设计中，第八方面中的程序可以全部或者部分存储在与处理器封装在一起的存储介质上，也可以部分或者全部存储在不与处理器封装在一起的存储器上。

本申请提供的目标区域的检测方法，将目标视频帧输入预先训练的用于检测铭牌的区域信息和/或椅背的区域信息的模型，得到所述目标视频帧中铭牌的区域信息和/或椅背的区域信息，所述用于检测铭牌的区域信息和/或椅背的区域信息的模型是通过将标注了铭牌的区域信息和/或椅背的区域信息的图像作为样本输入卷积神经网络模型进行训练得到的，所述目标视频帧是视频中需要被处理的视频帧，所述视频由位于目标区域前上方的摄像装置拍摄得到，根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息，从而在一个摄像装置拍摄的视频中实现了多位人员的目标区域的检测，也即实现了视频中人员所在区域的检测，为后续进行人员行为分析提供了具体的区域信息，摄像装置的配置费用大大降低；另外，通过一个视频就可以检测到多位人员所在区域，无需处理多个摄像装置拍摄的视频数据，降低了视频数据处理量。

附图说明

图1为本申请摄像装置配置位置示例图；

图2a为本申请目标区域的检测方法一个实施例的流程图；

图2b为本申请区域扩展的一个示例图；

图2c为本申请区域扩展的另一个示例图；

图2d为本申请区域扩展的再一个示例图；

图3为本申请目标区域的检测方法另一个实施例的流程图；

图4为本申请行为分析方法一个实施例的流程图；

图5为本申请行为分析方法另一个实施例的流程图；

图6a为本申请目标区域的检测装置一个实施例的结构示意图；

图6b为本申请目标区域的检测装置另一个实施例的结构示意图；

图7a为本申请行为分析装置一个实施例的结构示意图；

图7b为本申请行为分析装置另一个实施例的结构示意图；

图8为本申请电子设备一个实施例的结构示意图。

具体实施方式

本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

现有的实现方案中，在会议进行过程中，如果需要对参与会议的人员如会议主持人、记录人员、发言人员等进行行为分析，确定其是否符合某些预设的行为要求，需要为每一位人员分别配置一个摄像头，来获取对应人员在会议过程中的视频，进而对视频进行行为分析，得到对应人员的行为分析结果。但是，为每位人员分别配置摄像头，配置费用高。

为此，本申请提出一种目标区域的检测方法、装置和电子设备，在人员位置相对稳定的环境如会议中，无需配置过多摄像装置，就可以实现对各位人员所处区域的检测，进而进行人员行为分析，降低了摄像装置的配置费用；通过一个视频就可以检测到多位人员所在区域，无需处理多个摄像装置拍摄的视频数据，降低了视频数据处理量。

所述人员位置相对稳定的环境可以包括但不限于：教师为学生上课期间、会议进行期间等等。只要在该环境下，人员不随意走动、位置相对稳定即可。

本申请实施例中，可以为至少两位需要被进行行为分析的人员配置一个摄像装置，甚至在摄像装置的拍摄范围能够覆盖场景中所有需要被进行行为分析的人员所处区域的情况下，仅配置一个摄像装置如摄像头就可以提供本申请实施例目标区域的检测方法、以及行为分析方法所需的视频图像。具体的，参见图1，该摄像装置可以设置于需要被进行行为分析的各位人员的前上方，使得各位人员、各位人员的铭牌和/或椅背能够被摄像装置正面捕捉到。

下述本申请实施例目标区域的检测方法、行为分析方法可以由摄像装置来执行，或者，也可以由连接摄像装置的电子设备执行，或者，也可以部分由摄像装置执行部分由连接摄像装置的电子设备执行，本申请并不限制。

由于摄像装置拍摄的视频中一般包括至少两位人员，本发明实施例中的目标区域就是场景中的每位人员所应处于的区域，得到该区域就可以对区域中的人员进行行为分析。

图2a为本申请目标区域的检测方法一个实施例的流程图，如图2a所示，上述方法可以包括：

步骤201：将目标视频帧输入预先训练的用于检测铭牌的区域信息和/或椅背的区域信息的模型，得到所述目标视频帧中铭牌的区域信息和/或椅背的区域信息；所述用于检测铭牌的区域信息和/或椅背的区域信息的模型是通过将标注了铭牌的区域信息和/或椅背的区域信息的图像作为样本输入卷积神经网络模型(Convolutional Neural Networks，简称CNN)进行训练得到的。

所述目标视频帧是视频中需要被处理的视频帧。

其中，对于摄像装置拍摄的视频中的视频帧，可以选择全部视频帧均进行处理，也可以按照某种预定规则选择部分视频帧进行处理，这里的目标视频帧就是被选择出来需要进行处理的视频帧。在一种可能的实现方式中，所述预定规则最好能保证目标视频帧相对均匀的分布在视频中。

其中，对上述用于检测铭牌的区域信息和/或椅背的区域信息的模型的训练方法进行说明：

首先，获得标注了铭牌的区域信息和/或椅背的区域信息的图像作为样本。

其中，铭牌的区域信息用于标识铭牌在图像中所在区域；椅背的区域信息用于标识椅背在图像中所在区域。在一种可能的实现方式中，铭牌的区域、或者椅背的区域可以为矩形，铭牌的区域信息、或者椅背的区域信息可以通过矩形不相邻的两个顶点的二维坐标来实现。在实际应用中，所有图像可以采用相同的二维坐标系，从而达到不同图像间同一区域的区域信息的统一。

之后，将所述样本输入CNN模型进行训练，得到用于检测铭牌的区域信息和/或椅背的区域信息的模型。

CNN是一类包含卷积计算且具有深度结构的前馈神经网络，是一种深度学习模型。本步骤中训练得到的用于检测铭牌的区域信息和/或椅背的区域信息的模型，该模型的输入为包含铭牌和/或椅背的图像时，该模型的输出可以为：图像中铭牌的区域信息和/或椅背的区域信息。

其中，目标视频帧中的铭牌的区域信息用于标识铭牌在目标视频帧中所在区域；目标视频帧中的椅背的区域信息用于标识椅背在目标视频帧中所在区域。与上述样本相关联的，样本中铭牌的区域、或者椅背的区域为矩形，那么本步骤中得到的目标视频帧中的铭牌的区域、或者椅背的区域一般为矩形，具体的，铭牌的区域信息、或者椅背的区域信息可以通过矩形不相邻的两个顶点的二维坐标来实现。在实际应用中，所有目标视频帧可以采用相同的二维坐标系，从而达到不同目标视频帧间同一区域的区域信息的统一。

步骤202：根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息。

其中，根据所述铭牌的区域信息确定所述目标视频帧中各目标区域的区域信息，可以包括：

对于每个铭牌，对所述铭牌的区域信息进行区域扩展，得到该铭牌对应的目标区域的区域信息。

其中，根据所述椅背的区域信息确定所述目标视频帧中各目标区域的区域信息，可以包括：

对于每个椅背，对所述椅背的区域信息进行区域扩展，得到该椅背对应的目标区域的区域信息。

不管是对铭牌的区域信息进行区域扩展，还是对椅背的区域信息进行区域扩展，都是按照其和人员之间的位置关系来进行扩展，例如，铭牌一般位于人员前方的桌子上，所以对铭牌的区域信息进行区域扩展时，需要向上方扩展，从而得到目标区域的区域信息。具体的扩展方法可以在实际应用中自主设定，本申请并不限制。例如，假设铭牌所在区域是矩形，那么可以以类似图2b所示的3种方法进行区域扩展得到目标区域，根据铭牌的区域信息结合扩展方法就可以计算得到铭牌对应的目标区域的区域信息。图2b中实线框为铭牌的区域，虚线框为目标区域。具体的，图2b中21部分所示，以铭牌的区域下边沿作为目标区域下边沿，进行区域扩展得到目标区域；图2b中22部分和23部分所示，分别以铭牌的区域的一个顶点作为目标区域的一个顶点，进行区域扩展得到目标区域。

其中，根据所述铭牌的区域信息和所述椅背的区域信息确定所述目标视频帧中各目标区域的区域信息，可以包括：

根据获得的横纵坐标值确定目标区域的区域信息。

例如，参见图2c所示，假设铭牌的区域信息为：a(1，2)，b(2，3)，椅背的区域信息为：c(1.5，5)，d(2.5，6)，则横坐标的最小值是1，最大值是2.5，纵坐标的最小值是2，最大值是6，则目标区域的区域信息可以为：a(1，2)，d(2.5，6)；或者，目标区域的区域信息可以为：e(1，6)，f(2.5，2)。参见图2d所示，假设铭牌的区域信息为：a(1.5，2)，b(2，3)，椅背的区域信息为：c(1，5)，d(2.5，6)，则横坐标的最小值是1，最大值是2.5，纵坐标的最小值是2，最大值是6，则目标区域的区域信息可以为：e(1，2)，d(2.5，6)。

图2a所示的目标区域的检测方法，训练得到用于检测铭牌的区域信息和/或椅背的区域信息的模型，将目标视频帧输入该模型，得到目标视频帧中铭牌的区域信息和/或椅背的区域信息，根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息，从而在一个摄像装置拍摄的视频中实现了多位人员的目标区域的检测，也即实现了视频中人员所在区域的检测，为后续进行人员行为分析提供了具体的区域信息，摄像装置的配置费用大大降低；而且，通过一个视频就可以检测到多位人员所在区域，无需处理多个摄像装置拍摄的视频数据，降低了视频数据处理量。

参见图3，基于图2a所示的方法，如果步骤201中得到了目标视频帧中铭牌的区域信息，则本申请实施例目标区域的检测方法还可以进一步包括：

步骤301：根据铭牌的区域信息，对铭牌所在区域进行文字识别，得到铭牌对应的目标区域的人员信息。

其中，在对铭牌所在区域进行文字识别时，可以使用现有的文字识别方法实现，这里不赘述。

其中，步骤301和步骤202之间的执行顺序不限制，例如图3中以步骤202之后执行步骤301为例。

图3所示的目标区域的检测方法，在图2a所示方法的基础上，进一步获得了目标区域的人员信息使得后续的人员行为分析的结果更为详细。

图4为本申请行为分析方法一个实施例的流程图，如图4所示，该行为分析方法包括：

步骤401：将视频划分为视频片段；所述视频由位于目标区域前上方的摄像装置拍摄得到；

步骤402：对于一视频片段，获得该视频片段的至少一个目标视频帧中铭牌的区域信息和/或椅背的区域信息；所述目标视频帧是该视频片段中需要被处理的视频帧；根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息；

步骤403：根据获得的目标区域的区域信息确定该视频片段中目标区域的区域信息；

步骤404：根据该视频片段中目标区域的区域信息，进行下一视频片段中人员行为分析。

图4所示的行为分析方法，将视频划分为视频片段；所述视频由位于目标区域前上方的摄像装置拍摄得到，对于一视频片段，获得该视频片段的至少一个目标视频帧中铭牌的区域信息和/或椅背的区域信息，根据获得的目标区域的区域信息确定该视频片段中目标区域的区域信息，根据该视频片段中目标区域的区域信息，进行下一视频片段中人员行为分析，从而实现了同一视频内不同人员的行为分析，从而同一场景下可以仅配置很少的摄像装置甚至仅配置一台摄像装置，就完成多位人员的行为分析，无需配置过多摄像装置，降低了摄像装置的配置费用；另外，通过一个视频就可以实现多位人员的行为分析，无需处理多个摄像装置拍摄的视频数据，降低了视频数据处理量。

图5为本申请行为分析方法又一个实施例的流程图，如图5所示，该行为分析方法可以包括：

步骤501：将视频划分为视频片段。

具体如何进行视频划分，可以在实际应用中自主设定。划分的目的主要在于，在视频拍摄过程中人员出现走动等情况时，可以将这一情况出现的视频片段挑选出来，不进行行为分析，从而使得行为分析结果更为准确。

在一种可能的实现方式中，可以将视频划分为时间相同的视频片段。

在另一种可能的实现方式中，可以将视频划分为时间大致相同的视频片段。

在第三种可能的实现方式中，可以按照所拍摄场景下人员可能移动的时间阶段来对视频进行视频片段的划分，例如在开会的场景下，可能有一预设时间会让人员进行休息，那么可以将这一预设时间对应的视频划分为一个视频片段，其他时间的视频划分为时间相同或大致相同的视频片段，从而更为有效的对视频中的人员进行行为分析。

步骤502：对于一视频片段，获得视频片段的目标视频帧中每一人员的头肩区域信息。

其中，上述每一人员的头肩区域信息用于标识每一人员的头肩区域。

步骤502中的上述一视频片段可以是步骤501中划分得到的视频片段中的任一视频片段。

上述获得视频片段的目标视频帧中每一人员的头肩区域信息，可以包括：

预先训练用于检测人员的头肩区域信息的模型；

其中，预先训练用于检测人员的头肩区域信息的模型，可以包括：

获得标注了人员的头肩区域信息的图像作为样本；

本步骤中每一人员的头肩区域可以是矩形，则本步骤中的头肩区域信息可以是矩形的不相邻两个顶点的二维坐标。

步骤503：根据视频片段的目标视频帧中每一人员的头肩区域信息判断该视频片段是否有效；如果该视频片段有效，执行步骤504；如果该视频片段无效，执行步骤508。

其中，本步骤可以包括：

计算所有头肩区域位移的总和；

判断上述总和是否超过预设阈值，如果超过预设阈值，判断该视频片段无效；如果没有超过预设阈值，判断该视频片段有效。

在实际应用中，根据相邻两个目标视频帧中每一人员的头肩区域信息，计算相邻两个目标视频帧中同一人员的头肩区域位移具体可以包括：

根据每一人员的头肩区域信息，计算每一人员的头肩区域中心点信息；

根据相邻两个目标视频帧中每一人员的头肩区域中心点信息，计算相邻两个目标视频帧中同一人员的头肩区域位移。

通过这一步骤的判断，可以将人员出现较大位置移动的视频片段挑选出来，作为无效的视频片段，不作为下一个视频片段进行人员行为分析的依据。

步骤504：获得该视频片段的至少一个目标视频帧中铭牌的区域信息和/或椅背的区域信息。

本步骤中，具体选择该视频片段中哪些目标视频帧作为处理对象、以及目标视频帧的具体个数本申请并不限制，可以在实际应用中自主设定。

具体的，步骤504～步骤506的执行目的在于根据视频片段得到目标区域的区域信息，从而为下一视频片段的行为分析指定行为分析的具体目标区域。基于该目的，本步骤的最优实现为选择离下一视频片段最近的目标视频帧，也即当前视频片段最后一个目标视频帧作为处理对象，从而在步骤506中获得的目标区域的区域信息对于下一视频片段进行行为分析而言是最为准确的。但是，由于本申请实施例所实现场景是人员位置相对固定的场景，且步骤503中已经判断该视频片段中人员位移不大，因此，本步骤中在视频片段中选择任意一帧或多帧目标视频帧作为处理对象、在步骤506中得到目标区域的区域信息，与本步骤中只选择最后一个目标视频帧作为处理对象、在步骤506中得到的目标区域的区域信息，两者相比，同一目标区域的区域信息差别不大，对步骤507中下一视频片段中人员行为分析的分析结果产生的影响很小。

在一种可能的实现方式中，在对视频中第一个视频片段的第一个目标视频帧执行本步骤时，可以为每个铭牌的区域信息、每个椅背的区域信息分别设置标识码，之后，对于后续的每一个目标视频帧，通过执行本步骤获得铭牌的区域信息和/或椅背的区域信息时，可以通过与第一个目标视频帧中每个铭牌的区域信息、每个椅背的区域信息比较，将与第一个目标视频帧中区域信息大致相同的区域信息也即与第一个目标视频帧中区域信息误差小于预设阈值的区域信息，设置相同的标识码，从而便于对铭牌的区域信息、椅背的区域信息进行统一管理；同样的，也可以为后续出现的、大致相同的目标区域的区域信息设置同一标识码。

本步骤中获得一个目标视频帧中铭牌的区域信息和/或椅背的区域信息的方法可以参考步骤201中的相关说明，这里不赘述。

步骤505：对于上述至少一个目标视频帧中的每一目标视频帧，根据获得的铭牌的区域信息和/或椅背的区域信息确定目标视频帧中目标区域的区域信息。

本步骤的具体实现可以参考步骤202中的相关说明，这里不赘述。

步骤506：根据步骤505中获得的目标区域的区域信息确定该视频片段中目标区域的区域信息。

其中，如果步骤504中只选择了一个目标视频帧作为处理对象，那么本步骤中可以直接将步骤505中得到的目标区域的区域信息确定为该视频片段中目标区域的区域信息；

如果步骤504中选择了两个或两个以上的目标视频帧作为处理对象，那么本步骤中可以随机选择一个目标视频帧，将该目标视频帧中目标区域的区域信息确定为该视频片段中目标区域的区域信息；或者，本步骤中也可以根据至少两个目标视频帧中目标区域的区域信息来综合计算视频片段中目标区域的区域信息，具体的，

对于不同目标视频帧中区域信息的误差小于阈值的目标区域可以认为是同一目标区域，计算出同一目标区域在不同目标视频帧中的区域信息的平均值，视频片段中每个目标区域的区域信息均为计算出的平均区域信息值。而且，当步骤505中为大致相同的、目标区域的区域信息设置了同一标识码时，本步骤中可以直接按照标识码对多个目标视频帧中的同一标识码的区域信息计算平均值。

步骤507：根据步骤506中确定的目标区域的区域信息，进行下一视频片段中人员行为分析；本分支流程结束。

步骤508：获得该视频片段的上一视频片段中目标区域的区域信息；根据获得的上一视频片段中目标区域的区域信息，进行下一视频片段中人员行为分析；本分支流程结束。

当该视频片段为第一个视频片段时，本步骤中所述上一视频片段中目标区域的区域信息可以是预设的区域信息，也可以是缺省的区域信息，本申请并不限定。例如在会议的场景下，可以获得前一次会议中目标区域的区域信息作为预设的区域信息。

图5所示本发明实施例，实现了同一视频内不同人员的行为分析，从而同一场景下可以仅配置很少的摄像装置甚至仅配置一台摄像装置，无需配置过多摄像装置，降低了摄像装置的配置费用；无需处理过多摄像装置拍摄的视频数据，降低了视频数据处理量；而且，从视频中将人为位置变化较大的视频片段作为无效的视频片段，提高了人员行为分析的准确性。

图6a为本申请目标区域的检测装置一个实施例的结构示意图，如图6a所示，该装置600可以包括：

信息获得单元610，用于将目标视频帧输入用于检测铭牌的区域信息和/或椅背的区域信息的模型，得到所述目标视频帧中铭牌的区域信息和/或椅背的区域信息；所述用于检测铭牌的区域信息和/或椅背的区域信息的模型是通过将标注了铭牌的区域信息和/或椅背的区域信息的图像作为样本输入卷积神经网络模型进行训练得到的；所述目标视频帧是视频中需要被处理的视频帧，所述视频由位于目标区域前上方的摄像装置拍摄得到；

信息确定单元620，用于根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息。

在一种可能的实现方式中，所述信息确定单元620具体可以用于：

在另一种可能的实现方式中，所述信息确定单元620具体可以用于：

在又一种可能的实现方式中，所述信息确定单元620可以包括：

第一确定子单元，用于对于所述铭牌和所述椅背，按照区域信息的位置关系确定所述铭牌和所述椅背之间的对应关系；

第二获得子单元，用于对于具有对应关系的一对铭牌和椅背，根据该对铭牌和椅背的区域信息进行区域扩展，得到该对铭牌和椅背对应的目标区域的区域信息。

其中，所述区域信息是矩形不相邻两个顶点的二维坐标；第二获得子单元具体可以用于：

根据获得的横纵坐标值确定目标区域的区域信息。

参见图6b，该装置600还可以包括：

文字识别单元630，用于根据信息获得单元610获得的铭牌的区域信息，对铭牌所在区域进行文字识别，得到铭牌对应的目标区域的人员信息。

图6a和图6b所示的装置中，信息获得单元610将目标视频帧输入预先训练的用于检测铭牌的区域信息和/或椅背的区域信息的模型，得到目标视频帧中铭牌的区域信息和/或椅背的区域信息，信息确定单元620根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息，从而在一个摄像装置拍摄的视频中实现了多位人员的目标区域的检测，也即实现了视频中人员所在区域的检测，为后续进行人员行为分析提供了具体的区域信息，摄像装置的配置费用大大降低；另外，通过一个视频就可以检测到多位人员所在区域，无需处理多个摄像装置拍摄的视频数据，降低了视频数据处理量。

图7a为本申请行为分析装置一个实施例的结构示意图，如图7a所示，该装置700可以包括：

划分单元710，用于将视频划分为视频片段；所述视频由位于目标区域前上方的摄像装置拍摄得到；

第一信息获得单元720，用于对于一视频片段，获得该视频片段的至少一个目标视频帧中铭牌的区域信息和/或椅背的区域信息；所述目标视频帧是该视频片段中需要被处理的视频帧；根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息；

信息确定单元730，用于根据获得的目标区域的区域信息确定该视频片段中目标区域的区域信息；

行为分析单元740，用于根据该视频片段中目标区域的区域信息，进行下一视频片段中人员行为分析。

参见图7b所示，该装置700还可以包括：

第二信息获得单元750，用于对于一视频片段，获得视频片段的目标视频帧中每一人员的头肩区域信息；

判断单元760，用于根据第二信息获得单元获得的视频片段的目标视频帧中每一人员的头肩区域信息判断该视频片段是否有效；

第三信息获得单元770，用于如果判断单元760判断该视频片段无效，获得该视频片段的上一视频片段中目标区域的区域信息；

相应的，行为分析单元740还可以用于：根据第三信息获得单元770获得的上一视频片段中目标区域的区域信息，进行下一视频片段中人员行为分析；

第一信息获得单元720具体可以用于：如果判断单元760判断该视频片段有效，获得该视频片段的至少一个目标视频帧中铭牌的区域信息和/或椅背的区域信息；根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息。

其中，判断单元760可以包括：

位移计算子单元，用于根据相邻两个目标视频帧中每一人员的头肩区域信息，计算相邻两个目标视频帧中同一人员的头肩区域位移；

位移总和计算子单元，用于计算所有头肩区域位移的总和；

判断子单元，用于判断所述总和是否超过预设阈值，如果超过预设阈值，判断该视频片段无效；如果没有超过预设阈值，判断该视频片段有效。

其中，第二信息获得单元750可以包括：

训练子单元，用于预先训练用于检测人员的头肩区域信息的模型；

获得子单元，用于将目标视频帧输入上述用于检测人员的头肩区域信息的模型，得到目标视频帧中每一人员的头肩区域信息。

其中，训练子单元可以包括：

样本获得模块，用于获得标注了人员的头肩区域信息的图像作为样本；

模型获得模块，用于将所述样本输入卷积神经网络模型进行训练，得到用于检测人员的头肩区域信息的模型。

本申请实施例的装置中，划分单元710将视频划分为视频片段，第一信息获得单元720对于一视频片段，获得该视频片段的至少一个目标视频帧中铭牌的区域信息和/或椅背的区域信息，根据所述铭牌的区域信息和/或椅背的区域信息确定所述目标视频帧中目标区域的区域信息，信息确定单元730根据获得的目标区域的区域信息确定该视频片段中目标区域的区域信息，行为分析单元740根据该视频片段中目标区域的区域信息，进行下一视频片段中人员行为分析，从而实现了同一视频内不同人员的行为分析，同一场景下可以仅配置很少的摄像装置甚至仅配置一台摄像装置，无需配置过多摄像装置，降低了摄像装置的配置费用；无需处理过多摄像装置拍摄的视频数据，降低了视频数据处理量。

图6a～图7b所示的装置可以设置于摄像装置中；或者，图6a～图7b所示的装置可以设置于连接摄像装置的电子设备中；或者，图6a～图7b所示的装置可以部分设置于摄像装置中，部分设置于连接摄像装置的电子设备中；本申请并不限制。

可以理解的是，上述实施例中的部分或全部步骤骤或操作仅是示例，本申请实施例还可以执行其它操作或者各种操作的变形。此外，各个步骤可以按照上述实施例呈现的不同的顺序来执行，并且有可能并非要执行上述实施例中的全部操作。

应理解以上图6a～图7b所示的装置的各个单元或模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些单元或模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分单元或模块以软件通过处理元件调用的形式实现，部分单元或模块通过硬件的形式实现。例如，第二获得单元可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它单元或模块的实现与之类似。此外这些单元或模块全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些单元或模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些模块可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

图8为本申请电子设备一个实施例的结构示意图，如图8所示，所述电子设备可以包括：一个或多个处理器；存储器；以及一个或多个计算机程序。

其中，电子设备可以为移动终端(手机)，摄像机、照相机等摄像装置，智慧屏，无人机，智能网联车(Intelligent Connected Vehicle；以下简称：ICV)，智能(汽)车(smart/intelligent car)或车载设备等设备。

在一种实施例中，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行以下步骤：

其中一种可能的实现方式中，所述指令被所述设备执行时，使得所述设备执行根据所述铭牌的区域信息确定所述目标视频帧中各目标区域的区域信息的步骤包括：

其中一种可能的实现方式中，所述指令被所述设备执行时，使得所述设备执行根据所述椅背的区域信息确定所述目标视频帧中各目标区域的区域信息的步骤包括：

其中一种可能的实现方式中，所述指令被所述设备执行时，使得所述设备执行根据所述铭牌的区域信息和所述椅背的区域信息确定所述目标视频帧中各目标区域的区域信息的步骤包括：

其中一种可能的实现方式中，区域信息是矩形不相邻两个顶点的二维坐标，所述指令被所述设备执行时，使得所述设备执行所述根据该对铭牌和椅背的区域信息进行区域扩展，得到该对铭牌和椅背对应的目标区域的区域信息的步骤包括：

根据获得的横纵坐标值确定目标区域的区域信息。

其中一种可能的实现方式中，所述指令被所述设备执行时，使得所述设备执行所述获得目标视频帧中铭牌的区域信息之后，还包括：

根据铭牌的区域信息，对铭牌所在区域进行文字识别，得到铭牌对应的目标区域的人员信息。

在另一种实施例中，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行以下步骤：

其中一种可能的实现方式中，所述指令被所述设备执行时，使得所述设备执行所述获得该视频片段的至少一个目标视频帧中铭牌的区域信息和/或椅背的区域信息之前，还执行以下步骤：

其中一种可能的实现方式中，所述指令被所述设备执行时，使得所述设备执行根据视频片段的目标视频帧中每一人员的头肩区域信息判断该视频片段是否有效的步骤包括：

计算所有头肩区域位移的总和；

其中一种可能的实现方式中，所述指令被所述设备执行时，使得所述设备执行所述获得目标视频帧中每一人员的头肩区域信息的步骤包括：

预先训练用于检测人员的头肩区域信息的模型；

将目标视频帧输入所述用于检测人员的头肩区域信息的模型，得到目标视频帧中每一人员的头肩区域信息。

其中一种可能的实现方式中，所述指令被所述设备执行时，使得所述设备执行所述预先训练用于检测人员的头肩区域信息的模型的步骤包括：

获得标注了人员的头肩区域信息的图像作为样本；

图8所示的电子设备可以是终端设备也可以是内置于上述终端设备的电路设备。该设备可以用于执行本申请图2a～图5所示实施例提供的方法中的功能/步骤。

如图8所示，电子设备800包括处理器810和收发器820。可选地，该电子设备800还可以包括存储器830。其中，处理器810、收发器820和存储器830之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器830用于存储计算机程序，该处理器810用于从该存储器830中调用并运行该计算机程序。

上述存储器830可以是只读存储器(read-only memory，ROM)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(random access memory，RAM)或可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质等。

可选地，电子设备800还可以包括天线840，用于将收发器820输出的无线信号发送出去。

上述处理器810可以和存储器830可以合成一个处理装置，更常见的是彼此独立的部件，处理器810用于执行存储器830中存储的程序代码来实现上述功能。具体实现时，该存储器830也可以集成在处理器810中，或者，独立于处理器810。

除此之外，为了使得电子设备800的功能更加完善，该电子设备800还可以包括输入单元860、显示单元870、音频电路880、摄像头890和传感器801等中的一个或多个，所述音频电路还可以包括扬声器882、麦克风884等。其中，显示单元870可以包括显示屏。

可选地，上述电子设备800还可以包括电源850，用于给终端设备中的各种器件或电路提供电源。

应理解，图8所示的电子设备800能够实现本申请图1～图5所示实施例提供的方法的各个过程。电子设备800中的各个模块的操作和/或功能，分别为了实现上述方法实施例中的相应流程。具体可参见本申请图2a～图5所示方法实施例中的描述，为避免重复，此处适当省略详细描述。

应理解，图8所示的电子设备800中的处理器810可以是片上系统SOC，该处理器810中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(Graphics Processing Unit；以下简称：GPU)等。

总之，处理器810内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器830中。

本申请还提供一种电子设备，所述设备包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现本申请图2a～图5所示实施例提供的方法。

以上各实施例中，涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units；以下简称：NPU)和图像信号处理器(Image Signal Processing；以下简称：ISP)，该处理器还可包括必要的硬件加速器或逻辑处理硬件电路，如ASIC，或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储介质中。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行本申请图2a～图5所示实施例提供的方法。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，当其在计算机上运行时，使得计算机执行本申请图2a～图5所示实施例提供的方法。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域普通技术人员可以意识到，本文中公开的实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种目标区域的检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述铭牌的区域信息和所述椅背的区域信息确定所述目标视频帧中各目标区域的区域信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述区域信息是矩形不相邻两个顶点的二维坐标；所述根据该对铭牌和椅背的区域信息进行区域扩展，得到该对铭牌和椅背对应的目标区域的区域信息，包括：

根据获得的横纵坐标值确定目标区域的区域信息。

4.一种行为分析方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，所述获得该视频片段的至少一个目标视频帧中铭牌的区域信息和/或椅背的区域信息之前，还包括：

6.根据权利要求5所述的方法，其特征在于，根据视频片段的目标视频帧中每一人员的头肩区域信息判断该视频片段是否有效，包括：

计算所有头肩区域位移的总和；

7.根据权利要求5或6所述的方法，其特征在于，所述获得目标视频帧中每一人员的头肩区域信息，包括：

预先训练用于检测人员的头肩区域信息的模型；

8.一种目标区域的检测装置，其特征在于，包括：

9.一种行为分析装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

一个或多个处理器；存储器；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行以下步骤：

11.一种电子设备，其特征在于，包括：

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-7任一项所述的方法。