CN109389089B

CN109389089B - 基于人工智能算法的多人行为识别方法及装置

Info

Publication number: CN109389089B
Application number: CN201811193323.1A
Authority: CN
Inventors: 赵景程
Original assignee: Shenzhen Nesun Technology Co ltd
Current assignee: Shenzhen Nesun Technology Co ltd
Priority date: 2018-10-14
Filing date: 2018-10-14
Publication date: 2022-03-08
Anticipated expiration: 2038-10-14
Also published as: CN109389089A

Abstract

本申请公开了一种基于人工智能算法的多人行为识别方法及装置。包括：接收待处理图像信息后，检测其中每个人对应连续N帧画面中的位置坐标；基于每个人对应连续N帧画面中的位置坐标所对应图像计算每个人的特征图；基于每个人对应的特征提取每个人对应的候选时序；根据候选时序从候选时序对应个人的特征图中提取候选时序对应的特征图；根据候选时序对应的特征图确定候选时序对应人的行为，以及根据候选时序对应的特征图和候选时序对应人的连续N帧画面中的位置坐标确定行为发生位置坐标，以及根据候选时序确定候选时序对应人的行为发生时间。本申请能够解决无法对同时出现的多个人行为进行识别，并且无法确定出行为发生时间，从而不能确定出人的精确行为的问题。

Description

基于人工智能算法的多人行为识别方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种行为确定的方法及装置。

背景技术

随着计算机技术的发展，通过计算机确定人体行为已经得到广泛的应用，例如，可以应用在智能视频监控，病人监护系统，智能家居等场景中，所以如何通过计算机准确确定人的行为成为研究的热门。行为确定的方式通常为从一段视频或者图像序列中自动识别出其中人体进行的行为，目前可以基于动态骨骼的动作识别方法实现。该方法通过将图卷积网络扩展到时空图模型，设计用于行为识别的骨骼序列通用表示，对视频或图像序列进行姿态估计，并在骨骼序列上构建时空图，然后对其应用多层时空图卷积等操作处理，来实现对行为的确定。

但是，上述方法只能对包括单个人的视频或者图像序列中的行为进行确定，无法对其中同时出现多个人的视频或者图像序列中的行为进行识别，并且也无法确定出行为发生时间，从而不能确定出人的准确行为。

发明内容

本申请提供了一种基于人工智能算法的多人行为识别方法及装置，能够解决现有技术无法对同时出现多个人的视频或者图像序列中进行行为识别，并且无法确定出行为发生时间，从而不能准确确定出人的行为的问题。

第一方面，本申请提供了一种行为确定的方法，包括：

接收待处理图像信息，所述待处理图像信息包括视频和连续图像；

检测所述待处理视频中每个人对应连续N帧画面中的位置坐标；

基于所述每个人对应连续N帧画面中的位置坐标所对应图像计算所述每个人的特征图，所述特征图为所述特征图所对应人在时间维度和空间维度能够区分其他人的图像，其中N为正整数，N取值为不小于计算一次所述每个人的特征图所需图像的数量；

基于所述每个人对应的特征提取所述每个人对应的候选时序；

根据所述候选时序从所述候选时序对应个人的特征图中提取所述候选时序对应的特征图；

根据所述候选时序对应的特征图确定所述候选时序对应人的行为，以及根据所述候选时序对应的特征图和所述候选时序对应人的连续N帧画面中的位置坐标确定所述行为发生位置坐标，以及根据所述候选时序确定所述候选时序对应人的行为发生时间。

本申请实施例中，可以对待处理图像信息中的所有人进行检测，并同时对每个人的行为进行识别，不仅可以确定出每个人的行为，还可以确定出每个人行为的发生时间，从而可以实现对每个人行为的准确确定。

结合第一方面，在第一方面的第一种可能的实施方式中，所述检测所述待处理图像信息中每个人对应连续N帧画面中的位置坐标，包括：

检测所述待处理图像信息所包括每帧图像中所有人的位置坐标；

将所述每帧图像中所有人中的同一个人进行关联，得出所述待处理图像信息中每个人对应连续N帧画面中的位置坐标。

结合第一方面或第一方面的第一种可能的实施方式，在第一方面的第二种可能的实施方式中，所述基于所述每个人对应的特征提取所述每个人对应的候选时序，包括：

通过预设候选时序和所述每个人对应的特征提取所述每个人对应的第一候选时序，所述预设候选时序为根据人的行为规律预先估计的候选时序；

基于非极大值抑制算法从所述第一候选时序中确定出所述每个人对应的候选时序。

结合第一方面，在第一方面的第三种可能的实施方式中，所述根据所述候选时序对应的特征图确定所述候选时序对应人的行为，包括：

对所述候选时序对应的特征图进行池化；

根据池化后的特征图和预设行为分类器确定所述候选时序对应人的行为。

结合第一方面或第一方面的第一种可能的实施方式，在第一方面的第四种可能的实施方式中，所述每个人对应连续N帧画面中的位置坐标包括每个人对应多个连续N帧画面中的位置坐标；

所述基于所述每个人对应连续N帧画面中的位置坐标所对应图像计算所述每个人的特征图，包括：

基于所述每个人对应多个连续N帧画面中的位置坐标计算所述每个人对应的多个特征图。

第二方面，本申请提供了一种行为确定的装置，包括用于实现本申请第一方面及第一方面的任一种实现方式中的方法的功能单元。

第三方面，本申请提供了一种行为确定的设备，包括：处理器和存储器；

所述存储器用于存储计算机程序代码，所述计算机程序代码包括指令；

所述处理器用于执行所述指令，以使所述行为确定的设备实现如第一方面或第一方面的任一种实施方式所述的方法。

第四方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如第一方面或第一方面的任一种实施方式所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1是根据本申请实施例提供的一种基于人工智能算法的多人行为识别方法的示意性流程图；

图2是根据本申请实施例提供的一种基于人工智能算法的多人行为识别装置的示意框图；

图3是根据本申请实施例提供的一种行为识别的设备的示意框图。

具体实施方式

在不冲突的情况下，本申请中的各实施例及各实施例中的不同特征可以相互组合。

本申请一实施例提供了一种基于人工智能算法的多人行为识别方法，如图1所示，该方法包括以下步骤。

101，接收待处理图像信息。

其中，待处理图像信息包括视频和连续图像。例如，待处理图像信息可以为一段离线视频，也可以为摄像头实时拍摄的视频，或者可以为从视频中提取的每一帧相互连续的多帧图像，即连续图像。待处理图像信息可以包括一个人也可以包括至少两个人。

需要说明的是，待处理图像信息为连续图像时，为了能够执行后续步骤，图像的数量需要能够满足需求。

102，检测待处理图像信息中每个人对应连续N帧画面中的位置坐标。

其中，本申请实施例可以确定待处理图像信息中每个人的行为，所以需要对待处理图像信息中每个人进行检测。

作为本申请实施例的一种实施方式，步骤102可以具体执行为：检测待处理图像信息所包括每帧图像中所有人的位置坐标；将每帧图像中所有人中的同一个人进行关联，得出待处理图像信息中每个人对应连续N帧画面中的位置坐标。

本申请实施例中需要对待处理图像信息中每个人进行检测，所以待处理图像信息中每一帧图像均需进行检测，并且需要检测出所有人的位置坐标。在得到所有人的位置坐标后，可以对各帧图像中同一个人进行关联，得出对应每个人行为的连续多帧画面，进而根据检测得到的位置坐标，可以得出每个人在此连续多帧画面中的位置坐标。

对各帧图像中同一个人进行关联可以通过多种方法实现，例如可以使用多目标跟踪算法实现。具体可以为，在不同帧图像中检测到同一个人时都使用唯一标识，然后可以通过此唯一的标识关联起不同帧图像中的同一个人。

本申请实施例中N的取值通常可以根据需求来设定。例如在后续步骤中需要对同一个人的连续图像进行处理才能准确确定此人的行为，所以本步骤N的取值需要至少满足后续步骤的需求。由于本步骤中得出每个人对应连续N帧画面中的位置坐标，所以若待处理图像信息为连续图像时，图像的数量需要至少为N帧。

本申请实施例中位置坐标可以通过多种方式实现，如可以通过矩形框位置坐标实现。例如，对于视频中的第i个人，可以使用如公式(1)所示坐标。

在公式(1)中，i表示大于等于1且小于等于m的正整数，m表示待处理图像信息中包括的总人数，

表示矩形框坐标中左上点的坐标，

表示矩形框坐标中右下点的坐标。如此通过公式(1)中左上点的坐标和右下点的坐标，可以确定出矩形框的位置，即确定出图像中人的位置坐标。

再例如，对于视频中的第i个人，可以使用如公式(2)所示坐标。

在公式(2)中，i表示大于等于1且小于等于m的正整数，m表示待处理图像信息中包括的总人数，

表示矩形框坐标中左上点的坐标，w表示矩形框的宽，h表示矩形框的高。如此通过公式(2)中左上点的坐标、矩形框的宽和矩形框的高，可以确定出矩形框的位置，即确定出图像中人的位置坐标。

作为本申请实施例的又一种实施方式，本步骤检测得到的每个人对应连续N帧画面中的位置坐标可以包括每个人对应多个连续N帧画面中的位置坐标。

由于一段视频通常会包括很多帧画面，例如，如果按照电影1秒播放24帧的标准，监控摄像头所拍摄的视频1面基本可以播放24帧，所以本步骤中对于某一个人来说可以得到连续N帧画面中的位置坐标。

需要说明的是，本申请实施例中，在执行步骤102之前，还可以对待处理图像信息进行预处理，以便于减少本步骤执行的误差，提高行为确定的准确率。具体预处理可以包括图像去噪、图像增强等。

103，基于每个人对应连续N帧画面中的位置坐标所对应图像计算每个人的特征图。

其中，特征图为特征图所对应人在时间维度和空间维度能够区分其他人的图像，其中N为正整数，N取值为不小于计算一次特征图所需图像的数量。

在步骤102中得到了每一个人对应连续N帧画面中的位置坐标，本步骤依次将每个人对应连续N帧画面中的位置坐标所对应图像计算每个人的特征图。特征图为每个人在时间维度和空间维度具有区分性的图像。

本步骤可以基于神将网络算法实现，例如可以使用三维卷积神经网络，实现可以同时在时间和空间上进行卷积操作，从而得出特征图。由于不同三维卷积神经网络执行时要求一次输入图像的帧数量不同，有的三维卷积神经网络需要一次输入7帧图像，有的三维卷积神经网络需要一次输入16帧图像，所以本步骤使用三维卷积神经网络要求一次输入图像的帧数量为多少，则N取值为多少。本步骤中所使用的三维卷积神经网络通常需要预先训练后再使用。

作为本申请实施例的又一种实施方式，步骤102得出的每个人对应连续N帧画面中的位置坐标可以包括每个人对应多个连续N帧画面中的位置坐标，此时本步骤在执行时需要依次对每个人的多个连续N帧画面中的位置坐标对应图像进行计算，即具体执行为：基于每个人对应多个连续N帧画面中的位置坐标对应图像计算所述每个人对应的多个特征图。

104，基于每个人对应的特征提取每个人对应的候选时序。

其中，在步骤103计算出每个人的特征图后，可以基于特征图提取出每个人对应的候选时序。

作为本申请实施例的又一种实施方式，本步骤可以具体执行为：通过预设候选时序和所述每个人对应的特征提取每个人对应的第一候选时序，预设候选时序为根据人的行为规律预先估计的候选时序；基于非极大值抑制算法从所述第一候选时序中确定出所述每个人对应的候选时序。

本步骤中可以预先设置候选时序，即通过估计等方式可以得出人在某时间段内可能会出现的某种行为特征，从而可以估计出人的候选时序，即预设候选时序为根据人的行为规律预先估计的候选时序。通过每个人对应的特征与预设候选时序进行比较可以得出每个人对应的第一候选时序后，还可以对第一候选时序在进行处理，即使用非极大值抑制算法从第一候选时序中确定出更精确的候选时序，以保证确定行为的准确性。

105，根据候选时序从候选时序对应人的特征图中提取候选时序对应的特征图。

其中，步骤103中得出每个人的特征图，本步骤可以根据候选时序对应的特征图提取出来，得到候选时序对应的特征图。本步骤可以通过3D(3维)感兴趣区域来实现。

106，根据候选时序对应的特征图确定候选时序对应人的行为，以及根据候选时序对应的特征图和候选时序对应人的连续N帧画面中的位置坐标确定行为发生位置坐标，以及根据候选时序确定候选时序对应人的行为发生时间。

其中，在步骤105得出候选时序对应的特征图后，可以通过候选时序对应的特征图得出对应人的行为。以及候选时序对应的特征图再结合候选时序对应人在各帧画面的位置坐标，即步骤102中得出的连续N帧画面中的位置坐标，可以得出行为发生位置坐标。在步骤104中得出每个人对应的候选时序，则根据候选时序确定候选时序对应人的行为发生时间。

作为本申请实施例的又一种实施方式，本步骤中确定候选时序对应人的行为可以执行为：对所述候选时序对应的特征图进行池化；根据池化后的特征图和预设行为分类器确定所述候选时序对应人的行为。

具体的，本步骤中可以先对步骤105得出候选时序对应的特征图进行池化处理，然后通过全连接层将池化后的结果输入预设行为分类器，通过预设行为分类器确定人的行为。预设行为分类器可以具体为随机森林分类器，通常为预先训练后使用。

本申请实施例中，由于可以对待处理图像信息中的所有人进行检测，并同时对每个人的行为进行识别，不仅可以确定出每个人的行为，还可以确定出每个人行为的发生时间，从而可以实现对每个人行为的准确确定。

图2是根据本申请实施例提供的一种基于人工智能算法的多人行为识别装置200的示意性框图。如图2所示，该行为识别装置200包括：

接收单元201，用于接收待处理图像信息，所述待处理图像信息包括视频和连续图像；

检测单元202，用于检测所述待处理图像信息中每个人对应连续N帧画面中的位置坐标；

计算单元203，用于基于所述每个人对应连续N帧画面中的位置坐标所对应图像计算所述每个人的特征图，所述特征图为所述特征图所对应人在时间维度和空间维度能够区分其他人的图像，其中N为正整数，N取值为不小于计算一次所述每个人的特征图所需图像的数量；

提取单元204，用于基于所述每个人对应的特征提取所述每个人对应的候选时序；

所述提取单元204，还用于根据所述候选时序从所述候选时序对应人的特征图中提取所述候选时序对应的特征图；

确定单元205，用于根据所述候选时序对应的特征图确定所述候选时序对应人的行为，以及根据所述候选时序对应的特征图和所述候选时序对应人的连续N帧画面中的位置坐标确定所述行为发生位置坐标，以及根据所述候选时序确定所述候选时序对应人的行为发生时间。

可以理解的是，所述检测单元202，具体用于：

可以理解的是，所述提取单元204，具体用于：

可以理解的是，所述确定单元205，具体用于：

对所述候选时序对应的特征图进行池化；

可以理解的是，所述每个人对应连续N帧画面中的位置坐标包括每个人对应多个连续N帧画面中的位置坐标；

所述计算单元203，具体用于：

根据本申请实施例的行为识别装置200，可对应于根据本申请实施例的行为识别方法中的执行主体，并且行为识别装置200中的各个模块分别为了实现图1所示方法中的相应流程，为了简洁，在此不再赘述。

图3是根据本申请实施例的一种行为识别设备300的示意性框图。如图3所示，设备300包括处理器301、存储器302和通信接口303，通信接口303用于与外部设备通信。

处理器301可以包括中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或其组合。处理器301还可以进一步包括硬件芯片，例如专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。处理器301中的各电路可以是独立的，也可以集成在一个或多个芯片中。

存储器301可以是独立的器件也可以集成在处理器301中。存储器301可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)。存储器301也可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flashmemory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)。存储器301还可以包括上述种类的存储器的任意组合。

存储器302可以用于存储待处理图像信息；可选地，存储器302还用于存储计算机程序指令，处理器301执行所述存储器302存储的计算机程序指令，实现上面图1所示的方法。

通信接口303可以为可以是无线接口或有线接口，设备300可以通过通信接口303与外部通信，例如通过通信接口303实现图1所示实施例中的步骤101所执行的内容。

设备300还可以包括总线304，总线304用于连接处理器301、存储器302和通信接口303，使处理器301、存储器302和通信接口303通过总线304进行相互通信。

在一个实施方式中，所述存储器302用于存储程序代码，所述处理器301用于调用所述程序代码以实现图1中所示的相关功能和步骤。

在上述实施例中，可以全部或部分地通过软件、硬件或者其组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、双绞线、光纤)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如固态硬盘)等。

Claims

1.基于人工智能算法的多人行为识别方法，其特征在于，包括：

检测所述待处理图像信息所包括的每帧图像中所有人的位置坐标；

将所述每帧图像中所有人中的同一个人进行关联，得出所述待处理图像信息中每个人对应连续N帧画面中的位置坐标；对于每个人，基于该人对应的连续N帧画面中的位置坐标，对该人对应的连续N帧画面中的位置坐标所对应的图像，计算所述每个人在时间维度和空间维度上能够区分其他人的特征图，得到该人对应的时空特征图，其中N为正整数，N取值为不小于计算一次所述每个人的特征图所需图像的数量；

基于所述每个人对应的时空特征图提取所述每个人对应的候选时序；

对于每个人，根据所述候选时序从所述候选时序对应人的时空特征图中提取所述候选时序对应的特征图；

2.根据权利要求1所述的方法，其特征在于，所述基于所述每个人对应的时空特征图提取所述每个人对应的候选时序，包括：

通过预设候选时序和所述每个人对应的时空特征图提取所述每个人对应的第一候选时序，所述预设候选时序为根据人的行为规律预先估计的候选时序；

3.根据权利要求1所述的方法，其特征在于，所述根据所述候选时序对应的特征图确定所述候选时序对应人的行为，包括：

对所述候选时序对应的特征图进行池化；

4.根据权利要求1所述的方法，其特征在于，所述每个人对应连续N帧画面中的位置坐标包括每个人对应多个连续N帧画面中的位置坐标；

对于每个人，所述对该人对应的连续N帧画面中的位置坐标所对应的图像，计算所述每个人在时间维度和空间维度上能够区分其他人的特征图，得到该人对应的时空特征图，包括：

基于每个人对应多个连续N帧画面中的位置坐标，计算所述每个人对应的多个时空特征图。

5.基于人工智能算法的多人行为识别装置，其特征在于，包括：

接收单元，用于接收待处理图像信息，所述待处理图像信息包括视频和连续图像；

检测单元，用于检测所述待处理图像信息所包括的每帧图像中所有人的位置坐标，将所述每帧图像中所有人中的同一个人进行关联，得出所述待处理图像信息中每个人对应连续N帧画面中的位置坐标；

计算单元，用于对于每个人，基于该人对应连续N帧画面中的位置坐标，对该人对应的连续N帧画面中的位置坐标所对应的图像，计算所述每个人在时间维度和空间维度上能够区分其他人的特征图，得到该人对应的时空特征图，其中N为正整数，N取值为不小于计算一次所述每个人的特征图所需图像的数量；

提取单元，用于基于所述每个人对应的时空特征图提取所述每个人对应的候选时序；

所述提取单元，还用于对于每个人，根据所述候选时序从所述候选时序对应人的时空特征图中提取所述候选时序对应的特征图；

确定单元，用于根据所述候选时序对应的特征图确定所述候选时序对应人的行为，以及根据所述候选时序对应的特征图和所述候选时序对应人的连续N帧画面中的位置坐标确定所述行为发生位置坐标，以及根据所述候选时序确定所述候选时序对应人的行为发生时间。

6.根据权利要求5所述的装置，其特征在于，所述提取单元，具体用于：

通过预设候选时序和所述每个人对应的时空特征图提取所述每个人对应的第一候选时序，预设候选时序为根据人的行为规律预先估计的候选时序；

7.根据权利要求5所述的装置，其特征在于，所述确定单元，具体用于：

对所述候选时序对应的特征图进行池化；

8.根据权利要求5所述的装置，其特征在于，所述每个人对应连续N帧画面中的位置坐标包括每个人对应多个连续N帧画面中的位置坐标；

所述计算单元，具体用于：