CN112989986A

CN112989986A - 用于识别人群行为的方法、装置、设备以及存储介质

Info

Publication number: CN112989986A
Application number: CN202110253936.5A
Authority: CN
Inventors: 刘宗帅
Original assignee: Beijing Jingdong Qianshi Technology Co Ltd
Current assignee: Beijing Jingdong Qianshi Technology Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-18

Abstract

本申请公开了用于识别人群行为的方法、装置、设备以及存储介质，涉及计算机视觉领域。具体实现方案为：获取目标视频，目标视频包括人群；确定目标视频中相邻两个视频帧之间的差异；根据各帧间差异以及预先训练的行为识别模型，预测目标视频中人群的行为。本实现方式能够快速有效地识别人群的行为，为智慧安防提供技术支撑。

Description

用于识别人群行为的方法、装置、设备以及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及计算机视觉领域，尤其涉及用于识别人群行为的方法、装置、设备以及存储介质。

背景技术

随着计算机视觉和人工智能的飞速发展和应用，视频分析技术得到蓬勃兴起并广泛应用于人类生活的诸多领域之中，如智慧安防、人机交互、智能家居和智慧医疗等。而随着中国城市社区视频监控系统的不断完善，智慧社区也成为当下社会管理创新的一种新模式。视频监控具有非入侵、监视范围大、采集信息丰富直观等优点，同其它防控手段相比更具优势。在广场、车站等以行人为主要监控对象的公共场所，利用计算机自动分析场景、感知环境态势，是有效检测、防范突发事件和保障公共安全的重要辅助手段。

发明内容

提供了一种用于识别人群行为的方法、装置、设备以及存储介质。

根据第一方面，提供了一种用于识别人群行为的方法，包括：获取目标视频，目标视频包括人群；确定目标视频中相邻两个视频帧之间的差异；根据各帧间差异以及预先训练的行为识别模型，预测目标视频中人群的行为。

根据第二方面，提供了一种用于识别人群行为的装置，包括：视频获取单元，被配置成获取目标视频，目标视频包括人群；差异确定单元，被配置成确定目标视频中相邻两个视频帧之间的差异；行为识别单元，被配置成根据各帧间差异以及预先训练的行为识别模型，预测目标视频中人群的行为。

根据第三方面，提供了一种用于识别人群行为的电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，上述指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面所描述的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，上述计算机指令用于使计算机执行如第一方面所描述的方法。

根据第五方面，一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如第一方面所描述的方法。

根据本申请的技术提供了一种人群行为识别方法，能够快速有效地识别人群的行为，为智慧安防提供技术支撑。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于识别人群行为的方法的一个实施例的流程图；

图3是根据本申请的用于识别人群行为的方法的一个应用场景的示意图；

图4是根据本申请的用于识别人群行为的方法的另一个实施例的流程图；

图5是根据本申请的用于识别人群行为的装置的一个实施例的结构示意图；

图6是用来实现本申请实施例的用于识别人群行为的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于识别人群行为的方法或用于识别人群行为的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括监控设备101、终端设备102、网络103和服务器104。网络104用以在监控设备101、终端设备102和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

监控设备101可以安装在各种公共场所，例如商场、车站、广场等处。监控设备101可以实时采集公共场所处人群的视频，并通过网络将采集的视频发送给终端设备102或服务器104处。

终端设备102可以分别与监控设备101或服务器104交互。终端设备102可以连接有显示屏幕，并安装有各种视频播放类应用，这样终端设备102可以显示监控设备101所采集的视频。用户可以通过终端设备102观看上述视频。

终端设备102可以是硬件，也可以是软件。当终端设备102为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备102为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器104可以是提供各种服务的服务器，例如对监控设备101所采集的视频进行处理的后台服务器。后台服务器可以对视频进行各种处理分析，得到人群行为，并将人群行为反馈给终端设备102。

需要说明的是，服务器104可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器104为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的用于识别人群行为的方法一般由服务器104执行。相应地，用于识别人群行为的装置一般设置于服务器104中。

应该理解，图1中的监控设备、终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的监控设备、终端设备、网络和服务器。

继续参考图2，示出了根据本申请的用于识别人群行为的方法的一个实施例的流程200。本实施例的用于识别人群行为的方法，包括以下步骤：

步骤201，获取目标视频。

本实施例中，用于识别人群行为的方法的执行主体(例如图1所示的服务器104)可以通过各种方式获取目标视频。这里，目标视频可以是监控设备(例如图1所示的监控设备101)采集的包括人群的视频。例如，目标视频可以是监控设备采集的公共场所的视频。

步骤202，确定目标视频中相邻两个视频帧之间的差异。

执行主体可以对目标视频进行分析，确定目标视频中相邻两个视频帧之间的差异。具体的，执行主体可以确定每个视频帧中每个像素的像素值。然后，将后一视频帧中各像素的像素值与前一视频帧对应像素的像素值相减，即可得到相邻两个视频帧之间的差异。或者，执行主体如果确定上述像素值之差大于预设阈值，可以以1表示该像素点对应的值。否则，以0表示该像素点对应的值。可以理解的是，如果像素点对应的值为0表示两个像素无明显的差异。上述差异可以以向量的形式表示，也可以以矩阵的形式表示。

步骤203，根据各帧间差异以及预先训练的行为识别模型，预测目标视频中人群的行为。

执行主体在得到各帧间差异后，可以将各帧间差异依次输入预先训练的行为识别模型，将行为识别模型的输出作为预测得到的目标视频中人群的行为。本实施例中，上述行为识别模型用于表征帧间差异与人群行为的对应关系。行为识别模型可以是各种网络，例如，卷积神经网络等等。

继续参见图3，其示出了根据本申请的用于识别人群行为的方法的一个应用场景的示意图。在图3的应用场景中，监控设备301将采集的路口的视频发送给服务器302。服务器302在接收到上述视频后，可以首先确定视频中相邻两个视频帧之间的差异。然后结合预先训练的行为识别模型，预测得到人群行为。并将识别到的人群行为发送给终端设备303。

本申请的上述实施例提供的用于识别人群行为的方法，可以通过目标视频中相邻两个视频帧之间的差异以及预先训练的行为识别模型，快速有效地识别出人群行为。

继续参见图4，其示出了根据本申请的用于识别人群行为的方法的另一个实施例的流程400。如图4所示，本实施例的方法可以包括以下步骤：

步骤401，获取目标视频。

步骤402，对目标视频中的各视频帧进行灰度处理，得到灰度视频帧序列。

本实施例中，执行主体在获取目标视频后，可以对目标视频中的各视频帧进行灰度处理，得到灰度视频帧序列。可以理解的是，灰度视频帧序列中的各视频帧的排列顺序与目标视频中各视频帧的排列顺序一致。

步骤403，对灰度视频帧序列中的各灰度视频帧进行归一化处理。

执行主体在得到灰度视频帧序列后，可以对各灰度视频帧进行归一化处理。归一化后后各视频帧的像素点对应的值位于0～1之间。

步骤404，确定归一化后灰度视频帧序列中相邻两个视频帧之间的差异。

在归一化后，执行主体可以对上述序列中相邻的两个视频帧之间的差异。

步骤405，对帧间差异进行降噪处理。

执行主体在确定各帧间差异后，还可以对帧间差异进行降噪，以提高帧间差异的准确性。

步骤406，根据各帧间差异以及预先训练的行为识别模型，预测目标视频中人群的行为。

执行主体可以将各帧间差异输入预先训练的行为识别模型，预测目标视频中人群的行为。行为识别模型可以为卷积神经网络，例如可以是基于LeNet5的网络。本实施例中，行为识别模型可以包括输入层、卷积层、子采样层、完全连接层、分类层和输出层。具体的，行为识别模型可以包括2个卷积层和2个子采样层。卷积层可以是全连接的卷积层。2个卷积层之间有1个子采样层。并且卷积层未设置增益和偏置参数。也就是说，卷积层的输出可以直接用作子采样层的输入，不需要增加偏置并通过S型函数进行映射。子采样层可以实现最大池化。分类层可以为softmax层。

在训练行为识别模型时，可以首先获取训练样本视频，训练样本视频中可以包括人群图像以及各人群图像对应的行为标签。上述标签可以包括正常人群走动、异常人群撤退和异常人群飞来飞去。

然后对训练样本视频中的各图像进行灰度处理，然后进行归一化处理。归一化后的图像用于模型训练时可以增加梯度下降过程中的收敛性。计算得到的图像序列中各相邻视频帧的差异。将差异作为输入，将对应的行为标签作为期望输出，训练得到上述行为识别模型。

步骤407，响应于确定人群的行为指示异常事件，输出预警信息。

执行主体可以根据行为视频模型的输出判断是否有异常事件。如果有异常事件，则输出预警信息。上述预警信息可以包括位置、时间、人群数量等等。

本申请的上述实施例提供的用于识别人群行为的方法，可以通过帧间差异提取场景中原始的运动信息，然后通过基于LeNet5的网络自动选择最有效的功能，可以实现准确、有效、快速地识别人群行为。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于识别人群行为的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于识别人群行为的装置500包括：视频获取单元501、差异确定单元502和行为识别单元503。

视频获取单元501，被配置成获取目标视频，目标视频包括人群。。

差异确定单元502，被配置成确定目标视频中相邻两个视频帧之间的差异。

行为识别单元503，被配置成根据各帧间差异以及预先训练的行为识别模型，预测目标视频中人群的行为。

在本实施例的一些可选的实现方式中，装置500还可以进一步包括图5中未示出的信息输出单元，被配置成：响应于确定人群的行为指示异常事件，输出预警信息。

在本实施例的一些可选的实现方式中，差异确定单元502可以进一步被配置成：对目标视频中的各视频帧进行灰度处理，得到灰度视频帧序列；确定灰度视频帧序列中相邻两个视频帧之间的差异。

在本实施例的一些可选的实现方式中，差异确定单元502可以进一步被配置成：对灰度视频帧序列中的各灰度视频帧进行归一化处理；确定归一化后灰度视频帧序列中相邻两个视频帧之间的差异。

在本实施例的一些可选的实现方式中，装置500还可以进一步包括图5中未示出的降噪单元，被配置成：对帧间差异进行降噪处理。

应当理解，用于识别人群行为的装置500中记载的单元501至单元503分别与参考图2中描述的方法中的各个步骤相对应。由此，上文针对用于识别人群行为的方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。

根据本申请的实施例，本申请还提供了还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了根据本申请实施例的执行用于识别人群行为的方法的电子设备600的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，设备600包括处理器601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储器608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM603中，还可存储设备600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。I/O接口(输入/输出接口)605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储器608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器601可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器601执行上文所描述的各个方法和处理，例如用于识别人群行为的方法。例如，在一些实施例中，用于识别人群行为的方法可被实现为计算机软件程序，其被有形地包含于机器可读存储介质，例如存储器608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由处理器601执行时，可以执行上文描述的用于识别人群行为的方法的一个或多个步骤。备选地，在其他实施例中，处理器601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行用于识别人群行为的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。上述程序代码可以封装成计算机程序产品。这些程序代码或计算机程序产品可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器601执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读存储介质可以是机器可读信号存储介质或机器可读存储介质。机器可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学存储设备、磁存储设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(“Virtual Private Server”，或简称“VPS”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于识别人群行为的方法，其特征在于，包括：

获取目标视频，所述目标视频包括人群；

确定所述目标视频中相邻两个视频帧之间的差异；

根据各帧间差异以及预先训练的行为识别模型，预测所述目标视频中人群的行为。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于确定所述人群的行为指示异常事件，输出预警信息。

3.根据权利要求1所述的方法，其特征在于，所述确定所述目标视频中相邻两个视频帧之间的差异，包括：

对所述目标视频中的各视频帧进行灰度处理，得到灰度视频帧序列；

确定所述灰度视频帧序列中相邻两个视频帧之间的差异。

4.根据权利要求3所述的方法，其特征在于，所述确定所述灰度视频帧序列中相邻两个视频帧之间的差异，包括：

对所述灰度视频帧序列中的各灰度视频帧进行归一化处理；

确定归一化后灰度视频帧序列中相邻两个视频帧之间的差异。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述帧间差异进行降噪处理。

6.一种用于识别人群行为的装置，其特征在于，包括：

视频获取单元，被配置成获取目标视频，所述目标视频包括人群；

差异确定单元，被配置成确定所述目标视频中相邻两个视频帧之间的差异；

行为识别单元，被配置成根据各帧间差异以及预先训练的行为识别模型，预测所述目标视频中人群的行为。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括信息输出单元，被配置成：

响应于确定所述人群的行为指示异常事件，输出预警信息。

8.根据权利要求6所述的装置，其特征在于，所述差异确定单元进一步被配置成：

确定所述灰度视频帧序列中相邻两个视频帧之间的差异。

9.根据权利要求8所述的装置，其特征在于，所述差异确定单元进一步被配置成：

对所述灰度视频帧序列中的各灰度视频帧进行归一化处理；

10.根据权利要求6所述的装置，其特征在于，所述装置还包括降噪单元，被配置成：

对所述帧间差异进行降噪处理。

11.一种执行用于识别人群行为的方法的电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。