CN110751034A

CN110751034A - 行人行为识别方法及终端设备

Info

Publication number: CN110751034A
Application number: CN201910871473.1A
Authority: CN
Inventors: 罗郑楠; 周俊琨; 肖玉宾; 许扬
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2020-02-04
Anticipated expiration: 2039-09-16
Also published as: CN110751034B

Abstract

本发明适用于计算机应用技术领域，提供了一种行人行为识别方法、终端设备及计算机可读存储介质，包括：获取待识别行人行为的视频文件；对所述视频文件中的各帧视频图像进行人像区域检测，从各帧所述视频图像中截取属于同一行人的人像区域；识别并剔除每个所述人像区域中的背景部分，得到目标人像；识别所述目标人像中的行人行为。通过截取人像区域简化了视频文件中行人行为识别的任务，而聚焦于更精确的行人目标，通过背景剔除达到了去除干扰信息的效果，降低了行为识别任务的复杂度，提高了识别的准确率。

Description

行人行为识别方法及终端设备

技术领域

本发明属于计算机应用技术领域，尤其涉及一种行人行为识别方法、终端设备及计算机可读存储介质。

背景技术

人体动作行为识别是近年来计算机视觉领域的一个研究热点，其广泛应用于人机智能交互、虚拟现实和视频监控等领域，该方向对图像、视频数据中的人体行为进行分析识别，其研究成果在安全监控、病残监护、多媒体内容理解、人机交互、虚拟现实等方面得到了切实应用。

现有技术中一般通过光流法、时间差分法等方式来从视频或者图像中提取人体行为的图像部分来进行行为识别。然而，现有的行为识别技术在实际应用中存在很多局限性，人体所处的环境背景很容易导致行为识别不精确的问题。

发明内容

有鉴于此，本发明实施例提供了一种行人行为识别方法、终端设备及计算机可读存储介质，以解决现有技术中在对人体动作或行为进行识别时，人体所处的环境背景很容易导致行为识别不精确的问题。

本发明实施例的第一方面提供了一种行人行为识别方法，包括：

获取待识别行人行为的视频文件；

对所述视频文件中的各帧视频图像进行人像区域检测，从各帧所述视频图像中截取属于同一行人的人像区域；

识别并剔除每个所述人像区域中的背景部分，得到目标人像；

识别所述目标人像中的行人行为。

本发明实施例的第二方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待识别行人行为的视频文件；

识别所述目标人像中的行人行为。

本发明实施例的第三方面提供了一种终端设备，包括：

获取单元，用于获取待识别行人行为的视频文件；

截取单元，用于对所述视频文件中的各帧视频图像进行人像区域检测，从各帧所述视频图像中截取属于同一行人的人像区域；

剔除单元，用于识别并剔除每个所述人像区域中的背景部分，得到目标人像；

识别单元，用于识别所述目标人像中的行人行为。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本发明实施例与现有技术相比存在的有益效果是：

本发明实施例通过获取待识别行人行为的视频文件；对所述视频文件中的各帧视频图像进行人像区域检测，从各帧所述视频图像中截取属于同一行人的人像区域；识别并剔除每个所述人像区域中的背景部分，得到目标人像；识别所述目标人像中的行人行为。通过截取人像区域简化了视频文件中行人行为识别的任务，而聚焦于更精确的行人目标，通过背景剔除达到了去除干扰信息的效果，降低了行为识别任务的复杂度，提高了识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的行人行为识别方法的流程图；

图2是本发明实施例二提供的行人行为识别方法的流程图；

图3是本发明实施例三提供的终端设备的示意图；

图4是本发明实施例四提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

参见图1，图1是本发明实施例一提供的行人行为识别方法的流程图。本实施例中行人行为识别方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的行人行为识别方法可以包括以下步骤：

S101：获取待识别行人行为的视频文件。

行人行为的识别在很多应用场景中，起到很重要的作用。例如在公共场合中通过识别人群中每个人的行为，以检测其中是否存在危险人物。或者通过识别行人行为，确定在当前环境中，行为与周围行人不一致的行人。

在对行人行为进行识别时，先获取待识别行人行为的视频文件。本实施例中获取待识别的视频文件的方法可以是通过各种监控终端来获取，监控终端可以是安装在室外或者室内的摄像装置，可以是人为拍摄，还可以是人为安排摄像装置的拍摄时刻或者周期进行自动拍摄。本实施例中的视频文件的形式可以是拍摄的视频、一定时段内的照片流或者多帧图像的形式，同时，视频文件中可以包括一个或者多个人像，也可以是在不同的地域或者不同的外界环境，此处不做限定。

S102：对所述视频文件中的各帧视频图像进行人像区域检测，从各帧所述视频图像中截取属于同一行人的人像区域。

在得到待识别行人行为的视频文件之后，由于获取到的视频文件是连续的图像文件，实际应用中不能直接对视频文件进行处理，本实施例对视频文件中的各帧视频图像进行人像区域检测。具体的，先将视频文件中的图像进行提取，得到一定数据量的视频图像。本实施例中预设有视频分割帧数，视频分割帧数用于表示将一秒钟的视频文件所分割得到的单幅图像的数目，根据视频分割帧数对视频文件进行分割，得到单幅的视频图像。

本实施例中在进行人像区域检测时，可以是用户根据该行人设定的至少一个行人特征，再在视频图像中识别包括这些行人特征的图像区域作为人像区域。其中，行人特征可以是该行人的身高、衣着颜色、头发样式等，此处不做限定。本实施例中的人像区域中包含同一个行人的全身区域，其形状可以是矩形、三角形等，此处不做限定。本实施例中对每个视频图像进行人像区域检测的目的，是为了从单帧的视频图像中截取出属于同一行人的人像区域。

S103：识别并剔除每个所述人像区域中的背景部分，得到目标人像。

在人工智能的数据集的准备上，如果不剔除背景对数据的背景就有很强的多样性的需求，就会需要在各种各样的场景下配合多种动作采集大量的数据，而且背景是无法穷尽的。因此，本实施例通过背景剔除的方法，在数据采集的过程当中只针对于动作来进行采集，以减少数据集的采集量。

在每帧视频图像中截取得到属于同一行人的人像区域之后，识别该人像区域中的背景图像。在识别背景图像时，可以通过检测当前人像区域中所有像素的像素点，并将背景图像从人向区域中剔除，得到目标人像。可选的，在识别目标背景图像时，可以通过阈值分割法将像素点灰度值与定义的阈值进行比较而区别前景和背景，该方法直接，快速、区域生长法以一个像素点为种子，通过与其邻域像素点的比较逐步获得新种子，进而得到种子合集的区域，该方法计算简单，对于较均匀的连通目标有较好的分割效果。

需要说明的是，本实施例中的人像区域和目标人像的区别之处在于，人像区域用于表示包含人像的较为规整的图像区域，该图像区域的大小小于原来的视频图像，目标人像用于表示只包含人像的图像区域，因此，目标人像是不规整或者边缘为不规则曲线的图像区域。本实施例中通过先从视频图像中识别并截取出人像区域，再识别人像区域中的目标人像，以减少目标人像识别的数据运算量，并提高人像识别的精确度和效率。

S104：识别所述目标人像中的行人行为。

在得到目标人像之后，识别目标人像中的行人行为。根据每个视频图像中得到的行人行为，将这些行人行为进行组合评估，得到行人在一定时间之内的行为。

本实施例中可以通过深度学习的方式识别目标人像中的行人行为，将一个深度学习网络分层，每层由若干个神经元组成，各自独立计算来自其下一层的数据，同一层的各节点之间没有连接。深度学习的整个过程包含预训练、编码解码和微调3个过程。在预训练阶段，下一层与上一层构成一个典型的受限玻尔兹曼机，使用无监督的学习调节网络的参数，使得受限玻尔兹曼机的输出能够准备或近似描述输入，使之达到平衡状态。然后下一层的输出作为上一层的输入，与更上层构成新的受限玻尔兹曼机，调节参数，使受限玻尔兹曼机达到平衡。如此反复，直到最后一层。使用训练得到的深度学习网络对目标进行识别的过程被称为编码解码。当完成无监督的训练学习后，再通过原始输入和最终的输出有监督的学习整个网络，调节每层的权重，实现深度学习网络的微调。

上述方案，通过获取待识别行人行为的视频文件；对所述视频文件中的各帧视频图像进行人像区域检测，从各帧所述视频图像中截取属于同一行人的人像区域；识别并剔除每个所述人像区域中的背景部分，得到目标人像；识别所述目标人像中的行人行为。通过截取人像区域简化了视频文件中行人行为识别的任务，而聚焦于更精确的行人目标，通过背景剔除达到了去除干扰信息的效果，降低了行为识别任务的复杂度，提高了识别的准确率。

参见图2，图2是本发明实施例二提供的行人行为识别方法的流程图。本实施例中行人行为识别方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的行人行为识别方法可以包括以下步骤：

S201：获取待识别行人行为的视频文件。

在本实施例中S201与图1对应的实施例中S101的实现方式完全相同，具体可参考图1对应的实施例中的S101的相关描述，在此不再赘述。

S202：对所述视频文件中的各帧视频图像进行人像区域检测，从各帧所述视频图像中截取属于同一行人的人像区域。

在得到待识别行人行为的视频文件之后，对视频文件中的视频图像进行提取，得到一定数量的视频图像。通过对每个视频图像进行人像区域检测，从单帧的视频图像中截取出属于同一行人的人像区域。其中，在进行人像区域检测时，可以是根据用户根据该行人设定的至少一个行人特征，再在视频图像中识别包括这些行人特征的图像区域作为人像区域。

进一步的，步骤S202可以具体包括步骤S2021～S2023：

S2021：从所述视频文件中提取预设帧数的视频图像。

本实施例的视频文件为一段时间内的视频，该视频文件中包括了很多视频帧。本实施例中预设有预设帧数，用于从视频文件中提取出预设帧数的单帧视频图像。

具体的，其提取方法可以是，先确定视频文件的时长，根据用时长除以预设帧数，得到视频图像的提取周期，根据提取周期来提取视频图像，最后得到的视频图像的数量与预设帧数相同。

除此之外，还可以设定提取周期，本实施例的提取周期用于表示提取视频图像时在视频文件中的间隔时间。根据提取周期直接从视频文件中提取出单帧的视频图像。例如，设定提取周期为20毫秒，则每隔20毫秒从视频文件中提取出单帧的视频图像。最后得到的视频图像的数目约等于视频文件的总时长除以提取周期。

S2022：对每个所述视频图像进行人像区域检测，得到每个所述视频图像中的行人特征。

在将视频文件分割得到视频图像之后，在针对于单人的行为识别当中，背景不仅仅是环境，也可以是其他人，当场景中多人的多种行为同时出现时，对于计算机模型来说判定任务不聚焦也十分复杂。我们对每帧的视频进行人像区域检测，得到每个视频图像中的行人特征。

本实施例中在进行人像区域检测时，可以是根据用户根据该行人设定的至少一个行人特征，再在视频图像中识别包括这些行人特征的图像区域作为人像区域。其中，行人特征可以是该行人的身高、衣着颜色。

S2023：从每个所述视频图像中识别出包含目标行人特征的区域为所述人像区域，并截取出所述人像区域；所述目标行人特征用于表示用户选定的行人特征。

本实施例中在进行人像区域检测时，可以是用户根据该行人设定的至少一个行人特征，也可以是用户从所有的行人特征中选择出的至少一个作为目标行人特征。再在视频图像中识别包括这些行人特征的图像区域作为人像区域。本实施例中的人像区域包含同一个行人的全身区域。通过对每个视频图像进行人像区域检测的目的，是为了从单帧的视频图像中截取出属于同一行人的人像区域。

进一步的，步骤S2023可以具体包括步骤S20231～S20233：

S20231：获取用户从所有所述行人特征中选定的所述目标行人特征。

在实际应用中，一个视频文件中很多情况下包括的人不止一个，而我们在行人行为分析过程中，分析目标只能是一个行人，因此，当视频图像所检测出来的人有多个时，可以通过用户人为指定的方式，确定每幅视频图像中的一个人作为目标行人。

具体的，通过确定目标行人的行人特征的方式，确定目标行人的人像区域。示例性地，管控人员可以手动的点击想要识别行为人在某个视频图像中的行人特征，例如，与其他行人不同颜色的衣服上的像素点、行人所戴的眼镜等特征像素点，以根据这些行人特征来确定包含目标行人的人像区域。

进一步的，为了更加准确地确定每个视频图像中目标行人的人像区域，管控人员可以提出至少三个行人特征，通过多个行人特征来确定视频图像中具有这些特征的行人作为目标行人。

S20232：识别所述视频图像中包含所述目标行人特征的区域为所述人像区域。

在获取到目标行人的目标行人特征之后，在视频图像中识别包含该目标行人特征的区域为人像区域。本实施例中通过确定目标行人的目标行人特征，可以确定视频图像中待分析的目标行人，并根据该待分析的目标行人对应的特征，确定所有视频图像中包含该目标行人特征的人像区域，以针对性的对这些人像区域进行处理。

需要说明的是，本实施例中的目标行人特征是属于一个行人的，因此，根据目标行人特征识别得到的人像区域也是属于统一个行人的。通过确定目标行人特征并识别得到人像区域的方式，可以确定唯一的一个研究对象，来进行针对性的分析。

可选的，还可以直接检测所有视频图像中的行人，确定所有视频图像中都包含的一个行人作为目标行人，通过自动识别的方式，高效快速的确定目标行人，识别视频图像中包含目标行人特征的区域为人像区域。

可选的，还可以通过识别图像帧中每幅图像的中心位置的人作为研究对象，或者识别图像中拍摄最清楚、所占图像区域面积最大的人作为目标行人，识别视频图像中包含目标行人特征的区域为人像区域。

除此之外的，管控人员还可以手动圈出待识别的目标行人在视频图像中的区域，识别该圈定区域中的人像特征，例如，红色帽子、绿色衣服或者眼睛等；或者管控人员手动在视频图像中的行人图像上从头到脚画一条线，以通过这条线来确定人像区域。

S20233：从所述视频图像中截取所述人像区域。

在检测得到每个视频图像中的人像区域之后，从视频图像中截取出其中的人像区域。具体的，可以先确定人像区域在视频图像中的位置，例如，在视频图像中的坐标，或者距离视频图像的上下左右边缘的距离，以通过坐标、位置或者相对距离来确定人像区域在视频图像中的位置，根据该位置选定其中的区域为人像区域，并删除人像区域之外的其余区域。

在确定了每个视频图像中的目标行人之后，从每个视频图像中截取包含该目标行人的图像部分作为人像区域。对于计算机模型来说，任务越简单越能实现更好的效果，对于背景进行剔除之后，计算机的任务从在复杂场景干扰下判断该场景内多个人可能的行为，变到了在无背景下判断单人的动作行为，简化了计算机模型的任务。

进一步的，本实施例中从每帧的视频图像中截取出目标行人的部分图像的目的是，降低待处理或者识别的图像区域面积，提高图像处理和行人动作识别的效率。因此，本实施例中所截取到的人像区域的样式可以是矩形的，除此之外还可以是图像处理终端设置的任一样式，此处不做限定。

具体的，根据上一步骤选出来的行人特征，在视频图像中识别与这些行人特征关联一体的整体人像，并识别其他视频图像中具有相同特征的人作为目标行人，并截取出包含目标行人的最小矩形区域作为人像区域。

S203：计算所述人像区域中每个像素点的像素值概率；

本实施例中预设有高斯概率密度函数η(X_t,μ_i,t,∑_i,t)，用于计算人像区域中每个像素点的像素值概率。本实施例中通过如下公式计算人像区域中每个像素点的像素值概率；

其中，用于表示预设的高斯概率密度函数；k用于表示预设的高斯模型的总数量；i∈[1,k]用于表示高斯模型的标识；ω_i,t用于表示t时刻第i个高斯模型的权值，且

μ_i,t用于表示第i个高斯模型的均值；∑_i,t用于表示第i个高斯模型的方差。

具体的，设截取出来的每一帧的人像区域，从第1帧到第k帧按照顺序将每个人像区域标识。对于一组人像区域可以看成任一像素点随时间变化的序列{X₁,X₂,…,X_t}；其中，X₁,X₂,…,X_t用于表示各时刻对应的人像区域的标识。基于高斯混合模型，计算高斯概率密度函数为：

该组人像区域中每个像素值的像素值概率为：

其中，k用于表示高斯模型的数量，例如3～5；ω_i,t用于表示t时刻第i个高斯模型的权值，且满足

μ_i,t用于表示t时刻第i个高斯模型的均值；∑_i,t用于表示t时刻第i个高斯模型的方差。

S204：根据所述像素值概率和预设的概率阈值确定所述人像区域中的背景部分，剔除所述背景部分，得到所述目标人像。

本实施例中预设有概率阈值，在计算得到人像区域中t时刻对应的像素概率值P(X_t)之后，根据像素值概率和预设的概率阈值确定人像区域中的背景部分，剔除背景部分，得到目标人像。具体的，我们通过设定背景概率阈值，识别像素概率值小于该背景概率阈值的区域为背景部分，并将人像区域中的背景部分去除，便可以得到目标人像。

S205：识别所述目标人像中的行人行为。

在得到视频文件中多帧的目标人像之后，将其视为由多个目标人像构成的序列，将该序列中所有的目标人像按照目标人像对应的生成时间，送入预设的行为识别模型进行行为识别。

本实施例中行为识别时可以通过提取目标人像的动作特征来进行，在人体动作特征提取的基础上，动作特征可看作一个在空间或时空领域将提取到的人体运动特征与先验知识进行对比，通过数据的分析实现动作分类的过程。通过从动作底层数据中抽取部分特征信息对人体动作进行表征，达到动作特征提取的目的，这些表观特征可以是剪影、光流、梯度、时空特征和深度特征等，此处不做限定。

进一步的，步骤S205可以具体包括：识别每个所述目标人像中的行人行为，得到每个所述目标人像对应的单帧行为；对所有所述目标人像对应的单帧行为进行组合分析，得到所述视频文件拍摄时段内的所述行人的行为分析结果。

本实施例中可以通过模板匹配法的方式进行行人行为分析，预先对每一动作建立特征数据样本模板，识别时只需按时间顺序将获取的待测动作特征数据与样本模板进行匹配，通过计算两者之间的相似度来判断是否属于样本动作，最后确定目标人像中的行人行为名称。

上述方案，通过获取待识别行人行为的视频文件；对所述视频文件中的各帧视频图像进行人像区域检测，从各帧所述视频图像中截取属于同一行人的人像区域；计算所述人像区域中每个像素点的像素值概率；根据所述像素值概率和预设的概率阈值确定所述人像区域中的背景部分，剔除所述背景部分，得到所述目标人像。识别所述目标人像中的行人行为。通过计算人像区域中每个像素点的像素值概率来确定人像区域中的背景部分，以截取人像区域简化了视频文件中行人行为识别的任务，而聚焦于更精确的行人目标，通过背景剔除达到了去除干扰信息的效果，降低了行为识别任务的复杂度，提高了识别的准确率。

参见图3，图3是本发明实施例三提供的一种终端设备的示意图。终端设备包括的各单元用于执行图1～图2对应的实施例中的各步骤。具体请参阅图1～图2各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。本实施例的终端设备300包括：

获取单元301，用于获取待识别行人行为的视频文件；

截取单元302，用于对所述视频文件中的各帧视频图像进行人像区域检测，从各帧所述视频图像中截取属于同一行人的人像区域；

剔除单元303，用于识别并剔除每个所述人像区域中的背景部分，得到目标人像；

识别单元304，用于识别所述目标人像中的行人行为。

进一步的，所述剔除单元303可以包括：

概率计算单元，用于计算所述人像区域中每个像素点的像素值概率；

背景剔除单元，用于根据所述像素值概率和预设的概率阈值确定所述人像区域中的背景部分，剔除所述背景部分，得到所述目标人像。

进一步的，所述截取单元302可以包括：

提取单元，用于从所述视频文件中提取预设帧数的视频图像；

特征单元，用于对每个所述视频图像进行人像区域检测，得到每个所述视频图像中的行人特征；

人像截取单元，用于从每个所述视频图像中识别出包含目标行人特征的区域为所述人像区域，并截取出所述人像区域；所述目标行人特征用于表示用户选定的行人特征。

进一步的，所述人像截取单元可以包括：

目标获取单元，用于获取用户从所有所述行人特征中选定的所述目标行人特征；

区域识别单元，用于识别所述视频图像中包含所述目标行人特征的区域为所述人像区域；

区域截取单元，用于从所述视频图像中截取所述人像区域。

进一步的，所述概率计算单元具体用于：

单帧识别单元，用于识别每个所述目标人像中的行人行为，得到每个所述目标人像对应的单帧行为；

组合分析单元，用于对所有所述目标人像对应的单帧行为进行组合分析，得到所述视频文件拍摄时段内的所述行人的行为分析结果。

进一步的，所述截取单元302可以包括：

根据如下公式计算所述人像区域中每个像素点的像素值概率：

其中，

用于表示预设的高斯概率密度函数；k用于表示预设的高斯模型的总数量；i∈[1,k]用于表示高斯模型的标识；ω_i,t用于表示t时刻第i个高斯模型的权值，且μ_i,t用于表示第i个高斯模型的均值；∑_i,t用于表示第i个高斯模型的方差。

图4是本发明实施例四提供的终端设备的示意图。如图4所示，该实施例的终端设备4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个行人行为识别方法实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图3所示单元301至304的功能。

示例性的，所述计算机程序42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。

所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端设备4的示例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端设备4的内部存储单元，例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备，例如所述终端设备4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card，FC)等。进一步地，所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种行人行为识别方法，其特征在于，包括：

获取待识别行人行为的视频文件；

识别所述目标人像中的行人行为。

2.如权利要求1所述的行人行为识别方法，其特征在于，所述识别并剔除每个所述人像区域中的背景部分，得到目标人像，包括：

计算所述人像区域中每个像素点的像素值概率；

根据所述像素值概率和预设的概率阈值确定所述人像区域中的背景部分，剔除所述背景部分，得到所述目标人像。

3.如权利要求1所述的行人行为识别方法，其特征在于，所述对所述视频文件中的各帧视频图像进行人像区域检测，从各帧所述视频图像中截取属于同一行人的人像区域，包括：

从所述视频文件中提取预设帧数的视频图像；

对每个所述视频图像进行人像区域检测，得到每个所述视频图像中的行人特征；

从每个所述视频图像中识别出包含目标行人特征的区域为所述人像区域，并截取出所述人像区域；所述目标行人特征用于表示用户选定的行人特征。

4.如权利要求3所述的行人行为识别方法，其特征在于，所述从每个所述视频图像中识别出包含目标行人特征的区域为所述人像区域，并截取出所述人像区域，包括：

获取用户从所有所述行人特征中选定的所述目标行人特征；

识别所述视频图像中包含所述目标行人特征的区域为所述人像区域；

从所述视频图像中截取所述人像区域。

5.如权利要求1所述的行人行为识别方法，其特征在于，所述识别所述目标人像中的行人行为，包括：

识别每个所述目标人像中的行人行为，得到每个所述目标人像对应的单帧行为；

对所有所述目标人像对应的单帧行为进行组合分析，得到所述视频文件拍摄时段内的所述行人的行为分析结果。

6.如权利要求2所述的行人行为识别方法，其特征在于，所述计算所述人像区域中每个像素点的像素值概率，包括：

其中，

用于表示预设的高斯概率密度函数；k用于表示预设的高斯模型的总数量；i∈[1,k]用于表示高斯模型的标识；ω_i,t用于表示t时刻第i个高斯模型的权值，且X_t用于表示t时刻人像区域的标识；μ_i,t用于表示t时刻第i个高斯模型的均值；∑i,t用于表示t时刻第i个高斯模型的方差。

7.一种终端设备，其特征在于，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如下步骤：

获取待识别行人行为的视频文件；

识别所述目标人像中的行人行为。

8.如权利要求7所述的终端设备，其特征在于，所述识别并剔除每个所述人像区域中的背景部分，得到目标人像，包括：

计算所述人像区域中每个像素点的像素值概率；

根据所述像素值概率和预设的概率阈值确定所述人像区域中的背景部分，得到所述目标人像。

9.一种终端设备，其特征在于，包括：

获取单元，用于获取待识别行人行为的视频文件；

识别单元，用于识别所述目标人像中的行人行为。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。