CN112580543B

CN112580543B - 行为识别方法、系统及装置

Info

Publication number: CN112580543B
Application number: CN202011550424.7A
Authority: CN
Inventors: 周依梦; 郝冬冬
Original assignee: Sichuan Yuncong Tianfu Artificial Intelligence Technology Co ltd
Current assignee: Sichuan Yuncong Tianfu Artificial Intelligence Technology Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2024-04-16
Anticipated expiration: 2040-12-24
Also published as: CN112580543A

Abstract

本发明涉及图像处理技术领域，具体提供一种行为识别方法、系统及装置，旨在解决现有视频感知判断人体行为中由于模块消耗较大的硬件资源问题。为此，本发明的方法包括下列步骤：获取多帧输入图像中人体的参数信息，所述参数信息包括外部输入的配置参数以及抓拍设备获取的参数；根据所述参数信息，预判多帧输入图像中每一帧的人体行为；根据预判结果，判断多帧输入图像中同一人体的连续行为，以确定同一人体实际执行的动作。在采用上述方法的情况下，本发明快速精准地判断人体的行为姿态，更加节约硬件资源。

Description

行为识别方法、系统及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种行为识别方法、系统及装置。

背景技术

随着人工智能技术的发展和高清摄像头的普及，公共安全领域对视频结构化的需求的呼声越来越高。视频结构化是一种视频内容信息提取的技术，它对视频内容按照语义关系，采用时空分割、特征提取、对象识别等处理手段，组织成可供计算机和人理解的文本信息的技术。公共安全领域关注的视频信息有：人员、车辆、行为。具体来说，在视频中把人作为一个可描述的个体展现出来，其中包括人员的面部精确定位、面部特征提取、面部特征比对，人员的性别、年龄范围、大致身高、发饰、衣着、物品携带、步履形态等多种可结构化描述信息；对于行为的描述信息包括：诸如，站、坐、躺、举手、跌倒等。

目前，利用人工智能技术的感知能力判断视频中的人体行为已经成为一种趋势。通过感知视频内容信息，利用一定时间长度的滑动窗提取视频的表达特征，对这些表达特征进行打分，判别可能存在行为。人体行为往往是连续的过程，模型需要分析一定时序内的时间段的图像特征，这导致利用神经网络模型判别人体行为的方式对硬件资源，如GPU，有一定要求。在多模块协同工作的视频结构化下，这样的模块往往消耗GPU资源较大，一定程度上影响了整个项目的成本。

因此，需要提出改进的行为识别的方案，可以节约资源，并快速精准地判断人体的行为姿态。

发明内容

为了克服上述缺陷，提出了本发明，以解决或至少部分地解决在视频感知判断人体行为中由于模块消耗较大的硬件资源，进而减少项目成本快速精准地判断人体行为姿态的技术问题。本发明为解决上述技术问题提供了一种行为识别方法、系统及装置。

第一方面，提供一种行为识别方法，包括：

获取多帧输入图像中人体的参数信息，所述参数信息包括外部输入的配置参数以及抓拍设备获取的参数；

根据所述参数信息，预判多帧输入图像中每一帧的人体行为；

根据预判结果，判断多帧输入图像中同一人体的连续行为，以确定同一人体实际执行的动作。

其中，所述外部输入的配置参数至少包括：预设人体行为对应的动作类型序号、预设人体行为对应的动作类型的置信度阈值和动态窗口长度N；

其中，所述抓拍设备获取的参数至少包括：人体关键点、人体质量分和跟踪ID。

其中，根据所述参数信息，预判多帧输入图像中每一帧的人体行为，具体包括：

根据所述配置参数中的跟踪ID区分不同的人体，其中，每个人体对应一个跟踪ID；

根据具有所述跟踪ID的人体在所述配置参数中对应的人体质量分与人体关键点，预判所述人体行为。

其中，根据具有所述跟踪ID的人体在所述配置参数中对应的人体质量分与人体关键点，预判所述人体行为，具体包括：

判断所述人体质量分是否低于质量分阈值；

如果为否，则根据所述人体质量分确定人体是否存在严重截断；

如果为否，则根据所述人体关键点所组成的人体结构，预判所述人体行为所属的动作类型；

所述预判结果包括：所述人体质量分低于所述质量分阈值，或者所述人体存在严重截断，或者预判的所述人体行为所属的动作类型；

其中，严重截断是指所述人体有超过一半不存在。

其中，根据预判结果，判断多帧输入图像中同一人体的连续行为，以确定同一人体实际执行的动作，具体包括：

如果配置参数中对应所述人体的跟踪ID大于ID阈值，则根据所述配置参数中的动态窗口长度N滑动N帧；

依次输出N帧的人体图像中同一人体行为的预判结果；

将同一人体的N帧中每一帧对应的所述人体行为所属的动作类型的状态记录到对应的动作类型序号的状态序列中；

以及，根据每个所述状态序列中记录的动作类型的状态计算置信度；

如果所述置信度大于或等于所述配置参数中对应的动作类型的置信度阈值，则确定所述状态序列相应的动作类型是多帧中同一人体实际执行的动作。

其中，如果所述人体质量分小于或等于质量分阈值，则预判结果为第一类无法判断状态；

如果所述人体质量分大于质量分阈值但存在严重截断，则预判结果为第二类无法判断状态。

其中，根据每个所述状态序列中记录的动作类型的状态计算置信度，具体包括：

计算所述状态序列中状态为执行的个数与所述状态序列的总个数的比值，为所述置信度。

其中，如果配置参数中的对应所述人体的跟踪ID小于ID阈值，则将预判结果作为最终判断结果；

如果配置参数中的对应所述人体的跟踪ID大于ID阈值但M帧以上所述人体行为的预判结果都为第一类无法判断状态或第二类无法判断状态，则确定确实无法对所述人体进行判断而输出最终判断结果为第一类无法判断状态；

如果配置参数中的对应所述人体的跟踪ID大于ID阈值但仅出现M帧及以内所述人体的行为的预判的结果为第一类无法判断状态或第二类无法判断状态，则将进行判断的当前帧的前一帧所述人体行为的预判结果作为最终判断结果。

第二方面，提供一种动作类型判断方法：

所述动作类型包括基本姿态和特殊动作；

所述特殊动作具有对应所述特殊动作的动作类型序号的状态序列，以及所述基本姿态动作具有对应所述基本姿态的动作类型序号的状态序列；

所述方法包括：

根据前述的方法，判断多帧输入图像中的连续行为是否为同一人体实际执行的动作；

根据时间顺序对N帧的前序帧中同一所述人体行为对应的一个或多个基本姿态的状态序列进行逻辑分析，以确定N帧中同一所述人体行为是否为与所述一个或多个基本姿态相关联的所述特殊动作；以及

在对应所述特殊动作的状态序列中记录所述特殊动作的状态。

第三方面，提供一种行为识别系统，包括：

参数信息获取模块，其用于获取多帧输入图像中人体的参数信息，所述参数信息包括外部输入的配置参数以及抓拍设备获取的参数；

静态行为判断模块，其用于根据所述参数信息，预判多帧输入图像中每一帧的人体行为；

动态行为判断模块，其用于根据预判结果，判断多帧输入图像中同一人体的连续行为，以确定同一人体实际执行的动作。

其中，参数信息获取模块执行的具体操作包括：

获取所述外部输入的配置参数至少包括：预设人体行为对应的动作类型序号、预设人体行为对应的动作类型的置信度阈值和动态窗口长度N；

获取所述抓拍设备获取的参数至少包括：人体关键点、人体质量分和跟踪ID。

其中，静态行为判断模块执行的具体操作包括：

判断所述人体质量分是否低于质量分阈值；

其中，严重截断是指所述人体有超过一半不存在。

其中，动态行为判断模块执行的具体操作包括：

依次输出N帧的人体图像中同一人体行为的预判结果；

第四方面，提供一种动作类型判断系统：

所述动作类型包括基本姿态和特殊动作；

所述特殊动作具有对应所述特殊动作的动作类型序列号的状态序列，以及所述基本姿态动作具有对应所述基本姿态的动作类型序列号的状态序列；

所述系统包括：

前述的系统；

动作类型判断模块，其在前述系统的动态行为判断模块的判断结果的基础上，根据时间顺序对N帧的前序帧中同一所述人体行为对应的一个或多个基本姿态的状态序列进行逻辑分析，以确定N帧中同一所述人体行为是否为与所述一个或多个基本姿态相关联的所述特殊动作；以及

动作类型记录模块，其在对应所述特殊动作的状态序列中记录所述特殊动作的状态。

第五方面，提供一种计算机可读存储介质，所述存储介质中存储有多条程序代码，所述程序代码适用于由处理器加载并运行以执行前述中任一项所述的方法。

第六方面，提供一种终端装置，包括处理器和存储器，所述存储器适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述中任一项所述的方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

获取多帧输入图像中人体的参数信息，所述参数信息包括外部输入的配置参数以及抓拍设备获取的参数；根据所述参数信息，预判多帧输入图像中每一帧的人体行为；根据预判结果，判断多帧输入图像中同一人体的连续行为，以确定同一人体实际执行的动作。在采用上述方法的情况下，本发明能够解决或至少部分地解决在视频感知判断人体行为中由于模块消耗较大的硬件资源，进而减少项目成本快速精准地判断人体行为姿态的技术问题。

附图说明

图1为根据本发明的行为识别方法的一个实施例的主要流程图；

图2为根据本发明的方案的关键点组成的人体结构的一个实施例的示意图；

图3为根据本发明的方案的静态行为判断过程的一个实施例的示意图；

图4为根据本发明的方案的人体质量分较低的人体图像的一个实施例的示意图；

图5为根据本发明的方案的严重截断的人体图像的一个实施例的示意图；

图6为根据本发明的方案的静态行为判断的输出结果的一个实施例的示意图；

图7为根据本发明的方案的行人图像的静态行为判断的输出结果输入对应动作的状态序列的一个实施例的示意图；

图8为根据本发明的方案的判断站立基本姿态的行为动作结果的一个实施例的示意图；

图9为根据本发明的方案的判断跌倒特殊行为动作结果的一个实施例的示意图；

图10为根据本发明的方案的结合关联基本姿态动作序列判断跌倒特殊行为动作结果的一个实施例的示意图；

图11a为根据本发明的行为识别系统的一个实施例的结构框图；图11b为根据本发明的动作类型判断系统的一个实施例的结构框图；

图12为应用本发明的方案的终端装置的一个实施例的结构框图；

图13为对应图12的另一例子中的结构框图。

具体实施方式

为了便于理解发明，下文将结合说明书附图和实施例对本发明作更全面、细致地描述，但本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

随着人工智能技术的发展和高清摄像头的普及，公共安全领域对视频结构化的需求的呼声越来越高。公共安全领域关注的视频信息有：人员、车辆、行为。尤其在视频中把人作为一个可描述的个体展现出来，其中包括人员的面部精确定位、面部特征提取、面部特征比对，人员的性别、年龄范围、大致身高、发饰、衣着、物品携带、步履形态等多种可结构化描述信息；现有技术中，视频结构化包含了诸多模块，不同模块处理不同任务。当多模块协同工作时，需要考虑不同模块对硬件资源的消耗。利用人工智能技术的感知能力判断视频中的人体行为已经成为一种趋势。通过感知视频内容信息，人体行为往往是一个连续的过程，模型需要分析一定时序内的时间段的图像特征，这导致利用神经网络模型判别人体行为的方式对硬件资源，在多模块协同工作的视频结构化下，这样的模块往往消耗硬件资源较大，一定程度上影响了整个项目的成本。

本发明行为识别方案一个实施例如：获取所述参数信息具有外部输入的配置参数以及前端抓拍设备所获取的参数；其中，所述外部输入的参数包括：待判断的行为动作对应的动作类型序号、待判断的行为动作对应的动作类型置信度阈值和动态窗口长度N；所述前端抓拍获取的参数包括：人体关键点、人体质量分和跟踪ID。比如，分析当前跟踪ID对应的所述人体质量分和所述人体关键点，对于所述人体质量分过低的人体图像不进行行为动作判断，输出值为-2；对于所述人体关键点截断严重的人体图像也不进行行为动作判断，输出值为-1；对于待判断的行为动作的人体图像进行了行为动作判断，且判断结果为未执行相应的行为动作，输出值为0；对于待判断的行为动作的人体图像进行了行为动作判断且判断结果为执行了相应的行为动作的人体图像，输出值为1；如果配置参数中的对应所述人体的跟踪ID大于0但3帧以上，所述人体的行为的预判的结果都小于0，则输出最终结果为-2，表示无法对所述人体进行判断；如果配置参数中的对应所述人体的跟踪ID大于0但仅出现3帧及以内所述人体的行为的预判的结果小于0，则输出最终结果为前一帧所述人体的行为的预判的结果。所述人体的行为的预判的结果大于和/或等于0的人体图像，直接将所述的人体图像的输出值人体的行为的预判的结果作为人体图像的静态行为判断结果输出给对应的动作状态序列中进行动态行为判断。

将所述人体图像的静态行为判断结果记录到对应的动作状态序列中，开展动态行为判断，输出在固定的时间段内当前人体的待判断的行为动作的结果。所述人体的待判断的行为动作包括基本姿态的动作和特殊行为的动作；对于所述的基本姿态的动作，将取值大于0的跟踪ID的人体的静态行为判断结果记录到对应的动作状态序列后，根据所述的动作状态序列中执行所述基本姿态的动作的次数和所述的动作状态序列的滑动窗口长度之比，计算获得所述的基本姿态的动作的置信度；当所述的基本姿态的动作的置信度大于预设的阈值时，则判断在固定的时间段内执行了所述的基本姿态的动作，并输出当前基本姿态的动作的结果值为1；否则，判断在固定的时间段内未执行所述的基本姿态的动作，并输出当前的基本姿态的动作的结果值为0；对于所述的特殊行为的动作，将所述的取值大于0的跟踪ID的人体的静态行为判断结果依次记录到对应的动作状态序列中，获取基本姿态的动作结果值，并且根据将所述的基本姿态的动作结果值组合并获得所述基本姿态的动作序列，进行时序逻辑分析，判断是否存在所述的特殊行为的动作。

由此，本发明通过行为识别方法，既复用前端抓拍模块输出的人体关键点信息，又利用基于人体关键点组成的人体结构判断当前人体行为，更加节约资源、快速精准地判断人体的行为姿态。

下面结合图1所示本发明的行为识别方法的一个实施例的主要流程图，对本发明的实现方式进行描述。

步骤S110，获取多帧输入图像中人体的参数信息，所述参数信息包括外部输入的配置参数以及抓拍设备获取的参数；

一个实施方式中，其中，所述外部输入的配置参数至少包括：预设人体行为对应的动作类型序号、预设人体行为对应的动作类型的置信度阈值和动态窗口长度N；其中，所述抓拍设备获取的参数至少包括：人体关键点、人体质量分和跟踪ID。

其中，预设人体行为动作对应的动作类型序号是指通过序号与行为动作之间建立映射关系，对指定的行为动作进行判断，并允许同时判断多个行为动作；

预设人体行为动作对应的动作类型置信度阈值是指人体做动作时，持续时间越久，代表对应动作执行的置信度越高，阈值用来过滤置信度较低的行为动作判断结果，超过阈值则认为是执行了相应的动作；置信度＝状态序列中执行此动作次数/窗口长度。

动态窗口长度N是对于同一个人体，根据N帧图像下，判断所述人体的执行动作的情况，则所述动作状态序列的滑动窗口长度为N；

人体关键点是指通常对应人体上有一定自由度的关键，比如：颈，肩，肘，脚等。本方法中提到的人体关键点共有14个点，分别为：如头，颈，左肩，右肩，左手肘，右手肘，左手腕，右手腕，左胯，右跨，左膝，右膝，左脚踝，右脚踝；由关键点组成的人体结构如图2所示。

人体质量分是根据抓拍的图像模糊度、亮度、人体被物体遮挡或者在画面边缘等因素截断程度对检测到的人体进行打分，人体质量分越高的表示人体被截断程度低、亮度适中、画面清晰。

跟踪ID是用来唯一区分视频中每个人体的ID号。

步骤S120，根据所述参数信息，预判多帧输入图像中每一帧的人体行为；

一个实施方式中，根据所述配置参数中的跟踪ID区分不同的人体；根据所述配置参数中的对应具有所述跟踪ID的人体的人体质量分与人体关键点，预判所述人体的行为；输出所述预判结果，并记录已经判断的所述行为的状态。

根据配置参数中的对应具有所述跟踪ID的人体的人体质量分与人体关键点，预判所述人体的行为，具体包括：

判断所述人体质量分是否低于质量分阈值；

如果为否，则根据所述人体关键点所构成的人体结构，预判所述人体的行为所属的动作类型；

输出所述预判结果，具体包括：

所述预判结果为：所述人体的所述人体质量分低于质量分阈值的结果，或者，所述人体存在严重截断的结果，或者，根据所述配置参数中对应的动作类型置信度阈值所确定的已经预判的所述人体的行为对应的动作类型为执行或未执行的结果；

并且，

记录已经预判的所述行为的状态，具体包括：

将已经预判的所述人体的行为所属的动作类型的状态，记录到所述配置参数中对应动作类型的动作类型序号的状态序列中。

如图3所示，根据人体关键点构成的结构，判断当前人体可能进行的动作；根据所述配置参数，依次预判多帧的每一帧的人体图像中人体的行为；配置参数分别为：人体关键点、人体质量分和跟踪ID、待判断的行为动作对应的动作类型序号、待判断的行为动作对应的动作类型置信度阈值和动态窗口长度N；基于当前输入关键点构成的人体结构给出判断结果，不涉及时序下人体动作的变化情况，故称为静态行为判断，即为预判多帧的每一帧的人体图像中人体的行为；动态行为判断，即为判断多帧的人体图像中为同一所述人体的连续的行为；根据动态行为判断，确定同一所述人体实际执行的动作。

人体质量分过低的人体往往存在严重截断，如图4所示，如只能看到头部、四肢，或者因为光照过差、图像过于模糊、人体过小导致人体不清晰；对于这部分目标，并不在意其行为动作，因为这些目标通常远离监控范围，不予判断其行为动作。对于人体关键点截断严重的人体图像，如图5所示，只有上半身、只有下半身，或者，被人群严重遮挡，部分行为动作没有判断价值，比如，只能看到胸部以上人体，行为动作“站立”没有判断价值，不予判断其行为动作。

一个实施方式中，如图6所示，如果所述人体质量分小于或等于质量分阈值，则结果为-2；其中，如果所述人体质量分大于质量分阈值但存在严重截断，则结果为-1；其中，将已经预判的所述人体的行为对应的动作类型的状态记录为1，而未对应的动作类型的状态记录为0。

如果配置参数中的对应所述人体的跟踪ID为-1，则将预判的结果作为最终判断结果；如果配置参数中的对应所述人体的跟踪ID大于0但3帧以上，所述人体的行为的预判的结果都小于0，则输出最终结果为-2，表示无法对所述人体进行判断；如果配置参数中的对应所述人体的跟踪ID大于0但仅出现3帧及以内所述人体的行为的预判的结果小于0，则输出最终结果为前一帧所述人体的行为的预判的结果。

在一段视频中，逐帧抽取图片下的人的动作存在一定的连贯性，动作的姿态的变化存在一个“逐步变化”过程，不会发生突变。所以，对于某一两帧人体质量较差或者截断较为严重的情况，此种情况，静态行为不会做判决，输出结果为负数，可以根据前一帧动作行为判决结果对这一帧做一个预估，这种预估通常来说是合理的。

对于输出值大于和/或等于0的人体图像，直接将所述的人体图像的输出值作为所述的待判断的行为动作的人体图像的静态行为判断结果输出给对应的动作状态序列中进行动态行为判断。

例如，图7中圈里的行人，假设待判断的行为为“站立”，行人已经满足跟踪条件，跟踪ID>0，一共8帧画面，对应的静态行为判断模块输出结果分别为：1，1，1，1，-2，-2，-2，-2；分别代表：站立，站立，站立，站立，截断无法判断，截断无法判断，截断无法判断，截断无法判断。

根据上述的逻辑，动态行为中对应站立动作的状态序列里将保存：1，1，1，1，1，1，1，-2；

即若存在3帧及以内静态行为模块输出结果为负数时，则输出最终结果为前一帧所述人体的行为的预判的结果。当3帧以上静态行为模块输出都为负数时，则输出最终结果为-2，代表无法对当前状态行人做行为动作判断。

步骤S130，根据预判结果，判断多帧输入图像中同一人体的连续行为，以确定同一人体实际执行的动作。

一个实施方式中，如果配置参数中的对应所述人体的跟踪ID大于0，则根据所述配置参数中的动态窗口长度N滑动N帧，依次输出N帧的人体图像中对应同一所述人体的行为的预判的结果，并将同一所述人体的N帧中的连续的行为的状态记录到所述行为对应的动作类型的动作类型序号的状态序列中；根据所述状态序列中记录的状态计算置信度，如果所述置信度大于或等于所述配置参数中的动作类型置信度阈值，则确定同一所述人体的连续的行为对应的动作类型是实际执行的动作。

进一步，所述跟踪ID是用来唯一区分视频中每个人体的ID号，初始阶段进入视频内的所有人都会分配跟踪ID，由于帧数过少，视频内所有人的所述跟踪ID取值-1。

如果人体无法满足时长和位置的跟踪条件，所述人体的跟踪ID取值为-1，认为所述人体在视频中驻留时长较短，分配给所述人体的所述的跟踪ID不作为有效的跟踪ID，不输出时序下的人体的待判断的行为动作的结果，只识别是否开展静态行为判断，如果是，则直接将进行的静态行为判断结果输出。

进一步，如果所述人体满足时长和位置的跟踪条件，所述人体的跟踪ID取值大于0，认为所述人体在视频中驻留了一定时长，分配给所述人体的所述的跟踪ID作为有效的跟踪ID，且使用不同的唯一的跟踪ID区分视频中的每个人体，将静态行为判断结果输入到对应的动作状态序列中进行动态行为判断，输出时序下的人体的待判断的行为动作的结果；例如，人体的有效的跟踪ID取值1、2、3、4、5、6。

动态行为判断对于每个有效的跟踪ID(视为一个唯一的人体)维护一个长度为N(滑动窗口长度)的行为状态序列，根据行为状态序列的情况，进行逻辑分析，输出结果。对于跟踪ID为负数的人体，直接输出其静态行为判断模块结果。

一个实施方式中，其中，所述动作类型包括基本姿态和特殊动作；所述特殊动作具有对应所述特殊动作的动作类型序号的状态序列，以及,所述基本姿态动作具有对应所述基本姿态的动作类型序号的状态序列；所述方法包括：判断多帧输入图像中的连续行为是否为同一人体实际执行的动作；根据时间顺序对N帧的前序帧中同一所述人体行为对应的一个或多个基本姿态的状态序列进行逻辑分析，以确定N帧中同一所述人体行为是否为与所述一个或多个基本姿态相关联的所述特殊动作；以及在对应所述特殊动作的状态序列中记录所述特殊动作的状态。

所述人体的待判断的行为动作包括基本姿态和特殊动作；例如，基本姿态包括：站立、坐、躺、蹲、举手等基本动作。特殊动作包括：跌倒、久坐、久卧等需要根据人体动作变化情况来判断的动作。

进一步，对于所述的基本姿态的动作，将取值大于0的跟踪ID的人体的静态行为判断结果记录到对应的动作状态序列后，根据所述的动作状态序列中执行所述基本姿态的动作的次数和所述的动作状态序列的滑动窗口长度之比，计算获得所述的基本姿态的动作的置信度；

一个实施方式中，如果根据对应动作类型的所述状态序列中记录的状态计算的置信度大于或等于动作类型置信度阈值，则确定已经预判的所述人体的行为是执行了其对应的动作类型的动作，且结果为1；否则，确定是并未执行其对应的动作类型的动作，且结果为0。计算置信度为：计算所述状态序列中状态为1的个数与所述状态序列的总个数的比值，为所述置信度；如果配置参数中的对应所述人体的跟踪ID为-1，则将预判的结果作为最终判断结果。

进一步，当所述的基本姿态的动作的置信度大于预设的阈值时，则判断在固定的时间段内执行了所述的基本姿态的动作，并输出当前基本姿态的动作的结果值为1；否则，判断在固定的时间段内未执行所述的基本姿态的动作，并输出当前的基本姿态的动作的结果值为0。

对于基本姿态的判断，当人体持续性做某一动作时，持续时间越久，代表对应动作执行的置信度越高。阈值用来过滤置信度较低的行为动作判断结果，超过阈值的才认为是执行了相应的动作；置信度＝状态序列中执行此动作次数/窗口长度。

例如，以站立姿态为例，假设设定的滑动窗口长度为N＝10，对应的阈值＝0.3，需要判断的动作为“站立”，在n帧内，窗口长度为10的状态序列的变化如图8所示：

第0帧，即初始状态，暂未开始判断行人动作，状态序列内所有结果初始值为0，代表没有进行“站立”动作；

第1帧，传入当前ID对应的行人的关键点+质量分，通过静态行为动作判断，判断此人为“站立”状态，输出为1，记录到状态序列中。根据当前状态序列内情况，取平均值作为置信度，即1/N＝1/10＝0.1，置信度<0.3，故最终输出结果判为此人没有在进行“站立”动作，输出结果为0；

第2帧，传入当前ID对应的行人的关键点+质量分，通过静态行为动作判断，判断此人为“站立”状态，输出为1，记录到状态序列中。根据当前状态序列内情况，取平均值作为置信度，即2/N＝2/10＝0.2，置信度<0.3，故最终输出结果判为此人没有在进行“站立”动作，输出结果为0；

第3帧，传入当前ID对应的行人的关键点+质量分，通过静态行为动作判断，判断此人为“站立”状态，输出为1，记录到状态序列中。根据当前状态序列内情况，取平均值作为置信度，即3/N＝3/10＝0.3，满足置信度>＝0.3的条件，故最终输出结果判为此人正在进行“站立”动作，输出结果为1；

第4帧，传入当前ID对应的行人的关键点+质量分，通过静态行为动作判断，判断此人不为“站立”状态，输出为0，记录到状态序列中。根据当前状态序列内情况，取平均值作为置信度，即3/N＝3/10＝0.3，满足置信度>＝0.3的条件，故最终输出结果判为此人正在进行“站立”动作，输出结果为1；

第n帧，传入当前ID对应的行人的关键点+质量分，通过静态行为动作判断，判断此人为“站立”状态，输出为1，记录到状态序列中。根据当前状态序列内情况，取平均值作为置信度，即7/N＝7/10＝0.7，满足置信度>＝0.3阈值的条件，故最终输出结果判为此人正在进行“站立”动作，输出结果为1。

进一步，对于所述的特殊行为的动作，将所述的取值大于0的跟踪ID的人体的静态行为判断结果依次记录到对应的动作状态序列中，获取基本姿态的动作结果值，并且根据将所述的基本姿态的动作结果值组合并获得所述基本姿态的动作序列，进行时序逻辑分析，判断是否存在所述的特殊行为的动作。

通常来说，一个行为在连续时间内都有一定关联性，可以根据这种关联性分析行人的动作。如跌倒动作，人体多数会从站立到趴倒/坐倒，重心存在明显下移。对于特殊行为的动作，除了要维护特殊行为自身的一个状态序列外，还要维护与其关联的基本姿态的动作序列，结合时序逻辑综合进行判断。

例如，以一个跌倒动作为例，详见图9所示。

一个行人进行的如下的动作：正常行走->重心下移，蹲坐->趴到地上->坐在地上；整个动作是一个跌倒的过程。

前端抓拍摄像头按照时间顺序，依次将抓拍到结果进行行为判断。假设该行人已经满足跟踪条件，跟踪ID>0。首先，对传入的当前帧行人的行为动作进行静态行为判断，静态判断结果传入动态行为判断；然后，动态行为判断针对需要判断的行为(跌倒)，维护对应的基本姿态动作序列，例如，对于跌倒动作，需要维护“站立”，“蹲”，“坐”，“躺”四种基本姿态的动作序列，按照时间顺序，将静态动作判断结果依次存入对应的动作状态序列；最后，根据多个动作状态进行时序逻辑分析，判断是否存在跌倒动作。

如图10所示，假设跌倒动作滑动窗口长度为15(此特殊动作不需要阈值来辅助判断)，在图像所示的时间范围内，对应维护的动作状态序列如下所示：结合四个关联的基本姿态动作序列，按照时间顺序，该行人进行的动作依次为：站，站，站，站，站，站，坐，坐，蹲，坐，躺，躺，坐，坐，坐。

时序逻辑判断会对每个时刻的动作情况进行分析，若满足“跌倒”动作的逻辑，跌倒动作自身维护的状态序列中将输出1，否则输出0；在第10帧时，行人进行的动作依次为：站，站，站，站，站，站，坐，坐，蹲，坐；此时已满足“跌倒”逻辑，故对应时间下，跌倒状态序列中输出为1，即判断该人体处于“跌倒”的特殊行为动作。

一个实施方式中，定时清理长时间没有更新所述配置参数中对应动作类型的动作类型序号的状态序列。

进一步，定时清理动态行为判断中长时间没有更新行为动作结果的人体动作状态序列；动态行为判断中，对于历史上存在过的唯一的跟踪ID都分配了一个空间，用来存储对应ID人体的行为动作序列。实际监控视频中，同一个人在视频中出现一段时间后，可能就再也不会出现了；因此，定时清理掉动态行为判断模块中长时间没有更新动作状态的人体动作行为动作序列。

下面再结合图11a为根据本发明的行为识别系统的一个实施例的结构框图，对本发明的实现进行说明。该系统至少包括：

参数信息获取模块1110，其用于获取多帧输入图像中人体的参数信息，所述参数信息包括外部输入的配置参数以及抓拍设备获取的参数；

一个实施方式中，参数信息获取模块执行的具体操作包括：其中，所述外部输入的配置参数至少包括：预设人体行为对应的动作类型序号、预设人体行为对应的动作类型的置信度阈值和动态窗口长度N；其中，所述抓拍设备获取的参数至少包括：人体关键点、人体质量分和跟踪ID。

跟踪ID是用来唯一区分视频中每个人体的ID号。

静态行为判断模块1120，其用于根据所述参数信息，预判多帧输入图像中每一帧的人体行为；

判断所述人体质量分是否低于质量分阈值；

输出所述预判结果，具体包括：

并且，

记录已经预判的所述行为的状态，具体包括：

如果配置参数中的对应所述人体的跟踪ID为-1，则将预判的结果作为最终判断结果；如果配置参数中的对应所述人体的跟踪ID大于0但出现3帧以上所述人体的行为的预判的结果都小于0，则输出最终结果为-2，表示无法对所述人体进行判断；如果配置参数中的对应所述人体的跟踪ID大于0但仅出现3帧及以内所述人体的行为的预判的结果小于0，则输出最终结果为前一帧所述人体的行为的预判的结果。

动态行为判断模块1130，其用于根据预判结果，判断多帧输入图像中同一人体的连续行为，以确定同一人体实际执行的动作。

下面再结合图11b为根据本发明的动作类型判断系统的一个实施例的结构框图，对本发明的实现进行说明，该系统至少包括：

其中，所述动作类型包括基本姿态和特殊动作；所述特殊动作具有对应所述特殊动作的动作类型序号的状态序列，以及,所述基本姿态动作具有对应所述基本姿态的动作类型序号的状态序列；

动作类型判断模块1140，其在动态行为判断模块的判断结果的基础上，根据时间顺序对N帧的前序帧中同一所述人体行为对应的一个或多个基本姿态的状态序列进行逻辑分析，以确定N帧中同一所述人体行为是否为与所述一个或多个基本姿态相关联的所述特殊动作；

动作类型记录模块1150，其在对应所述特殊动作的状态序列中记录所述特殊动作的状态。

所述人体的待判断的行为动作包括基本姿态的动作和特殊动作；例如，基本姿态包括：站立、坐、躺、蹲、举手等基本动作。特殊动作包括：跌倒、久坐、久卧等需要根据人体动作变化情况来判断的动作。

例如，以一个跌倒动作为例，详见图9所示。

定时清理长时间没有更新所述配置参数中对应动作类型的动作类型序号的状态序列。

一个实施方式中定时清理动态行为判断中长时间没有更新行为动作结果的人体动作状态序列；动态行为判断中，对于历史上存在过的唯一的跟踪ID都分配了一个空间，用来存储对应ID人体的行为动作序列。实际监控视频中，同一个人在视频中出现一段时间后，可能就再也不会出现了；因此，定时清理掉动态行为判断模块中长时间没有更新动作状态的人体动作行为动作序列。

下面描述本发明的技术方案的一个应用场景的例子，以进一步说明本发明的实现方式：

前端抓拍摄像头对人体进行抓拍并输出的人体关键点、人体质量分、跟踪ID；输入外部参数包括：待判断的行为动作对应的动作类型序号、待判断的行为动作对应的动作类型置信度阈值和动态窗口长度N。对待判断的行为动作的人体图像开展静态行为判断，输出当前所述人体图像的静态行为判断结果。

如图7中圈里的行人，假设待判断的行为为“站立”，行人已经满足跟踪条件，跟踪ID>0，一共8帧画面，对应的静态行为判断模块输出结果分别为：1，1，1，1，-2，-2，-2，-2；分别代表：站立，站立，站立，站立，截断无法判断，截断无法判断，截断无法判断，截断无法判断；根据上述的逻辑，动态行为中对应站立动作的状态序列里将保存：1，1，1，1，1，1，1，-2。

人体动态待判断的行为动作包括基本姿态的动作和特殊行为的动作。

对于基本姿态的判断，当人体持续性做某一动作时，持续时间越久，代表对应动作执行的置信度越高。阈值用来过滤置信度较低的行为动作判断结果，超过阈值的才认为是执行了相应的动作；如图8所示，例如，判断视频中有效跟踪ID＝1的人体是否是站立姿态，假设设定的滑动窗口长度为N＝10，对应的阈值＝0.3，需要判断的动作为“站立”，在n帧内，窗口长度为10的状态序列的变化：第0帧，即初始状态，暂未开始判断行人动作，状态序列内所有结果初始值为0，代表没有进行“站立”动作；第1帧，传入当前ID对应的行人的关键点+质量分，通过静态行为动作判断，判断此人为“站立”状态，输出为1，记录到状态序列中。根据当前状态序列内情况，取平均值作为置信度，即1/N＝1/10＝0.1，置信度<0.3，故最终输出结果判为此人没有在进行“站立”动作，输出结果为0；

对于所述的特殊行为的动作，将所述的取值大于0的跟踪ID的人体的静态行为判断结果依次记录到对应的动作状态序列中，获取基本姿态的动作结果值，并且根据将所述的基本姿态的动作结果值组合并获得所述基本姿态的动作序列，进行时序逻辑分析，判断是否存在所述的特殊行为的动作。如图10，结合“站立”，“蹲”，“坐”，“躺”四个关联的基本姿态动作序列，按照时间顺序，该行人进行的动作依次为：站，站，站，站，站，站，坐，坐，蹲，坐，躺，躺，坐，坐，坐，时序逻辑判断会对每个时刻的动作情况进行分析，在第10帧时，行人进行的动作依次为：站，站，站，站，站，站，坐，坐，蹲，坐；此时已满足“跌倒”逻辑，故对应时间下，跌倒状态序列中输出为1，即判断该人体处于“跌倒”的特殊行为动作。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的系统的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

进一步，在本发明的一种计算机可读存储介质的一个实施例中，包括：所述存储介质中存储有多条程序代码，所述程序代码适用于由处理器加载并运行以执行前述中任一项所述的行为识别方法；一种处理装置，该处理装置包括处理器和存储器，所述存储器适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述中任一项所述的行为识别方法。

进一步，在本发明的一种终端装置的一个实施例中，包括处理器和存储器，所述存储器适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述中任一项所述的行为识别方法；一种终端装置，包括如前述的行为识别系统。

进一步，在本发明的一种终端装置的一个实施例中，其特征在于，其包括前述的行为识别系统。图12为本申请的另一个实施例提供的终端设备的硬件结构示意图。图13是对图12在实现过程中的一个具体的实施例。如图所示，本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。

第二处理器1201执行第二存储器1202所存放的计算机程序代码，实现上述实施例中图1所述方法。第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。第二存储器1202可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选地，第一处理器1201设置在处理组件1200中。该终端设备还可以包括：通信组件1203，电源组件1204，多媒体组件1205，语音组件1206，输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令，以完成上述图1所示方法的全部或部分步骤。此外，处理组件1200可以包括一个或多个模块，便于处理组件1200和其他组件之间的交互。例如，处理组件1200可以包括多媒体模块，以方便多媒体组件1205和处理组件1200之间的交互。电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。语音组件1206被配置为输出和/或输入语音信号。例如，语音组件1206包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中，语音组件1206还包括一个扬声器，用于输出语音信号。输入/输出接口1207为处理组件1200和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。传感器组件1208包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件1208可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件1208还可以包括摄像头等。通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务器建立通信。

由上可知，在图13实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。

本领域技术人员能够理解的是，可以对系统中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的一个实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种行为识别方法，其特征在于，包括：

根据预判结果，判断多帧输入图像中同一人体的连续行为，以确定同一人体实际执行的动作；

所述外部输入的配置参数以及抓拍设备获取的参数包括：跟踪ID、预设人体行为对应的动作类型序号和动态窗口长度N；所述根据预判结果，判断多帧输入图像中同一人体的连续行为，以确定同一人体实际执行的动作，具体包括：

如果所述参数信息中对应所述人体的跟踪ID大于ID阈值，则根据所述参数信息中的动态窗口长度N滑动N帧；依次输出N帧的人体图像中同一人体行为的预判结果；

根据每个所述状态序列中记录的动作类型的状态确定所述状态序列相应的动作类型是多帧中同一人体实际执行的动作。

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，根据所述参数信息，预判多帧输入图像中每一帧的人体行为，具体包括：

4.如权利要求3所述的方法，其特征在于，

根据具有所述跟踪ID的人体在所述配置参数中对应的人体质量分与人体关键点，预判所述人体行为，具体包括：

判断所述人体质量分是否低于质量分阈值；

其中，严重截断是指所述人体有超过一半不存在。

5.如权利要求4所述的方法，其特征在于，所述根据每个所述状态序列中记录的动作类型的状态确定所述状态序列相应的动作类型是多帧中同一人体实际执行的动作，具体包括：

根据每个所述状态序列中记录的动作类型的状态计算置信度；

6.如权利要求2至5中任一项所述方法，其特征在于，

如果所述人体质量分小于或等于质量分阈值，则预判结果为第一类无法判断状态；

7.如权利要求6所述的方法，其特征在于，根据每个所述状态序列中记录的动作类型的状态计算置信度，具体包括：

8.如权利要求6所述的方法，其特征在于，

如果配置参数中的对应所述人体的跟踪ID小于ID阈值，则将预判结果作为最终判断结果；

9.一种动作类型判断方法，其特征在于，

所述动作类型包括基本姿态和特殊动作；

所述方法包括：

根据权利要求5所述的方法，判断多帧输入图像中的连续行为是否为同一人体实际执行的动作；

10.一种行为识别系统，其特征在于，包括：

参数信息获取模块，其用于获取多帧输入图像中人体的参数信息，所述参数信息包括外部输入的配置参数以及抓拍设备获取的参数；所述外部输入的配置参数以及抓拍设备获取的参数包括：跟踪ID、预设人体行为对应的动作类型序号和动态窗口长度N；

动态行为判断模块，其用于根据预判结果，判断多帧输入图像中同一人体的连续行为，以确定同一人体实际执行的动作；

所述动态行为判断模块执行的具体操作包括：

如果配置参数中对应所述人体的跟踪ID大于ID阈值，则根据所述配置参数中的动态窗口长度N滑动N帧；依次输出N帧的人体图像中同一人体行为的预判结果；将同一人体的N帧中每一帧对应的所述人体行为所属的动作类型的状态记录到对应的动作类型序号的状态序列中，根据每个所述状态序列中记录的动作类型的状态确定所述状态序列相应的动作类型是多帧中同一人体实际执行的动作。

11.根据权利要求10所述的系统，其特征在于，参数信息获取模块执行的具体操作包括：

12.根据权利要求11所述的系统，其特征在于，静态行为判断模块执行的具体操作包括：

13.如权利要求12所述的系统，其特征在于，

判断所述人体质量分是否低于质量分阈值；

其中，严重截断是指所述人体有超过一半不存在。

14.如权利要求13所述的系统，其特征在于，动态行为判断模块执行的具体操作包括：

15.如权利要求14所述的系统，其特征在于，根据每个所述状态序列中记录的动作类型的状态计算置信度，具体包括：

16.一种动作类型判断系统，其特征在于，

所述动作类型包括基本姿态和特殊动作；

所述系统包括：

权利要求14的系统；

动作类型判断模块，其在权利要求14的系统的动态行为判断模块的判断结果的基础上，根据时间顺序对N帧的前序帧中同一所述人体行为对应的一个或多个基本姿态的状态序列进行逻辑分析，以确定N帧中同一所述人体行为是否为与所述一个或多个基本姿态相关联的所述特殊动作；以及

17.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条程序代码，所述程序代码适用于由处理器加载并运行以执行权利要求1至9中任一项所述的方法。

18.一种终端装置，包括处理器和存储器，所述存储器适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至9中任一项所述的方法。