CN112001229B

CN112001229B - 视频行为识别的方法、装置、系统和计算机设备

Info

Publication number: CN112001229B
Application number: CN202010655318.9A
Authority: CN
Inventors: 袁雷; 魏乃科; 潘华东; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2021-07-20
Anticipated expiration: 2040-07-09
Also published as: CN112001229A

Abstract

本申请涉及一种视频行为识别的方法、装置、系统和计算机设备，其中，该视频行为识别的方法包括：将鱼眼摄像机获取的视频流分解为帧图片，并对该帧图片进行人体检测；根据该人体检测的结果，获取人体区域在该帧图片中的位置信息；根据该人体区域获取人体关键点，并根据该人体关键点获取局部骨架；根据该局部骨架和该位置信息，通过第一神经网络获取该帧图片中人体行为的识别结果；通过本申请，解决了鱼眼视频图像中人体行为识别的准确性低的问题。

Description

视频行为识别的方法、装置、系统和计算机设备

技术领域

本申请涉及图像处理技术领域，特别是涉及视频行为识别的方法、装置、系统和计算机设备。

背景技术

鱼眼摄像机是可以独立实现大范围无死角监控的全景摄像机；使用了鱼眼摄像机的监控设备获取的视频图像，观测范围大，可以用于在视频监控过程中自动检测人体行为。在相关技术中，通常需要人体携带传感器进行辅助，通过接收传感器信号判断是否发生人体倒地，因此局限性较大；或者直接对视频图像进行人体分析，但由于鱼眼摄像机的视频图像发生了畸变，难以观测该视频图像中是否出现人体倒地现象。

针对相关技术中，鱼眼视频图像中人体行为识别的准确性低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种视频行为识别的方法、装置、系统和计算机设备，以至少解决相关技术中鱼眼视频图像识别人体行为的准确性低的的问题。

第一方面，本申请实施例提供了一种视频行为识别的方法，所述方法包括：

将鱼眼摄像机获取的视频流分解为帧图片，并对所述帧图片进行人体检测；根据所述人体检测的结果，获取人体区域在所述帧图片中的位置信息；

根据所述人体区域获取人体关键点，并根据所述人体关键点获取局部骨架；

根据所述局部骨架和所述位置信息，通过第一神经网络获取所述帧图片中人体行为的识别结果。

在其中一些实施例中，所述根据所述局部骨架和所述位置信息，通过第二神经网络获取所述帧图片中人体行为的识别结果包括：

根据所述位置信息获取所述局部骨架的权重；

将所述局部骨架和所述权重输入至所述第一神经网络，并输出特征类别；根据所述特征类别获取所述识别结果。

在其中一些实施例中，所述根据所述特征类别获取所述识别结果之后，所述方法还包括：

获取多张帧图片，并依次将所述多张帧图片输入至所述第一神经网络，获取所述多张帧图片的识别结果；

获取所述识别结果中人体行为为倒地的数量；在所述数量大于或等于预设阈值的情况下，判断倒地事件发生。

在其中一些实施例中，所述根据所述人体关键点获取局部骨架之后，所述方法还包括：

根据所述人体区域获取RGB图像信息；

根据所述RGB图像信息和所述局部骨架构建RGB骨架模型，并根据所述RGB骨架模型获取所述识别结果。

在其中一些实施例中，所述根据所述RGB骨架模型获取所述识别结果之后，所述方法还包括：

获取多张帧图片，并获取所述多张帧图片的识别结果；

获取所述多张帧图片的识别结果中，人体行为为倒地的数量；在所述数量大于或等于预设阈值的情况下，判断倒地事件发生。

在其中一些实施例中，所述根据所述人体区域获取人体关键点，并根据所述人体关键点获取局部骨架包括：

利用第二神经网络对所述人体区域回归获取所述人体关键点，将所述人体关键点进行局部链接并获取所述局部骨架。

在其中一些实施例中，所述获取人体区域在所述帧图片中的位置信息包括：

获取所述帧图片中划分的第一图像区域和第二图像区域，并确定所述人体区域在所述第一图像区域或所述第二图像区域中的位置信息。

在其中一些实施例中，所述对所述帧图片进行人体检测包括：通过鱼眼人体检测算法进行所述人体检测。

第二方面，本申请实施例提供了一种视频行为识别的装置，所述装置包括：检测模块、位置获取模块、骨架获取模块和识别模块；

所述检测模块模块，用于将鱼眼摄像机获取的视频流分解为帧图片，并对所述帧图片进行人体检测；

所述位置获取模块，用于根据所述人体检测的结果，获取人体区域及其在所述帧图片中的位置信息；

所述骨架获取模块，用于根据所述人体区域获取人体关键点，并根据所述人体关键点获取局部骨架；

所述识别模块根据所述局部骨架和所述位置信息，通过第一神经网络获取所述帧图片中人体行为的识别结果。

第三方面，本申请实施例提供了一种视频行为识别的系统，所述系统包括：鱼眼摄像机和主控装置；其中，所述鱼眼摄像机和所述主控装置连接；

所述主控装置将所述鱼眼摄像机获取的视频流分解为帧图片，并对所述帧图片进行人体检测；所述主控装置根据所述人体检测的结果，获取人体区域及其在所述帧图片中的位置信息；

所述主控装置根据所述人体区域获取人体关键点，并根据所述人体关键点获取局部骨架；

所述主控装置根据所述局部骨架和所述位置信息，通过第一神经网络获取所述帧图片中人体行为的识别结果。

第四方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的视频行为识别的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的视频行为识别的方法。

相比于相关技术，本申请实施例提供的视频行为识别的方法、装置、系统和计算机设备，通过将鱼眼摄像机获取的视频流分解为帧图片，并对该帧图片进行人体检测；根据该人体检测的结果，获取人体区域在该帧图片中的位置信息；根据该人体区域获取人体关键点，并根据该人体关键点获取局部骨架；根据该局部骨架和该位置信息，通过第一神经网络获取该帧图片中人体行为的识别结果，解决了鱼眼视频图像中人体行为识别的准确性低的问题。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为根据本发明实施例中视频行为识别方法的应用场景的示意图；

图2为根据本申请实施例的的视频行为识别方法的流程图一；

图3A为根据本申请实施例的位置信息标记的示意图一；

图3B为根据本申请实施例的位置信息标记的示意图二；

图4为根据本申请实施例的的视频行为识别方法的流程图二；

图5为根据本申请实施例的的视频行为识别方法的流程图三；

图6为根据本申请实施例的的视频行为识别方法的流程图四；

图7为根据本申请实施例的的视频行为识别方法的流程图五；

图8为根据本申请实施例的视频行为识别装置的结构框图；

图9为根据本申请实施例的视频行为识别系统的结构框图；

图10为根据本申请实施例的计算机设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请提供的视频行为识别的方法，可以应用于如图1所示的应用环境中。其中，鱼眼摄像机12通过网络与服务器14进行通信。服务器14获取鱼眼摄像机12拍摄到的视频流并分解为帧图片；服务器14处理该帧图片得到人体区域的位置信息和局部骨架，并根据该位置信息和该局部骨架获取该帧图片的人体行为的识别结果。其中，服务器14可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在本实施例中，提供了一种视频行为识别的方法。图2为根据本申请实施例的视频行为识别方法的流程图一，如图2所示，该流程包括如下步骤：

步骤S202，对鱼眼摄像机12获取的视频流进行分解，将该视频流分解为帧图片，并对该帧图片进行人体检测；其中，可以通过鱼眼人体检测算法进行该人体检测；根据该人体检测的结果，获取该帧图片中的人体区域，将该人体区域从该帧图片中截取出来；其中，还可以在该帧图片中将该人体区域标注出外接矩形框。然后获取并记录该人体区域在该帧图片中的位置信息；可以理解的是，这种位置信息获取的方式有多种。

在其中一些实施例中，通过获取该帧图片中设置的第一区域和第二区域，确定该人体区域在该第一区域或该第二区域中的位置信息。例如，图3A为根据本申请实施例的位置信息标记的示意图一，如图3A所示，帧图片中划分线上半部分图像区域，以及划分线下半部分图片区域即为两种不同的位置信息；则位于上半部分图像区域的第一人体区域的位置信息可设置为1，位于下半部分图像区域的第二人体区域的位置信息可设置为2；或者，图3B为根据本申请实施例的位置信息标记的示意图二，如图3B所示，分别用第一、第二和第三划分线将整个图像划分为第一、第二、第三和第四图像区域，则第一人体区域和第二人体区域位于第二图像区域，第三人体区域位于第三图像区域。其中，可以根据该人体区域标注的外接矩形框中心点位于的区域来判断当前人体属于该帧图片中哪个图像区域。通过多种方式进行图像区域划分，从而根据帧图片中划分的图像区域确定人体区域的位置，使得对人体区域的识别可以与该帧图片的畸变情况相适应。

步骤S204，根据该人体区域获取人体关键点，并根据该人体关键点获取局部骨架；其中，该人体关键点可以包括头部、五官、颈部和四肢主要关节部位等；可以使用深度神经网络对该人体区域回归得到人体关键点，或者，也可以。然后，按照头部骨架，上半身骨架，下半身骨架和脚步骨架等多个局部骨架。将该人体关键点进行局部链接从而形成局部骨架。

步骤S206，根据该局部骨架和该位置信息，通过第一神经网络获取该帧图片中人体行为的识别结果；其中，利用深度深度网络对该多个局部骨架进行建模，得到基于多个骨架特征的多输入判别的姿态判别模型。将每个局部骨架作为多骨架模型的输入，且预先定义好各个骨架的重要系数，并利用该第一神经网络作为模型结构，以人体姿态作为监督，最终输出判别特征，并根据输出的特征类别判定当前帧图片中当前人体的行为特征；此外，使用局部骨架替代全局骨架，是因为局部骨架相较于全局骨架更具有区分性，举例来说，在处于倒立和直立这两个不同姿态的人的全局骨架很类似，使得很难区分出倒地模型的情况下，由于倒地和直立的人脚部特征会比较有区分性，利用局部骨架就能得到较好的效果。

在相关技术中直接对鱼眼视频的图像进行人体分析，很难区分人体的倒地或直立状态，而本申请实施例通过上述步骤S202至步骤S206，对鱼眼摄像机12拍摄的视频流分解得到帧图片，并根据该帧图片获取人体区域的局部骨架和位置信息，利用人体空间位置结合多骨架特征建模的策略，使得特征区分性强，从而通过将局部骨架和位置信息这两种信息融合获得人体行为的识别结果，解决了在姿态类似情况下无法区分人体行为姿态的问题，实现了鱼眼视频图像中人体行为识别的准确性的提高；同时，本申请实施例无须设置多余的传感器对视频进行人体行为识别，增强了视频行为识别方法的可扩展性和实用性。

在其中一些实施例中，提供了一种视频行为识别的方法。图4为根据本申请实施例的视频行为识别方法的流程图二，如图4所示，该方法还包括如下步骤：

步骤S402，根据该位置信息获取该局部骨架中各个部位骨架的权重；将该局部骨架和该权重输入至该第一神经网络，并输出特征类别；根据该特征类别获取该识别结果。

例如，在图像划分区域如图3A所示的情况下，若当前人体处于上半部分时，由于人体脚部特征并不明显，因此可以对于局部骨架模型输出的脚部骨架的特征做适当的抑制；而当人体处于下半部分时，由于脚部特征相对明显，因此可以适当提高脚部特征在该第一神经网络的输出中所占的比重，并根据输出的特征类别判定当前帧当前人体的行为姿态。

或者，在图像划分区域如图3B所示的情况下，由于人体在第一区域和第二区域中头部特征和脚部特征的区分性很大，因此提高局部骨架模型中头部、脚部骨架的学习比重，可以有助于区分人体特征，从而达到更好的识别效果；且由于人体在第三区域和第四区域中头部和脚部特征区分性不大，因此适当降低局部骨架模型中脚部骨架的学习比重，并根据输出的特征类别判定当前帧当前人体的行为姿态；另外，由于图3B中的不同区域人体姿态变化较大(不论是倒地还是直立)，因此此时也可以尝试将这个二分类问题转换为八分类问题；其中，该八个类别是根据状态×区域数(2×4)得到的。

通过上述步骤S402，根据人体区域在帧图片中的位置信息获得局部骨架的权重，并根据该权重调整该局部骨架在该第一神经网络中输出特征的比重，从而获取到了更具有判别性的特征，使得鱼眼摄像机12整体的可用区域变得很大，扩展了有效视野；同时，通过位置信息将图像区域划分后，鱼眼场景下会使得姿态的特征被区分的更加明显。

在其中一些实施例中，提供了一种视频行为识别的方法。图5为根据本申请实施例的视频行为识别方法的流程图三，如图5所示，该方法还包括如下步骤：

步骤S502，获取多张帧图片，并依次将该多张帧图片输入至该第一神经网络，获取该多张帧图片的识别结果；其中，该多张帧图片可以从鱼眼摄像机12获取的一段时间内的视频流中分解获取，且通过重复上述步骤S202至步骤S206依次对该多张帧图片进行处理，得到该多张帧图片的局部信息和位置信息，然后利用该第一神经网络获取该多张帧图片的识别结果。

步骤S504，获取该识别结果中人体行为为倒地的数量；在该数量大于或等于预设阈值的情况下，说明鱼眼摄像机12获取到的视频流中有一段时间检测到的人体处于倒地状态，则此时判断倒地事件发生；其中，该预设阈值可以由工作人员进行设置，例如，该预设阈值可以为7200帧。

通过上述步骤S502至S504，将鱼眼摄像机12一段时间内获取的视频流分解获取到多张帧图片，并对该多张帧图片进行行为识别，避免了由于单张帧图片误判造成识别结果不准确，从而保证了倒地事件判断的准确性，进一步优化了视频行为识别的方法。

在其中一些实施例中，提供了一种视频行为识别的方法。图6为根据本申请实施例的视频行为识别方法的流程图四，如图6所示，该方法还包括如下步骤：

步骤S602，根据该人体区域获取RGB图像信息；通过该RGB图像信息和该局部骨架这两个信息的融合，利用深度神经网络模型构建RGB骨架模型，并根据该RGB骨架模型获取该识别结果。通过上述步骤S602，利用人体RGB-骨架多模态网络特征，来获得更强的具有区分性的特征，从而解决了在姿态类似情况下无法区分人体行为姿态的问题，进一步提高了鱼眼视频图像中人体行为识别的准确性。

在其中一些实施例中，根据该RGB骨架模型获取该识别结果之后，该方法还包括如下步骤：获取多张帧图片，根据该多张帧图片构建该RGB骨架模型，并获取该多张帧图片的识别结果；获取该识别结果中人体行为为倒地的数量；在该数量大于或等于预设阈值的情况下，说明鱼眼摄像机12获取到的视频流中有一段时间检测到的人体处于倒地状态，则此时判断倒地事件发生，从而避免了对RGB图像信息的行为识别过程中，由于单张帧图片误判造成的识别结果不准确。

在其中一些实施例中，利用第二神经网络对该人体区域回归获取该人体关键点，其中，可以通过基于全卷积网络计算在人体区域中各个像素点属于关键点的编号的概率；对各个关键点，将其所对应的高概率的像素点团中心，记为其关键点的位置、由此获得所有关键点的坐标；然后对各个人体关键点进行局部链接，构建为局部骨架。

下面结合实际应用场景对本发明的实施例进行详细说明，图7为根据本申请实施例的视频行为识别方法的流程图五，该视频行为识别方法的具体实施步骤如图7所示。

步骤S702，对视频进行分解，将视频分解为帧图片；利用鱼眼人体检测算法检测帧图片中的人体区域，并将所得的人体区域从图片帧中截取出来。

步骤S704，定位人体位置信息，记录步骤S702中截取的人体区域在鱼眼帧图片的位置信息。

步骤S706，使用深度神经网络对步骤S702所述的人体区域回归得到人体关键点。

步骤S708，将步骤S706得到的人体关键点进行局部链接，从而按照头部骨架，上半身骨架，下半身骨架，脚步骨架等N个局部骨架形成局部骨架；其中，N为正整数。

步骤S710，利用深度神经网络对步骤S708所示的N个局部骨架进行建模，得到基于多个骨架特征的多输入判别的姿态判别模型。将每个局部骨架作为多骨架模型的输入，且预先定义好各个骨架的重要系数，并利用深度神经网络作为模型结构，以人体姿态作为监督，最终输出判别特征。

步骤S712，根据步骤S704记录的当前人体区域的位置信息，结合步骤S710得到的基于多个局部骨架建模的姿态判别模型，通过这两个信息的结合得到更具有区分性的人体姿态判别特征，并根据输出的特征类别判定当前帧图片中当前人体的行为特征。

步骤S714，根据多帧行为的统计，当满足条件的帧数大于阈值后，倒地事件发生。

步骤S716，根据步骤S702截取的人体区域，获得RGB图像信息，并结合步骤S710得到的基于多个局部骨架建模的姿态判别模型，通过这两个信息的融合利用深度神经网络模型构建RGB骨架模型，利用该多模态融合网络，用于获得更具有区分性的人体姿态判别特征，并根据输出的特征类别判定当前帧当前人体的行为姿态。

步骤S718，根据多帧行为的统计，当满足条件的帧数大于阈值后，倒地事件发生。

应该理解的是，虽然图2、图4至图7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图4至图7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本实施例还提供了一种视频行为识别的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是根据本申请实施例的视频行为识别装置的结构框图，如图8所示，该装置包括：检测模块82、位置获取模块84、骨架获取模块86和识别模块88；该检测模块82用于将鱼眼摄像机12获取的视频流分解为帧图片，并对该帧图片进行人体检测；该位置获取模块84用于根据该人体检测的结果，获取人体区域及其在该帧图片中的位置信息；该骨架获取模块86用于根据该人体区域获取人体关键点，并根据该人体关键点获取局部骨架；该识别模块88用于根据该局部骨架和该位置信息，通过第一神经网络获取该帧图片中人体行为的识别结果。

通过上述实施例，检测模块82对鱼眼摄像机12拍摄的视频流分解得到帧图片，位置获取模块84和骨架获取模块86分别根据该帧图片获取人体区域的位置信息和局部骨架，识别模块88利用人体空间位置结合多骨架特征建模的策略，使得特征区分性强，并通过将局部骨架和位置信息这两种信息融合获得人体行为的识别结果，从而解决了在姿态类似情况下无法区分人体行为姿态的问题，实现了鱼眼视频图像中人体行为识别的准确性的提高。

在其中一些实施例中，该识别模块88还用于根据该位置信息获取该局部骨架的权重；该识别模块将该局部骨架和该权重输入至该第一神经网络，并输出特征类别；根据该特征类别获取该识别结果。

在其中一些实施例中，该识别模块88还用于获取多张帧图片，并依次将该多张帧图片输入至该第一神经网络，获取该多张帧图片的识别结果；该识别模块获取该识别结果中人体行为为倒地的数量；在该数量大于或等于预设阈值的情况下，判断倒地事件发生。

在其中一些实施例中，该识别模块88还用于根据该人体区域获取RGB图像信息；该识别模块根据该RGB图像信息和该局部骨架构建RGB骨架模型，并根据该RGB骨架模型获取该识别结果。

在其中一些实施例中，该识别模块88还用于获取多张帧图片，根据该多张帧图片构建该RGB骨架模型，并获取该多张帧图片的识别结果；该识别模块78获取该识别结果中人体行为为倒地的数量；在该数量大于或等于预设阈值的情况下，判断倒地事件发生。

在其中一些实施例中，该骨架获取模块86还用于利用第二神经网络对该人体区域回归获取该人体关键点，将该人体关键点进行局部链接并获取该局部骨架。

在其中一些实施例中，该位置获取模块84还用于获取该帧图片中设置的第一区域和第二区域，并确定该人体区域在该第一区域或该第二区域中的位置信息。

在其中一些实施例中，该检测模块82还用于通过鱼眼人体检测算法进行该人体检测。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在本实施例中，提供了一种视频行为识别的系统，图9为根据本申请实施例的视频行为识别系统的结构框图，如图9所示，该系统包括：鱼眼摄像机12和主控装置92；其中，该鱼眼摄像机12和该主控装置92连接；该主控装置92将该鱼眼摄像机12获取的视频流分解为帧图片，并对该帧图片进行人体检测；该主控装置92根据该人体检测的结果，获取人体区域及其在该帧图片中的位置信息；该主控装置92根据该人体区域获取人体关键点，并根据该人体关键点获取局部骨架；该主控装置92根据该局部骨架和该位置信息，通过第一神经网络获取该帧图片中人体行为的识别结果。

另外，结合图1描述的本申请实施例视频行为识别方法可以由计算机设备来实现。图10为根据本申请实施例的计算机设备的硬件结构示意图。

计算机设备可以包括处理器102以及存储有计算机程序指令的存储器104。

具体地，上述处理器102可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器104可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器104可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器104可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器104可在数据处理装置的内部或外部。在特定实施例中，存储器104是非易失性(Non-Volatile)存储器。在特定实施例中，存储器104包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(Random Access Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-OnlyMemory，简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory，简称为EPROM)、电可擦除PROM(Electrically ErasableProgrammable Read-Only Memory，简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-AccessMemory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode DynamicRandom Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器104可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器102所执行的可能的计算机程序指令。

处理器102通过读取并执行存储器104中存储的计算机程序指令，以实现上述实施例中的任意一种视频行为识别的方法。

在其中一些实施例中，计算机设备还可包括通信接口106和总线108。其中，如图10所示，处理器102、存储器104、通信接口106通过总线108连接并完成相互间的通信。

通信接口106用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口106还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线108包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线108包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线108可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线108可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以基于获取到的帧图片，执行本申请实施例中的视频行为识别的方法，从而实现结合图1描述的视频行为识别的方法。

另外，结合上述实施例中的视频行为识别的方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种视频行为识别方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频行为识别的方法，其特征在于，所述方法包括：

其中，所述获取人体区域在所述帧图片中的位置信息包括：

获取所述帧图片中设置的第一图像区域和第二图像区域，并确定所述人体区域在所述第一图像区域或所述第二图像区域中的位置信息；

根据所述局部骨架和所述位置信息，通过第一神经网络获取所述帧图片中人体行为的识别结果，包括：

根据所述位置信息获取所述局部骨架的权重；

将所述局部骨架和所述权重输入至所述第一神经网络，并输出特征类别；根据所述特征类别获取所述识别结果；

其中，所述根据所述人体关键点获取局部骨架之后，所述方法还包括：

根据所述人体区域获取RGB图像信息；

根据所述RGB图像信息和所述局部骨架构建RGB骨架模型，并根据所述RGB骨架模型获取所述识别结果；

所述根据所述RGB骨架模型获取所述识别结果之后，所述方法还包括：

获取多张帧图片，根据所述多张帧图片构建所述RGB骨架模型，并获取所述多张帧图片的识别结果；

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征类别获取所述识别结果之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述人体区域获取人体关键点，并根据所述人体关键点获取局部骨架包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述帧图片进行人体检测包括：通过鱼眼人体检测算法进行所述人体检测。

5.一种视频行为识别的装置，其特征在于，所述装置包括：检测模块、位置获取模块、骨架获取模块和识别模块；

所述检测模块，用于将鱼眼摄像机获取的视频流分解为帧图片，并对所述帧图片进行人体检测；

所述检测模块还用于获取所述帧图片中设置的第一图像区域和第二图像区域，并确定人体区域在所述第一图像区域或所述第二图像区域中的位置信息；

所述识别模块，用于根据所述位置信息获取所述局部骨架的权重，将所述局部骨架和所述权重输入至第一神经网络，并输出特征类别，根据所述特征类别获取识别结果；

所述识别模块还用于根据所述人体区域获取RGB图像信息；所述识别模块根据所述RGB图像信息和所述局部骨架构建RGB骨架模型，并根据所述RGB骨架模型获取所述识别结果；

所述识别模块还用于获取多张帧图片，根据所述多张帧图片构建所述RGB骨架模型，并获取所述多张帧图片的识别结果；所述识别模块获取所述识别结果中人体行为为倒地的数量；在所述数量大于或等于预设阈值的情况下，判断倒地事件发生。

6.一种视频行为识别的系统，其特征在于，所述系统包括：鱼眼摄像机和主控装置；其中，所述鱼眼摄像机和所述主控装置连接；

所述主控装置还用于获取所述帧图片中设置的第一图像区域和第二图像区域，并确定所述人体区域在所述第一图像区域或所述第二图像区域中的位置信息；

所述主控装置还用于根据所述位置信息获取所述局部骨架的权重，将所述局部骨架和所述权重输入至第一神经网络，并输出特征类别，根据所述特征类别获取识别结果；

所述主控装置还用于根据所述人体区域获取RGB图像信息；所述主控装置根据所述RGB图像信息和所述局部骨架构建RGB骨架模型，并根据所述RGB骨架模型获取所述识别结果；

所述主控装置还用于获取多张帧图片，根据所述多张帧图片构建所述RGB骨架模型，并获取所述多张帧图片的识别结果；所述主控装置获取所述识别结果中人体行为为倒地的数量；在所述数量大于或等于预设阈值的情况下，判断倒地事件发生。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的视频行为识别的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的视频行为识别的方法。