CN111191498A

CN111191498A - 行为识别方法和相关产品

Info

Publication number: CN111191498A
Application number: CN201911081403.2A
Authority: CN
Inventors: 肖怡雯
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-05-22

Abstract

本申请实施例公开了一种行为识别方法及相关产品。该方法包括：解析视频流，得到N帧图像；所述N帧图像中任意两帧图像对应的拍摄时间的间隔小于时间阈值，所述N帧图像中任一帧图像包括至少一个亮度小于亮度阈值的人体暗影区域，所述人体暗影区域用于确定至少一个人体轮廓，N为大于或等于1的整数；利用训练得到的行为识别模型识别所述N帧图像，得到目标行为；在所述目标行为包含于目标行为集合的情况下，向目标设备发送告警信息；所述目标行为集合包括两种或两种以上行为，所述告警信息用于指示所述目标行为。本申请实施例中，通过深度学习算法以及行为识别模型识别视频流中的行为，从而有效识别存在危险动机的行为，及时发出告警信息。

Description

行为识别方法和相关产品

技术领域

本发明涉及深度学习(Deep Learning，DL)技术领域，尤其涉及一种行为识别方法和相关产品。

背景技术

随着社会经济的迅猛发展和人口的日益增长，越来越多的人会偏向公共场所活动。在一些大城市中的公共场合，人口密度非常之高，在人口密度过高时，难免会产生一些异常事件，特别是在繁华大街、大型商场、体育场和大型工厂等地段，异常事件还是时有发生，如果不能及时发现并处理，容易引起人员伤亡和财产损失。

为了监控这些异常事件，一般采取的措施之一是添加视频监控系统。目前，视频监控系统已经遍布各种公共场合，包括商场、大街、公园、广场等。

传统视频监控主要通过安排专人职守视频监控室来达到监测目的，但由于每个监控室监控场景众多，而职守工作人员的精力和积极性都是有限的，遗漏一些重要信息也是在所难免的。鉴于上述原因，大量的监控视频在实际应用中仅仅只起到“事后查询”的作用，没有起到对异常行为实时监控的作用。异常行为可以是打架斗殴、车辆逆行、车辆相撞等行为。因此，需要研究能够实时监控异常行为的方案。

发明内容

本申请实施例公开了一种行为识别方法和相关产品，对于监控系统在黑暗条件下采集到的视频中移动的暗影，通过深度学习算法以及行为识别模型识别该移动暗影的行为，从而有效识别存在危险动机的行为，及时发出告警信息，避免悲剧发生。

第一方面，本申请实施例提供了一种行为识别方法，该方法包括：

解析视频流，得到N帧图像；所述N帧图像中任意两帧图像对应的拍摄时间的间隔小于时间阈值，所述N帧图像中任一帧图像包括至少一个亮度小于亮度阈值的人体暗影区域，所述人体暗影区域用于确定至少一个人体轮廓，N为大于或等于1的整数；

利用训练得到的行为识别模型识别所述N帧图像，得到目标行为；

在所述目标行为包含于目标行为集合的情况下，向目标设备发送告警信息；所述目标行为集合包括两种或两种以上行为，所述告警信息用于指示所述目标行为。

在该实现方式中，服务器解析视频流，所述视频流的来源途径多样，并不做限制，可以是终端监控设备采集到的实时监控视频，也可以是用户自行上传的离线视频流，基于深度学习、大数据和云存储的视频结构化服务，利用视频结构化描述技术，智能图像分析技术，对所述视频流进行分析以及处理，提取视频流中有价值的结构化信息的若干帧图像，该若干帧图像代表某个行为，并利用训练得到的行为识别模型识别提取到的若干帧图像，得到目标行为，若该目标行为包含于目标行为集合，则向目标设备发出告警信息，所述目标行为集合包含了一系列如“打架斗殴”之类具有危险动机的行为，所述目标设备为可以和服务器交互的设备，可以为公安局的预警中心，所述告警信息包含了提取到的若干帧图像、该若干帧图像的拍摄地的位置信息以及该若干帧图像的目标行为；可以有效识别存在危险动机的行为，及时发出告警信息。

在一个可选的实现方式中，所述解析视频流，得到N帧图像包括：

解析所述视频流，得到M帧图像，所述M帧图像中任意两帧图像对应的拍摄时间的间隔小于所述时间阈值，所述M帧图像中任一帧图像包括至少一个亮度小于所述亮度阈值的暗影区域，所述暗影区域用于确定至少一个目标对象的轮廓，所述目标对象包括人和/或除人之外的对象，M为大于或等于N的整数；

从所述M帧图像中获取用于确定人体轮廓的各帧图像，得到所述N帧图像。

在该实现方式中，解析所述视频流主要包含了两个识别的过程，首先是识别获取到的所述视频流，得到所述M帧图像，所述M帧图像包含了暗影区域，该暗影区域为目标对象的暗影，用于确定目标对象的轮廓，从而进一步识别出目标对象，此过程识别得到的所述M帧图像所包含的暗影区域可能包含人、动物、车辆等多个活动对象的暗影；然后识别所述M帧图像，得到所述N帧图像，所述N帧图像也包含了暗影区域，不同于前一次的识别过程，此次过程识别得到的所述N帧图像所包含的暗影区域仅包含人的暗影。通过两次识别可以提高解析所述视频流的准确度和行为的准确度。

在一个可选的实现方式中，所述告警信息包括用于指示所述目标行为的发生地点的位置信息。

在该实现方式中，向目标设备发送的告警信息包括所述视频流拍摄地的位置信息，该位置信息附近的公安民警等相关人员可以根据该告警信息立即赶赴现场进行处理，可以准确高效的识别并处理可能存在的危险动机的行为。

在一个可选的实现方式中，所述向目标设备发送告警信息之前，所述行为识别方法还包括：

确定采集得到所述视频流的终端设备的位置；

根据所述终端设备的位置以及所述目标行为，生成所述告警信息。

在该实现方式中，在利用训练得到的行为识别模型识别所述N帧图像，得到目标行为之后，并在向目标设备发送告警信息之前，服务器将采集得到所述视频流拍摄的位置信息，并生成相应的告警信息，所述告警信息包括所述视频流拍摄的位置信息以及所述目标行为，可以准确高效的识别可能存在的危险动机的行为并在最短时间内赶赴行为发生现场进行处理。

在一个可选的实现方式中，所述告警信息还包括所述N帧图像中的两帧或两帧以上图像。

在该实现方式中，所述告警信息包括所述目标行为的发生地点的位置信息、所述目标行为以及所述N帧图像中的两帧或两帧以上图像，可以有利于接收到所述告警信息的工作人员迅速了解所述目标行为的相关信息并做出最有效的解决方案。

在一个可选的实现方式中，所述利用训练得到的行为识别模型识别所述N帧图像，得到目标行为之后，所述方法还包括：

显示所述N帧图像中的至少一帧图像。

在该实现方式中，在利用训练得到的行为识别模型识别所述N帧图像，得到目标行为之后，还可以显示所述N帧图像中的至少一帧图像，通过前端界面展示出来，公安民警可以通过自己所处的位置区域选择特定的视频源进行查看，可以达到实时侦查的效果，防止关键线索遗漏。

在本申请实施例中，对于监控系统在黑暗条件下采集到的视频中移动的暗影，通过深度学习算法以及行为识别模型识别该移动暗影的行为意图，从而有效识别存在危险动机的行为，及时发出告警信息，避免悲剧发生。

第二方面，本申请实施例提供了一种行为识别装置，该装置包括：

解析单元，用于解析视频流，得到N帧图像；所述N帧图像中任意两帧图像对应的拍摄时间的间隔小于时间阈值，所述N帧图像中任一帧图像包括至少一个亮度小于亮度阈值的人体暗影区域，所述人体暗影区域用于确定至少一个人体轮廓，N为大于或等于1的整数；

识别单元，用于利用训练得到的行为识别模型识别所述N帧图像，得到目标行为；

发送单元，用于在所述目标行为包含于目标行为集合的情况下，向目标设备发送告警信息；所述目标行为集合包括两种或两种以上行为，所述告警信息用于指示所述目标行为。

在一种可选的实现方式中，所述解析单元，包括：

第一确定单元，用于解析所述视频流，得到M帧图像，所述M帧图像中任意两帧图像对应的拍摄时间的间隔小于所述时间阈值，所述M帧图像中任一帧图像包括至少一个亮度小于所述亮度阈值的暗影区域，所述暗影区域用于确定至少一个目标对象的轮廓，所述目标对象包括人和/或除人之外的对象，M为大于或等于N的整数；

第二确定单元，用于从所述M帧图像中获取用于确定人体轮廓的各帧图像，得到所述N帧图像。

在一种可选的实现方式中，该行为识别装置还包括：

第三确定单元，用于在所述发送单元向目标设备发送告警信息之前，确定采集得到所述视频流的终端设备的位置；

生成单元，用于在所述发送单元向目标设备发送告警信息之前，在所述第三确定单元确定采集得到所述视频流的终端设备的位置之后，根据所述终端设备的位置以及所述目标行为，生成所述告警信息。

在一种可选的实现方式中，该行为识别装置还包括：

显示单元，用于在所述识别单元利用训练得到的行为识别模型识别所述N帧图像，得到目标行为之后，显示所述N帧图像中的至少一帧图像。

在本申请实施例中，提供的行为识别装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。

第三方面，本申请实施例提供了一种服务器，该服务器包括接收器和发送器，还包括：处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如上述第一方面以及上述第一方面中可选的实现方式的方法。

第四方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如上述第一方面以及上述第一方面中可选的实现方式的方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面及其任一种可选的实现方式的方法。

本申请可以对于监控系统在黑暗条件下采集到的视频中移动的暗影，通过深度学习算法以及行为识别模型识别该移动暗影的行为意图，从而有效识别存在危险动机的行为，及时发出告警信息，避免悲剧发生。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种网络架构示意图；

图2为本申请实施例提供的一种应用场景示意图；

图3A为本申请实施例提供的一种暗影区域的页面示意图；

图3B为本申请实施例提供的一种视频结构化解析的页面示意图；

图3C为本申请实施例提供的一种行为识别的页面示意图；

图4为本申请实施例提供的一种行为识别方法的流程示意图；

图5为本申请实施例提供的另一种行为识别方法的流程示意图；

图6为本申请实施例提供的又一种行为识别方法的流程示意图；

图7为本申请实施例提供的一种装置的结构示意图；

图8为本申请实施例提供的另一种装置的结构示意图；

图9为本申请实施例提供的一种服务器的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。

本申请的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”、和“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或优先级。本申请的说明书实施例和权利要求书中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供了一种行为识别方法，为更清楚的描述本申请的方案。下面先介绍一些与行为识别相关的知识。

暗影：视频采集设备在黑暗条件下采集的人体轮廓或其他暗黑物体轮廓，具有肉眼难以识别的特性。

视频结构化解析系统：基于深度学习、大数据和云存储的视频结构化服务。利用视频结构化描述技术，智能图像分析技术(如人脸识别)，对实时视频或者离线视频进行分析以及处理，提取海量视频中的人、车、活动目标，将海量视频(非结构化)、图片(半结构化)提取有价值的结构化信息的系统。

人脸识别：是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术，通常也叫做人像识别、面部识别。

行为识别(Action Recognition，AR)：行为识别在本场景的目的是对一段视频片段中人的行为类别进行识别。通过将不同类别的动作分割好存入到数据库中，每个视频动作片段(时间仅为几秒钟)都包含一段具有明确意图的动作，且给每个动作片段定义标签label，将各类别的视频作为深度学习模型训练的样本输入，通过训练模型，模型可取识别一段未知视频片段的行为意图，对视频进行分类。

深度学习(Deep Learning，DL)：是机器学习(Machine Learning，ML)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标—人工智能(ArtificialIntelligence，AI)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

结构化信息：是指信息经过分析后可分解成多个互相关联的组成部分，各组成部分间有明确的层次结构，其使用和维护通过数据库进行管理，并有一定的操作规范。结构化数据可以组织成行列结构，可识别的数据。这类数据通常是一条记录，或者一个文件，或者是被正确标记过的数据中的某一个字段，并且可以被精确地定位到。互连网上出现的海量信息，大概分为结构化、半结构化和非结构化三种。结构化信息的性质和量值的出现的位置是固定的，我们通常接触的数据库所管理的信息，包括生产、业务、交易、客户信息等方面的记录；半结构化的信息如专业网站上的细分频道，其标题和正文的语法相当规范，关键词的范围相当局限；非结构化的信息如BLOG和BBS，所有内容都是不可预知的，现在这类非结构化信息正以成倍的速度增长，所涵盖的信息更为广泛，可分为：营运内容，如合约、发票、书信与采购记录；部门内容，如文书处理、电子表格、简报档案与电子邮件；Web内容，如超级文本标记语言(HyperText Markup Language，HTML)与可扩展标记语言(Extensible MarkupLanguage，XML)等格式的信息；多媒体内容，如声音、影片、图形等。结构化信息和非结构化信息是IT应用的两个世界，它们有着各自不同的应用进化特点和规律。但是，这两个世界之间还缺少相互连接的桥梁，而这种缺失使企业中不可避免地存在“活动”、“信息和知识”的分离，其后果就是：虽然它们都在进行着“知识化”的努力，但两个世界分离的IT应用模式，注定使其难以真正实现它们的初衷—“在最合适的时间，将最合适的信息传送给最合适的人”。

下面结合本申请实施例中的附图对本申请实施例进行描述。

图1为本申请实施例提供的一种网络架构示意图。如图1所示，上述网络架构可以包括终端设备集群、服务端以及目标设备集群。上述服务端可以是Web服务器或者其他服务器，上述终端设备集群可以包括多个终端设备，用于采集视频流，上述目标设备集群可以包括多个远程监控设备或预警设备。如图1所示，终端设备集群包括终端设备1、终端设备2、…、终端设备N，目标设备集群包括目标设备1、目标设备2、…、目标设备N；终端设备1、终端设备2、…、终端设备N可以分别与服务器进行网络连接，以与服务器进行交互并向其提供采集到的视频流，目标设备1、目标设备2、…、目标设备N也可以分别与服务器进行网络连接，以与服务器进行交互，接收相应的告警信息并做出反馈处理。终端设备可以是街头监控、摄像机、U盘、手机、笔记本电脑、平板电脑等可与服务器进行交互的设备，目标设备可以是远程监控器、计算机设备、有警报器的安全窗屏、视频移动探测器等可与服务器进行交互的设备。终端设备向服务器提供视频流，该视频流可以是该终端设备传输过来的实时监控视频，也可以是用户自行上传的离线视频流。服务器得到视频流后，解析该视频流，得到若干帧图像。该若干帧图像中任意两帧图像对应的拍摄时间的间隔应该小于某个时间阈值，该时间阈值可以为10秒、5分钟、10分钟、100分钟等，本申请实施例不作限定。服务器可以利用训练得到的行为识别模型识别上述若干帧图像，得到目标行为，若上述目标行为包含于目标行为集合，则向目标设备发送告警信息，上述目标行为集合收集了一系列如“打架斗殴”之类具有危险动机的行为，上述告警信息包括上述目标行为的发生地点的位置信息、上述目标行为以及上述若干帧图像中的两帧或两帧以上图像。

图2为本申请实施例提供的一种应用场景示意图。如图2所示，整个场景示意图总体分为三部分：终端设备、服务端以及目标设备。其中服务端可以包括视频结构化解析系统和行为识别系统两大部分，即这两部分系统均运行于服务器。如图2所示，终端设备通过发送端口向服务端提供视频流，该视频流可以是该终端设备传输过来的实时监控视频，也可以是用户自行上传的离线视频流，具体来源途径不做限制。服务端得到视频流，传入视频结构化解析系统进行解析，解析的过程可以包括两次识别过程，第一次识别过程为识别该视频流中的暗影区域，该暗影区域用来确定某对象的轮廓，第一次识别得到的结果为若干帧包含暗影区域的图像；第二次识别过程为识别第一次识别得到的若干帧图像中的暗影区域，筛选出包括用于确定人体轮廓的人体暗影区域的若干帧图像，即为第二次识别得到的结果。两次识别过程均是基于深度学习、大数据和云存储的视频结构化服务，利用视频结构化描述技术、智能图像分析技术完成的，通过两次识别可以提高解析上述视频流的准确度。然后将第二次识别得到的结果传输至行为识别系统，通过训练好的行为识别模型对得到的若干帧图像进行行为识别，得到目标行为。上述训练好的行为识别模型需要一个单独的训练过程，具体为采集大量视频并存入训练集，采集到的视频可以包含至少一个人体行为特征及运动轨迹，将不同类别的视频动作分割好且给每个视频动作片段定义一个标签，表示其包含的人体行为，存入到数据库中，上述每个视频动作片段的时间长度小于一个时间阈值，都包含一段具有明确意图的动作，且该动作被认定为一种具有危险动机的行为。将上述得到的各类别的视频动作片段作为深度学习模型训练的样本输入，通过大量的样本数据训练模型，得到该行为识别模型。在行为识别模型识别上述若干帧图像的过程中，若上述若干帧图像的暗影(对应于人体轮廓)的行为特征与行为识别模型中的某类行为相匹配，则表示该若干帧图像中包含某类危险行为，服务器将生成的告警信息发送给目标设备，该告警信息包括目标行为的发生地点的位置信息、目标行为以及若干帧图像中的两帧或两帧以上图像，完成一次预警目的，若上述若干帧图像的暗影的行为特征未与行为识别模型中的任何一类行为相匹配，则表示该若干帧图像中不包含某类危险行为，系统自动进入下一段图像的行为识别。

图3A为本申请实施例提供的一种暗影区域的页面示意图。如图3A所示，为解析视频流得到的某一帧图像的示意图。由于该视频流是在夜里拍摄的，存在光线暗、画质差等一些问题，故仅从这帧图像中，我们只能得到存在两个亮度差异明显的区域的结论，并不能通过肉眼去识别该帧图像中包含的具体对象以及对象正在进行的行为。但是，通过视频结构化解析，可以从中识别并提取出有价值的结构化信息，比如，该帧图像中的暗影区域301和暗影区域302。视频结构化解析系统基于深度学习算法，利用视频结构化描述技术、智能图像分析技术，可以识别出该帧图像的局部亮度差异，其中，低于系统设置的亮度阈值的局部为暗影区域301和暗影区域302，该帧图像除暗影区域之外的部分均高于系统设置的亮度阈值。由此可知上述暗影区域用于确定至少一个目标对象的轮廓，该目标对象包括人和/或除人之外的对象，如车、建筑等对象，此时，系统识别该帧图像仅能得到该帧图像包含暗影区域的结果，尚不知该暗影区域用于确定何种对象的轮廓，故视频结构化解析系统还需对该帧图像继续识别，还是基于深度学习算法，利用智能图像分析技术，根据暗影区域的轮廓识别目标对象，若目标对象为人，则提取该帧图像传输至行为识别系统，进一步识别其行为，若该帧图像的所有暗影区域所确定的目标对象均为除人之外的对象，表明在该帧图像中不存在人体行为特征，也不存在可能具有危险动机的行为，故不将该帧图像传输至行为识别系统。以本申请实施例提供的一种暗影区域的页面示意图为例，视频结构化解析系统先根据该帧图像的局部亮度差异识别出区域301和区域302明显低于亮度阈值，故该帧图像包含有暗影区域301和暗影区域302，从而对其进一步识别，又根据暗影区域的轮廓确定目标对象，可得到暗影区域301用于确定的轮廓为除人之外的目标对象的轮廓，而暗影区域302用于确定的轮廓为人的轮廓，表明该帧图像存在人体行为特征，故将该帧图像和其他同样存在人体行为特征的图像一同传输至行为识别系统，利用训练得到的行为识别模型识别该行为是否是具有危险动机的行为，从而决定是否向目标设备发送告警信息。

图3B为本申请实施例提供的一种视频结构化解析的页面示意图。如图3B所示，为视频结构化解析系统的一个页面局部简化图，视频结构化解析系统运行于服务器上，服务器与终端设备网络连接，故视频结构化解析系统可以和终端设备进行交互，获得监控系统传输过来的实时监控视频，进而将视频流结构化解析，获得一帧帧的图像通过视频结构化解析系统的前端页面显示出来。如图3B所示，整个页面简化图分为两个部分，左半部分为监控导航栏，汇总收集了分布在各个省市区街道位置上的监控设备采集到的实时视频流，还包含了离线视频文件，该部分视频为用户自行通过U盘等可以与服务器进行交互的设备上传的离线视频；选择导航栏的某个具体终端设备，页面的右半部分将展示解析该终端设备采集到的实时视频得到的若干帧图像，同时，也可以自行选择该终端设备3天内、7天内或15天内采集到的视频流解析得到的图像帧，还可以自定义查看任意某天采集到的视频流解析得到的图像帧，每一帧图像的下方还标注了该帧图像拍摄的时间。

图3C为本申请实施例提供的一种行为识别的页面示意图。如图3C所示，为行为识别系统的一个页面局部简化图，行为识别系统运行于服务器上，服务器与目标设备网络连接，故行为识别系统可以和目标设备进行交互，将生成的告警信息发送给目标设备，起到预警的作用。行为识别系统接收视频结构化解析系统解析视频流得到的N帧图像，并利用行为识别模型识别该N帧图像，得到目标行为，若该目标行为包含于目标行为集合，则向目标设备发出告警信息，上述目标行为集合包含了一系列如“打架斗殴”之类具有危险动机的行为，上述告警信息包含了上述目标行为的发生地点的位置信息、上述目标行为以及上述N帧图像中的两帧或两帧以上图像。如图3C所示，整个页面简化图主要分为两个部分，左半部分为采集准备被识别的图像帧的终端设备所在地的地图信息，若识别的目标行为包含于目标行为集合，则会生成相应的告警信息，显示在该页面上，预警相关工作人员对异常行为及早采取措施，如图中的小灰点弹出了一个告警窗口，该告警窗口包含了一帧识别出异常行为的图像，识别的目标行为为打架斗殴，该告警窗口还包括该帧图像被拍摄的位置定位信息和拍摄该帧图像时的时间信息；该页面简化图的右半部分展示的是待识别行为的若干帧图像的缩略图。

图4为本申请实施例提供的一种行为识别方法的流程示意图。如图4所示，该方法可包括：

401、解析视频流，得到N帧图像；上述N帧图像中任意两帧图像对应的拍摄时间的间隔小于时间阈值，上述N帧图像中任一帧图像包括至少一个亮度小于亮度阈值的人体暗影区域，上述人体暗影区域用于确定至少一个人体轮廓，N为大于或等于1的整数。

亮度指照射在景物或图像上光线的明暗程度。图像亮度增加时，就会显得耀眼或刺眼，亮度越小时，图像就会显得灰暗。举例来说，图像的亮度从低到高为1至256，该亮度阈值可以为128、64等，本申请实施例不作限定。服务器得到视频流后，解析该视频流，得到若干帧图像，该若干帧图像包含了至少一个行为，因此该若干帧图像中任意两帧图像对应的拍摄时间的间隔应该小于某个时间阈值，该时间阈值为上述行为的持续时间长度，同时，该若干帧图像还包含了局部之间的亮度差异，低于系统预设的亮度阈值的局部为暗影区域，该暗影区域用于确定目标对象的轮廓，此时的目标对象可能是包括人和/或除人以外的对象，根据识别得到该若干帧图像的暗影区域继续识别其轮廓，得到上述N帧图像，该N帧图像除了满足上述若干帧图像局部具有暗影区域的特征之外，还满足该暗影区域用于确定的目标轮廓为人的轮廓，故得到的该N帧图像中必含有某个人体行为特征和运动轨迹，可以更为精准的识别肉眼难见的暗影区域。

402、利用训练得到的行为识别模型识别上述N帧图像，得到目标行为。

上述训练得到的行为识别模型需要一个单独的训练过程，具体为采集大量视频并存入训练集，采集到的视频应该包含至少一个人体行为特征及运动轨迹，将不同类别的视频动作分割好且给每个视频动作片段定义一个标签，表示其包含的人体行为，存入到数据库中，上述每个视频动作片段的时间长度小于一个时间阈值，都包含一段具有明确意图的动作，且该动作被认定为一种具有危险动机的行为。将上述得到的各类别的视频动作片段作为深度学习模型训练的样本输入，通过大量的样本数据训练模型，得到该行为识别模型。利用训练得到的行为识别模型识别上述N帧图像，将上述N帧图像的暗影的行为特征与行为识别模型中的某类行为相匹配，得到其目标行为，可以解决人力实时监测监控视频的活动对象的行为的问题，实现系统自动识别暗影区域中的人的行为，大大提高了效率。

403、在上述目标行为包含于目标行为集合的情况下，向目标设备发送告警信息；上述目标行为集合包括两种或两种以上行为，上述告警信息用于指示上述目标行为。

在行为识别模型识别上述N帧图像的过程中，若上述N帧图像的暗影的行为特征与行为识别模型中的某类行为相匹配，则表示该N帧图像中暗影区域确定的人体具有某类危险行为的行为特征，服务器将确定该N帧图像拍摄地的位置信息，并生成告警信息发送给目标设备，该告警信息包括目标行为的发生地点的位置信息、目标行为以及该N帧图像中的两帧或两帧以上图像，完成一次预警目的，上述目标行为集合为一个具有危险行为特征的模型数据库，收集了一系列如“打架斗殴”之类具有危险动机的行为模型；若上述N帧图像的暗影的行为特征未与行为识别模型中的任何一类行为模型相匹配，则表示该N帧图像中的目标对象不具有某类危险行为，系统将自动进入下一段图像帧的暗影的行为识别。

图5为本申请实施例提供的另一种行为识别方法的流程示意图。如图5所示，该方法可包括：

501、获取视频流。

该视频流可以为实时监控视频，也可以为离线视频流。终端设备向服务器提供视频流，该终端设备是可以与服务器进行网络连接进行交互的设备，该视频流可以是监控系统传输过来的实时监控视频，也可以是用户自行上传的离线视频流，来源途径并不做限制，视频流可以是光线充足、画质好的条件下拍摄的，也可以是光线不足、画质差的条件下拍摄的，本实施例重点在于识别光线不足、画质差的条件下拍摄的难以用肉眼识别的视频。

502、解析上述视频流，得到M帧图像。

上述M帧图像中任意两帧图像对应的拍摄时间的间隔小于上述时间阈值，上述M帧图像中任一帧图像包括至少一个亮度小于上述亮度阈值的暗影区域，上述暗影区域用于确定至少一个目标对象的轮廓，上述目标对象包括人和/或除人之外的对象，M为大于或等于N的整数，N为大于或等于1的整数。解析的过程主要由两次识别过程组成，本方法为第一次解析识别视频流的过程。第一次识别过程具体为基于深度学习、大数据和云存储的视频结构化服务，利用视频结构化描述技术、智能图像分析技术，来识别该视频流中包含的暗影区域，该暗影区域的亮度低于系统预设的亮度阈值，该暗影区域用来确定目标对象的轮廓，第一次识别得到的结果为M帧包含暗影区域的图像，且该M帧图像包含的暗影区域用于确定至少一个行为，因此该M帧图像中任意两帧图像对应的拍摄时间的间隔应该小于某个时间阈值，该时间阈值即为上述行为的持续时间长度。以图3A为例，图3A为解析视频流的过程中得到的某一帧图像的示意图。视频结构化解析系统对其进行第一次识别，根据该帧图像存在局部亮度差异的特征，可以识别出区域301和区域302的亮度明显低于其他局部的亮度，且整体低于系统预设的亮度阈值，故通过视频结构化解析系统的第一次识别可以得知区域301和区域302均为暗影区域，但尚不知该暗影区域用于确定何类目标对象的轮廓。

503、判断上述M帧图像中是否包含用于确定人体轮廓的人体暗影区域。

若是，执行步骤504；若否，执行步骤501。根据视频结构化解析系统第一次识别是否得到暗影区域，判断该视频流接下来的处理操作，若第一次识别得到的M帧图像包含暗影区域，则对该M帧图像进行第二次识别，若第一次识别得到的M帧图像不包含暗影区域，则省略第二次识别过程，将该M帧图像传输至行为识别系统对其进行行为识别或解析下一段传入的视频流。以图3A为例，该帧图像包含暗影区域，故系统将对其进行第二次识别。

504、确定上述N帧图像，上述N帧图像包含用于确定人体轮廓的人体暗影区域。

对上述M帧图像进行第二次识别，通过第一次识别可知，M帧图像中包含暗影区域，但尚不知该暗影区域用于确定何类目标对象的轮廓，第二次识别主要根据暗影区域的轮廓用于确定目标对象的轮廓，筛选出该暗影区域只用于确定人的轮廓的若干帧图像，即为第二次识别得到的N帧图像。上述视频结构化解析系统的两次识别过程均是基于深度学习、大数据和云存储的视频结构化服务，利用视频结构化描述技术、智能图像分析技术完成的，通过两次识别可以提高解析上述视频流的精准度和识别效率。还是以图3A为例，通过上述视频结构化解析系统的第一次识别可以得知区域301和区域302均为暗影区域，但尚不知该暗影区域用于确定何类目标对象的轮廓，视频结构化解析系统对上述图像的两个暗影区域的轮廓进行第二次识别，可得到识别的结果为暗影区域301用于确定除人之外的目标对象的轮廓，暗影区域302用于确定人的轮廓，故可知该帧图像整体上还是包含用于确定人体轮廓的人体暗影区域，视频结构化解析系统将该帧图像传输至行为识别系统进行行为识别。

505、利用训练得到的行为识别模型识别上述N帧图像，得到目标行为。

行为识别模型的训练需要一个单独的训练过程，在此不多赘述，详情可参见图6。在行为识别模型识别上述N帧图像的过程中，若上述N帧图像的暗影的行为特征与行为识别模型中的某类行为相匹配，则将上述N帧图像的暗影的行为归为此类行为，得到目标行为，并贴上此类行为识别模型的标签。若该目标行为属于目标行为集合，则表示该目标行为具有危险行为的特征，同时该N帧图像中包含此类危险行为，服务器将确定该N帧图像拍摄地的位置信息和拍摄的时间信息，生成告警信息并发送给目标设备，该告警信息包括目标行为的发生地点的位置信息、目标行为以及该N帧图像中的两帧或两帧以上图像，完成一次预警目的，若上述N帧图像的暗影的行为特征未与行为识别模型中的任何一类行为相匹配，则表示该N帧图像中不包含某类危险行为，即为目标对象的正常行为，对该N帧图像的行为识别过程结束，行为识别系统将自动进入传入的下一段图像的行为识别。以图3A为例，行为识别系统对暗影区域302的行为特征进行匹配，由于该帧图像呈现的为暗影区域的某个瞬时状态，并不具备行为所具有的某个连贯的动作，无法体现其暗影区域的行为特征，在此，我们可以假设已经获取与该帧图像左右相近的若干帧图像，且上述若干帧图像具有和该帧图像相近的用于确定同一人体的暗影区域，上述若干帧图像和该帧图像中的任意两帧图像对应的拍摄时间的间隔小于某个时间阈值，此时上述图像具备行为所具有的某个连贯的动作，可以体现其暗影区域的行为特征，此时行为识别系统利用训练得到的行为识别模型对该帧图像暗影区域302的行为特征进行匹配，可以得到目标行为，且该目标行为不属于目标行为集合，故表示该目标行为不具有危险行为的特征，即为目标对象的正常行为，此时行为识别系统结束对该帧图像的行为识别过程，自动进入传入的下一段图像的行为识别。

506、显示上述N帧图像中的至少一帧图像。

利用训练得到的行为识别模型识别上述N帧图像，得到目标行为之后，还可以显示上述N帧图像中的至少一帧图像，通过前端界面展示出来，相关工作人员可以通过自己所处的位置区域选择特定的视频源进行查看，以达到实时侦查的效果，防止关键线索遗漏。

507、判断上述目标行为是否包含于目标行为集合，上述目标行为集合包括两种或两种以上行为。

若是，执行步骤508；若否，执行步骤501。通过行为识别模型识别图像中的暗影区域得到目标行为，判断上述目标行为是否包含于目标行为集合。若包含于目标行为集合，则表示该目标行为具有危险行为的特征，同时该帧图像中包含此类危险行为，服务器将确定该帧图像拍摄地的位置信息和拍摄的时间信息，生成告警信息并发送给目标设备；若不包含于目标行为集合，则表示该目标行为不具有危险行为的特征，同时该帧图像中不包含此类危险行为，行为识别系统将结束对该帧图像的行为识别过程，自动进入传入的下一段图像的行为识别。

508、确定采集得到上述视频流的终端设备的位置。

通过行为识别模型识别图像中的暗影区域得到目标行为，若该目标行为包含于目标行为集合，则表示该目标行为具有危险行为的特征，服务器将采集得到该帧图像拍摄地的位置信息和拍摄的时间信息。

509、根据上述终端设备的位置以及上述目标行为，生成上述告警信息。

在行为识别系统识别出某个目标行为具有危险行为特征的情况下，服务器将采集得到该帧图像拍摄地的位置信息和拍摄的时间信息，并根据拍摄该帧图像的终端设备的位置以及该目标行为，生成告警信息。

510、向目标设备发送告警信息，上述告警信息用于指示上述目标行为。

上述目标设备为可以与服务器网络连接并进行交互的设备，可以为远程监控器、有警报器的安全窗屏、视频移动探测器等设备。上述告警信息包括上述目标行为的发生地点的位置信息、上述目标行为以及上述N帧图像中的两帧或两帧以上图像，可以有利于接收到上述告警信息的工作人员迅速了解上述目标行为的相关信息并及时做出最有效的解决方案。

图6为本申请实施例提供的又一种行为识别方法的流程示意图。如图6所示，该方法可包括：

601、采集视频，存入训练集，上述视频包含至少一个人体行为特征及运动轨迹。

训练行为识别模型需要一个单独的训练过程，具体为采集大量视频并存入训练集，采集到的视频应该包含至少一个人体行为特征及运动轨迹，将不同类别的视频动作分割好且给每个视频动作片段定义一个标签，表示其包含的人体行为，存入到数据库中，上述每个视频动作片段的时间长度小于一个时间阈值，都包含一段具有明确意图的动作，且该动作被认定为一种具有危险动机的行为。

602、利用上述训练集训练得到行为识别模型。

将上述得到的各类别的视频动作片段作为深度学习模型训练的样本输入，通过大量的样本数据训练模型，得到该行为识别模型，此过程是基于深度学习算法实现的。

603、利用训练得到的行为识别模型识别上述N帧图像，得到目标行为。

在行为识别模型识别上述若干帧图像的过程中，若上述若干帧图像的暗影的行为特征与行为识别模型中的某类行为相匹配，则表示该若干帧图像中包含某类危险行为，服务器将生成的告警信息发送给目标设备，该告警信息包括目标行为的发生地点的位置信息、目标行为以及若干帧图像中的两帧或两帧以上图像，完成一次预警目的，若上述若干帧图像的暗影的行为特征未与行为识别模型中的任何一类行为相匹配，则表示该若干帧图像中不包含某类危险行为，系统自动进入下一段图像的行为识别。

图7为本申请实施例提供的一种行为识别装置的结构示意图。如图7所示，该装置包括：解析单元701、识别单元702以及发送单元703。其中：

解析单元701，用于解析视频流，得到N帧图像；上述N帧图像中任意两帧图像对应的拍摄时间的间隔小于时间阈值，上述N帧图像中任一帧图像包括至少一个亮度小于亮度阈值的人体暗影区域，上述人体暗影区域用于确定至少一个人体轮廓，N为大于或等于1的整数；

识别单元702，用于利用训练得到的行为识别模型识别上述N帧图像，得到目标行为；

发送单元703，用于在上述目标行为包含于目标行为集合的情况下，向目标设备发送告警信息；上述目标行为集合包括两种或两种以上行为，上述告警信息用于指示上述目标行为。

根据本申请实施例，图4中服务端执行的方法所涉及的各个步骤均可以是由图7所示的装置中的各个单元来执行的。例如，图4中所示的401由图7中所示的解析单元701来执行，图4中所示的402可以由图7中所示的识别单元702来执行，图4中所示的403可以由图7中所示的发送单元703来执行。

图8为本申请实施例提供的另一种行为识别装置的结构示意图。如图8所示，该装置包括：获取单元801、第一确定单元802、第一判断单元803、第二确定单元804、识别单元702、显示单元805、第二判断单元806、第三确定单元807、生成单元808以及发送单元703。其中：

获取单元801，用于获取视频流，该视频流可以为实时监控视频，也可以为离线视频流；

第一确定单元802，用于解析上述视频流，得到M帧图像，上述M帧图像中任意两帧图像对应的拍摄时间的间隔小于上述时间阈值，上述M帧图像中任一帧图像包括至少一个亮度小于上述亮度阈值的暗影区域，上述暗影区域用于确定至少一个目标对象的轮廓，上述目标对象包括人和/或除人之外的对象，M为大于或等于N的整数，N为大于或等于1的整数；

第一判断单元803，用于判断上述M帧图像中是否包含用于确定人体轮廓的人体暗影区域；

第二确定单元804，用于确定上述N帧图像，上述N帧图像包含用于确定人体轮廓的人体暗影区域；

上述识别单元702，用于利用训练得到的行为识别模型识别上述N帧图像，得到目标行为；

显示单元805，用于显示上述N帧图像中的至少一帧图像；

第二判断单元806，用于判断上述目标行为是否包含于目标行为集合，上述目标行为集合包括两种或两种以上行为；

第三确定单元807，用于确定采集得到上述视频流的终端设备的位置；

生成单元808，用于根据上述终端设备的位置以及上述目标行为，生成上述告警信息；

上述发送单元703，用于向目标设备发送告警信息，上述告警信息用于指示上述目标行为。

根据本申请实施例，图5至图6中服务端执行的方法所涉及的各个步骤均可以是由图8所示的装置中的各个单元来执行的。例如，图5中所示的501由图8中所示的801来执行；又如，图6中所示的603可以由图8中所示的702来执行。本申请说明书实施例中，术语“第一”、“第二”、“第三”仅用于区别不同的对象，例如确定单元、判断单元等。可以理解，第一确定单元、第二确定单元、第三确定单元之间没有优先级关系，第一判断单元、第二判断单元之间也没有优先级关系。

根据本申请实施例，图8所示的装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于服务端也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图5至图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的装置，以及来实现本申请实施例的文本识别方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述装置中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供了一种服务器的硬件结构示意图，如图9所示，该服务器901可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)902(例如，一个或一个以上处理器)和存储器908，一个或一个以上存储应用程序906或数据905的存储介质907(例如一个或一个以上海量存储设备)。其中，存储器908和存储介质907可以是短暂存储或持久存储。存储在存储介质907的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器902可以设置为与存储介质907通信，在服务器901上执行存储介质907中的一系列指令操作。服务器901可以为本申请提供的服务端。

服务器901还可以包括一个或一个以上电源903，一个或一个以上有线或无线网络接口909，一个或一个以上输入输出接口910，和/或，一个或一个以上操作系统904，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务端所执行的步骤可以基于该图9所示的服务器硬件结构。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且上述计算机存储介质中存储有前文提及的服务端所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图4至图6所对应实施例中对上述文本识别的方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种行为识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述解析视频流，得到N帧图像，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述告警信息包括用于指示所述目标行为的发生地点的位置信息。

4.根据权利要求3所述的方法，其特征在于，所述向目标设备发送告警信息之前，所述方法还包括：

确定采集得到所述视频流的终端设备的位置；

5.根据权利要求3所述的方法，其特征在于，所述告警信息还包括所述N帧图像中的两帧或两帧以上图像。

6.根据权利要求1或2所述的方法，其特征在于，所述利用训练得到的行为识别模型识别所述N帧图像，得到目标行为之后，所述方法还包括：

显示所述N帧图像中的至少一帧图像。

7.一种行为识别装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述解析单元，包括：

9.一种服务器，其特征在于，所述服务器包括接收器和发送器，还包括：处理器，适于实现一条或多条指令；以及，计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-6任一项所述的方法。