CN111339898A

CN111339898A - 行为检测方法和装置、计算机可读存储介质、计算机设备

Info

Publication number: CN111339898A
Application number: CN202010107907.3A
Authority: CN
Inventors: 朱进京; 倪枫
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-06-26

Abstract

本说明书实施例提供一种行为检测方法和装置、计算机可读存储介质、计算机设备，通过获取监控视频，从所述监控视频中确定至少一个监控对象；分别对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象；对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果，并根据所述跟踪结果对所述目标监控对象进行持续行为检测。通过这种方式，无需采用额外的硬件装置来即可实现对监控对象进行行为检测，降低了行为检测的成本。

Description

行为检测方法和装置、计算机可读存储介质、计算机设备

技术领域

本公开涉及计算机视觉技术领域，尤其涉及行为检测方法和装置、计算机可读存储介质、计算机设备。

背景技术

行为检测是指对目标对象(例如，人或者动物)的行为进行检测，这里说的行为可以包括但不限于跌倒、跑步、蹲下、打架等等。行为检测可以广泛应用于日常生活中，例如，通过对老年人进行跌倒检测，能够及时发现老年人跌倒，从而对其进行及时的救助。然而，传统的行为检测方式需要采用额外的设备(比如传感器、声音采集器等)来辅助检测，实现成本较高。

发明内容

本公开提供一种行为检测方法和装置、计算机可读存储介质、计算机设备。

根据本公开实施例的第一方面，提供一种行为检测方法，所述方法包括：获取监控视频，从所述监控视频中确定至少一个监控对象；分别对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象；对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果，并根据所述跟踪结果对所述目标监控对象进行持续行为检测。

在一些实施例中，所述分别对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象，包括：根据所述监控视频的目标检测精确度，确定对所述至少一个监控对象中的每个监控对象进行行为检测的检测模式；其中，所述检测模式至少包括第一检测模式和第二检测模式，所述第一检测模式的检测精确度高于所述第二检测模式；基于经确定的检测模式对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象。

在一些实施例中，所述根据所述监控视频的目标检测精确度，确定对所述至少一个监控对象中的每个监控对象进行行为检测的检测模式，包括：若所述目标检测精确度大于预设的检测精确度阈值，确定所述检测模式为所述第一检测模式；和/或若所述目标检测精确度不大于所述检测精确度阈值，确定所述检测模式为所述第二检测模式。

在一些实施例中，在所述检测模式为所述第一检测模式的情况下，所述基于经确定的检测模式对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象，包括：获取所述监控对象在所述监控视频的至少一帧第一视频帧中的第一骨骼关键点位置；根据所述第一骨骼关键点位置确定发生目标行为的目标监控对象。

在一些实施例中，所述根据所述第一骨骼关键点位置确定发生目标行为的目标监控对象，包括：若所述监控对象的第一骨骼关键点位置与所述目标行为对应的参考骨骼关键点位置相匹配，确定所述监控对象为目标监控对象；或者分别确定所述监控对象在所述监控视频中的多帧第一视频帧中的第一骨骼关键点位置；若所述监控对象在所述多帧第一视频帧中的第一骨骼关键点位置的位置差大于预设的位置差阈值，确定所述监控对象为所述目标监控对象；其中，所述多帧第一视频帧之间的时间差小于预设的时间差阈值；或者将所述至少一帧第一视频帧中的第一骨骼关键点位置输入预先训练的骨骼关键点检测模型，并获取所述骨骼关键点检测模型输出的第一行为检测结果；根据所述第一行为检测结果确定所述监控对象是否为目标监控对象。

在一些实施例中，在所述检测模式为所述第二检测模式的情况下，所述基于经确定的检测模式对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象，包括：将所述监控视频输入预先训练的行为检测模型，并获取所述行为检测模型输出的所述监控对象的第二行为检测结果；根据所述监控对象的第二行为检测结果确定所述监控对象是否为所述目标监控对象。

在一些实施例中，所述第二行为检测结果为所述监控对象发生所述目标行为的概率值；所述根据所述监控对象的第二行为检测结果确定所述监控对象是否为所述目标监控对象，包括：若所述监控对象发生所述目标行为的概率值大于预设的概率阈值，确定所述监控对象发生所述目标行为。

在一些实施例中，所述对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果，包括：根据所述监控视频的目标跟踪精确度，确定对所述目标监控对象进行跟踪的跟踪模式；其中，所述跟踪模式至少包括第一跟踪模式和第二跟踪模式，所述第一跟踪模式的跟踪精确度高于所述第二跟踪模式；基于经确定的跟踪模式对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果。

在一些实施例中，所述根据所述监控视频的目标跟踪精确度，确定对所述目标监控对象进行跟踪的跟踪模式，包括：若所述目标跟踪精确度大于预设的跟踪精确度阈值，确定所述跟踪模式为所述第一跟踪模式；和/或若所述目标跟踪精确度不大于所述跟踪精确度阈值，确定所述跟踪模式为所述第二跟踪模式。

在一些实施例中，在所述跟踪模式为所述第一跟踪模式的情况下，所述基于经确定的跟踪模式对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果，包括：从所述监控视频中获取至少两帧第二视频帧，并分别获取所述至少两帧第二视频帧中所述目标监控对象的第二骨骼关键点位置；根据所述第二骨骼关键点位置对所述目标监控对象进行跟踪。

在一些实施例中，在所述跟踪模式为所述第二跟踪模式的情况下，所述基于经确定的跟踪模式对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果，包括：从所述监控视频中获取至少两帧第三视频帧，并分别对所述至少两帧第三视频帧中的目标监控对象进行人脸识别，以获取所述至少两帧第三视频帧中的目标监控对象的人脸识别结果；根据所述人脸识别结果对所述目标监控对象进行跟踪；或者从所述监控视频中获取至少两帧第三视频帧，并分别对所述至少两帧第三视频帧中的目标监控对象进行身份重识别，以获取所述至少两帧第三视频帧中的目标监控对象的身份重识别结果；根据所述身份重识别结果对所述目标监控对象进行跟踪。

根据本公开实施例的第二方面，提供一种行为检测装置，所述装置包括：获取模块，用于获取监控视频，从所述监控视频中确定至少一个监控对象；检测模块，用于分别对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象；跟踪模块，用于对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果。

在一些实施例中，所述检测模块包括：第一确定单元，用于根据所述监控视频的目标检测精确度，确定对所述至少一个监控对象中的每个监控对象进行行为检测的检测模式；其中，所述检测模式至少包括第一检测模式和第二检测模式，所述第一检测模式的检测精确度高于所述第二检测模式；检测单元，用于基于经确定的检测模式对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象。

在一些实施例中，所述第一确定单元用于：若所述目标检测精确度大于预设的检测精确度阈值，确定所述检测模式为所述第一检测模式；和/或若所述目标检测精确度不大于所述检测精确度阈值，确定所述检测模式为所述第二检测模式。

在一些实施例中，在所述检测模式为所述第一检测模式的情况下，所述检测单元包括：第一获取子单元，用于获取所述监控对象在所述监控视频的至少一帧第一视频帧中的第一骨骼关键点位置；第一确定子单元，用于根据所述第一骨骼关键点位置确定发生目标行为的目标监控对象。

在一些实施例中，所述第一确定子单元用于：若所述监控对象的第一骨骼关键点位置与所述目标行为对应的参考骨骼关键点位置相匹配，确定所述监控对象为目标监控对象；或者分别确定所述监控对象在所述监控视频中的多帧第一视频帧中的第一骨骼关键点位置；若所述监控对象在所述多帧第一视频帧中的第一骨骼关键点位置的位置差大于预设的位置差阈值，确定所述监控对象为所述目标监控对象；其中，所述多帧第一视频帧之间的时间差小于预设的时间差阈值；或者将所述至少一帧第一视频帧中的第一骨骼关键点位置输入预先训练的骨骼关键点检测模型，并获取所述骨骼关键点检测模型输出的第一行为检测结果；根据所述第一行为检测结果确定所述监控对象是否为目标监控对象。

在一些实施例中，在所述检测模式为所述第二检测模式的情况下，所述检测单元包括：第二获取子单元，用于将所述监控视频输入预先训练的行为检测模型，并获取所述行为检测模型输出的所述监控对象的第二行为检测结果；第二确定子单元，用于根据所述监控对象的第二行为检测结果确定所述监控对象是否为所述目标监控对象。

在一些实施例中，所述第二行为检测结果为所述监控对象发生所述目标行为的概率值；所述第二确定子单元用于：若所述监控对象发生所述目标行为的概率值大于预设的概率阈值，确定所述监控对象发生所述目标行为。

在一些实施例中，所述跟踪模块包括：第二确定单元，用于根据所述监控视频的目标跟踪精确度，确定对所述目标监控对象进行跟踪的跟踪模式；其中，所述跟踪模式至少包括第一跟踪模式和第二跟踪模式，所述第一跟踪模式的跟踪精确度高于所述第二跟踪模式；跟踪单元，用于基于经确定的跟踪模式对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果。

在一些实施例中，所述第二确定单元用于：若所述目标跟踪精确度大于预设的跟踪精确度阈值，确定所述跟踪模式为所述第一跟踪模式；和/或若所述目标跟踪精确度不大于所述跟踪精确度阈值，确定所述跟踪模式为所述第二跟踪模式。

在一些实施例中，在所述跟踪模式为所述第一跟踪模式的情况下，所述跟踪单元包括：第三获取子单元，用于从所述监控视频中获取至少两帧第二视频帧，并分别获取所述至少两帧第二视频帧中所述目标监控对象的第二骨骼关键点位置；第一跟踪子单元，用于根据所述第二骨骼关键点位置对所述目标监控对象进行跟踪。

在一些实施例中，在所述跟踪模式为所述第二跟踪模式的情况下，所述跟踪单元包括：第四获取子单元，用于从所述监控视频中获取至少两帧第三视频帧，并分别对所述至少两帧第三视频帧中的目标监控对象进行人脸识别，以获取所述至少两帧第三视频帧中的目标监控对象的人脸识别结果；第二跟踪子单元，用于根据所述人脸识别结果对所述目标监控对象进行跟踪；或者第五获取子单元，用于从所述监控视频中获取至少两帧第三视频帧，并分别对所述至少两帧第三视频帧中的目标监控对象进行身份重识别，以获取所述至少两帧第三视频帧中的目标监控对象的身份重识别结果；第三跟踪子单元，用于根据所述身份重识别结果对所述目标监控对象进行跟踪。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的方法。

本公开实施例通过获取监控视频，从所述监控视频中确定至少一个监控对象；分别对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象；对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果，并根据所述跟踪结果对所述目标监控对象进行持续行为检测。通过这种方式，无需采用额外的硬件装置来即可实现对监控对象进行行为检测，降低了行为检测的成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1(a)和图1(b)分别是本公开实施例的监控场景示意图。

图2是本公开实施例的行为检测方法流程图。

图3是本公开实施例的检测策略的示意图。

图4是本公开实施例的骨骼关键点的示意图。

图5是本公开实施例的监控对象跟踪的示意图。

图6是本公开实施例的行为检测装置的框图。

图7是本公开实施例的计算机设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

行为检测是指对目标对象(例如，人或者动物)的行为进行检测，这里说的行为可以包括但不限于跌倒、跑步、蹲下、打架等等。一种行为检测方式是先采集需要进行行为检测的目标对象的监控视频，然后，采用行为检测算法对监控视频中的目标对象进行行为检测。在这种行为检测方式中，目标对象也称为监控对象。然而，在实际应用过程中，这种检测方式需要采用额外的设备(比如传感器、声音采集器等)来辅助检测，实现成本较高。

基于此，本公开实施例提供一种行为检测方法。如图1(a)和图1(b)所示，分别是本公开实施例的监控场景的示意图。可以在各个监控场景下设置多个监控点位，每个监控点位安装视频采集装置(例如，摄像头)用以采集该监控场景下的监控视频，采集到的监控视频可以统一发送至监控中心的监控设备进行处理。不同监控场景的视频可以发送至同一监控中心的同一监控设备，也可以发送至同一监控中心的不同监控设备，或者不同监控中心的监控设备。监控设备可以采用行为检测算法来对各个视频采集装置发送的监控视频进行处理，从而对各监控视频中的监控对象进行行为检测。应当说明的是，上述场景仅作为对本公开实施例的示例性说明，并非用于限制本公开。

如图2所示，所述行为检测方法可包括：

步骤201：获取监控视频，从所述监控视频中确定至少一个监控对象；

步骤202：分别对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象；

步骤203：对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果。

本公开实施例中的各步骤可由监控中心的监控设备执行。在步骤201中，监控视频可由视频采集装置采集，并发送至监控设备。所述发送可以是主动发送，例如，每隔一定的时间间隔发送一次；也可以是被动发送，例如，在接收到监控设备发送的视频获取请求时发送。发送给监控设备的监控视频中包括至少一个监控对象。在一些实施例中，由于视频采集装置采集到的视频中并不总是包括监控对象的，因此，视频采集装置在向监控设备发送监控视频之前，还可以对监控视频进行筛选，以确定监控视频中包括目标对象的视频帧以及不包括目标对象的视频帧，然后，仅将包括目标对象的视频帧发送至监控设备。这样，能够减少数据处理量，节约系统资源。

在步骤202中，对所述至少一个监控对象中的每个监控对象进行行为检测，可以先获取监控视频中的一帧或多帧视频帧，并根据所述多帧视频帧对所述监控对象进行行为检测。在同一监控视频中包括多个监控对象的情况下，可以分别对每个监控对象进行行为检测。各个监控对象可以并行检测，也可以按照某一顺序依次检测。在同一监控设备同时接收多个视频采集装置发送的监控视频的情况下，可以按照某一顺序依次对各个视频采集装置发送的监控视频中的监控对象进行行为检测，也可以分配不同的处理资源来对多个视频采集装置发送的监控视频中的监控对象进行并行检测。

在实际应用中，可以根据不同的情况选择不同的检测模式来对监控对象进行行为检测。所述检测模式可以根据监控视频所需的目标检测精确度来确定。目标检测精确度是指期望达到的检测精确度。例如，在地铁、火车站等场景下，常常对检测结果的精确度要求比较高，而在小区等场景下，对检测结果的精确度要求常常比较低。

因此，可以根据所述监控视频的目标检测精确度，确定对所述至少一个监控对象中的每个监控对象进行行为检测的检测模式；其中，所述检测模式至少包括第一检测模式和第二检测模式，所述第一检测模式的检测精确度高于所述第二检测模式；基于经确定的检测模式对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象。

所述目标检测精确度可以根据监控场景(例如，地铁场景、小区场景等)来确定，也可以根据所要检测的目标行为的种类(例如，跌倒行为、打架行为等)来确定，还可以根据其他条件来确定，本公开不作限制。不同的监控视频可以对应相同或者不同的目标检测精确度，同一监控视频的不同视频帧也可以对应相同或者不同的目标检测精确度。

在一些实施例中，同一视频采集装置所拍摄的监控视频对应的目标检测精确度可能是固定的。在这种情况下，各个视频采集装置在向监控设备发送监控视频的同时，可以发送该视频采集装置的标识信息，所述视频采集装置的标识信息用于唯一标识各个视频采集装置。可以根据所述视频采集装置的标识信息确定对所述视频采集装置采集的监控视频中的监控对象进行行为检测的检测模式。在另一些实施例中，在不同的时间段可以采用不同的目标检测精确度。因此，可以根据当前时间确定所述目标检测精确度。

不同的检测模式可采用不同的检测方式，也可以占用不同数量和类型的资源，例如，内存资源、处理器资源、接口资源等。由于第一检测模式的检测精确度高于第二检测模式，第一检测模式的检测方式的复杂度往往大于第二检测模式，第一检测模式占用的资源往往也多于第二检测模式。

因此，若所述目标检测精确度大于预设的检测精确度阈值，可以确定所述检测模式为所述第一检测模式。若所述目标检测精确度不大于所述检测精确度阈值，可以确定所述检测模式为所述第二检测模式。一方面，在所需要的目标检测精确度较高的时候采用第一检测模式，能够提高检测精确度，以满足目标检测精确度的要求；另一方面，在所需要的目标检测精确度较低的时候采用第二检测模式，能够减少检测资源占用，避免资源浪费。

此外，如图3所示，也可以根据监控场景的复杂度来确定检测模式。场景的复杂度可以基于场景内监控对象的数量、监控场景内的纹理特征等因素来确定。例如，监控对象数量较多的监控场景复杂度较高，监控对象数量较少的监控场景复杂度较低；又例如，监控场景内存在丰富的纹理(例如，图案、线条)时，认为监控场景复杂度较高，监控场景内纹理较少时，认为监控场景复杂度较低。例如，商场、车站、机场等人流量较大的监控场景一般场景复杂度较高，而小区、偏僻的街道等人流量较小的监控场景一般场景复杂度较低。在监控场景复杂度较高时，可以采用检测精确度较高的第一检测模式；在监控场景复杂度较低时，可以采用检测精确度较低的第二检测模式。

在第一检测模式下，可以通过对监控对象进行骨骼关键点检测的方式来确定监控对象是否发生目标行为。具体来说，在所述检测模式为所述第一检测模式的情况下，所述基于经确定的检测模式对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象，包括：获取所述监控对象在所述监控视频的至少一帧第一视频帧中的第一骨骼关键点位置；根据所述第一骨骼关键点位置确定发生目标行为的目标监控对象。通过检测骨骼关键点来确定发生目标行为的目标监控对象，检测准确率较高。

骨骼关键点可以用于确定监控对象的轮廓，因此，根据监控对象的骨骼关键点可以确定监控对象的行为动作。一个监控对象可以包括多个骨骼关键点，例如，头部骨骼关键点、四肢骨骼关键点、躯干骨骼关键点等。图4示出了目标对象的14个骨骼关键点，在实际应用中，用来进行行为识别的骨骼关键点的数量可以大于14，也可以小于14。所选取的骨骼关键点的数量一定程度上与行为检测的精确度相关，所选取的骨骼关键点的数量越多，精确度越高；所选取的骨骼关键点的数量越少，精确度越低。行为检测结果可以是监控对象的行为所述的类别，或者监控对象的行为属于某行为种类别的信息，或者监控对象的行为是否属于某种目标对象的指示信息。

具体来说，可采用以下任意一种方式来对监控对象进行行为检测：

方式一：

若所述监控对象的第一骨骼关键点位置与所述目标行为对应的参考骨骼关键点位置相匹配，确定所述监控对象为目标监控对象。进一步地，若所述监控对象的第一骨骼关键点位置与所述目标行为对应的参考骨骼关键点位置不匹配，确定所述监控对象不是目标监控对象。

每种目标行为都可对应一种参考骨骼关键点位置，目标行为对应的参考骨骼关键点位置可作为判断监控对象是否发生所述目标行为的参考基准。以跌倒行为为例，监控对象在发生跌倒行为时，其骨骼关键点在竖直方向上的高度差一般较小，因此，可以将在竖直方向上的高度差小于预设高度差阈值的骨骼关键点位置作为跌倒行为对应的参考骨骼关键点位置。在判断一个监控对象是否发生跌倒行为时，可以将该监控对象在监控视频的至少一帧视频帧帧的第一骨骼关键点位置与跌倒行为对应的参考骨骼关键点位置进行比较，若二者相似度大于预设的相似度阈值，认为第一骨骼关键点位置与跌倒行为对应的参考骨骼关键点位置相匹配，从而判定监控对象发生跌倒行为，确定该监控对象为目标监控对象。若二者相似度不大于预设的相似度阈值，认为第一骨骼关键点位置与跌倒行为对应的参考骨骼关键点位置不匹配，从而判定监控对象未发生跌倒行为，确定该监控对象不是目标监控对象。目标行为为其他行为时也可以采用上述方式确定目标监控对象，此处不再赘述。

方式二：

分别确定所述监控对象在所述监控视频中的多帧第一视频帧中的第一骨骼关键点位置；若所述监控对象在所述多帧第一视频帧中的第一骨骼关键点位置的位置差大于预设的位置差阈值，确定所述监控对象为所述目标监控对象；其中，所述多帧第一视频帧之间的时间差小于预设的时间差阈值。进一步地，若所述监控对象在所述多帧第一视频帧中的第一骨骼关键点位置的位置差不大于预设的位置差阈值，确定所述监控对象不是所述目标监控对象。

上述方式利用骨骼关键点位置的空间和时间特性来检测目标行为，由于目标对象在发生某种行为的过程中骨骼关键点位置一般是平滑变化的，因此，上述方式可以用于监控对象从非目标行为切换到目标行为时对目标行为进行检测。所述位置差阈值可以包括高度差阈值和/或监控对象的行进方向上的位置差阈值等。以检测跌倒行为为例，在正常行走的行人，其骨骼关键点位置在比较短的时间段内一般是平滑变化的，因此，当行人在时间上比较接近的多帧视频帧中的骨骼关键点位置的高度差大于预设高度差阈值时，可以判定行人发生跌倒行为。当行人在时间上比较接近的多帧视频帧中的骨骼关键点位置的高度差不大于预设高度差阈值时，可以判定行人未发生跌倒行为。

其中，所述多帧视频帧可以是监控视频中相邻的连续多帧视频帧(这种方式称为逐帧检测)，例如，第1帧视频帧、第2帧视频帧、第3帧视频帧等等，也可以是监控视频中不连续的多帧视频帧(这种方式称为跳帧检测)，例如，第1帧视频帧、第3帧视频帧、第5帧视频帧等等。跳帧检测方式中的跳帧步距可以根据实际需求来设置。跳帧步距即为所选取的视频帧之间的帧数间隔，例如，当选取的视频帧为第1、3、5等帧时，跳帧步距为1；当选取的视频帧为第1、4、7等帧时，跳帧步距为2。例如，检测精确度和/或监控对象的移动速度等因素设置。检测精确度要求较高时，跳帧步距可以设置得较小，反之，跳帧步距可以设置得较大。监控对象的移动速度较高时，跳帧步距可以设置得较小，反之，跳帧步距可以设置得较大。

方式三：

将所述至少一帧第一视频帧中的第一骨骼关键点位置输入预先训练的骨骼关键点检测模型，并获取所述骨骼关键点检测模型输出的第一行为检测结果；根据所述第一行为检测结果确定所述监控对象是否为目标监控对象。

所述第一行为检测结果可以是监控对象的行为所属的类别，或者监控对象的行为为目标行为的概率值，或者监控对象的行为是否属于目标行为的指示信息。在所述第一行为检测结果是监控对象的行为所属的类别的情况下，若所述类别与目标行为对应的类别相同，判定所述监控对象为目标监控对象。在所述第一行为检测结果为所述监控对象发生所述目标行为的概率值的情况下，若所述监控对象发生所述目标行为的概率值大于预设的概率阈值，确定所述监控对象发生所述目标行为。在所述第一行为检测结果为监控对象的行为是否属于目标行为的指示信息时，若所述指示信息为用于指示所述监控对象的行为属于目标行为的第一指示信息(例如，逻辑标识“1”)，判定所述监控对象为目标监控对象；若所述指示信息为用于指示所述监控对象的行为不属于目标行为的第二指示信息(例如，逻辑标识“0”)，判定所述监控对象不是目标监控对象。

骨骼关键点检测模型可以基于监控视频预先训练，当要检测的是某种目标行为时，用于训练骨骼关键点检测模型的训练样本可以是发生目标行为的监控视频。当目标行为的监控视频数量较少时，也可以采用其发生他行为的监控视频作为训练样本来训练骨骼关键点检测模型，并用目标行为的监控视频对训练出的骨骼关键点检测模型进行校正，通过校正后的骨骼关键点检测模型来对监控对象进行行为检测。例如，在目标行为是跌倒行为时，可以用发生跌倒行为的监控视频来训练所述骨骼关键点检测模型。如果发生跌倒行为的监控视频数量较少时，也可以用未发生跌倒行为的监控视频来训练所述骨骼关键点检测模型，并用发生跌倒行为的监控视频来对训练出的骨骼关键点检测模型进行校正，然后通过校正后的骨骼关键点检测模型来对监控对象的跌倒行为进行检测。

当待检测的目标行为为多种，例如，同时包括跌倒行为和打架行为时，可以通过同一个骨骼关键点检测模型来检测多种目标行为，也可以采用多个级联的骨骼关键点检测模型，每个骨骼关键点检测模型检测一种目标行为。骨骼关键点检测模型可以检测出骨骼关键点的位置，以及所述骨骼关键点是否属于同一监控对象的指示信息。所述骨骼关键点检测模型可以是支持向量机(Support Vector Machine，SVM)模型、决策树模型、图卷积神经网络等模型。

在第二检测模式下，可以通过机器学习模型来确定目标监控对象。具体来说，在所述检测模式为所述第二检测模式的情况下，所述基于经确定的检测模式对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象，包括：将所述监控视频输入预先训练的行为检测模型，并获取所述行为检测模型输出的所述监控对象的第二行为检测结果；根据所述监控对象的第二行为检测结果确定所述监控对象是否为所述目标监控对象。

所述行为检测模型可以是深度学习网络(例如，3D卷积神经网络)或者双流网络模型等机器学习模型。可以将监控视频输入预先训练的行为检测模型中，并获取所述行为检测模型输出的第二行为检测结果，所述第二行为检测结果可以是监控对象的行为所属的类别，或者监控对象的行为为目标行为的概率值，或者监控对象的行为是否属于目标行为的指示信息。

在所述第二行为检测结果是监控对象的行为所属的类别的情况下，若所述类别与目标行为对应的类别相同，判定所述监控对象为目标监控对象。在所述第二行为检测结果为所述监控对象发生所述目标行为的概率值的情况下，若所述监控对象发生所述目标行为的概率值大于预设的概率阈值，确定所述监控对象发生所述目标行为。在所述第二行为检测结果为监控对象的行为是否属于目标行为的指示信息时，若所述指示信息为用于指示所述监控对象的行为属于目标行为的第一指示信息(例如，逻辑标识“1”)，判定所述监控对象为目标监控对象；若所述指示信息为用于指示所述监控对象的行为不属于目标行为的第二指示信息(例如，逻辑标识“0”)，判定所述监控对象不是目标监控对象。

在实际应用中，也可以同时采用多种行为检测算法来对监控对象进行行为检测，并根据多种行为检测算法来确定最终的检测结果。例如，基于骨骼关键点的行为检测算法与基于深度学习网络的行为检测算法。

在步骤203中，通过对所述目标监控对象进行跟踪，从而能够根据跟踪结果对目标监控对象进行持续行为检测，以进一步确定目标监控对象在发生目标行为之后的状态，所述状态包括目标监控对象的行为和/或移动轨迹。所述多帧视频帧可以是同一摄像头拍摄的监控视频中的多帧视频帧，也可以是不同摄像头拍摄的监控视频中的视频帧。所述多帧视频帧可以是监控视频中的连续多帧视频帧，也可以是监控视频中不连续的多帧视频帧。

通过这种方式，能够确定发生目标行为对所述目标监控对象的影响，从而确定是否需要对所述目标监控对象采取干预措施。以跌倒行为为例，通过对目标监控对象进行跟踪，可以获取目标监控对象在跌倒以后是否还能够继续行走，以及目标监控对象在跌倒以后所处的位置。如果目标监控对象跌倒后伤势严重导致无法行走，则可以根据目标监控对象在跌倒以后所处的位置前往相应的地点对目标监控对象进行救治。如图5所示，目标监控对象在跌倒后仍然能够继续行走，因此，可以无需对该目标监控对象采取干预措施。

在一些实施例中，可以根据所述监控视频的目标跟踪精确度，确定对所述目标监控对象进行跟踪的跟踪模式，并基于经确定的跟踪模式对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果；其中，所述跟踪模式至少包括第一跟踪模式和第二跟踪模式，所述第一跟踪模式的跟踪精确度高于所述第二跟踪模式。

目标跟踪精确度是指期望达到的跟踪精确度。所述目标跟踪精确度可以根据监控场景(例如，地铁场景、小区场景等)来确定，也可以根据所要跟踪的目标对象来确定，还可以根据其他条件来确定，本公开不作限制。例如，在地铁场景下，目标跟踪精确度可以设置得较高，在小区场景下，目标跟踪精确度可以设置得较低。又例如，在目标监控对象为特定对象(例如，老人)时，目标跟踪精确度可以设置得较高，在目标监控对象为非特定对象(例如，年轻人、小孩)时，目标跟踪精确度可以设置得较低。

在一些实施例中，若所述目标跟踪精确度大于预设的跟踪精确度阈值，确定所述跟踪模式为所述第一跟踪模式。在另一些实施例中，若所述目标跟踪精确度不大于所述跟踪精确度阈值，确定所述跟踪模式为所述第二跟踪模式。

不同的跟踪模式可采用不同的跟踪方式，也可以占用不同数量和类型的资源，例如，内存资源、处理器资源、接口资源等。由于第一跟踪模式的跟踪精确度高于第二跟踪模式，第一跟踪模式的跟踪方式的复杂度往往大于第二跟踪模式，第一跟踪模式占用的资源往往也多于第二跟踪模式。

因此，若所述目标跟踪精确度大于预设的跟踪精确度阈值，可以确定所述跟踪模式为所述第一跟踪模式。若所述目标跟踪精确度不大于所述跟踪精确度阈值，可以确定所述跟踪模式为所述第二跟踪模式。一方面，在所需要的目标跟踪精确度较高的时候采用第一跟踪模式，能够提高跟踪精确度，以满足目标跟踪精确度的要求；另一方面，在所需要的目标跟踪精确度较低的时候采用第二跟踪模式，能够减少检测资源占用，避免资源浪费。

在所述跟踪模式为所述第一跟踪模式的情况下，可以从所述监控视频中获取至少两帧第二视频帧，并分别获取所述至少两帧第二视频帧中所述目标监控对象的第二骨骼关键点位置；根据所述第二骨骼关键点位置对所述目标监控对象进行跟踪。

在基于骨骼关键点对目标监控对象进行跟踪的情况下，可以获取所述至少两帧第二视频帧中目标监控对象的第二骨骼关键点位置的位置差，若所述位置差在预设范围内，则判定所述至少两帧第二视频帧中目标监控对象为同一目标监控对象，从而实现对目标监控对象的跟踪。也可以采用其他方式来基于骨骼关键点对目标监控对象进行跟踪，例如，将所述至少两帧第二视频帧中目标监控对象的第二骨骼关键点位置输入预先建立的骨骼关键点检测模型，并根据所述骨骼关键点检测模型的输出结果来对目标监控对象进行跟踪。

在所述跟踪模式为所述第二跟踪模式的情况下，可以从所述监控视频中获取至少两帧第三视频帧，并分别对所述至少两帧第三视频帧中的目标监控对象进行人脸识别，以获取所述至少两帧第三视频帧中的目标监控对象的人脸识别结果；根据所述人脸识别结果对所述目标监控对象进行跟踪。或者从所述监控视频中获取至少两帧第三视频帧，并分别对所述至少两帧第三视频帧中的目标监控对象进行身份重识别，以获取所述至少两帧第三视频帧中的目标监控对象的身份重识别结果；根据所述身份重识别结果对所述目标监控对象进行跟踪。

在一些实施例中，所述方法还包括：在对所述监控对象进行行为检测之前，对所述监控视频中的视频帧进行图像预处理。所述图像预处理可以包括灰度处理，图像压缩处理和/或图像裁剪处理。其中，所述灰度处理包括将所述视频转换为灰度图像；所述图像压缩处理包括对所述视频帧进行图像压缩；所述图像裁剪处理包括将所述视频帧中感兴趣区域以外的部分裁剪掉。所述感兴趣区域可以是监控对象的移动区域，例如，在监控场景是街道的情况下，感兴趣区域可以是人行道和斑马线等区域。通过进行图像预处理，可以减少数据处理量，节约处理资源。

本公开实施例具有以下优点：

(1)可以对监控场景下的一个或多个监控对象的一种或者多种行为进行行为检测，检测精确度高，能够适应多种不同的实际场景。

(2)可以对场景中的监控对象进行持续性追踪。

(3)无需额外的硬件资源。

(4)适用于对各种行为的行为检测，适用范围广。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

如图6所示，本公开还提供一种行为检测装置，所述装置包括：

获取模块601，用于获取监控视频，从所述监控视频中确定至少一个监控对象；

检测模块602，用于分别对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象；

跟踪模块603，用于对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现任一实施例所述的方法。

图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器701、存储器702、输入/输出接口703、通信接口704和总线705。其中处理器701、存储器702、输入/输出接口703和通信接口704通过总线705实现彼此之间在设备内部的通信连接。

处理器701可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器702可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器702可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器702中，并由处理器701来调用执行。

输入/输出接口703用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口704用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线705包括一通路，在设备的各个组件(例如处理器701、存储器702、输入/输出接口703和通信接口704)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器701、存储器702、输入/输出接口703、通信接口704以及总线705，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

相应地，本公开实施例还提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

Claims

1.一种行为检测方法，其特征在于，所述方法包括：

获取监控视频，从所述监控视频中确定至少一个监控对象；

分别对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象；

对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果。

2.根据权利要求1所述的方法，其特征在于，所述分别对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象，包括：

根据所述监控视频的目标检测精确度，确定对所述至少一个监控对象中的每个监控对象进行行为检测的检测模式；其中，所述检测模式至少包括第一检测模式和第二检测模式，所述第一检测模式的检测精确度高于所述第二检测模式；

基于经确定的检测模式对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象。

3.根据权利要求2所述的方法，其特征在于，所述根据所述监控视频的目标检测精确度，确定对所述至少一个监控对象中的每个监控对象进行行为检测的检测模式，包括：

若所述目标检测精确度大于预设的检测精确度阈值，确定所述检测模式为所述第一检测模式；和/或

若所述目标检测精确度不大于所述检测精确度阈值，确定所述检测模式为所述第二检测模式。

4.根据权利要求2或3所述的方法，其特征在于，在所述检测模式为所述第一检测模式的情况下，所述基于经确定的检测模式对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象，包括：

获取所述监控对象在所述监控视频的至少一帧第一视频帧中的第一骨骼关键点位置；

根据所述第一骨骼关键点位置确定发生目标行为的目标监控对象。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一骨骼关键点位置确定发生目标行为的目标监控对象，包括：

若所述监控对象的第一骨骼关键点位置与所述目标行为对应的参考骨骼关键点位置相匹配，确定所述监控对象为目标监控对象；或者

分别确定所述监控对象在所述监控视频中的多帧第一视频帧中的第一骨骼关键点位置；

若所述监控对象在所述多帧第一视频帧中的第一骨骼关键点位置的位置差大于预设的位置差阈值，确定所述监控对象为所述目标监控对象；其中，所述多帧第一视频帧之间的时间差小于预设的时间差阈值；或者

将所述至少一帧第一视频帧中的第一骨骼关键点位置输入预先训练的骨骼关键点检测模型，并获取所述骨骼关键点检测模型输出的第一行为检测结果；

根据所述第一行为检测结果确定所述监控对象是否为目标监控对象。

6.根据权利要求2或3所述的方法，其特征在于，在所述检测模式为所述第二检测模式的情况下，所述基于经确定的检测模式对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象，包括：

将所述监控视频输入预先训练的行为检测模型，并获取所述行为检测模型输出的所述监控对象的第二行为检测结果；

根据所述监控对象的第二行为检测结果确定所述监控对象是否为所述目标监控对象。

7.根据权利要求6所述的方法，其特征在于，所述第二行为检测结果为所述监控对象发生所述目标行为的概率值；所述根据所述监控对象的第二行为检测结果确定所述监控对象是否为所述目标监控对象，包括：

若所述监控对象发生所述目标行为的概率值大于预设的概率阈值，确定所述监控对象发生所述目标行为。

8.根据权利要求1至7任意一项所述的方法，其特征在于，所述对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果，包括：

根据所述监控视频的目标跟踪精确度，确定对所述目标监控对象进行跟踪的跟踪模式；其中，所述跟踪模式至少包括第一跟踪模式和第二跟踪模式，所述第一跟踪模式的跟踪精确度高于所述第二跟踪模式；

基于经确定的跟踪模式对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果。

9.根据权利要求8所述的方法，其特征在于，所述根据所述监控视频的目标跟踪精确度，确定对所述目标监控对象进行跟踪的跟踪模式，包括：

若所述目标跟踪精确度大于预设的跟踪精确度阈值，确定所述跟踪模式为所述第一跟踪模式；和/或

若所述目标跟踪精确度不大于所述跟踪精确度阈值，确定所述跟踪模式为所述第二跟踪模式。

10.根据权利要求8或9所述的方法，其特征在于，在所述跟踪模式为所述第一跟踪模式的情况下，所述基于经确定的跟踪模式对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果，包括：

从所述监控视频中获取至少两帧第二视频帧，并分别获取所述至少两帧第二视频帧中所述目标监控对象的第二骨骼关键点位置；

根据所述第二骨骼关键点位置对所述目标监控对象进行跟踪。

11.根据权利要求8或9所述的方法，其特征在于，在所述跟踪模式为所述第二跟踪模式的情况下，所述基于经确定的跟踪模式对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果，包括：

从所述监控视频中获取至少两帧第三视频帧，并分别对所述至少两帧第三视频帧中的目标监控对象进行人脸识别，以获取所述至少两帧第三视频帧中的目标监控对象的人脸识别结果；

根据所述人脸识别结果对所述目标监控对象进行跟踪；

或者

从所述监控视频中获取至少两帧第三视频帧，并分别对所述至少两帧第三视频帧中的目标监控对象进行身份重识别，以获取所述至少两帧第三视频帧中的目标监控对象的身份重识别结果；

根据所述身份重识别结果对所述目标监控对象进行跟踪。

12.一种行为检测装置，其特征在于，所述装置包括：

获取模块，用于获取监控视频，从所述监控视频中确定至少一个监控对象；

检测模块，用于分别对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象；

跟踪模块，用于对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果。

13.根据权利要求12所述的装置，其特征在于，所述检测模块包括：

第一确定单元，用于根据所述监控视频的目标检测精确度，确定对所述至少一个监控对象中的每个监控对象进行行为检测的检测模式；其中，所述检测模式至少包括第一检测模式和第二检测模式，所述第一检测模式的检测精确度高于所述第二检测模式；

检测单元，用于基于经确定的检测模式对所述至少一个监控对象中的每个监控对象进行行为检测，以确定发生目标行为的目标监控对象。

14.根据权利要求13所述的装置，其特征在于，所述第一确定单元用于：

15.根据权利要求13或14所述的装置，其特征在于，在所述检测模式为所述第一检测模式的情况下，所述检测单元包括：

第一获取子单元，用于获取所述监控对象在所述监控视频的至少一帧第一视频帧中的第一骨骼关键点位置；

第一确定子单元，用于根据所述第一骨骼关键点位置确定发生目标行为的目标监控对象。

16.根据权利要求13或14所述的装置，其特征在于，在所述检测模式为所述第二检测模式的情况下，所述检测单元包括：

第二获取子单元，用于将所述监控视频输入预先训练的行为检测模型，并获取所述行为检测模型输出的所述监控对象的第二行为检测结果；

第二确定子单元，用于根据所述监控对象的第二行为检测结果确定所述监控对象是否为所述目标监控对象。

17.根据权利要求12至16任意一项所述的装置，其特征在于，所述跟踪模块包括：

第二确定单元，用于根据所述监控视频的目标跟踪精确度，确定对所述目标监控对象进行跟踪的跟踪模式；其中，所述跟踪模式至少包括第一跟踪模式和第二跟踪模式，所述第一跟踪模式的跟踪精确度高于所述第二跟踪模式；

跟踪单元，用于基于经确定的跟踪模式对所述目标监控对象进行跟踪，得到所述目标监控对象的跟踪结果。

18.根据权利要求17所述的装置，其特征在于，所述第二确定单元用于：

19.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至11任意一项所述的方法。

20.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至11任意一项所述的方法。