CN113657155A

CN113657155A - 一种行为检测方法、装置、计算机设备和存储介质

Info

Publication number: CN113657155A
Application number: CN202110779235.5A
Authority: CN
Inventors: 蔡宁; 赵雷; 潘华东; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-11-16

Abstract

本申请涉及视频分析技术领域，提供一种行为检测方法、装置、计算机设备和存储介质。所述方法包括：获取待处理视频流；基于所述待处理视频流包含的视频帧中所述待检测对象的行为特征，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息；以及基于所述待处理视频流，获取所述待检测对象的关键点的关键点分布信息，并基于所述关键点分布信息，确定所述待检测对象的待检测行为与所述目标行为的第二相似度参考信息；根据所述第一相似度参考信息和所述第二相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为。本方法融合视频帧和关键点分布信息进行综合判断，具备更高的准确度。

Description

一种行为检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及视频分析技术领域，特别是涉及一种行为检测方法、装置、计算机设备和存储介质。

背景技术

行为检测技术是智能监控系统的重要研究内容，是提高系统智能性的主要手段，对公共安全和国家的经济利益具有广泛的应用前景。

传统视频监控系统依靠人工观测的方式判断检测对象的行为，例如人的打架行为等，但是在海量的视频监控数据中，人工无法长时间有效地进行持续性观测。

发明内容

基于此，有必要针对上述技术问题，提供一种行为检测方法、装置、计算机设备和存储介质。

第一方面，本申请实施例提供了一种行为检测方法，所述方法包括：

获取待处理视频流，所述待处理视频流中包含待检测对象；

基于所述待处理视频流包含的视频帧中所述待检测对象的行为特征，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息；以及

基于所述待处理视频流，获取所述待检测对象的关键点的关键点分布信息，并基于所述关键点分布信息，确定所述待检测对象的待检测行为与所述目标行为的第二相似度参考信息；

根据所述第一相似度参考信息和所述第二相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为。在一实施例中，所述获取待处理视频流包括：

采集监控视频，所述监控视频中包含待检测对象；

对监控视频中的视频帧进行检测确定待检测对象，并获取待检测对象所在区域；

根据待检测对象所在区域，对监控视频中的所有视频帧进行目标的关联跟踪确定所有记录待检测对象的连续视频帧，得到待处理视频流。

在一实施例中，所述基于所述待处理视频流包含的视频帧中所述待检测对象的行为特征，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息包括：

将所述待处理视频流包含的视频帧输入第一神经网络模型，得到所述待检测对象的待检测行为与目标行为的第一相似度参考信息；所述第一神经网络模型是基于目标行为对应的行为特征训练得到的。

将待处理视频流划分成K个片段，其中，K为大于等于1的整数；

从所述K个片段的每个片段中选取一视频帧输入第二神经网络模型，得到K个输出结果；所述第二神经网络模型是基于目标行为对应的行为特征训练得到的；

对所述K个输出结果进行融合，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息。

在一实施例中，所述基于所述待处理视频流，获取所述待检测对象的关键点的关键点分布信息，并基于所述关键点分布信息，确定所述待检测对象的待检测行为与所述目标行为的第二相似度参考信息包括：

获取所述待处理视频流的各视频帧中待检测对象的关键点的关键点分布信息；

基于获取的各关键点分布信息，确定关键点分布信息序列；

将所述关键点分布信息序列输入第三神经网络模型，输出所述待检测对象的待检测行为与目标行为的第二相似度参考信息；所述第三神经网络模型是基于目标行为对应的关键点分布信息序列训练得到的。

在一实施例中，所述方法还包括：

获取待处理视频流中待检测对象的声音特征；

基于所述声音特征，确定所述待检测对象的声音特征与目标行为对应的声音特征的第三相似度参考信息；

所述根据所述第一相似度参考信息和所述第二相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为，包括：

根据所述第一相似度参考信息、所述第二相似度参考信息以及所述第三相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为。。

在一实施例中，所述基于所述声音特征，确定所述待检测对象的声音特征与目标行为对应的声音特征的第三相似度参考信息包括：

将待检测对象的声音特征输入第四神经网络模型，输出所述待检测对象的声音特征与目标行为对应的声音特征的第三相似度参考信息；所述第四神经网络模型是基于目标行为对应的声音特征训练得到的。。

第二方面，本申请实施例提供了一种行为检测装置，所述装置包括：

采集模块，用于获取待处理视频流，所述待处理视频流中包含待检测对象；

第一确定模块，用于基于所述待处理视频流包含的视频帧中所述待检测对象的行为特征，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息；以及

第二确定模块，用于根据所述第一相似度参考信息和所述第二相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为。

第三方面，本申请实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现以下步骤：

获取待处理视频流，所述待处理视频流中包含待检测对象；

根据所述第一相似度参考信息和所述第二相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现以下步骤：

获取待处理视频流，所述待处理视频流中包含待检测对象；

上述动作方法、装置、计算机设备和存储介质，通过获取待处理视频流，基于所述待处理视频流包含的视频帧中所述待检测对象的行为特征，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息；以及基于所述待处理视频流，获取所述待检测对象的关键点的关键点分布信息，并基于所述关键点分布信息，确定所述待检测对象的待检测行为与所述目标行为的第二相似度参考信息，根据所述第一相似度参考信息和所述第二相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为。本方法融合视频帧和关键点分布信息进行综合判断，不仅关注到行为发生时视频帧中的场景信息，而且也关注到行为发生时关键点分布信息对应的动作信息，因此相比于仅通过视频帧判断或者仅通过关键点分布信息判断具备更高的准确度。

附图说明

图1为一个实施例中行为检测方法的应用环境图；

图2为一个实施例中行为检测方法的流程示意图；

图3为一个实施例中待处理视频流获取步骤的流程示意图；

图4为一个实施例中监控视频预处理步骤的流程示意图；

图5为一个实施例中得到第一相似度参考信息步骤的流程示意图；

图6为另一个实施例中得到第一相似度参考信息步骤的流程示意图；

图7为一个实施例中得到第二相似度参考信息步骤的流程示意图；

图8(a)为一个实施例中人体18个关键点的分布图；

图8(b)为一个实施例中人体14个关键点的分布图；

图9为一个实施例中确定待检测行为是否是目标行为的流程示意图；

图10为另一个实施例中行为检测方法的流程示意图；

图11为另一个实施例整体流程示意图；

图12为一个实施例中动作检测装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的行为检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102获取待处理视频流，所述待处理视频流中包含待检测对象；基于所述待处理视频流包含的视频帧中所述待检测对象的行为特征，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息；以及基于所述待处理视频流，获取所述待检测对象的关键点的关键点分布信息，并基于所述关键点分布信息，确定所述待检测对象的待检测行为与所述目标行为的第二相似度参考信息；根据所述第一相似度参考信息和所述第二相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为，最后将动作检测结果发送到服务器104。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种行为检测方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

S202：获取待处理视频流，所述待处理视频流中包含待检测对象。

S204：基于所述待处理视频流包含的视频帧中所述待检测对象的行为特征，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息；以及基于所述待处理视频流，获取所述待检测对象的关键点的关键点分布信息，并基于所述关键点分布信息，确定所述待检测对象的待检测行为与所述目标行为的第二相似度参考信息。

S206：根据所述第一相似度参考信息和所述第二相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为。

本方法融合视频帧和关键点分布信息进行综合判断，不仅关注到行为发生时视频帧中的场景信息，而且也关注到行为发生时关键点分布信息对应的动作信息，因此相比于仅通过视频帧判断或者仅通过关键点分布信息判断具备更高的准确度。

在一实施例中，如图3所示，步骤S202包括以下步骤：

S302：采集监控视频，所述监控视频中包含待检测对象；

S304：对监控视频中的视频帧进行检测确定待检测对象，并获取待检测对象所在区域；

S306：根据待检测对象所在区域，对监控视频中的所有视频帧进行待检测对象的关联跟踪确定所有记录待检测对象的连续视频帧，得到待处理视频流。

通过视频采集装置采集监控视频，监控视频为一段时间内同一视频采集装置所采集到的视频流。根据待检测对象的形状、纹理、色彩等特征(比如HOG，HOF等)，对待检测对象进行检测，获取待检测对象所在区域。对单帧图像进行检测确定待检测对象，并根据设定的区域范围获取待检测对象所在区域。在获取待检测对象所在区域之后利用目标跟踪算法确定所有记录待检测对象的连续帧图像，并将连续帧图像作为待处理视频流。其中，目标跟踪算法为现有技术，因此不再赘述。

通常情况下，待检测对象为人体。可以理解的是，在一些其他实施例中，待检测对象也可以是动物等，从而实现动物行为的检测。

在一实施例中，如图4所示，在所述采集监控视频之后还包括：

S303：对监控视频进行预处理。

对监控视频进行图像去噪，图像增强，图像分割等预处理工作，从而提高目标检测的准确度，从而提高行为检测的准确度。

在一个实施例中，如图5所示，基于所述待处理视频流包含的视频帧中所述待检测对象的行为特征，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息包括以下步骤：

S402：将所述待处理视频流包含的视频帧输入第一神经网络模型，得到所述待检测对象的待检测行为与目标行为的第一相似度参考信息；所述第一神经网络模型是基于目标行为对应的行为特征训练得到的。

首先利用样本图片，基于样本图片中目标行为对应的行为特征，对待训练的第一神经网络模型进行训练，得到训练后的第一神经网络模型，再将所述待处理视频流包含的视频帧输入第一神经网络模型，得到所述待检测对象的待检测行为与目标行为的第一相似度参考信息。可以理解的是，目标行为可以根据实际检测需求进行设定，例如目标行为可以是打架行为，最后得到的是检测对象的待检测行为与打架行为的第一相似度参考信息。

需要说明的是，本实施例中第一相似度参考信息为待检测行为为目标行为的置信度。例如，目标行为是打架行为，则第一相似度参考信息为待检测行为为打架行为的置信度。

在一个实施例中，如图6所示，基于所述待处理视频流包含的视频帧中所述待检测对象的行为特征，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息包括以下步骤：

S502：将待处理视频流划分成K个片段，其中，K为大于等于1的整数；

可以将待处理视频流平均划分成K个片段，也可以基于其它方式将待处理视频流划分为K个片段。S504：从所述K个片段的每个片段中选取一视频帧输入第二神经网络模型，得到K个输出结果；所述第二神经网络模型是基于目标行为对应的行为特征训练得到的；

S506：对所述K个输出结果进行融合，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息。

在本实施例中，通过从每个片段中随机选取一帧图像，输入第二神经网络模型，得到K个输出结果，融合K个输出结果确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息，相比于通过单帧图像输入模型得到的结果具有更高的准确度。

需要说明的是，也可以通过其他方式从每个片段中选取一帧图像，例如将片段中的最中间那一帧作为选取的视频帧，或者选取清晰度最高的视频帧，本实施例并不对视频帧的选择方式进行限定。

在一个实施例中，如图7所示，所述基于所述待处理视频流，获取所述待检测对象的关键点的关键点分布信息，并基于所述关键点分布信息，确定所述待检测对象的待检测行为与所述目标行为的第二相似度参考信息包括：

S602：获取所述待处理视频流的各视频帧中待检测对象的关键点的关键点分布信息；

S604：基于获取的各关键点分布信息，确定关键点分布信息序列；

S606：将所述关键点分布信息序列输入第三神经网络模型，输出所述待检测对象的待检测行为与目标行为的第二相似度参考信息；所述第三神经网络模型是基于目标行为对应的关键点分布信息序列训练得到的。

当待检测对象为人体时，关键点分布信息可以但不局限于由18个关键点表征，图8(a)为18个关键点的分布图，自底向上依次为踝关节(节点10和13)、膝关节(节点9和12)、髋关节(节点8和11)、腕关节(节点4和7)、肘关节(节点3和6)、肩关节(节点2和5)，节点0为鼻子所在位置，剩下的4个节点则表示眼睛和耳朵所在位置。考虑到实际场景中眼睛和耳朵目标过小容易误检，同时降低特征的冗余度，在本实施例中选择前14个关节点作为人体行为的底层特征数据以提高行为检测的准确度，如图8(b)所示。

可以理解的是，当待检测对象不是人体时，例如待检测对象是某一类动物时，也可以根据动物的关节点设置关键点，从而获取该动物的关键点分布信息。

在本实施例中，同样利用样本序列基于目标行为对应的关键点分布信息序列进行训练得到第三神经网络模型。

考虑到目标行为可以是一个连续的过程，因此在本实施例中将待处理视频流的视频帧中同一待检测对象的关键点分布信息按照时序排列构成关键点分布信息序列，将关键点分布信息序列输入已训练的第三神经网络模型中，输出所述待检测对象的待检测行为与目标行为的第二相似度参考信息，相比于仅利用单一骨架信息进行行为判断具有更高的准确度。

在一实施例中，根据所述第一相似度参考信息和所述第二相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为的方法具体为：

如图9所示，K个片段对应的K个单帧图像输入神经网络ConvNet，得到K个输出结果，通过片段共识融合K个输出结果得到待检测对象的待检测行为与目标行为的第一相似度参考信息；关键点分布信息序列依次经过时空图卷积网络ST-GCNs、简化模型POOL及分类模型FC实现动作分类输出待检测对象的待检测行为与目标行为的第二相似度参考信息。对第一相似度参考信息和所述第二相似度参考信息进行双流融合确定所述待检测对象的待检测行为是否是所述目标行为。

在一实施例中，可以对第一相似度参考信息和所述第二相似度参考信息分别设置对应的权重，并根据权重对第一相似度参考信息和所述第二相似度参考信息进行融合，再将融合后得到的值与设定阈值做比较，当大于设定阈值时，则判断所述待检测对象的待检测行为是所述目标行为，反之，则不是。

在另一实施例中，如图10所示，一种行为检测方法，还包括以下步骤：

S702：获取待处理视频流中待检测对象的声音特征。

在本实施例中，通过数据采集装置对监控视频及待处理音频流进行同时采集，以保证两者的同步。

在本实施例中，对待处理音频流进行音频去噪，音频增强等预处理，以提高行为判断的准确度。

S704：基于所述声音特征，确定所述待检测对象的声音特征与目标行为对应的声音特征的第三相似度参考信息。

将待检测对象的声音特征输入第四神经网络模型，输出所述待检测对象的声音特征与目标行为对应的声音特征的第三相似度参考信息；所述第四神经网络模型是基于目标行为对应的声音特征训练得到的。

S706：根据所述第一相似度参考信息、所述第二相似度参考信息以及所述第三相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为。

本实施例中，在融合第一相似度参考信息、第二相似度参考信息判断的基础上，再融合第三相似度参考信息进行判断，也就是在融合视频帧和关键点分布信息的基础上再融合声音判断，不仅关注到行为发生时视频帧中的场景信息、行为发生时关键点分布信息对应的动作信息，还能关注到行为发生时的声音信息，因此对待检测对象的待检测行为的检测更加准确。需要说明的是，上述实施例中的第一神经网络模型、第二神经网络模型、第三神经网络模型、第四神经网络模型可以是独立的网络模型，也可以是一个总网络模型框架中的四个子模型。

在一实施例中，当确定所述待检测对象的待检测行为是所述目标行为时，生成报警信号。例如，当待检测对象的待检测行为是打架行为时，生成报警信号，实现在公众场合打架行为的监测，以保证公众场合的安全。

本发明的整体流程如图11所示，首先数据采集，再进行数据预处理，通过目标检测、目标跟踪确定待检测对象，再进行关键点提取得到关键点分布信息序列，利用帧图像及关键点分布信息序列进行行为初判，再融合音频信息，进行行为复判，得到判断结果。

在本实施例中，融合了视频流和音频流的判断结果行为进行检测，相比于单独的视频流判断或者音频流判断准确度更高。

在一个实施例中，如图12所示，提供了一种动作检测装置，包括：

采集模块802，用于获取待处理视频流，所述待处理视频流中包含待检测对象；

第一确定模块804，用于基于所述待处理视频流包含的视频帧中所述待检测对象的行为特征，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息；以及基于所述待处理视频流，获取所述待检测对象的关键点的关键点分布信息，并基于所述关键点分布信息，确定所述待检测对象的待检测行为与所述目标行为的第二相似度参考信息；

第二确定模块806，用于根据所述第一相似度参考信息和所述第二相似度参考信息，确定所述待检测对象的待检测行为是否为所述目标行为。

在一实施例中，所述采集模块包括：

采集子模块，用于采集监控视频，所述监控视频中包含待检测对象；

目标检测模块，用于对监控视频中的视频帧进行检测确定待检测对象，并获取待检测对象所在区域；

目标跟踪模块，用于根据待检测对象所在区域，对监控视频中的所有视频帧进行待检测对象的关联跟踪确定所有记录待检测对象的连续视频帧，得到待处理视频流。

在一实施例中，所述第一确定模块包括：

第一确定子模块，用于将所述待处理视频流包含的视频帧输入第一神经网络模型，得到所述待检测对象的待检测行为与目标行为的第一相似度参考信息；所述第一神经网络模型是基于目标行为对应的行为特征训练得到的。

在一实施例中，所述第一确定模块包括：

视频划分模块，用于将待处理视频流划分成K个片段，其中，K为大于等于1的整数；

第二确定子模块，用于从所述K个片段的每个片段中选取一视频帧输入第二神经网络模型，得到K个输出结果；所述第二神经网络模型是基于目标行为对应的行为特征训练得到的；

融合模块，用于对所述K个输出结果进行融合，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息。

在一实施例中，所述第一确定模块包括：

信息获取模块，用于获取所述待处理视频流的各视频帧中待检测对象的关键点的关键点分布信息；

序列确定模块，用于基于获取的各关键点分布信息，确定关键点分布信息序列；

第三确定子模块，用于将所述关键点分布信息序列输入第三神经网络模型，输出所述待检测对象的待检测行为与目标行为的第二相似度参考信息；所述第三神经网络模型是基于目标行为对应的关键点分布信息序列训练得到的。

在一实施例中，所述装置还包括：

声音特征获取模块，用于获取待处理视频流中待检测对象的声音特征；

第三确定模块，用于基于所述声音特征，确定所述待检测对象的声音特征与目标行为对应的声音特征的第三相似度参考信息；

第四确定模块，用于根据所述第一相似度参考信息、所述第二相似度参考信息以及所述第三相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为。

在一实施例中，所述第三确定模块具体用于：

关于行为检测装置的具体限定可以参见上文中对于行为检测方法的限定，在此不再赘述。上述行为检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储动作检测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一项行为检测方法实施例中的步骤。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述任一项行为检测方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一项行为检测方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种行为检测方法，其特征在于，所述方法包括：

获取待处理视频流，所述待处理视频流中包含待检测对象；

2.根据权利要求1所述的方法，其特征在于，所述获取待处理视频流包括：

采集监控视频，所述监控视频中包含待检测对象；

根据待检测对象所在区域，对监控视频中的所有视频帧进行待检测对象的关联跟踪确定所有记录待检测对象的连续视频帧，得到待处理视频流。

3.根据权利要求2所述的方法，其特征在于，所述基于所述待处理视频流包含的视频帧中所述待检测对象的行为特征，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述待处理视频流包含的视频帧中所述待检测对象的行为特征，确定所述待检测对象的待检测行为与目标行为的第一相似度参考信息包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述待处理视频流，获取所述待检测对象的关键点的关键点分布信息，并基于所述关键点分布信息，确定所述待检测对象的待检测行为与所述目标行为的第二相似度参考信息包括：

基于获取的各关键点分布信息，确定关键点分布信息序列；

6.根据权利要求1～5任一项所述的方法，其特征在于，所述方法还包括：

获取待处理视频流中待检测对象的声音特征；

根据所述第一相似度参考信息、所述第二相似度参考信息以及所述第三相似度参考信息，确定所述待检测对象的待检测行为是否是所述目标行为。

7.根据权利要求6所述的方法，其特征在于，所述基于所述声音特征，确定所述待检测对象的声音特征与目标行为对应的声音特征的第三相似度参考信息包括：

8.一种行为检测装置，其特征在于，所述装置包括：

第二确定模块，用于根据所述第一相似度参考信息和所述第二相似度参考信息，确定所述待检测对象的待检测行为是否为所述目标行为。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的方法的步骤。