CN111914657B

CN111914657B - 一种宠物行为检测方法、装置、电子设备及存储介质

Info

Publication number: CN111914657B
Application number: CN202010640557.7A
Authority: CN
Inventors: 唐圣; 傅凯
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2023-04-07
Anticipated expiration: 2040-07-06
Also published as: CN111914657A

Abstract

本发明公开了一种宠物行为检测方法、装置、电子设备及存储介质，确定每张第一图像的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息，以及每张第一图像的采集时间生成三维地图，然后基于三维地图进行聚类，包含数据点最多的类簇即为宠物经常活动的区域对应的类簇，因此将包含数据点最多的类簇对应的区域作为目标活动区域，在目标活动区域内根据每种姿态信息的数据点的数量，确定目标姿态信息。本发明实施例提供的方案能够检测出宠物经常活动的区域以及常用的姿态，便于用户根据确定出的目标活动区域以及目标姿态信息了解宠物的行为习惯，以便对宠物能够有更好的照顾。

Description

一种宠物行为检测方法、装置、电子设备及存储介质

技术领域

本发明涉及目标检测技术领域，尤其涉及一种宠物行为检测方法、装置、电子设备及存储介质。

背景技术

随着经济水平的提升，养宠物的家庭比例也在不断提高。但是在繁忙的工作中很多养宠一族并没有足够的时间去陪伴家中宠物，于是他们中的不少人选择了购买家用摄像头实时监控宠物状态。但是通过安装家用摄像头也只能是能够随时观察到宠物，但是没有对宠物的行为进行检测，无法帮助用户了解宠物的行为习惯。宠物仍然没有得到很好的照顾。因此，需要一种宠物行为检测方案，以便用户了解宠物的行为习惯，进而根据宠物的行为习惯为宠物布置一些玩具或设施等，使宠物得到更好的照顾。

发明内容

本发明实施例提供了一种宠物行为检测方法、装置、电子设备及存储介质，以便用户了解宠物的行为习惯，对宠物能够有更好的照顾。

本发明实施例提供了一种宠物行为检测方法，所述方法包括：

以预设的帧率从监控视频中获取每张第一图像；

确定所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息；

根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图；

针对每个检测时刻，对所述三维地图中从预设的起始时刻至该检测时刻的数据点进行聚类处理，将包含数据点最多的类簇对应的区域作为目标活动区域，根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息。

进一步地，所述确定所述每张第一图像中的宠物子图像的位置信息包括：

将所述每张第一图像输入预先训练完成的目标检测模型，基于所述目标检测模型确定所述每张第一图像中的宠物子图像的位置信息。

进一步地，确定每张宠物子图像中宠物的姿态信息包括：

将所述每张宠物子图像输入预先训练完成的姿态检测模型，基于所述姿态检测模型确定所述每张宠物子图像中宠物的姿态信息。

进一步地，当所述每张第一图像中包含的宠物数量为至少两个时，所述基于所述目标检测模型确定所述每张第一图像中的宠物子图像的位置信息包括：

基于所述目标检测模型确定所述每张第一图像中每个宠物的标识信息以及每个宠物子图像的位置信息。

进一步地，所述基于所述目标检测模型确定所述每张第一图像中每个宠物的标识信息以及每个宠物子图像的位置信息之后，根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图之前，所述方法还包括：

针对所述每张第一图像，采用非极大值抑制算法对相同标识信息的宠物子图像的位置信息进行融合处理。

进一步地，当所述每张第一图像中包含的宠物数量为至少两个时，所述根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图包括：

针对每个宠物，根据每张第一图像的采集时间、所述每张第一图像中的该宠物的宠物子图像的位置信息以及每张宠物子图像中该宠物的姿态信息生成该宠物的三维地图。

进一步地，针对每个检测时刻，对所述三维地图中从预设的起始时刻至该检测时刻的数据点进行聚类处理包括：

每次新增一个数据点，将该数据点作为新聚类簇的第一聚类中心；

确定所述第一聚类中心与其它第二聚类中心最小的欧氏距离，判断该最小的欧氏距离是否小于预设的距离阈值，如果是，将该第一聚类中心与最小的欧氏距离对应的类簇进行合并，判断合并后的类簇的簇内协方差矩阵的迹是否小于预设的阈值，如果是，确定将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类；

如果上述两个判断结果不能同时满足，确定所述第一聚类中心为一个新的类簇的聚类中心。

进一步地，确定将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类之后，所述方法还包括：

根据所述第一聚类中心出现前的类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定第一评价指标；

根据所述第一聚类中心出现后的类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定第二评价指标；

判断所述第二评价指标是否小于所述第一评价指标，如果否，保持将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类，如果是，将该第一聚类中心从最小的欧氏距离对应的类簇中分离，确定所述第一聚类中心为一个新的类簇的聚类中心。

进一步地，根据类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定评价指标包括：

根据第一公式

确定评价指标；

式中，CH为评价指标，tr(B_k)为类间离差矩阵的迹，tr(W_k)为类内离差矩阵的迹，m为数据点的数量，k为聚类中心的数量。

进一步地，所述将包含数据点最多的类簇对应的区域作为目标活动区域包括：

确定包含数据点最多的类簇对应的区域的最小外接矩形，将所述最小外接矩形对应的区域作为目标活动区域。

进一步地，所述根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息包括：

根据第二公式

计算每个姿态信息的得分，将分数最高的姿态信息确定为目标姿态信息；

式中，I为判断函数，当计算k姿态的得分时，K姿态的数据点的I值等于1，其它姿态的数据点的I值等于0，d为数据点与所述目标活动区域的聚类中心的欧式距离，λ为预设的常数。

进一步地，所述目标检测模型的训练过程包括：

针对第一样本集中的每张第二图像，将该第二图像和该第二图像对应的第一标注图像输入所述目标检测模型，对所述目标检测模型进行训练；其中，该第一标注图像中标注有该第二图像中每个宠物的标识信息以及每个宠物子图像的位置信息。

进一步地，所述姿态检测模型的训练过程包括：

针对第二样本集中的每张宠物样本图像，将该宠物样本图像和该宠物样本图像对应的第二标注图像输入所述姿态检测模型，对所述姿态检测模型进行训练；其中，该第二标注图像中标注有该宠物样本图像中宠物的姿态信息。

另一方面，本发明实施例提供了一种宠物行为检测装置，所述装置包括：

获取模块，用于以预设的帧率从监控视频中获取每张第一图像；

第一确定模块，用于确定所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息；

第二确定模块，用于根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图；

第三确定模块，用于针对每个检测时刻，对所述三维地图中从预设的起始时刻至该检测时刻的数据点进行聚类处理，将包含数据点最多的类簇对应的区域作为目标活动区域，根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息。

进一步地，所述第一确定模块，具体用于将所述每张第一图像输入预先训练完成的目标检测模型，基于所述目标检测模型确定所述每张第一图像中的宠物子图像的位置信息。

进一步地，所述第一确定模块，具体用将所述每张宠物子图像输入预先训练完成的姿态检测模型，基于所述姿态检测模型确定所述每张宠物子图像中宠物的姿态信息。

进一步地，所述第一确定模块，具体用基于所述目标检测模型确定所述每张第一图像中每个宠物的标识信息以及每个宠物子图像的位置信息。

进一步地，所述装置还包括：

融合处理模块，用于针对所述每张第一图像，采用非极大值抑制算法对相同标识信息的宠物子图像的位置信息进行融合处理。

进一步地，所述第二确定模块，具体用于针对每个宠物，根据每张第一图像的采集时间、所述每张第一图像中的该宠物的宠物子图像的位置信息以及每张宠物子图像中该宠物的姿态信息生成该宠物的三维地图。

进一步地，所述第三确定模块，具体用于每次新增一个数据点，将该数据点作为新聚类簇的第一聚类中心；确定所述第一聚类中心与其它第二聚类中心最小的欧氏距离，判断该最小的欧氏距离是否小于预设的距离阈值，如果是，将该第一聚类中心与最小的欧氏距离对应的类簇进行合并，判断合并后的类簇的簇内协方差矩阵的迹是否小于预设的阈值，如果是，确定将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类；如果上述两个判断结果不能同时满足，确定所述第一聚类中心为一个新的类簇的聚类中心。

进一步地，所述装置还包括：

判断模块，用于根据所述第一聚类中心出现前的类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定第一评价指标；根据所述第一聚类中心出现后的类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定第二评价指标；判断所述第二评价指标是否小于所述第一评价指标，如果否，保持将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类，如果是，将该第一聚类中心从最小的欧氏距离对应的类簇中分离，确定所述第一聚类中心为一个新的类簇的聚类中心。

进一步地，所述判断模块，具体用于根据第一公式

确定评价指标；式中，CH为评价指标，tr(B_k)为类间离差矩阵的迹，tr(W_k)为类内离差矩阵的迹，m为数据点的数量，k为聚类中心的数量。

进一步地，所述第三确定模块，具体用于确定包含数据点最多的类簇对应的区域的最小外接矩形，将所述最小外接矩形对应的区域作为目标活动区域。

进一步地，所述第三确定模块，具体用于根据第二公式

计算每个姿态信息的得分，将分数最高的姿态信息确定为目标姿态信息；式中，I为判断函数，当计算k姿态的得分时，K姿态的数据点的I值等于1，其它姿态的数据点的I值等于0，d为数据点与所述目标活动区域的聚类中心的欧式距离，λ为预设的常数。

进一步地，所述装置还包括：

第一训练模块，用于针对第一样本集中的每张第二图像，将该第二图像和该第二图像对应的第一标注图像输入所述目标检测模型，对所述目标检测模型进行训练；其中，该第一标注图像中标注有该第二图像中每个宠物的标识信息以及每个宠物子图像的位置信息。

进一步地，所述装置还包括：

第二训练模块，用于针对第二样本集中的每张宠物样本图像，将该宠物样本图像和该宠物样本图像对应的第二标注图像输入所述姿态检测模型，对所述姿态检测模型进行训练；其中，该第二标注图像中标注有该宠物样本图像中宠物的姿态信息。

另一方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一项所述的方法步骤。

另一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。

本发明实施例提供了一种宠物行为检测方法、装置、电子设备及存储介质，所述方法包括：以预设的帧率从监控视频中获取每张第一图像；确定所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息；根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图；针对每个检测时刻，对所述三维地图中从预设的起始时刻至该检测时刻的数据点进行聚类处理，将包含数据点最多的类簇对应的区域作为目标活动区域，根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息。

上述的技术方案具有如下优点或有益效果：

在本发明实施例中，获取到每张第一图像之后，确定出每张第一图像的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息，以及每张第一图像的采集时间生成三维地图，三维地图中的每个数据点即表示每张第一图像的采集时间、宠物子图像的位置信息以及宠物的姿态信息，然后基于三维地图进行聚类，包含数据点最多的类簇即为宠物经常活动的区域对应的类簇，因此将包含数据点最多的类簇对应的区域作为目标活动区域，在目标活动区域内根据每种姿态信息的数据点的数量，确定目标姿态信息。本发明实施例提供的方案能够检测出宠物经常活动的区域以及常用的姿态，便于用户根据确定出的目标活动区域以及目标姿态信息了解宠物的行为习惯，以便对宠物能够有更好的照顾。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的宠物行为检测过程示意图；

图2为本发明实施例8提供的宠物行为检测框架图；

图3为本发明实施例9提供的宠物行为检测装置结构示意图；

图4为本发明实施例10提供的电子设备结构示意图。

具体实施方式

下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

图1为本发明实施例提供的宠物行为检测过程示意图，该过程包括以下步骤：

S101：以预设的帧率从监控视频中获取每张第一图像。

本发明实施例提供的宠物行为检测方法应用于电子设备，该电子设备包括PC、平板电脑等设备，该电子设备也可以是视频监控设备。视频监控设备用于采集宠物的监控视频，如果该电子设备为视频监控设备，则视频监控设备采集到宠物的监控视频之后，根据预设的帧率从监控视频中获取每张第一图像。如果该电子设备为PC、平板电脑等设备，则视频监控设备采集到宠物的监控视频之后，将监控视频发送至电子设备，电子设备根据预设的帧率从监控视频中获取每张第一图像。

S102：确定所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息。

电子设备获取到每张第一图像之后，针对每张第一图像，确定该第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息。其中，电子设备可以根据模板匹配算法确定出第一图像中的宠物子图像，然后确定宠物子图像在第一图像中的位置信息。同样的，电子设备针对每种姿态信息，也可以预先保存宠物对应的模板图像，确定出宠物子图像之后，再次通过模板匹配算法确定出宠物子图像中宠物的姿态信息。

S103：根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图。

由于视频监控设备采集的监控视频中每一帧图像都有对应的时间戳信息，因此电子设备以预设的帧率从监控视频中获取每张第一图像，每张第一图像的采集时间也就是已知的。根据每张第一图像的采集时间、每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图。其中，三维地图的x轴可以是第一图像的长，y轴是第一图像的宽，z轴为时间，宠物的姿态信息用不同的颜色表示。这样每张第一图像的宠物相关信息表示为三维地图中的一个数据点，三维地图中的每个数据点都包含有第一图像的采集时间、第一图像中的宠物子图像的位置信息以及宠物子图像中宠物的姿态信息。

S104：针对每个检测时刻，对所述三维地图中从预设的起始时刻至该检测时刻的数据点进行聚类处理，将包含数据点最多的类簇对应的区域作为目标活动区域，根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息。

电子设备中预先设置有起始时刻和每个检测时刻，当到达检测时刻时，对三维地图中从预设的起始时刻至该检测时刻的数据点进行聚类处理。其中，聚类的原则可以是根据数据点之间的距离进行聚类，例如电子设备中预先设置距离阈值，距离小于距离阈值的两个数据点聚为一类。聚类完成之后，识别包含数据点最多的类簇，将该类簇对应的区域作为目标活动区域，并根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息。例如将数量最多的姿态信息确定为目标姿态信息。

实施例2：

为了使确定每张第一图像中的宠物子图像的位置信息更加简便准确，在上述实施例的基础上，在本发明实施例中，所述确定所述每张第一图像中的宠物子图像的位置信息包括：

电子设备中保存有预先训练完成的目标检测模型，目标检测模型的作用是对输入的图像进行相关处理，输出图像中的宠物子图像的位置信息。

第一图像中的宠物有可能为多个，为了检测每个宠物的行为，在本发明实施例中，当所述每张第一图像中包含的宠物数量为至少两个时，所述基于所述目标检测模型确定所述每张第一图像中的宠物子图像的位置信息包括：

基于所述目标检测模型确定所述每张第一图像中每个宠物的标识信息以及每个宠物子图像的位置信息。其中，每个宠物的标识信息用于区分每个宠物。

另外，当所述每张第一图像中包含的宠物数量为至少两个时，所述根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图包括：

针对每个宠物，根据每张第一图像的采集时间、所述每张第一图像中的该宠物的宠物子图像的位置信息以及每张宠物子图像中该宠物的姿态信息生成该宠物的三维地图。即针对每个宠物生成该宠物的三维地图。

所述目标检测模型的训练过程包括：

电子设备中保存有用于训练目标检测模型的第一样本集，将第一样本集中的图像称为第二图像。并且每张第二图像存在对应的第一标注图像，第一标注图像中标注有第二图像中每个宠物的标识信息以及每个宠物子图像的位置信息。将每个第二图像和对应的第一标注图像输入目标检测模型，完成对目标检测模型的训练。

本发明实施例中基于目标检测模型确定每张第一图像中的宠物子图像的位置信息，不需要使用复杂的模板匹配算法，并且确定每张第一图像中的宠物子图像的位置信息的准确率较高。

实施例3：

为了使确定每张宠物子图像中宠物的姿态信息更加简便准确，在上述各实施例的基础上，在本发明实施例中，确定每张宠物子图像中宠物的姿态信息包括：

电子设备中保存有预先训练完成的姿态检测模型，姿态检测模型的作用是对输入的图像进行相关处理，输出图像中的宠物的姿态信息。

所述姿态检测模型的训练过程包括：

电子设备中保存有用于训练姿态检测模型的第二样本集，将第二样本集中的图像称为宠物样本图像。并且每张宠物样本图像存在对应的第二标注图像，第二标注图像中标注有宠物样本图像中宠物的姿态信息。将每个宠物样本图像和对应的第二标注图像输入姿态检测模型，完成对姿态检测模型的训练。

本发明实施例中基于姿态检测模型确定宠物的姿态信息，不需要使用复杂的模板匹配算法，并且确定宠物的姿态信息的准确率较高。

实施例4：

为了避免宠物子图像冗余，提升宠物子图像的检测效果，在上述各实施例的基础上，在本发明实施例中，所述基于所述目标检测模型确定所述每张第一图像中每个宠物的标识信息以及每个宠物子图像的位置信息之后，根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图之前，所述方法还包括：

基于目标检测模型确定所述每张第一图像中每个宠物的标识信息以及每个宠物子图像的位置信息，针对同一标识信息的宠物，其对应的宠物子图像的位置信息有可能有多个，既造成了宠物子图像冗余，也使得宠物子图像的检测效果较差。为了解决上述问题，在本发明实施例中，针对每张第一图像，首先判断该第一图像中同一标识信息的宠物对应的宠物子图像的位置信息是否为多个，如果是，则采用非极大值抑制算法对这多个宠物子图像的位置信息进行融合处理。

由于在本发明实施例中，针对所述每张第一图像，采用非极大值抑制算法对相同标识信息的宠物子图像的位置信息进行融合处理，实现了对冗余宠物子图像的位置信息的合并及滤除，提升了宠物子图像的检测效果。

实施例5：

为了实现对数据点的准确聚类，在上述各实施例的基础上，在本发明实施例中，针对每个检测时刻，对所述三维地图中从预设的起始时刻至该检测时刻的数据点进行聚类处理包括：

在本发明实施例中，随着时间的推移，三维地图中数据点的数量也在逐渐增多。对数据点进行聚类时，首先每次新增一个数据点，将该数据点作为新聚类簇的第一聚类中心，然后基于以下两个判断条件来确定是否将该第一聚类中心与其它类簇聚为一类。判断条件1为确定第一聚类中心与其它第二聚类中心最小的欧氏距离，判断该最小的欧氏距离是否小于预设的距离阈值，判断条件2为假设将该第一聚类中心与最小的欧氏距离对应的类簇进行合并，判断合并后的类簇的簇内协方差矩阵的迹是否小于预设的阈值。只有当上述两个判断条件的判断结果都为是时，确定将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类；否则，确定第一聚类中心为一个新的类簇的聚类中心。

由于在本发明实施例中，基于两个判断条件来实现对数据点的聚类处理，使得聚类过程更加准确。

实施例6：

为了进一步使聚类过程更加准确，在上述各实施例的基础上，在本发明实施例中，确定将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类之后，所述方法还包括：

在本发明实施例中，上述两个判断条件的判断结果都为是，确定将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类之后，还需再进行一次判断，也就是判断条件3。具体的，首先确定第一聚类中心出现前的时刻，根据该时刻的类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定第一评价指标。然后根据第一聚类中心出现后的类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定第二评价指标。第一聚类中心出现后的时刻已将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类。然后判断第二评价指标是否小于所述第一评价指标，如果否，保持将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类，如果是，将该第一聚类中心从最小的欧氏距离对应的类簇中分离，确定所述第一聚类中心为一个新的类簇的聚类中心。

其中，根据类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定评价指标包括：

根据第一公式

确定评价指标；

由于在本发明实施例中，在上述聚类过程的基础上，增加了第三个判断条件，结合三个判断条件对数据点进行聚类，进一步使得聚类过程更准确。

实施例7：

为了使确定目标活动区域更准确，在上述各实施例的基础上，在本发明实施例中，所述将包含数据点最多的类簇对应的区域作为目标活动区域包括：

包含数据点最多的类簇一般为不规则形状的类簇，包含数据点最多的类簇对应的区域也是不规则的区域，并且不易表示。考虑到上述问题，本发明实施例中，确定包含数据点最多的类簇之后，确定包含数据点最多的类簇对应的区域的最小外接矩形，最小外接矩形为易于表示的规则的区域形状，将最小外接矩形对应的区域作为目标活动区域。

实施例8：

为了使确定目标姿态信息更准确，在上述各实施例的基础上，在本发明实施例中，所述根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息包括：

根据第二公式

在本发明实施例中，确定出目标活动区域之后，根据目标活动区域内的每个数据点的姿态信息，带入第二公式

计算每个姿态信息的得分，然后将分数最高的姿态信息确定为目标姿态信息。

相较于仅根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息的方案，本发明实施例提供的确定目标姿态信息的方法结合每种姿态信息的数据点的数量以及数据点与目标活动区域的聚类中心的欧式距离来计算姿态的得分的方案更加准确。

下面对本发明实施例提供的宠物行为检测方法进行详细说明，主要以猫狗宠物为例说明。

图2为本发明实施例提供的宠物行为检测框架图，包括实时视频数据采集、宠物猫狗目标检测、目标姿态分类、绘制目标位置-时间-姿态地图、目标运动热点区域和习惯分析。

1.实时视频数据采集：

将视频监控设备安置于宠物所在房屋的较高处，防止宠物触碰。并尽量减少视频监控设备视野范围内的遮挡情况，并调整视频监控设备角度将房间需要监控区域纳入监控范围。然后，以预设的帧率从监控视频中抽取图片流，为后续宠物猫狗目标检测和姿态信息的确定提供基础数据。

2.宠物猫狗目标检测：

建立目标检测模型从图像中检测宠物猫狗，得到其宠物猫狗的位置信息和标识信息。此过程包含三个部分：构建目标检测模型、训练目标检测模型、基于目标检测模型完成宠物猫狗的检测。

构建目标检测模型：本发明实施例采用轻量级深度神经网络SqueezeNet作为基础网络从图像中提取特征，并在SqueezeNet的fire4、fire8和fire9三个模块后连接一阶段检测框架Yolo v3的检测分支，从而构建本发明实施例的目标检测模型。该目标检测模型在轻量级网络和一阶段检测框架的支持下能够以较少的时间完成图像中宠物猫狗检测过程，从而得到宠物猫狗的目标框、标识信息和分数。其中，目标框包含宠物猫狗的中心点坐标以及长宽信息；标识信息代表目标框对应的宠物具体为哪个宠物，例如有两只猫一条狗，其标识信息分别为a、b、c；分数代表目标框预测正确的可能性。

训练目标检测模型：完成目标检测模型训练任务的基础是生成训练数据。相比于人、物品、车辆而言，宠物猫狗的活动轨迹和运动姿态较为复杂，因此，需要采集丰富的室内宠物场景图像，通过人工标注绘制图像中宠物猫狗的目标框和标识信息。同时，加入一定数据量的无目标室内图片，可以降低模型的检测错误率。最后，将以上标注数据和图像作为训练数据，完成目标检测模型的训练。

基于目标检测模型完成宠物猫狗的检测：以预设的帧率从监控视频中获取每张图像，并将每张图像输入目标检测模型得到宠物猫狗目标框、标识信息和分数。设定分数阈值对目标框进行筛选，滤除低于设定分数阈值的目标框，并设定交并比阈值，采用非极大值抑制算法对相同标识信息的宠物子图像的位置信息进行融合处理，得到最终的检测结果，即目标框和标识信息。

3.目标姿态分类：

通过目标检测能够得到其中宠物猫狗的目标框和标识信息，为了得到宠物猫狗更加详细的运动姿态，本发明实施例通过姿态检测模型对目标的姿态进行分类。此过程包括：确定目标姿态类别、构建姿态检测模型、训练姿态检测模型、基于姿态检测模型完成目标框的姿态分类。

确定目标姿态类别：目标姿态可以分为以下五类：卧躺、坐、行、立、无。

具体说明如下表所示：

姿态	说明
		卧躺	表示目标整个身躯紧贴地面或者其他支撑面的姿态
坐	表示目标端坐，并且前肢支撑起上半身的姿态
		行	表示目标身躯不接触支撑面的行走和奔跑的姿态
无	代表目标不是宠物猫狗

构建姿态检测模型：本发明实施例的姿态检测模型可以沿用目标检测模型的SqueezeNet，并保留目标检测模型权重作为姿态检测模型初始值，修改网络输出层大小为四，对应四个目标姿态类别。最后，采用Softmax loss和Center Loss作为网络学习的损失函数。

训练姿态检测模型：训练姿态检测模型的基础是训练数据，此时可以采用目标检测模型输出的结果作为训练数据，利用将目标检测模型输出的结果作为训练样本图像，针对每个训练样本图像进行人工标注其中宠物的姿态信息。最后，利用训练样本图像和人工标注的姿态信息完成姿态检测模型的训练。

基于姿态检测模型完成目标框的姿态分类：图像完成宠物猫狗检测后，将检测结果输入姿态检测模型，并将得分最高的姿态信息作为姿态检测模型的输出结果。最后，剔除类别为“无”的目标框，实现去误报的功能，提高姿态信息检测的准确率。

4.绘制目标位置-时间-姿态地图：

为每个宠物猫狗都生成一个目标位置-时间-姿态地图，目标位置-时间-姿态地图中每个数据点都代表一个宠物猫狗在某时刻的状态，目标位置-时间-姿态地图维度信息如下表所述：

维度	说明
		x轴	图像的长度
y轴	图像的宽度
		z轴	时间维度(例如0:00～24:00)
颜色	目标姿态信息

图像通过宠物猫狗目标检测模型和姿态检测模型后能够获得目标的目标框和姿态，目标框中包含目标中心点的坐标，对应地图中数据点的(x,y)，姿态能够确定数据点颜色。同时，图像是从视频中按预设的帧率进行抽取，因此可以确定每张图片对应的采集时间，从而确定目标对应数据点在地图中的位置。

随着对监控视频中的图像不间断的进行目标检测和姿态分类，每个宠物猫狗的目标位置-时间-姿态地图不断生长。因此，可以通过目标位置-时间-姿态地图观测到每个宠物猫狗在监控区域时的任意时刻位置和姿态。

5.目标运动热点区域和习惯分析：

目标位置-时间-姿态地图中记录了宠物猫狗在一天中任意时刻的位置和姿态，因此可以通过聚类的方式寻找目标频繁到达的区域，从而确定目标的运动热点区域。另外，通过对热点区域中目标的姿态统计，可以分析目标在特定区域中通常采用怎样的姿态进行活动，从而体现目标的运动习惯。

因为目标位置-时间-姿态地图随时间不断增长，为了提供实时的目标活动分析结果，无法采用固定样本数量的聚类方法，本发明设计一种随数据动态增加的聚类方式，具体步骤如下：

(1)假设每次新增的数据点都是一个新聚类簇，且该新增的数据点为新聚类簇的聚类中心C。

(2)判断新聚类簇是否能与其他聚类簇进行聚类：

判断条件1：计算C与其他聚类中心的欧式距离，并判断C与最近聚类中心的距离d是否小于阈值σ；

判断条件2：假设将聚类中心C与最小的欧氏距离对应的类簇进行合并，判断合并后的类簇的簇内协方差矩阵的迹SS＝tr(W)是否小于预设的阈值τ；

如果判断条件1和2的判断结果都为是，则确定将聚类中心C与最小的欧氏距离对应的类簇进行合并，组成新的聚类簇，其新的聚类簇的聚类中心为簇内数据点的质心。

(3)每次完成聚类簇的聚类后，记录新聚类簇的状态，状态中包含簇内总体方差值，以及由哪两个聚类簇聚类而成。然后，对整体聚类效果进行评价，评价指标采用Calinski-Harabasz(CH)指标，计算公式如下：

根据所述第一聚类中心出现前的类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定第一评价指标；根据所述第一聚类中心出现后的类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定第二评价指标；判断所述第二评价指标是否小于所述第一评价指标，如果否，保持将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类，如果是，将该第一聚类中心从最小的欧氏距离对应的类簇中分离，确定所述第一聚类中心为一个新的类簇的聚类中心。

(4)随着地图中数据点的增加，不断重复以上过程，并记录当前地图中的聚类簇数量，整体的CH值，以及每个聚类簇包含的数据点。

根据目标位置-时间-姿态地图的聚类结果，筛选得到包含数据点数量最多的n个聚类簇，根据聚类簇中数据点的(x,y)坐标绘制聚类簇的最小包围矩形，作为目标的运动热点区域。然后，计算热点区域内目标各个姿态类型的得分S，计算公式如下：

式中，I为判断函数，当计算k姿态的得分时，K姿态的数据点的I值等于1，其它姿态的数据点的I值等于0，d为数据点与所述目标活动区域的聚类中心的欧式距离，λ为预设的常数。最后，根据得分最高的姿态确定目标在此热点区域的运动习惯。

实施例9：

图3为本发明实施例提供的宠物行为检测装置结构示意图，所述装置包括：

获取模块31，用于以预设的帧率从监控视频中获取每张第一图像；

第一确定模块32，用于确定所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息；

第二确定模块33，用于根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图；

第三确定模块34，用于针对每个检测时刻，对所述三维地图中从预设的起始时刻至该检测时刻的数据点进行聚类处理，将包含数据点最多的类簇对应的区域作为目标活动区域，根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息。

所述第一确定模块32，具体用于将所述每张第一图像输入预先训练完成的目标检测模型，基于所述目标检测模型确定所述每张第一图像中的宠物子图像的位置信息。

所述第一确定模块32，具体用将所述每张宠物子图像输入预先训练完成的姿态检测模型，基于所述姿态检测模型确定所述每张宠物子图像中宠物的姿态信息。

所述第一确定模块32，具体用基于所述目标检测模型确定所述每张第一图像中每个宠物的标识信息以及每个宠物子图像的位置信息。

所述装置还包括：

融合处理模块35，用于针对所述每张第一图像，采用非极大值抑制算法对相同标识信息的宠物子图像的位置信息进行融合处理。

所述第二确定模块33，具体用于针对每个宠物，根据每张第一图像的采集时间、所述每张第一图像中的该宠物的宠物子图像的位置信息以及每张宠物子图像中该宠物的姿态信息生成该宠物的三维地图。

所述第三确定模块34，具体用于每次新增一个数据点，将该数据点作为新聚类簇的第一聚类中心；确定所述第一聚类中心与其它第二聚类中心最小的欧氏距离，判断该最小的欧氏距离是否小于预设的距离阈值，如果是，将该第一聚类中心与最小的欧氏距离对应的类簇进行合并，判断合并后的类簇的簇内协方差矩阵的迹是否小于预设的阈值，如果是，确定将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类；如果上述两个判断结果不能同时满足，确定所述第一聚类中心为一个新的类簇的聚类中心。

所述装置还包括：

判断模块36，用于根据所述第一聚类中心出现前的类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定第一评价指标；根据所述第一聚类中心出现后的类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定第二评价指标；判断所述第二评价指标是否小于所述第一评价指标，如果否，保持将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类，如果是，将该第一聚类中心从最小的欧氏距离对应的类簇中分离，确定所述第一聚类中心为一个新的类簇的聚类中心。

所述判断模块36，具体用于根据第一公式

所述第三确定模块34，具体用于确定包含数据点最多的类簇对应的区域的最小外接矩形，将所述最小外接矩形对应的区域作为目标活动区域。

所述第三确定模块34，具体用于根据第二公式

所述装置还包括：

第一训练模块37，用于针对第一样本集中的每张第二图像，将该第二图像和该第二图像对应的第一标注图像输入所述目标检测模型，对所述目标检测模型进行训练；其中，该第一标注图像中标注有该第二图像中每个宠物的标识信息以及每个宠物子图像的位置信息。

所述装置还包括：

第二训练模块38，用于针对第二样本集中的每张宠物样本图像，将该宠物样本图像和该宠物样本图像对应的第二标注图像输入所述姿态检测模型，对所述姿态检测模型进行训练；其中，该第二标注图像中标注有该宠物样本图像中宠物的姿态信息。

实施例10：

在上述各实施例的基础上，本发明实施例中还提供了一种电子设备，如图4所示，包括：处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信；

所述存储器303中存储有计算机程序，当所述程序被所述处理器301执行时，使得所述处理器301执行如下步骤：

以预设的帧率从监控视频中获取每张第一图像；确定所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息；根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图；针对每个检测时刻，对所述三维地图中从预设的起始时刻至该检测时刻的数据点进行聚类处理，将包含数据点最多的类簇对应的区域作为目标活动区域，根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息。

基于同一发明构思，本发明实施例中还提供了一种电子设备，由于上述电子设备解决问题的原理与宠物行为检测方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、网络侧设备等。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口302用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在本发明实施例中处理器执行存储器上所存放的程序时，实现以预设的帧率从监控视频中获取每张第一图像；确定所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息；根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图；针对每个检测时刻，对所述三维地图中从预设的起始时刻至该检测时刻的数据点进行聚类处理，将包含数据点最多的类簇对应的区域作为目标活动区域，根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息。

实施例11：

在上述各实施例的基础上，本发明实施例还提供了一种计算机存储可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行时实现如下步骤：

基于同一发明构思，本发明实施例中还提供了一种计算机可读存储介质，由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与宠物行为检测方法相似，因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施，重复之处不再赘述。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

在本发明实施例中提供的计算机可读存储介质内存储计算机程序，计算机程序被处理器执行时实现以预设的帧率从监控视频中获取每张第一图像；确定所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息；根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图；针对每个检测时刻，对所述三维地图中从预设的起始时刻至该检测时刻的数据点进行聚类处理，将包含数据点最多的类簇对应的区域作为目标活动区域，根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种宠物行为检测方法，其特征在于，所述方法包括：

以预设的帧率从监控视频中获取每张第一图像；

2.如权利要求1所述的方法，其特征在于，所述确定所述每张第一图像中的宠物子图像的位置信息包括：

3.如权利要求1所述的方法，其特征在于，确定每张宠物子图像中宠物的姿态信息包括：

4.如权利要求2所述的方法，其特征在于，当所述每张第一图像中包含的宠物数量为至少两个时，所述基于所述目标检测模型确定所述每张第一图像中的宠物子图像的位置信息包括：

5.如权利要求4所述的方法，其特征在于，所述基于所述目标检测模型确定所述每张第一图像中每个宠物的标识信息以及每个宠物子图像的位置信息之后，根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图之前，所述方法还包括：

6.如权利要求1所述的方法，其特征在于，当所述每张第一图像中包含的宠物数量为至少两个时，所述根据所述每张第一图像的采集时间、所述每张第一图像中的宠物子图像的位置信息以及每张宠物子图像中宠物的姿态信息生成三维地图包括：

7.如权利要求1所述的方法，其特征在于，针对每个检测时刻，对所述三维地图中从预设的起始时刻至该检测时刻的数据点进行聚类处理包括：

8.如权利要求7所述的方法，其特征在于，确定将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类之后，所述方法还包括：

9.如权利要求8所述的方法，其特征在于，根据类间离差矩阵的迹、类内离差矩阵的迹、数据点的数量和聚类中心的数量确定评价指标包括：

根据第一公式

确定评价指标；

10.如权利要求1所述的方法，其特征在于，所述将包含数据点最多的类簇对应的区域作为目标活动区域包括：

11.如权利要求1所述的方法，其特征在于，所述根据目标活动区域内每种姿态信息的数据点的数量，确定目标姿态信息包括：

根据第二公式

12.如权利要求4所述的方法，其特征在于，所述目标检测模型的训练过程包括：

13.如权利要求3所述的方法，其特征在于，所述姿态检测模型的训练过程包括：

14.一种宠物行为检测装置，其特征在于，所述装置包括：

15.如权利要求14所述的装置，其特征在于，所述第一确定模块，具体用于将所述每张第一图像输入预先训练完成的目标检测模型，基于所述目标检测模型确定所述每张第一图像中的宠物子图像的位置信息。

16.如权利要求14所述的装置，其特征在于，所述第一确定模块，具体用将所述每张宠物子图像输入预先训练完成的姿态检测模型，基于所述姿态检测模型确定所述每张宠物子图像中宠物的姿态信息。

17.如权利要求15所述的装置，其特征在于，所述第一确定模块，具体用基于所述目标检测模型确定所述每张第一图像中每个宠物的标识信息以及每个宠物子图像的位置信息。

18.如权利要求17所述的装置，其特征在于，所述装置还包括：

19.如权利要求14所述的装置，其特征在于，所述第二确定模块，具体用于针对每个宠物，根据每张第一图像的采集时间、所述每张第一图像中的该宠物的宠物子图像的位置信息以及每张宠物子图像中该宠物的姿态信息生成该宠物的三维地图。

20.如权利要求14所述的装置，其特征在于，所述第三确定模块，具体用于每次新增一个数据点，将该数据点作为新聚类簇的第一聚类中心；确定所述第一聚类中心与其它第二聚类中心最小的欧氏距离，判断该最小的欧氏距离是否小于预设的距离阈值，如果是，将该第一聚类中心与最小的欧氏距离对应的类簇进行合并，判断合并后的类簇的簇内协方差矩阵的迹是否小于预设的阈值，如果是，确定将该第一聚类中心与最小的欧氏距离对应的类簇聚为一类；如果上述两个判断结果不能同时满足，确定所述第一聚类中心为一个新的类簇的聚类中心。

21.如权利要求20所述的装置，其特征在于，所述装置还包括：

22.如权利要求21所述的装置，其特征在于，所述判断模块，具体用于根据第一公式

23.如权利要求14所述的装置，其特征在于，所述第三确定模块，具体用于确定包含数据点最多的类簇对应的区域的最小外接矩形，将所述最小外接矩形对应的区域作为目标活动区域。

24.如权利要求14所述的装置，其特征在于，所述第三确定模块，具体用于根据第二公式

25.如权利要求17所述的装置，其特征在于，所述装置还包括：

26.如权利要求16所述的装置，其特征在于，所述装置还包括：

27.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-13任一项所述的方法步骤。

28.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-13任一项所述的方法步骤。