CN115546901B

CN115546901B - 用于宠物规范行为检测的目标检测模型及方法

Info

Publication number: CN115546901B
Application number: CN202211506607.8A
Authority: CN
Inventors: 张香伟; 来佳飞; 曹喆; 彭大蒙; 毛若锴
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-02-17
Anticipated expiration: 2042-11-29
Also published as: CN115546901A

Abstract

本申请提出了一种用于宠物规范行为检测的目标检测模型及方法，该方案优化改进归一化注意力模块，利用权重的贡献因子来改善注意力机制，使用批归一化的比例因子，使用标准差来表示权重的重要性；优化改进全局稀疏注意力机制模块，使其只对输入Token的子集计算自注意力，支持完整的空间交互，既会减少Token的作用域，同时也保留建模全局和局部上下文的底层信息流；通过一个稀疏注意力模块进一步减少了自注意的开销，实现了更好的准确性和延迟平衡；优化改进交叉注意力模块，使其通过交替应用图像Patch内部的注意力而不是整个图像来捕获局部信息，并在单通道特征图分割出来的图像Patch之间应用注意来捕获全局信息，可被用于遛狗未栓绳的检测。

Description

用于宠物规范行为检测的目标检测模型及方法

技术领域

本申请涉及目标检测领域，特别是涉及用于宠物规范行为检测的目标检测模型及方法。

背景技术

目标检测一直以来都是深度学习中的一个热点，目前主流的目标检测算法按照算法阶段分有两类：第一类为两阶段的目标检测算法，较为著名的为R-CNN系列及其变体，第二类为单阶段的目标检测算法，如YOLO系列及其变体，两阶段的算法往往具有更好的检测性能，但是通常速度慢，单阶段算法则具有明显的时间效率，对实时目标检测具有更大的适用性。

视觉注意力机制是人类视觉所特有的一种大脑信号处理机制，而深度学习中的注意力机制正是借鉴了人类视觉的注意力思维方式；一般来说人类在观察外界环境时会迅速的扫描全景，然后根据大脑信号的处理快速的锁定重点关注的目标区域，最终形成注意力焦点；该机制可以帮助人类在有限的资源下，从大量无关背景区域中筛选出具有重要价值信息的目标区域，帮助人类更加高效的处理视觉信息；Transformer可以通过注意力模块捕获长期依赖关系，并在自然语言处理任务中显示出巨大的成功；近年来Transformer也被用于计算机视觉任务，用于图像分类、目标检测、语义分割、特征匹配等。

随着宠物行业的兴起，越来越多的城镇居民选择了养宠物的生活方式，随之而来的就是诸多宠物规范行为管理的问题。特别是针对遛狗的行为来说，很多宠物主人在对外遛狗时没有栓狗绳的习惯，进而导致没有约束的宠物狗可能会对路上的行人带来安全威胁。目前已经有些深度学习模型可用于宠物规范行为检测，但是目前的自注意力机制目标检测模型在实际设计和使用时依旧存在诸多问题：（1）Transformer 的计算量大仍是一大问题，且自注意力机制本身较为复杂，导致整个模型的计算成本居高不下且难以满足时效性的应用需求。特别地，在不拴狗绳进行遛狗的场景下，宠物狗很快就会跑出监控摄像头的监控范围，目前的模型无法快速地识别这些奔跑的宠物狗。（2）目前的自注意力机制虽然可以利用特征不同维度上的相互信息，但是大部分自注意力机制缺少对权重影响因素的考虑，进而抑制了不显著的通道或者像素，识别不显著特征是模型压缩的关键，特别地，在不拴狗绳进行遛狗的场景下，由于该场景大多是背景较为复杂的户外，目前的模型无法很好地确定识别对象，进而也影响了目标的检测。

发明内容

本申请实施例提供了一种用于宠物规范行为检测的目标检测模型及方法，通过交叉注意的方式以较低的计算成本保持良好的检测性能，且利用权重的贡献因子来改善注意力机制，进而可以更快速和准确地检测宠物不规范行为。

第一方面，本申请实施例提供了一种目标检测模型的构建方法，所述方法包括：获取包含待检测目标的待检测图像；构建目标检测模型，其中所述目标检测模型包括依次连接输入层、主干网络以及预测层，其中所述主干网络包括依次连接的stem模块、归一化注意力模块、全局稀疏注意力单元、第一交叉注意力单元以及第二交叉注意力单元；

所述待检测图像输入stem模块中处理后得到第一特征，第一特征输入到归一化注意力模块中输出第二特征，所述第二特征输入到全局稀疏注意力单元中被均分为相同大小的区块特征，所述区块特征输入所述全局稀疏注意力单元中的全局稀疏注意力模块中被处理输出第三特征，所述第三特征输入到第一交叉注意力单元中的块映射进行下采样后再经历多次交叉注意力机制模块得到第四特征，所述第四特征输入到第二交叉注意力单元中的块映射进行下采样后再经历单次交叉注意力机制模块得到第五特征，所述第五特征输入到预测层内进行目标检测得到待检测目标；其中所述归一化注意力模块内对注意力模块应用权重稀疏惩罚。

第二方面，本申请实施例提供了一种目标检测模型，根据上述构建方法构建得到。

第三方面，本申请实施例提供了一种宠物规范行为检测的检测方法，包括：获取涵盖宠物规范行为的待检测图像；将所述待检测图像输入到犬只检测模型中，若检测到犬只则将所述待检测图像输入到犬只狗绳检测模型中，若检测到狗绳则将所述待检测图像输入到行人检测模型中，若检测到行人；若行人和犬只的距离大于设定阈值，判断存在遛狗未栓绳行为。其中犬只检测模型、犬只狗绳检测模型和行人检测模型利用对应的训练样本训练目标检测模型得到。

第四方面，本申请实施例提供了一种宠物规范行为检测的检测装置，包括：图像获取单元，用于获取涵盖宠物规范行为的待检测图像；检测单元，用于将所述待检测图像输入到犬只检测模型中，若检测到犬只则将所述待检测图像输入到犬只狗绳检测模型中，若检测到狗绳则将所述待检测图像输入到行人检测模型中检测行人，其中犬只检测模型、犬只狗绳检测模型和行人检测模型利用对应的训练样本训练所述的目标检测模型得到；判断单元，用于在行人和犬只的距离大于设定阈值时，判断存在遛狗未栓绳行为。

第五方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以所述的目标检测方法或所述的宠物规范行为检测的检测方法。

第六方面，本申请实施例提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据执行所述的目标检测方法或所述的宠物规范行为检测的检测方法。

本发明的主要贡献和创新点如下：

本申请实施例提供的用于宠物规范行为检测的目标检测模型及方法，目标检测模型在几个方面做出了优化改进：

（1）引入归一化注意力模块，且在归一化注意力模块中利用权重的贡献因子来改善注意力机制，使用批归一化的比例因子，使用标准差来表示权重的重要性，这可以避免添加常规注意力机制中使用的全连接层和卷积层，通过利用训练模型权重的方差度量来突出显著特征，解决现有技术一致不显著通道和像素的缺陷。该归一化注意力模块无需额外的全连接，卷积等额外的计算和参数，直接使用批量归一化中的缩放因子来计算注意力权重，并通过增加正则化项来进一步抑制不显著的特征；可以降低不太显著的特征的权重，这种方式在注意力模块上应用了稀疏的权重惩罚，这使得这些权重在计算上更加高效，同时能够保持同样的性能。

（2）全局稀疏注意力机制模块只对输入Token的子集计算自注意力，支持完整的空间交互，既会减少Token的作用域，同时也保留建模全局和局部上下文的底层信息流；通过一个稀疏注意力模块进一步减少了自注意的开销，实现了更好的准确性和延迟平衡。

（3）交叉注意力通过交替应用图像Patch内部的注意力而不是整个图像来捕获局部信息，以较低的计算成本保持了性能，并在单通道特征图分割出来的图像Patch之间应用注意来捕获全局信息。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定，在附图中：

图1是根据本申请一种实施例的目标检测模型的整体框架示意图；

图2是根据本申请一种实施例的归一化注意力模块的结构示意图；

图3是根据本申请一种实施例的全局稀疏注意力模块的结构示意图；

图4是根据本申请一种实施例的交叉注意力机制模块的结构示意图；

图5是宠物规范行为检测的检测方法的逻辑示意图；

图6是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中，方案里面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

第一方面，本申请实施例提供了一种目标检测模型的构建方法，包括：

获取包含待检测目标的待检测图像；

构建目标检测模型，其中所述目标检测模型包括依次连接输入层、主干网络以及预测层，其中所述主干网络包括依次连接的stem模块、归一化注意力模块、全局稀疏注意力单元、第一交叉注意力单元以及第二交叉注意力单元；

图1是本申请一种实施例的目标检测模型的整体框架示意图，构建得到的目标检测模型如上所述。

与典型的基于CNN的网络一样，本方案提供的目标检测模型可以为其它下游视觉任务提供不同尺度的特征图；Transformers在许多视觉任务中都很成功，因为它们具有捕捉长期依赖性的能力；然而它们的二次计算复杂度阻碍了将它们应用于需要密集预测的视觉任务之中，如目标检测、特征匹配、立体视觉等，计算复杂度随输入图像的分辨率呈指数级增长；通常情况下图像被分成几个小的patches，这些小patches被Flatten并作为单词符号输入Transformer，以评估注意力得分；而在Token数量上，即图像patch的数量上，Transformer的计算复杂度是二次的；因此将Transformer应用于计算机视觉应简化所涉及的计算。

在本方案的一实施例中，输入图像在输入所述stem模块中通过7*7卷积后进行一次下采样得到下采样结果，下采样结果进行组归一化后得到归一化结果，归一化结果进行一次激活函数处理后得到的激活结果再经历一次最大池化降采样输出第一特征。

示例性，输入特征的图像大小为H*W，在输入特征在7*7卷积后经历一次下采样得到H/2*W/2的下采样结果，激活结果再经历一次最大池化降采样输出H/4*W/4的第一特征。

第一特征随后输入到归一化注意力模块中进行特征处理得到第二特征。如前所述，在一些实施例中，第一特征的特征图大小为H/4*W/4，经历所述归一化注意力模块处理后的第二特征的特征图大小为H/8*W/8（即H1*W1*C1）。本方案的归一化注意力模块利用权重的贡献因子来改善注意力机制，使用批归一化的比例因子，使用标准差来表示权重的重要性，避免在注意力机制中添加使用的全连接层和卷积层，它对注意力模块应用一个权重稀疏惩罚，抑制了较少显著性的权值。

具体的，所述归一化注意力模块的结构如图2所示。所述归一化注意力模块包括串联的通道注意力子模块、空间注意力子模块、下采样层、层归一化操作。其中所述通道注意力子模块内采用批量归一化操作得到每个通道的比例因子，每个通道的比例因子和对应的权值相乘得到通道注意力特征图；所述空间注意力子模块内采用像素归一化处理操作得到每个空间的比例因子，每个空间的比例因子和对应的权值相乘得到空间注意力特征图。

其中所述每个通道的权值通过每个通道的比例因子计算得到，每个空间的权值通过每个空间的比例因子计算得到。

在一些实施例中，本方案的下采样层采用卷积2*2，步长为2的卷积操作。

具体的，第一特征输入到所述归一化注意力模块中经历3*3卷积后得到中间特征，所述中间特征输入到通道注意力子模块内采用批量归一化操作得到每个通道的比例因子，每个通道的比例因子和对应的权值相乘得到通道注意力特征图；所述通道注意力特征图经历激活函数后输入到空间注意力子模块，特征在所述空间注意力子模块中利用每个空间的比例因子和对应的权值相乘得到空间注意力特征图；所述空间注意力特征图经历激活函数后和第一特征通道叠加得到叠加特征，所述叠加特征依次经历逐点卷积、下采样层和层归一化操作得到第二特征。

本方案的归一化注意力模块计算每个通道的比例因子的公式如下：

其中为所有特征通道的均值，

为所有特征通道的标准差，

和

是可训练的仿射百年换参数尺度和位移。

计算每个空间的比例因子的公式也是：

其中

为所有特征空间的均值，

为所有特征空间的标准差，

和

是可训练的仿射百年换参数尺度和位移。

计算每个通道的权值的公式为：

其中

是每个通道的比例因子，权值为

；

计算每个空间的权值的公式如下：

其中

为每个空间的比例因子，权值为

。

本方案将批量层归一化的比例因子应用于空间维度去衡量像素的重要性。本方案利用权重的贡献因子来改善注意力机制，使用批归一化的比例因子，使用标准差来表示权重的重要性，这可以避免添加常规注意力机制中使用的全连接层和卷积层，通过利用训练模型权重的方差度量来突出显著特征。

本方案的全局稀疏注意力单元包括PatchEmbedding操作和全局稀疏注意力模块。具体的，第二特征按照N*N大小的区块进行划分得到区块特征，区块的个数为H1/N*W1/N，Patch的形状N*N*C，多个区块进行Patch Embedding操作后输入到全局稀疏注意力模块得到第三特征。如前所述，在一些实施例中，第二特征的特征图大小为H/8*W/8，经历所述全局稀疏注意力单元处理后得到的第三特征的特征图大小为H/8*W/8*2C。

由于全局稀疏注意力模块要求输入的是token（向量）序列，故Patch Embedding操作将数据格式为[H1,W1,C]的三维矩阵转化为二维矩阵[num_token,token_dim]，并将其映射成长度为L的二维的向量序列。

Patch Embedding操作的具体步骤是：每个区块的数据形状为N*N*C，通过映射得到一个长度为L（L=N*N*C）的向量token,最后把区块的高宽两个维度展平即可得到一个二维矩阵[T,L]，T为H1/N*W1/N；在得到的二维矩阵对应向量序列中插入一个分类token，分类token是一个可训练的参数，数据格式和其它token一样都是一个向量，分类token向量为[1,L]，分类token和二维矩阵对应向量序列进行Cat拼接操作后得到的二维向量序列为[T+1,L]；Position Embedding采用的是一个可训练的参数是直接加在分类token上的，所以得到的二维向量序列为为[T+1,L]。

如图3所示，全局稀疏注意力模块的结构被展示。全局稀疏注意力模块包括依次布置的3*3深度可分离卷积、BN操作、1*1逐点卷积、3*3深度可分离卷积、BN层、双层前馈网络、3*3深度可分离卷积、稀疏采样器、多头部子注意力操作、局部传播操作以及双层前馈网络，所述双层前馈网络包括第一全连接层、激活函数和第二全连接层。

第二特征经过Position Embedding处理成二维向量序列，所述二维向量序列输入到全局稀疏注意力模块中首先经历一个3*3深度可分离卷积的残差操作，并和二维向量序列堆叠得到第一输出结果；所述第一输出结果依次经历一次BN操作、1*1逐点卷积操作、3*3深度可分离卷积和一次BN操作后，并和第一输出结果堆叠得到第二输出结果，其中1*1逐点卷积操作进行卷积和特征融合，3*3的深度可分离卷积集成来自局部近似Token信号的局部聚合，BN对局部聚合的特征进行批量归一化；第二输出结果在双层前馈网络中经历将维度放大四倍的第一全连接层、激活函数和还原维度的第二全连接层后，和第二输出结果堆叠得到第三输出结果；第三输出结果经历3*3深度可分离卷积的残差操作，并和第三输出结果堆叠得到第四输出结果；第四输出结果进行一次缩小输入特征的稀疏采样器后，经历多头部自注意操作后经历局部操作后，并和第四输出结果堆叠得到第五输出结果；第五输出结果在双层前馈网络中经历将维度放大四倍的第一全连接层、激活函数和还原维度的第二全连接层后，和第五输出结果堆叠得到第六输出结果，第六输出结果作为第三特征。

稀疏采样器是一个卷积核为K，步长为K的二维卷积操作；多头部自注意力操作建模一组代表性Token之间的长期关系，其中每个Token都被视为一个局部窗口的代表；局部传播是对每个通道进行二维的转置卷积操作，将委托学习到的全局上下文信息扩散到具有相同窗口的非代表Token。

Self-attention已被证明是非常有效的学习全局信息或长距离空间依赖性的方法，这是视觉识别的关键；另一方面由于图像具有高度的空间冗余(例如，附近的Patch在语义上是相似的)，将注意力集中到所有的空间Patch上，即使是在一个下采样的特征映射中，也是低效的；因此与以前在每个空间位置执行Self-attention的Transformer Block相比，全局稀疏注意力机制模块只对输入Token的子集计算Self-attention，但支持完整的空间交互，如在标准的Multi-Head Self-attention(MHSA)中；既会减少Token的作用域，同时也保留建模全局和局部上下文的底层信息流；通过一个稀疏注意力模块进一步减少了Self-attention的开销，实现了更好的准确性和延迟平衡。

第三特征输入到第一交叉注意力单元中的块映射进行下采样后通过线性投影层投影，使得特征图的尺度减半通道加倍,然后经过三次交叉注意力机制模块得到第四特征。如前所述，第三特征的特征图大小为H/8*W/8*2C，在下采样后将2*2*C的pixelblock由2*C变为1*1*4C，然后通过线性投影层投影到1*1*2C，得到的第四特征的特征图大小为H/16*W/16*4C。第四特征输入到第二交叉注意力单元中的块映射进行下采样后经历单次交叉注意力机制模块得到第五特征，第五特征的特征图大小为H/32*W/32*8C。

如图4所示，图4是交叉注意力机制模块的结构示意图。本方案的交叉注意力机制模块受CNN局部特征提取特征的启发，将CNN中的卷积局部性方法引入到Transformer中，对每个Patch进行每像素的自注意力得到像素注意力，浮点运算量如下所述：

=

+

；

其中N表示块的大小，H、W表示特征图的高和宽，C表示通道。注意力方法显著减少了计算，同时考虑了Patch中像素之间的关系，计算复杂性从与H*W二次相关变为与H*W线性相关；因为每个单通道特征图都具有全局空间信息，将每个通道特征图分离，如图中单通道注意力，将每个通道划分为的Patch，并利用Self-Attention在整个特征图中获取全局信息，此时浮点运算量如下所示，类似深度可分离卷积操作：

=

+

。

具体的，如图4所示，输入到所述交叉注意力机制模块中的特征首先经历归一化后得到尺寸大小为N*N*C的区块，以N*N大小将输入特征展开了多个区块，对区块内计算每个像素的多头部自注意力后进行特征重复得到像素自注意力，所述像素自注意力和输入特征进行堆叠后得到第一交叉特征，所述第一交叉特征经历一层LN层和MLP后，并和第一交叉特征进行堆叠后得到第二交叉特征；第二交叉特征经历归一化后，将每个通道的特征图进行分离并将每个通道划分为H/N*W/N个区块，区块输入到多头部自注意机制中得到的特征进行特征重塑得到单通道自注意力，所述单通道自注意力和所述第二交叉特征堆叠后得到第三交叉特征；所述第三交叉特征经历一层LN层和MLP后，并和第三交叉特征进行堆叠后得到第四交叉特征；第四交叉特征经历归一化后得到尺寸大小为N*N*C的区块，以N*N大小将输入特征展开了多个区块，对区块内计算每个像素的多头部自注意力后进行特征重复得到像素自注意力，所述像素自注意力和输入特征进行堆叠后得到第五交叉特征；第五交叉特征经历一层LN层和MLP后，并和第五交叉特征进行堆叠后得到第六交叉特征。

在构建了基础的目标检测模型架构后，需要对其进行训练处理。本方案训练目标检测模型的训练方法为较为常见的训练手段。

训练：训练配置从基线模型到最终模型基本一致，在自己数据上训练300epoch并进行5epoch的warm-up，训练初始warm-up把学习率设置得很小，随着训练的进行，学习率逐渐上升，最终达到正常训练的学习率，这个阶段就是warm-up的核心阶段，随着训练的进行，神经网络希望逐渐减小学习率（learning rate decay），训练完成时learning rate降为0；优化器为SGD，学习率为，初始学习率为0.01，cosine学习机制，weight decay设置为0.0005，momentum设置为0.9，batch视硬件设备而定，输入尺寸从448以步长32均匀过渡到832；随机初始化各层的连接权值w和偏置b,给定学习速率η和最小批次Batch，选定激活函数SMU，选定边框损失函数为SIoU_Loss以及当前数据下最大迭代次数（或者代数）。

模型训练中在硬件满足要求的情况下使用多个显卡，训练所用的深度学习框架为PyTorch；确定以上神经网络参数之后，输入处理后的数据，反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型。

测试和推理阶段通过加载模型预测图像或视频中的目标，进行最后的卷积输出结果；所述输出的结果是推理时运行非极大值抑制：对于预测层最后的特征会划分多个格子，每个特征单元格中的任何一个都会有三个预测的边界框；其次抛弃概率低的预测，即模型认为这个网格中什么都没有的边界框；在推理阶段对于多种检测目标，对于每个类别单独运行非极大值抑制，输出最后的预测边框即为本次模型加载之后预测边框的能力，NMS的意义在于只剔除IOU（交并比）高于阈值，即高度重叠的box，而不影响多目标检测；所述NMS为DIOU_nms，在测试过程中并没有groundtruth（标签框）的信息，直接用DIOU_nms即可。

实施例二，本申请实施例提供了一种目标检测模型，根据实施例一所述的目标检测模型的构建方法构建得到。

值得一提的是，本方案提供的目标检测模型优化改进归一化注意力模块，利用权重的贡献因子来改善注意力机制，使用批归一化的比例因子，使用标准差来表示权重的重要性；优化改进全局稀疏注意力机制模块，使其只对输入Token的子集计算自注意力，支持完整的空间交互，既会减少Token的作用域，同时也保留建模全局和局部上下文的底层信息流；通过一个稀疏注意力模块进一步减少了自注意的开销，实现了更好的准确性和延迟平衡；优化改进交叉注意力模块，使其通过交替应用图像Patch内部的注意力而不是整个图像来捕获局部信息，并在单通道特征图分割出来的图像Patch之间应用注意来捕获全局信息。

值得说明的是，本方案提及的所述预测层已被训练，故其可根据训练的样本不同，预测层可用于预测不同的目标。示例性，若训练样本为宠物规范行为，则该方案可用于检测是否存在不规范行为。示例而言，本方案的宠物规范行为为：行人遛狗是否栓狗绳，此时需要涉及犬只检测模型、犬只狗绳检测模型以及行人检测模型来共同判断是否存在遛狗不拴狗绳的情况。此时所述犬只狗绳检测模型用于预测是否存在狗绳，所述行为检测模型用来预测是否存在行人。

实施例三，本方案提供一种宠物规范行为检测检测方法，将犬只作为训练样本对第二方面提到的目标检测模型进行训练，得到犬只检测模型；将犬只狗绳作为训练样本对第二方面提到的目标检测模型进行训练，得到犬只狗绳检测模型；将行人作为训练样本对第二方面提到的目标检测模型进行训练，得到行人检测模型，利用设定逻辑对行人遛狗不拴绳的情况进行检测。

该方案可用于解决城市管理中基于固定摄像机和手机摄像机实现遛狗未牵绳智能检测，所述方法基于城市管理已建的定点固定摄像头取像，调用算法自动检测监控画面中遛狗未牵绳问题；所述方法为城市管理提供了一种方便、快捷和开放的信息化管理空间，并依托深度学习技术，实现城市智能管理和运行的高效；新动物防疫法规定，携带犬只出户，应当按照规定佩戴犬牌并采取系犬绳等措施，防止犬只伤人、疫病传播；痛点：1.遛狗活动覆盖面积广，涉及场所多，监管人员有限，监管难度大；2.狗主人法规意识和安全意识薄弱，认为自己的狗纯良，不会造成伤害，忽视规定；3.每年因未系绳丢失的犬只案件堆积如山，相关部门找寻难度大；检测场景为白天户外场所；检测对象为户外场所的犬只；拍摄环境为广场、公园、园区街道、公共场所公共摄像头、户外场景、小区内部等。

具体的，如图5所示，该宠物规范行为检测的检测方法包括以下步骤：

获取涵盖宠物规范行为的待检测图像；

将所述待检测图像输入到犬只检测模型中，若检测到犬只则将所述待检测图像输入到犬只狗绳检测模型中，若检测到狗绳则将所述待检测图像输入到行人检测模型中，若检测到行人，则判断行人和犬只的距离；

若行人和犬只的距离大于设定阈值，判断存在遛狗未栓绳行为。

其中犬只检测模型、犬只狗绳检测模型和行人检测模型的基础架构均为本方案的提供的目标检测模型，利用不同训练样本训练目标检测模型即可。

在“获取涵盖宠物规范行为的待检测图像”步骤中，选取拍摄可能存在遛狗未栓绳的道路的摄像头的图像作为待检测图像。在一些实施例中，可对系统接口设置受摄像头地址和算法类型，回调地址等参数，接口启动一个新进程进而开始对摄像头的视频流抓取图像帧，并存入redis，同时通知监听程序；监听程序在收到通知过后从redis取出待测图像。

在利用上述算法进行分析检测后得到分析结果，将分析结果存入redis,同时通知监听程序，监听程序收到通知,取出结果,将分析结果提交到业务接口(回调)。针对遛狗未栓绳的情况，对其记录建档，以备管理部门查证，同时通知相关人员及时到达现场进行处理。

需要说明的是，本发明实地应用中提供过的方法还可以进一步的扩展到其他合适的应用环境中。在实际的应用过程中，该应用流程和环境还可以应用在更多的地方，例如广场、公园、园区街道、公共场所公共摄像头、户外场景、小区内部等。

关于犬只检测模型、犬只狗绳检测模型和行人检测模型的训练，选择标记对应目标的图像作为训练样本。在一些实施例中，可对训练样本进行数据增强，具体可选择以下技术手段：

采集的基础数据进行数据增强，增强方法为：1.颜色变换；2.旋转变换；3.添加噪声；4.锐化和模糊；5.缩放变换；6.平移变换：向上下左右四个维度移动图像；7.翻转变换；8.裁剪变换；9.仿射变换：对图像进行一次线性变换并接上一个平移变换。

值得一提的是，本方案提供的模型的神经网络训练中采用AutoAugment数据增强，基于NAS搜索的AutoAugment（自动数据增强）在一系列图像增强子策略的搜索空间中通过搜索算法找到适合特定数据集的图像增强方案。

针对不同类型的数据集会包含不同数量的子策略。每个子策略中都包含两种变换，针对每张图像都随机的挑选一个子策略，然后以一定的概率来决定是否执行子策略中的每种变换方法；数据增强已被广泛应用于网络优化，并被证明有利于视觉任务，可以提高CNN的性能，防止过拟合，且易于实现。

犬只检测模型、犬只狗绳检测模型和行人检测模型在实际使用时，将待检测图像输入到用于犬只检测模型、犬只狗绳检测模型和行人检测模型中输出对应目标的包围框的位置与目标的置信度。

另外，可在犬只检测模型、犬只狗绳检测模型和行人检测模型的使用过程中对其进行迭代处理：搜集一批新的数据，让用于道路破损检测的多目标检测模型去检测这一批数据，将检测结果划分为两大类有框图像和无框图像，有框图像又分为真正目标图像和误报目标图像，无框图像又可分为未检测目标的图像和图像中本来就没有目标的图像，其中将误报目标图像作为负样本，将含有道路破损目标但未检测到的图像作为训练样本，随后这些没检测到目标图像进行数据标注和数据增强，然后在原有模型的基础上在训练出一个新的用于道路破损检测的多目标检测模型，测试模型效果检查精度是否达标，如果新的用于道路破损检测的多目标检测模型未达标，则加入新的数据并对网络调整参数训练，如果模型精度已经达到要求并且在目前训练数据下最优时停止训练，循环这个步骤以达到用于道路破损检测的多目标检测模型适合实际环境中样本的复杂度。

在实际场景下首先固定摄像头，使用单目视觉的解决方案，使用单个摄像机，将三维世界场景投影到二维透视图像平面，但会导致物体之间的像素距离不切实际，这被称为透视效应，在这种效应中，不能感知到距离在整个图像中的均匀分布；在三维空间中，每个框的中心或参考点与三个参数 (x,y,z)相关联，而在从相机接收到的图像中，原来的三维空间被缩减为二维(x,y)，深度参数(z)不可用；在这样一个低维空间中，直接使用欧几里得距离准则来测量人与狗之间的距离估计是错误的。

在“若行人和犬只的距离大于设定阈值，判断存在遛狗未栓绳行为”步骤中，需要通过设置深度参数z=0来消除透视效果进行摄像机校准；还需要知道摄像机的位置，高度，视觉等信息；通过应用IMP，2D像素点（u,v）将被映射到相应的世界坐标点（Xw,Yw,Zw）,具体描述如下公式所示：

其中R是旋转矩阵，T是转置矩阵，K包含了摄像机的内部参数，h为相机高度，f为焦距，ku和kv分别为测量得到的水平和垂直像素单位的校准系数值，(cx, cy)是校正像面光轴的主点偏移。

实施例四

基于相同的构思，本申请还提出了一种宠物规范行为检测的检测装置，包括：

图像获取单元，用于获取涵盖宠物规范行为的待检测图像；

检测单元，用于将所述待检测图像输入到犬只检测模型中，若检测到犬只则将所述待检测图像输入到犬只狗绳检测模型中，若检测到狗绳则将所述待检测图像输入到行人检测模型中检测行人；

判断单元，用于在行人和犬只的距离大于设定阈值时，判断是否存在遛狗未栓绳行为。

关于宠物规范行为检测的检测装置的技术特征的可详见上述实施例的介绍，为了避免重复介绍，在此不进行累赘说明。

实施例五

本实施例还提供了一种电子装置，参考图6，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项目标检测方法或者宠物规范行为检测的检测方法的实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种目标检测方法或者宠物规范行为检测的检测方法的实施例中的步骤。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是带有宠物的图像等，输出的信息可以是是否存在遛狗未栓绳的情况等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

获取包含待检测目标的待检测图像；

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种目标检测模型的构建方法，其特征在于，包括：

获取包含待检测目标的待检测图像；

所述待检测图像输入stem模块中处理后得到第一特征，第一特征输入到归一化注意力模块中输出第二特征，所述第二特征输入到全局稀疏注意力单元中被均分为相同大小的区块特征，所述区块特征输入所述全局稀疏注意力单元中的全局稀疏注意力模块中被处理输出第三特征，所述第三特征输入到第一交叉注意力单元中的块映射进行下采样后再经历多次交叉注意力机制模块得到第四特征，所述第四特征输入到第二交叉注意力单元中的块映射进行下采样后再经历单次交叉注意力机制模块得到第五特征，所述第五特征输入到预测层内进行目标检测得到待检测目标；

其中所述归一化注意力模块内对注意力模块应用权重稀疏惩罚；第一特征输入到所述归一化注意力模块中经历3*3卷积后得到中间特征，所述中间特征输入到通道注意力子模块内采用批量归一化操作得到每个通道的比例因子，每个通道的比例因子和对应的权值相乘得到通道注意力特征图；所述通道注意力特征图经历激活函数后输入到空间注意力子模块，特征在所述空间注意力子模块中利用每个空间的比例因子和对应的权值相乘得到空间注意力特征图；所述空间注意力特征图经历激活函数后和第一特征通道叠加得到叠加特征，所述叠加特征依次经历逐点卷积、下采样层和层归一化操作得到第二特征；

全局稀疏注意力单元包括Patch Embedding操作和全局稀疏注意力模块，第二特征按照N*N大小的区块进行划分得到区块特征，多个区块进行Patch Embedding操作后得到二维向量序列，输入到所述全局稀疏注意力模块得到第三特征；每个区块的数据形状为N*N*C，通过映射得到一个长度为L的向量,把区块的高宽的两个维度展平得到一个二维矩阵，分类token和二维矩阵对应向量序列进行Cat拼接操作后得到的二维向量序列；所述二维向量序列输入到全局稀疏注意力模块中首先经历一个3*3深度可分离卷积的残差操作，并和二维向量序列堆叠得到第一输出结果；所述第一输出结果依次经历一次BN操作、1*1逐点卷积操作、3*3深度可分离卷积和一次BN操作后，并和第一输出结果堆叠得到第二输出结果；第二输出结果在双层前馈网络中经历将维度放大四倍的第一全连接层、激活函数和还原维度的第二全连接层后，和第二输出结果堆叠得到第三输出结果；第三输出结果经历3*3深度可分离卷积的残差操作，并和第三输出结果堆叠得到第四输出结果；第四输出结果进行一次缩小输入特征的稀疏采样器后，经历多头部自注意操作后经历局部操作后，并和第四输出结果堆叠得到第五输出结果；第五输出结果在双层前馈网络中经历将维度放大四倍的第一全连接层、激活函数和还原维度的第二全连接层后，和第五输出结果堆叠得到第六输出结果，第六输出结果作为第三特征；第三特征输入到第一交叉注意力单元中的块映射进行下采样后通过线性投影层投影，使得特征图的尺度减半通道加倍，经过三次交叉注意力机制模块得到第四特征；输入到所述交叉注意力机制模块中的特征首先经历归一化后得到尺寸大小为N*N*C的区块，对区块内计算每个像素的多头部自注意力后进行特征重复得到像素自注意力，所述像素自注意力和输入特征进行堆叠后得到第一交叉特征，所述第一交叉特征经历一层LN层和MLP后，并和第一交叉特征进行堆叠后得到第二交叉特征；第二交叉特征经历归一化后，将每个通道的特征图进行分离并将每个通道划分为H/N*W/N个区块，区块输入到多头部自注意机制中得到的特征进行特征重塑得到单通道自注意力，所述单通道自注意力和所述第二交叉特征堆叠后得到第三交叉特征；所述第三交叉特征经历一层LN层和MLP后，并和第三交叉特征进行堆叠后得到第四交叉特征；第四交叉特征经历归一化后得到尺寸大小为N*N*C的区块，以N*N大小将输入特征展开了多个区块，对区块内计算每个像素的多头部自注意力后进行特征重复得到像素自注意力，所述像素自注意力和输入特征进行堆叠后得到第五交叉特征；第五交叉特征经历一层LN层和MLP后，并和第五交叉特征进行堆叠后得到第六交叉特征。

2.一种宠物规范行为检测的检测方法，其特征在于，包括：获取涵盖宠物规范行为的待检测图像；

将所述待检测图像输入到犬只检测模型中，若检测到犬只则将所述待检测图像输入到犬只狗绳检测模型中，若检测到狗绳则将所述待检测图像输入到行人检测模型中，若检测到行人，判断行人和犬只的距离；

若行人和犬只的距离大于设定阈值，判断存在遛狗未栓绳行为；

其中犬只检测模型、犬只狗绳检测模型和行人检测模型利用对应的训练样本训练权利要求1所述的目标检测模型的构建方法构建得到的目标检测模型得到。

3.一种宠物规范行为检测的检测装置，其特征在于，包括：

图像获取单元，用于获取涵盖宠物规范行为的待检测图像；

检测单元，用于将所述待检测图像输入到犬只检测模型中，若检测到犬只则将所述待检测图像输入到犬只狗绳检测模型中，若检测到狗绳则将所述待检测图像输入到行人检测模型中检测行人，其中犬只检测模型、犬只狗绳检测模型和行人检测模型利用对应的训练样本训练权利要求1所述的目标检测模型的构建方法构建得到的目标检测模型得到；

判断单元，用于在行人和犬只的距离大于设定阈值时，判断存在遛狗未栓绳行为。

4.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求2所述的宠物规范行为检测的检测方法或权利要求1所述的目标检测模型的构建方法。

5.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据执行权利要求2所述的宠物规范行为检测的检测方法或权利要求1所述的目标检测模型的构建方法。