CN113435594B

CN113435594B - 安防检测模型训练方法、装置、设备及存储介质

Info

Publication number: CN113435594B
Application number: CN202110740029.3A
Authority: CN
Inventors: 李志韬; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-08-02
Anticipated expiration: 2041-06-30
Also published as: CN113435594A

Abstract

本发明公开了一种安防检测模型训练方法，应用于图像处理领域，用于提高系统识别准确率与降低安防检测模型的复杂度。本发明提供的方法包括获取待检测图片并提取二维特征向量与空间位置编码信息；对两者进行降维处理，获得图像特征矩阵；基于多层编码层，获得第一值特征矩阵、第一键特征矩阵和第一查询特征矩阵；并计算第一值特征矩阵与第一键特征矩阵，获得第一局部特征矩阵，并将第一局部特征矩阵与第一查询特征矩阵进行计算，获得预测目标向量矩阵；基于多层解码层，获得第二值特征矩阵和第二键特征矩阵；并计算第二值特征矩阵与第二键特征矩阵，获得第二局部特征矩阵，将第二局部特征矩阵与第二查询特征矩阵进行计算，获得安防检测结果。

Description

安防检测模型训练方法、装置、设备及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种安防检测模型训练方法、装置、计算机设备及存储介质。

背景技术

安防检测系统的应用场景十分广泛，可以应用在地下车库、公众场合、危险工作场合等。安防检测系统通常使用安防检测模型对具体的应用场景进行实时分析并识别当前场景的安全性。安防检测模型通常可通过目标检测和目标识别的技术对来自安防检测系统识别到的视频帧或者图片进行检测、识别和分析处理，从而达到事前预警和事后查看的功能。

现有的安防检测模型主要采用了图像对比方法和行为目标识别方法，但这两种方法都存在一个问题，对图片中小目标的检测效果较差，即安防检测模型的识别准确率不高，现有面对识别准确率不高，主要采用的方法有Transformer自然语言处理模型。Transformer自然语言处理模型虽然在一定程度上能提高识别准确率，但同样带来了对硬件设备要求高、训练与推理阶段耗时长，不适合实时预警的问题，同时，该Transformer自然语言处理模型还需要手工设计多种类型的锚框来预测目标边缘的位置和类别，过程复杂。

因此，现有的安防检测系统存在难以在提高识别准确率的同时，降低模型的复杂度的问题。

发明内容

本发明实施例提供一种安防检测模型训练方法、装置、计算机设备及存储介质，从而使得安防检测系统在提高识别准确率的同时，降低安防检测模型的复杂度。

一种安防检测模型训练方法，包括：

从安防检测系统上获取待检测图片，并提取所述待检测图片的二维特征向量与空间位置编码信息；

基于预设的降维方式，对所述二维特征向量与所述空间位置编码信息进行降维处理，获得图像特征矩阵；

基于Transformer算法的多层编码层，将所述图像特征矩阵分别与预设值矩阵、预设键矩阵、预设查询矩阵进行相乘，得到对应的第一值特征矩阵、第一键特征矩阵和第一查询特征矩阵；

对所述第一值特征矩阵与所述第一键特征矩阵进行卷积计算，获得第一局部特征矩阵，并将所述第一局部特征矩阵与所述第一查询特征矩阵进行第一预测处理，获得预测目标向量矩阵；

基于Transformer算法的多层解码层，将所述预测目标向量矩阵分别与所述第一值特征矩阵、第一键特征矩阵进行相乘，得到对应的第二值特征矩阵和第二键特征矩阵；

对所述第二值特征矩阵与所述第二键特征矩阵进行卷积计算，获得第二局部特征矩阵，并将所述第二局部特征矩阵与第二查询特征矩阵进行第二预测处理，获得安防检测结果。

一种安防检测模型训练装置，包括：

第一数据获取模块，用于从安防检测系统上获取待检测图片，并提取所述待检测图片的二维特征向量与空间位置编码信息；

图像特征矩阵获取模块，用于基于预设的降维方式，对所述二维特征向量与所述空间位置编码信息进行降维处理，获得图像特征矩阵；

第二数据获取模块，用于基于Transformer算法的多层编码层，将所述图像特征矩阵分别与预设值矩阵、预设键矩阵、预设查询矩阵进行相乘，得到对应的第一值特征矩阵、第一键特征矩阵和第一查询特征矩阵；

预测目标向量矩阵获取模块，用于对所述第一值特征矩阵与所述第一键特征矩阵进行卷积计算，获得第一局部特征矩阵，并将所述第一局部特征矩阵与所述第一查询特征矩阵进行第一预测处理，获得预测目标向量矩阵；

第三数据获取模块，用于基于Transformer算法的多层解码层，将所述预测目标向量矩阵分别与所述第一值特征矩阵、第一键特征矩阵进行相乘，得到对应的第二值特征矩阵和第二键特征矩阵；

安防检测结果获取模块，用于对所述第二值特征矩阵与所述第二键特征矩阵进行卷积计算，获得第二局部特征矩阵，并将所述第二局部特征矩阵与第二查询特征矩阵进行第二预测处理，获得安防检测结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述安防检测模型训练方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述安防检测模型训练方法的步骤。

本发明实施例中的安防检测模型训练方法、装置、计算机设备及存储介质，从安防检测系统上获取待检测图片，并提取待检测图片的二维特征向量与空间位置编码信息；基于预设的降维方式，对二维特征向量与空间位置编码信息进行降维处理，获得图像特征矩阵；基于Transformer算法的多层编码层，将图像特征矩阵分别与预设值矩阵、预设键矩阵、预设查询矩阵进行相乘，得到对应的第一值特征矩阵、第一键特征矩阵和第一查询特征矩阵；对第一值特征矩阵与第一键特征矩阵进行卷积计算，获得第一局部特征矩阵，并将第一局部特征矩阵与第一查询特征矩阵进行第一预测处理，获得预测目标向量矩阵；基于Transformer算法的多层解码层，将预测目标向量矩阵分别与第一值特征矩阵、第一键特征矩阵进行相乘，得到对应的第二值特征矩阵和第二键特征矩阵；对第二值特征矩阵与第二键特征矩阵进行卷积计算，获得第二局部特征矩阵，并将第二局部特征矩阵与第二查询特征矩阵进行第二预测处理，获得安防检测结果。通过引入Transformer算法的编码层与解码层，在进行注意力计算之前，先对值特征矩阵与键特征矩阵进行卷积计算，提取重要的局部特征矩阵，局部特征矩阵结合全局特征矩阵进行注意力计算，有效降低安防检测模型的计算量，减少资源成本，降低了模型复杂度，同时提升了模型检测的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中安防检测模型训练方法的一应用环境示意图；

图2是本发明一实施例中安防检测模型训练方法的一流程图；

图3是本发明一实施例中安防检测模型训练装置的结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的安防检测模型训练方法，可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。其中，计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种安防检测模型训练方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤S101至S106：

S101、从安防检测系统上获取待检测图片，并提取待检测图片的二维特征向量与空间位置编码信息。

在步骤S101中，上述安防检测系统包括但不限于地下车库安防检测系统、电梯安防检测系统、危险工作场合安防检测系统。

上述获取的待检测图片可以包括但不限于一段时间段的所有视频帧图片，或者特定场景对应的图片。

上述二维特征向量是指待检测图片中所有像素点的宽与高所组成的二维特征向量矩阵。

上述空间位置编码信息是指待检测图片中每个像素点的位置信息。该空间位置编码信息属于全局特征。空间位置编码信息的数量与待检测图片中像素点的数量相等。例如，第一个像素点对应的空间位置编码信息为(1，1)，表示第一个像素点在待检测图片第一行第一列的位置上，假设该待检测图片每一行具有n个特征，则第n个像素点对应的空间位置编码信息为(1，n)，第n+1个像素点对应的空间位置编码信息为(2，1)。

通过获取待检测图片的二维特征向量，以便于后续对待检测图片进行降维压缩，能有效降低计算量，同时获取该待检测图片的空间位置编码信息，有利于在后续对待检测图片进行降维压缩时，使得降维压缩得到的一维特征能保留其位置信息，从而提高对待检测图片中小目标物体的识别准确率。

S102、基于预设的降维方式，对二维特征向量与空间位置编码信息进行降维处理，获得图像特征矩阵。

在步骤S102中，上述预设的降维方式是指将二维特征向量进行编码压缩得到一维特征向量，并基于该一维特征向量获得图像特征矩阵的方式。

通过预设的降维方式，在对二维特征向量执行降维处理的同时，保留了可识别其原先位置信息的特征，实现了二维特征向量向一维特征向量转化，基于该一维特征向量，获得图像特征向量，有效减少了整体计算量，降低了安防检测模型的复杂度。

S103、基于Transformer算法的多层编码层，将图像特征矩阵分别与预设值矩阵、预设键矩阵、预设查询矩阵进行相乘，得到对应的第一值特征矩阵、第一键特征矩阵和第一查询特征矩阵。

在步骤S103中，上述Transformer算法是指由且仅由自注意力机制和前馈神经网络组成。一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建，具有良好的并行性，其中，该自注意力机制是指对注意对象的值、键、查询进行对应计算的机制。该前馈神经网络是一种单向多层结构。

易理解地，在本发明中，基于Transformer算法的每一层编码层中，在对图像特征矩阵进行自注意力计算之后，将自注意力计算后的图像特征矩阵发送到该层的前馈神经网络，并经由该层的前馈神经网络将图像特征矩阵发送至下一层编码层，重复相应处理，直到Transformer的多层编码层全部执行完毕。

上述预设值矩阵是指在Transformer算法训练过程中随机生成的初始值矩阵，该矩阵在训练过程中会不断进行迭代更新。

上述预设键矩阵是指在Transformer算法训练过程中随机生成的初始键矩阵，该矩阵在训练过程中会不断进行迭代更新。

上述预设查询矩阵是指在Transformer算法训练过程中随机生成的初始查询矩阵，该矩阵在训练过程中会不断进行迭代更新。

通过在Transformer算法的编码层上，将图像特征矩阵与预设值矩阵、预设键矩阵、预设查询矩阵进行相乘，得到对应的第一值特征矩阵、第一键特征矩阵和第一查询特征矩阵，以便后续编码层对第一值特征矩阵、第一键特征矩阵和第一查询特征矩阵进行计算。

S104、对第一值特征矩阵与第一键特征矩阵进行卷积计算，获得第一局部特征矩阵，并将第一局部特征矩阵与第一查询特征矩阵进行第一预测处理，获得预测目标向量矩阵。

在步骤S104中，上述第一预设处理是指基于Transformer算法的编码层上的并行的注意力计算、layer normalization层归一化(层标准化)以及前馈神经网络的前向传播处理。

上述第一局部特征矩阵是指图像特征矩阵重要的局部特征组成的特征矩阵。

上述预测目标特征矩阵是指图像特征矩阵经过基于Transformer算法的编码层的卷积计算、注意力计算、归一化处理以及前馈神经网络传播等一系列处理之后得到的矩阵。

通过在Transformer算法的编码层上，在对第一值特征矩阵、第一键特征矩阵、第一查询矩阵做注意力计算前，先对第一值特征矩阵和第一键特征矩阵进行卷积计算，提取重要的第一局部特征矩阵，并基于该第一局部特征矩阵与第一查询特征矩阵进行注意力计算、归一化处理以及前馈神经网络的前向传播，能有效降低安防检测模型的计算量，减少安防检测系统的资源成本，同时提高对待检测图片的识别准确率，是使得对待检测图片中的小目标也具有良好的识别准确率。

S105、基于Transformer算法的多层解码层，将预测目标向量矩阵分别与第一值特征矩阵、第一键特征矩阵进行相乘，得到对应的第二值特征矩阵和第二键特征矩阵。

在步骤S105中，易理解地，在本发明中，基于Transformer算法的每一层解码层中，在对预测目标向量矩阵进行自注意力计算之后，将自注意力计算后的预测目标向量矩阵发送到该层的前馈神经网络，并经由该层的前馈神经网络将预测目标向量矩阵发送至下一层解码层，重复相应处理，直到Transformer的多层解码层全部执行完毕。

通过在Transformer算法的解码层上，将预测目标向量矩阵与第一值特征矩阵、第一键特征矩阵进行相乘，得到对应的第二值特征矩阵和第二键特征矩阵，以便后续解码层对第二值特征矩阵和第二键特征矩阵进行计算。

S106、对第二值特征矩阵与第二键特征矩阵进行卷积计算，获得第二局部特征矩阵，并将第二局部特征矩阵与第二查询特征矩阵进行第二预测处理，获得安防检测结果。

在步骤S106中，上述第二预设处理是指基于Transformer算法的解层上的并行的注意力计算、layer normalization层归一化(层标准化)以及前馈神经网络的前向传播处理。

上述第二局部特征矩阵是指预测目标向量矩阵重要的局部特征组成的特征矩阵。

上述预测目标特征矩阵是指预测目标向量矩阵经过基于Transformer算法的解码层的卷积计算、注意力计算、归一化处理以及前馈神经网络传播等一系列处理之后得到的矩阵。

上述第二查询特征矩阵是指与预设安防检测结果数量相同的随机生成的查询特征矩阵。该第二查询特征矩阵只需要保证其数量大于待检测图片中的目标类别数量即可。

通过在Transformer算法的解码层上，在对第二值特征矩阵、第二键特征矩阵、第二查询矩阵做注意力计算前，先对第二值特征矩阵和第二键特征矩阵进行卷积计算，提取重要的第二局部特征矩阵，并基于该第二局部特征矩阵与第二查询特征矩阵进行注意力计算、归一化处理以及前馈神经网络的前向传播，能有效降低安防检测模型的计算量，减少安防检测系统的资源成本，同时提高对待检测图片的识别准确率，是使得对待检测图片中的小目标也具有良好的识别准确率。

本发明的安防检测模型训练方法，通过从安防检测系统上获取待检测图片，并提取待检测图片的二维特征向量与空间位置编码信息；基于预设的降维方式，对二维特征向量与空间位置编码信息进行降维处理，获得图像特征矩阵；基于Transformer算法的多层编码层，将图像特征矩阵分别与预设值矩阵、键矩阵、查询矩阵进行相乘，得到对应的第一值特征矩阵、第一键特征矩阵和第一查询特征矩阵；对第一值特征矩阵与第一键特征矩阵进行卷积计算，获得第一局部特征矩阵，并将第一局部特征矩阵与第一查询特征矩阵进行第一预测处理，获得预测目标向量矩阵；基于Transformer算法的多层解码层，将预测目标向量矩阵分别与第一值特征矩阵、第一键特征矩阵进行相乘，得到对应的第二值特征矩阵和第二键特征矩阵；对第二值特征矩阵与第二键特征矩阵进行卷积计算，获得第二局部特征矩阵，并将第二局部特征矩阵与第二查询特征矩阵进行第二预测处理，获得安防检测结果。通过引入Transformer算法的编码层与解码层，在进行注意力计算之前，先对值特征矩阵与键特征矩阵进行卷积计算，提取重要的局部特征矩阵，局部特征矩阵结合全局特征矩阵进行注意力计算，有效降低安防检测模型的计算量，减少资源成本，降低了模型复杂度，同时提升了模型检测的准确率。

优选地，在上述步骤S101中，其具体可包括如下步骤A至C：

A、从安防检测系统上获取待检测图片.

B、对待检测图片进行预处理，得到预处理图片。

C、基于卷积神经网络，对预处理图片进行特征提取，得到二维特征向量与空间位置编码信息。

对于上述步骤B，上述预处理包括但不限于统一图片大小、排除图片的干扰因素。

优选地，上述预处理过程可包括如下步骤：

基于预设的宽高排序方式，对所有的待检测图片进行排序，并得到填充参照图片。

采用填充参照图片，对其他待检测图片进行填充处理，并使用掩码矩阵对填充部分进行标记，得到规格一致的预处理图片。

优选地，上述预设的宽高排序方式采用根据宽从小到大的顺序进行排序，同宽的像素点根据高从小到大的顺序进行排序。易理解，上述预设的宽高排序方式只是优选方法，不排除其他排序方案。

上述填充参照图片是指作为统一图片大小规格参照物图片的待检测图片。

上述掩码矩阵是重新计算待检测图片中每个像素点的值。

上述填充处理可具体为根据填充参照图片的规格生成填充模板，将其他待检测图片分别与该填充模板进行合并处理，每一次合并都生成图片已有区域和待填充区域，对该待填充区域进行像素点的填充。此处需要说明的是，该图片已有区域是指与填充模板进行合并处理的待检测图片所在的区域，该待填充区域是指相对于填充参照图片，待检测图片除图片已有区域外的空白区域。

对于上述步骤C，上述卷积神经网络包括但不限于VGG16卷积神经网络、Lenet卷积神经网络。

通过采用掩码矩阵对待检测图片进行填充对齐，使得所有待检测图片处于统一的标准，有利于对所有图片进行同样处理，从而提高对图片识别的精度以及简易程度。

优选地，在上述步骤S102中，其具体可包括如下步骤D至G：

D、对二维特征向量进行降维处理，得到一维特征。

E、将一维特征与空间位置编码信息相加，得到一维特征序列。

F、将空间位置编码信息与预设位置权重矩阵进行相乘，得到位置编码向量矩阵。

G、将一维特征序列与位置编码向量矩阵输入Transformer算法的编码过程，以使Transformer算法的编码层根据位置编码向量对一维特征序列进行还原处理，得到图像特征矩阵。

对于上述步骤D，上述降维处理是指将多维特征向量转化为一维特征向量的过程。

对于上述步骤E，一维特征不包含对应像素点在待检测图片中的位置信息，在后续处理过程中，为了记录像素点在待检测图片中的位置信息，因此将一维特征与相应的空间位置编码信息进行相加，得到的一维特征序列既包含低维度特征，同时也包含了该特征在待检测图片上的位置信息。

对于上述步骤F，上述预设位置权重矩阵是指根据训练过程中的空间位置编码信息而生成的对应权重矩阵。

对于上述步骤G，上述还原处理具体是指选取位置编码向量矩阵任一行，将该行与对应的一维特征序列进行相减处理，并将相减后得到的该行输入卷积核进行卷积计算，直到位置编码向量矩阵的每一行执行完毕，生成二维特征，将所述二维特征进行降维处理，得到图像特征矩阵。

通过对二维特征向量进行降维处理，减少了二维特征向量的使用量，避免了出现过拟合现象，同时生成的一维特征与对应的空间位置编码进行相加处理，使得得到的一维特征序列既实现低维化，又能体现出特征对应的空间位置信息，能有效的减少后续的计算量，降低了安防检测模型的复杂度。

优选地，在上述步骤S104中，其具体可包括如下步骤a至d：

a、对第一值特征矩阵与第一键特征矩阵进行点乘处理，并除以预设常数值，获得第一局部特征矩阵。

b、对第一局部特征矩阵和第一查询特征矩阵进行注意力计算，得到第一注意力特征矩阵。

c、将第一注意力特征矩阵与图像特征矩阵进行相加，更新图像特征矩阵。

d、对图像特征矩阵进行归一化处理，并通过前馈神经网络，将图像特征矩阵作为第一局部特征矩阵返回对第一局部特征矩阵和第一查询特征矩阵进行注意力计算，得到第一注意力特征矩阵的步骤继续执行，直到基于Transformer算法的所有编码层执行完毕，将得到的图像特征矩阵作为预测目标向量矩阵。

对于上述步骤a，对第一值特征矩阵与第一键特征矩阵进行点乘处理，并除以预设常数，能防止因点乘结果过大而带来的误差。

对于上述步骤b至c，按照如下算式更新图像特征矩阵；

其中，上述F_i是指第i层编码层的图像特征矩阵，softmax为归一化函数，L’是指上一层编码层的图像特征矩阵，W_qi是指第i层编码层的第一查询特征矩阵，W_Ki是指第i层编码层的第一值特征矩阵，W_vi是指第i层编码层的第一键特征矩阵，d_k为预设的缩放因子。i＝2、3、4……p，p为编码层的层数，优选地，p为6。

对于上述步骤d，上述归一化处理包括对图像特征矩阵中求均值与方差，该归一化处理可以将图像特征矩阵进行统一，并防止过拟合现象。最后通过前馈神经网络进行前向传播，激活等处理，并将经过前馈神经网络的图像特征矩阵作为第一局部特征矩阵返回对第一局部特征矩阵和第一查询特征矩阵进行注意力计算，得到第一注意力特征矩阵的步骤继续执行，直到基于Transformer算法的所有编码层执行完毕，将得到的图像特征矩阵作为预测目标向量矩阵。

在此处需要说明的是，本发明采用的Transformer算法与常规的Transformer算法不同，在对第一值特征矩阵、第一键特征矩阵、第一查询特征矩阵进行注意力计算之前，本发明先对第一值特征矩阵、第一键特征矩阵进行卷积计算，有效降低计算量，减少资源成本，同时提升小目标的检出率。

通过点乘处理之后除以预设常数，归一化处理处理，防止在编码过程中出现过拟合现象，从而使得得到的预测目标向量矩阵的精度上升，同时有效的减少后续的计算量，降低了安防检测模型的复杂度。

优选地，在上述步骤S106中，其具体可包括如下步骤e至h：

e、对第二值特征矩阵与第二键特征矩阵进行点乘处理，并除以预设常数值，获得第二局部特征矩阵。

f、对第二局部特征矩阵和第二查询特征矩阵进行注意力计算，得到第二注意力特征矩阵。

g、将第二注意力特征矩阵与预测目标向量矩阵进行相加，更新预测目标向量矩阵。

h、对预测目标向量矩阵进行归一化处理，并通过前馈神经网络，将预测目标向量矩阵作为第二局部特征矩阵返回对第二局部特征矩阵和第二查询特征矩阵进行注意力计算，得到第二注意力特征矩阵的步骤继续执行，直到基于Transformer算法的所有解码层执行完毕，将得到的预测目标向量矩阵作为安防预测结果。

对于上述步骤e，对第二值特征矩阵与第二键特征矩阵进行点乘处理，并除以预设常数，能防止因点乘结果过大而带来的误差。

对于上述步骤f至g，按照如下算式更新预测目标向量矩阵；

其中，上述G_i是指第i层解码层的预测目标向量矩阵，softmax为归一化函数，F是指最后一层编码层的图像特征矩阵，W_qi是指第i层解码层的第二查询特征矩阵，W_Ki是指第i层解码层的第二值特征矩阵，W_vi是指第i层解码层的第二键特征矩阵，dk为预设的缩放因子。i＝2、3、4……q，q为解码层的层数，优选地，q为6。

对于上述步骤h，上述安防检测结果可以包括但不限于待检测图片的类别结果、与类别结果对应的位置信息。上述归一化处理包括对预测目标向量矩阵中求均值与方差，该归一化处理可以将预测目标向量矩阵进行统一，并防止过拟合现象。最后通过前馈神经网络进行前向传播，激活等处理，并将经过前馈神经网络的预测目标向量矩阵作为第二局部特征矩阵返回对第二局部特征矩阵和第二查询特征矩阵进行注意力计算，得到第二注意力特征矩阵的步骤继续执行，直到基于Transformer算法的所有解码层执行完毕，将得到的预测目标向量矩阵作为安防检测结果。

在此处需要说明的是，本发明采用的Transformer算法与常规的Transformer算法不同，在对第二值特征矩阵、第二键特征矩阵、第二查询特征矩阵进行注意力计算之前，本发明先对第二值特征矩阵、第二键特征矩阵进行卷积计算，有效降低计算量，减少资源成本，同时提升小目标的检出率。

通过点乘处理之后除以预设常数，归一化处理处理，防止在解码过程中出现过拟合现象，同时将序列预测任务并行地引入到系统中，加快训练和推理速度，且不用再设计复杂的ancher框，简化目标识别流程，从而使得得到的安防检测结果的精度上升，同时有效的减少后续的计算量，降低了安防检测模型的复杂度。

进一步地，在步骤S106之后，该安防检测模型训练方法还可以包括：

对待检测图片进行文本描述分析，得到待检测图片的文本描述结果。

优选地，上述对待检测图片进行文本描述分析可在上述步骤G之后，其具体可包括：

基于全连接层以及激活层，对待检测图片对应的图像特征矩阵进行全连接与激活处理，得到待检测图片对应的文本描述结果。

上述文本描述结果可自动存入数据库，以便进行事后查看。

优选地，上述对待检测图片进行文本描述分析，得到待检测图片的文本描述结果，其文本描述结果可包括但不限于违禁词，例如，某些危险工作场合应用场景下禁止出现的物体，比如，加油站场景禁止出现的火苗。

优选地，上述对待检测图片进行文本描述分析，得到待检测图片的文本描述结果之后，其具体可包括：

通过情感文本分类器对文本描述结果进行分类，判断文本描述结果对应的情感色彩结果。

上述情感色彩结果包括但不限于高兴、正常、消极、比较消极、愤怒。

上述判断文本描述结果的情感色彩，可以为本安防检测模型的安防检测结果进行补充说明，当安防检测结果并不能直接进行预警时，可以通过待检测图片的文本描述的情感色彩结果加以补充，有利于加强安防检测系统的预警功能。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种安防检测模型训练装置，该安防检测模型训练装置与上述实施例中安防检测模型训练方法一一对应。如图3所示，该安防检测模型训练装置包括第一数据获取模块11、图像特征矩阵获取模块12、第二数据获取模块13、预测目标向量矩阵获取模块14、第三数据获取模块15和安防检测结果获取模块16。各功能模块详细说明如下：

第一数据获取模块11，用于从安防检测系统上获取待检测图片，并提取待检测图片的二维特征向量与空间位置编码信息。

图像特征矩阵获取模块12，用于基于预设的降维方式，对二维特征向量与空间位置编码信息进行降维处理，获得图像特征矩阵。

第二数据获取模块13，用于基于Transformer算法的多层编码层，将图像特征矩阵分别与预设值矩阵、预设键矩阵、预设查询矩阵进行相乘，得到对应的第一值特征矩阵、第一键特征矩阵和第一查询特征矩阵。

预测目标向量矩阵获取模块14，用于对第一值特征矩阵与第一键特征矩阵进行卷积计算，获得第一局部特征矩阵，并将第一局部特征矩阵与第一查询特征矩阵进行第一预测处理，获得预测目标向量矩阵。

第三数据获取模块15，用于基于Transformer算法的多层解码层，将预测目标向量矩阵分别与第一值特征矩阵、第一键特征矩阵进行相乘，得到对应的第二值特征矩阵和第二键特征矩阵。

安防检测结果获取模块16，用于对第二值特征矩阵与第二键特征矩阵进行卷积计算，获得第二局部特征矩阵，并将第二局部特征矩阵与第二查询特征矩阵进行第二预测处理，获得安防检测结果。

在其中一个实施例中，第一数据获取模块11进一步包括：

待检测图片获取单元，用于从安防检测系统上获取待检测图片.

预处理图片获取单元，用于对待检测图片进行预处理，得到预处理图片。

第一数据获取单元，用于基于卷积神经网络，对预处理图片进行特征提取，得到二维特征向量与空间位置编码信息。

在其中一个实施例中，预处理图片获取单元进一步包括：

填充参照图片获取单元，用于基于预设的宽高排序方式，对所有的待检测图片进行排序，并得到填充参照图片。

填充单元，用于基于填充参照图片，对其他待检测图片进行填充处理，并使用掩码矩阵对填充部分进行标记，得到宽高一致的预处理图片。

在其中一个实施例中，图像特征矩阵获取模块12进一步包括：

降维单元，用于对二维特征向量进行降维处理，得到一维特征。

一维特征序列获取单元，用于将一维特征与空间位置编码信息相加，得到一维特征序列。

位置编码向量矩阵获取单元，用于将空间位置编码信息与预设位置权重矩阵进行相乘，得到位置编码向量矩阵。

图像特征矩阵获取单元，用于将一维特征序列与位置编码向量矩阵输入Transformer算法的编码过程，以使Transformer算法的编码层根据位置编码向量对一维特征序列进行还原处理，得到图像特征矩阵。

在其中一个实施例中，预测目标向量矩阵获取模块14进一步包括：

第一局部特征矩阵获取单元，用于对第一值特征矩阵与第一键特征矩阵进行点乘处理，并除以预设常数值，获得第一局部特征矩阵。

第一注意力特征矩阵获取单元，用于对第一局部特征矩阵和第一查询特征矩阵进行注意力计算，得到第一注意力特征矩阵。

第一更新单元，用于将第一注意力特征矩阵与图像特征矩阵进行相加，更新图像特征矩阵。

预测目标向量矩阵获取单元，用于对图像特征矩阵进行归一化处理，并通过前馈神经网络，将图像特征矩阵作为第一局部特征矩阵返回对第一局部特征矩阵和第一查询特征矩阵进行注意力计算，得到第一注意力特征矩阵的步骤继续执行，直到基于Transformer算法的所有编码层执行完毕，将得到的图像特征矩阵作为预测目标向量矩阵。

在其中一个实施例中，安防检测结果获取模块16进一步包括：

第二局部矩阵获取单元，用于对第二值特征矩阵与第二键特征矩阵进行点乘处理，并除以预设常数值，获得第二局部特征矩阵。

第二注意力特征矩阵获取单元，用于对第二局部特征矩阵和第二查询特征矩阵进行注意力计算，得到第二注意力特征矩阵。

第二更新单元，用于将第二注意力特征矩阵与预测目标向量矩阵进行相加，更新预测目标向量矩阵。

安防预测结果获取单元，用于对预测目标向量矩阵进行归一化处理，并通过前馈神经网络，将预测目标向量矩阵作为第二局部特征矩阵返回对第二局部特征矩阵和第二查询特征矩阵进行注意力计算，得到第二注意力特征矩阵的步骤继续执行，直到基于Transformer算法的所有解码层执行完毕，将得到的预测目标向量矩阵作为安防预测结果。

在其中一个实施例中，该安防检测模型训练装置还包括：

文本描述分析模块，用于对待检测图片进行文本描述分析，得到待检测图片的文本描述结果。

其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于安防检测模型训练装置的具体限定可以参见上文中对于安防检测模型训练方法的限定，在此不再赘述。上述安防检测模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储安防检测模型训练方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种安防检测模型训练方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中安防检测模型训练方法的步骤，例如图2所示的步骤S101至步骤S106及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中安防检测模型训练装置的各模块/单元的功能，例如图3所示模块11至模块16的功能。为避免重复，这里不再赘述。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中安防检测模型训练方法的步骤，例如图2所示的步骤S101至步骤S106及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中安防检测模型训练装置的各模块/单元的功能，例如图3所示模块11至模块16的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种安防检测模型训练方法，其特征在于，包括：

基于Transformer算法的多层解码层，将所述预测目标向量矩阵分别与所述第一值特征矩阵、所述第一键特征矩阵进行相乘，得到对应的第二值特征矩阵和第二键特征矩阵；

2.根据权利要求1所述的方法，其特征在于，所述从安防检测系统上获取待检测图片，并提取所述待检测图片的二维特征向量与空间位置编码信息的步骤包括：

从安防检测系统上获取待检测图片；

对所述待检测图片进行预处理，得到预处理图片；

基于卷积神经网络，对所述预处理图片进行特征提取，得到二维特征向量与空间位置编码信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述待检测图片进行预处理，得到预处理图片的步骤包括：

基于预设的宽高排序方式，对所有的待检测图片进行排序，并得到填充参照图片；

采用所述填充参照图片，对其他待检测图片的进行填充处理，并使用掩码矩阵对填充部分进行标记，得到规格一致的预处理图片。

4.根据权利要求1所述的方法，其特征在于，所述基于预设的降维方式，对所述二维特征向量与所述空间位置编码信息进行降维处理，获得图像特征矩阵的步骤包括：

对所述二维特征向量进行降维处理，得到一维特征；

将所述一维特征与所述空间位置编码信息相加，得到一维特征序列；

将所述空间位置编码信息与预设位置权重矩阵进行相乘，得到位置编码向量矩阵；

将所述一维特征序列与所述位置编码向量矩阵输入Transformer算法的编码过程，以使所述Transformer算法的编码层根据所述位置编码向量对所述一维特征序列进行还原处理，得到所述图像特征矩阵。

5.根据权利要求1所述的方法，其特征在于，所述对所述第一值特征矩阵与所述第一键特征矩阵进行卷积计算，获得第一局部特征矩阵，并将所述第一局部特征矩阵与所述第一查询特征矩阵进行第一预测处理，获得预测目标向量矩阵的步骤包括：

对所述第一值特征矩阵与所述第一键特征矩阵进行点乘处理，并除以预设常数值，获得第一局部特征矩阵；

对所述第一局部特征矩阵和所述第一查询特征矩阵进行注意力计算，得到第一注意力特征矩阵；

将所述第一注意力特征矩阵与所述图像特征矩阵进行相加，更新所述图像特征矩阵；

对所述图像特征矩阵进行归一化处理，并通过前馈神经网络，将所述图像特征矩阵作为第一局部特征矩阵返回对所述第一局部特征矩阵和所述第一查询特征矩阵进行注意力计算，得到第一注意力特征矩阵的步骤继续执行，直到基于Transformer算法的所有编码层执行完毕，将得到的图像特征矩阵作为预测目标向量矩阵。

6.根据权利要求1所述的方法，其特征在于，所述对所述第二值特征矩阵与所述第二键特征矩阵进行卷积计算，获得第二局部特征矩阵，并将所述第二局部特征矩阵与第二查询特征矩阵进行第二预测处理，获得安防检测结果的步骤包括：

对所述第二值特征矩阵与所述第二键特征矩阵进行点乘处理，并除以预设常数值，获得第二局部特征矩阵；

对所述第二局部特征矩阵和所述第二查询特征矩阵进行注意力计算，得到第二注意力特征矩阵；

将所述第二注意力特征矩阵与所述预测目标向量矩阵进行相加，更新所述预测目标向量矩阵；

对所述预测目标向量矩阵进行归一化处理，并通过前馈神经网络，将所述预测目标向量矩阵作为第二局部特征矩阵返回对所述第二局部特征矩阵和所述第二查询特征矩阵进行注意力计算，得到第二注意力特征矩阵的步骤继续执行，直到基于Transformer算法的所有解码层执行完毕，将得到的预测目标向量矩阵作为安防预测结果。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述对所述第二值特征矩阵与所述第二键特征矩阵进行卷积计算，获得第二局部特征矩阵，并将所述第二局部特征矩阵与第二查询特征矩阵进行第二预测处理，获得安防检测结果之后，所述方法还包括：

对所述待检测图片进行文本描述分析，得到待检测图片的文本描述结果。

8.一种安防检测模型训练装置，其特征在于，包括：

第三数据获取模块，用于基于Transformer算法的多层解码层，将所述预测目标向量矩阵分别与所述第一值特征矩阵、所述第一键特征矩阵进行相乘，得到对应的第二值特征矩阵和第二键特征矩阵；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述安防检测模型训练方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述安防检测模型训练方法的步骤。