CN115909221A

CN115909221A - 图像识别方法、系统、计算机设备及可读存储介质

Info

Publication number: CN115909221A
Application number: CN202310120978.0A
Authority: CN
Inventors: 周凯; 欧阳海; 李冰清; 王小康; 勒孚刚; 陈诗乐
Original assignee: Jiangxi Booway New Technology Co ltd
Current assignee: Jiangxi Booway New Technology Co ltd
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-04-04

Abstract

本发明提供了图像识别方法、系统、计算机设备及可读存储介质，所述方法包括：获取第一目标图像及模板图像；对第一目标图像与模板图像分别进行特征提取处理；将训练特征数据导入预设识别模型中，并对预设识别模型进行训练；将识别特征数据导入训练识别模型中，判断置信度是否大于置信度阈值；若置信度大于置信度阈值，则输出与第一目标图像对应的告警标签；若置信度不大于置信度阈值，则获取第二目标图像，并将第二目标图像替换第一目标图像，重复执行对第一目标图像与模板图像分别进行特征提取处理的步骤。本发明提升了图像识别的精准度，并有效的提升识别效果，大大降低现场异常漏识别的情况，也降低了识别误差情况的发生。

Description

图像识别方法、系统、计算机设备及可读存储介质

技术领域

本发明属于图像识别的技术领域，具体地涉及图像识别方法、系统、计算机设备及可读存储介质。

背景技术

随着人工智能、5G等新技术的兴起，如何有效运用AI技术实现新一代变电站智能监控系统应用价值高质量转化，成为新的课题；

传统的智能识别服务由于现场视频设备的覆盖率、像素、距离、天气等因素影响，导致对于现场的监控识别度不高，存在较多的误识别、漏识别等现象，无法有效保障现场的安全监管要求。

发明内容

为了解决上述技术问题，本发明提供了图像识别方法、系统、计算机设备及可读存储介质，用于解决现有技术中对于现场的监控识别度不高，存在较多的误识别、漏识别等现象，无法有效保障现场的安全监管要求的技术问题。

第一方面，该发明提供以下技术方案，一种图像识别方法，所述方法包括：

获取第一目标图像及模板图像，所述模板图像包括预设目标图像以及与所述预设目标图像对应的告警标签；

对所述第一目标图像与所述模板图像分别进行特征提取处理，以得到识别特征数据与训练特征数据；

将所述训练特征数据导入预设识别模型中，并对所述预设识别模型进行训练，以得到训练识别模型；

将所述识别特征数据导入所述训练识别模型中，以得到所述第一目标图像的置信度，判断所述置信度是否大于置信度阈值；

若所述置信度大于所述置信度阈值，则输出与所述第一目标图像对应的所述告警标签；

若所述置信度不大于所述置信度阈值，则获取第二目标图像，并将所述第二目标图像替换所述第一目标图像，重复执行所述对所述第一目标图像与所述模板图像分别进行特征提取处理，以得到识别特征数据与训练特征数据的步骤。

相比现有技术，本申请的有益效果为：本申请首先获取第一目标图像及模板图像，以用于获取到预设识别模型的训练样本与识别样本，然后对所述第一目标图像与所述模板图像分别依次进行特征提取处理，以得到识别特征数据与训练特征数据，通过对第一目标图像与模板图像进行特征提取处理，可得到以供与预设识别模型处理的特征数据，然后将所述训练特征数据导入预设识别模型中，并对所述预设识别模型进行训练，以得到训练识别模型，使得训练之后的训练识别模型的检测识别精度更高，不易出现漏识别与错识别的情况，且将所述识别特征数据导入所述训练识别模型中，以得到所述第一目标图像的置信度，判断所述置信度是否大于置信度阈值，通过训练识别模型对识别特征数据进行识别之后，会得到与第一目标图像的置信度，通过与置信度阈值对比，即可在反应第一目标图像的识别结果，如大于置信度阈值，则可输出对应的告警标签，若不大于置信度阈值，则进行二次细识别，以确保识别精准度，本发明提升图像识别的精准度，并有效的提升识别效果，大大降低现场异常漏识别的情况，也降低了识别误差的情况发生，并且在保证识别准确率的基础上，增加对可疑目标的二次细识别，提升了整体画面检测识别率。

较佳的，在所述获取第一目标图像及模板图像，所述模板图像包括预设目标图像以及与所述预设目标图像对应的告警标签的步骤中，所述获取第一目标图像的步骤包括：

通过opencv工具拉取摄像头，并获取所述摄像头拍摄的实时监控视频；

通过NVR设备rtsp视频流对所述实时监控视频进行实时画面解析；

将实时画面解析后的实时监控视频分解为单帧的第一目标图像。

较佳的，所述对所述第一目标图像与所述模板图像分别进行特征提取处理，以得到识别特征数据与训练特征数据的步骤包括：

通过Focus模块对所述第一目标图像与所述模板图像进行切片处理，以得到若干实时切片图像与若干模板切片图像；

通过Concat将各所述实时切片图像与各所述模板切片图像的高度与宽度进行整合，并增加各所述实时切片图像与各所述模板切片图像的图像通道；

通过BottleneckCSP与Conv卷积提取各所述实时切片图像与各所述模板切片图像的特征，以得到识别特征图与训练特征图；

对所述识别特征图与所述训练特征图进行预设次数的最大池化操作，并通过所述Concat将最大池化操作后的所述识别特征图与所述训练特征图进行整合，以得到识别特征数据与训练特征数据。

较佳的，所述将所述训练特征数据导入预设识别模型中，并对所述预设识别模型进行训练，以得到训练识别模型的步骤包括：

将所述训练特征数据导入预设识别模型中，并根据所述训练特征数据计算坐标定位损失 L _box、置信度损失 L _obj以及类别损失 L _cls，其中，所述坐标定位损失 L _box采用 CIoUloss，所述置信度损失 L _obj以及所述类别损失 L _cls采用 BCEloss：

；

式中，为完全交并比损失函数，为二元交叉熵损失函数，、分别为预测框和标签框，、、、分别为标签框的宽高和预测框的宽高，为权重系数，为预测框边界和标签框边界的最远距离，表示预测框和标签框之间的中心点距离，为交并比，为宽高度系数比，为第个输入特征，为第个输出预测类别，表示输入样本数，为Sigmoid激活函数；

根据所述坐标定位损失 L _box、所述置信度损失 L _obj以及所述类别损失 L _cls确定整体损失函数 L _total：

；

式中，、为检测层个数，、为标签分配到先验框的目标个数，为被分割成的网格数，、、分别为所述坐标定位损失、所述置信度损失以及所述类别损失的权重，表示第个目标的坐标定位损失，表示第个目标的置信度损失，表示第个目标的类别损失；

通过所述整体损失函数反向传播迭代更新所述坐标定位损失权重、所述置信度损失权重以及所述类别损失权重，以对所述预设识别模型进行训练，得到训练识别模型。

较佳的，所述将所述识别特征数据导入所述训练识别模型中，以得到所述第一目标图像的置信度，判断所述置信度是否大于置信度阈值的步骤包括：

将所述识别特征数据导入所述训练识别模型中，以得到所述第一目标图像的置信度 f：

；

式中，表示样本，表示簇的中心，表示第个聚类中心中样本的个数，表示样本的总个数，表示簇的个数，表示簇的中心框和聚类框的交并比，表示样本序，表示聚类中心中样本的序号；

判断所述置信度 f是否大于置信度阈值 f _k。

较佳的，在所述若所述置信度大于所述置信度阈值，则输出与所述第一目标图像对应的所述告警标签的步骤中，所述告警标签包括目标的类别、所述置信度、告警原因以及所述目标在所述第一目标图像中的坐标。

较佳的，所述获取第二目标图像的步骤包括：

根据所述目标在所述第一目标图像中的坐标，确定摄像头的拍摄中心；

调整所述摄像头的拍摄中心，以使所述拍摄中心与所述坐标重合；

对所述摄像头进行聚焦与放大操作，并获取所述摄像头拍摄的第二目标图像。

第二方面，该发明提供以下技术方案，一种图像识别系统，所述系统包括：

获取模块，用于获取第一目标图像及模板图像，所述模板图像包括预设目标图像以及与所述预设目标图像对应的告警标签；

处理模块，用于对所述第一目标图像与所述模板图像分别进行特征提取处理，以得到识别特征数据与训练特征数据；

训练模块，用于将所述训练特征数据导入预设识别模型中，并对所述预设识别模型进行训练，以得到训练识别模型；

粗识别模块，用于将所述识别特征数据导入所述训练识别模型中，以得到所述第一目标图像的置信度，判断所述置信度是否大于置信度阈值；

输出模块，用于若所述置信度大于所述置信度阈值，则输出与所述第一目标图像对应的所述告警标签；

细识别模块，用于若所述置信度不大于所述置信度阈值，则获取第二目标图像，并将所述第二目标图像替换所述第一目标图像，并控制所述处理模块对所述第一目标图像与所述模板图像分别进行特征提取处理，以得到识别特征数据与训练特征数据。

第三方面，该发明提供以下技术方案，一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的图像识别方法。

第四方面，该发明提供以下技术方案，一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的图像识别方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的图像识别方法的流程图；

图2为本发明实施例一提供的图像识别方法中步骤S1的详细流程图；

图3为本发明实施例一提供的图像识别方法中步骤S2的详细流程图；

图4为本发明实施例一提供的图像识别方法中步骤S3的详细流程图；

图5为本发明实施例一提供的图像识别方法中步骤S4的详细流程图；

图6为本发明实施例一提供的图像识别方法中步骤S6的详细流程图；

图7为本发明实施例二提供的图像识别系统的结构框图；

图8为本发明另一实施例提供的计算机设备的硬件结构框图。

以下将结合附图对本发明实施例作进一步说明。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明的实施例，而不能理解为对本发明的限制。

在本发明实施例的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明实施例中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明实施例中的具体含义。

实施例一

如图1所示，在本发明的第一个实施例中，该发明提供以下技术方案，一种图像识别方法，所述方法包括：

S1、获取第一目标图像及模板图像，所述模板图像包括预设目标图像以及与所述预设目标图像对应的告警标签；

具体的，第一目标图像指包括带有目标物的图像，该图像具体通过摄像头实时获取，而模板图像则为包含有预设目标物以及与预设目标物对应的预设图像，例如：本实施例提供的一种图像的识别方法中用于实现施工现场的安全监管，具体例如：施工人员未戴安全帽、未穿安全服以及操作不当等情况，而对应的模板图像则为含有施工人员未戴安全帽、未穿安全服以及操作不当等情况的具体图像，施工人员则为预设目标物，而未戴安全帽、未穿安全服以及操作不当即包括在告警标签之中；

且，模板图像与第一目标图像均作为预设识别模型的输入，但模板图像用于训练预设识别模型，使其检测识别的精度以及准确度更高，而第一目标图像用于作为识别样本的输入，通过训练完毕的模型对其进行识别，并输出对应的告警标签。

如图2所示，其中，在所述步骤S1中，所述获取第一目标图像的步骤包括：

S11、通过opencv工具拉取摄像头，并获取所述摄像头拍摄的实时监控视频。

S12、通过NVR设备rtsp视频流对所述实时监控视频进行实时画面解析；

具体的，进行实时画面解析的步骤具体采用硬解码的方式，即在gpu上通过英伟达硬解码单元对视频进行硬件解码，该方法相对传统视频流软件解码方式能够获得更快的解码速度，不仅能减少卡顿，使画面解析更流畅，而且能够大大降低cpu利用率，释放cpu性能。

S13、将实时画面解析后的实时监控视频分解为单帧的第一目标图像；

具体的，由于实时监控视频为一个视频文件，因此需要通过预设的分解工具将实时监控视频分解为单帧的且连续的第一目标图像，以便于增加第一目标图像的清晰度。

S2、对所述第一目标图像与所述模板图像分别进行特征提取处理，以得到识别特征数据与训练特征数据；

具体的，为了便于第一目标图像与模板图像输入预设识别模型中，因此需要对第一目标图像与模板图像进行特征提取处理，使其转换为不同的特征数据，以便于预设识别模型对该特征数据进行训练以及识别处理，且特征提取处理的步骤主要包括特征提取、特征转换以及融合操作；

同时本发明在该步骤中引入了骨干网络与颈部网络，通过在结构上创新地引入了Focus模块，不丢失原始图像信息的同时，达到降维的效果，且在颈部网络采用了fpn+pan的结构，实现了强语义特征和强定位特征的有效融合，在推理速度和识别精度上达到了最佳的效果，十分适用于对视频监控画面进行实时的算法分析。

如图3所示，其中，所述步骤S2包括以下步骤：

S21、通过Focus模块对所述第一目标图像与所述模板图像进行切片处理，以得到若干实时切片图像与若干模板切片图像；

具体的，Focus模块具体为切片操作模块，首先大小为 640*640*3的所述第一目标图像与所述模板图像输入骨干网络中，其中 3 是卷积数量，通过Focus模块进行切片，减小图像的高度和宽度输出图片大小为 320*320的实时切片图像与模板切片图像，通过引入了Focus模块，不丢失原始图像信息的同时，达到降维的效果。

S22、通过Concat将各所述实时切片图像与各所述模板切片图像的高度与宽度进行整合，并增加各所述实时切片图像与各所述模板切片图像的图像通道；

具体的，Concat具体为拼接操作模块，通过Concat将实时切片图像与模板切片图像的高度和宽度整合，增加输入图像的通道数，此时图像通道数为 64。

S23、通过BottleneckCSP与Conv卷积提取各所述实时切片图像与各所述模板切片图像的特征，以得到识别特征图与训练特征图；

具体的，Conv具体为卷积操作，BottleneckCSP为Yolov5模型的内置网络结构，对整合后的图像通过大小为 3，步长为 2 的 Conv 卷积模块进行特征提取，输出图像大小为160*160*128，然后对提取的特征图经过 3 组BottleneckCSP1和Conv卷积操作后，得到图像大小为 20*20*1024 的特征图，对 20*20 的特征图采用 SSP 模块来提升模型精度，其中BottleneckCSP1为Yolov5模型骨干网络中用于提取图像的深度语义信息的网络结构。

S24、对所述识别特征图与所述训练特征图进行预设次数的最大池化操作，并通过所述Concat将最大池化操作后的所述识别特征图与所述训练特征图进行整合，以得到识别特征数据与训练特征数据；

其中，SSP模块对图像分别进行 1*1、5*5、9*9、13*134 次最大池化操作从多方面提取特征，通过 Concat 将四组池化后的特征图聚合起来，得到识别特征数据与训练特征数据，SSP模块为空间金字塔池化操作模块；

同时，在所述步骤S2之后，还需将识别特征数据与训练特征数据投入颈部网络中，减少其模型参数量，其具体为：

颈部网络采用 BottleneckCSP2 模块减少模型参数量，其中，BottleneckCSP2 模块为Yolov5模型颈部网络中用于融合不同尺度特征图来丰富语义信息的网络结构，通过上采样操作 80*80*512 大小的特征图，上采样过程由 2 组 BottleneckCSP2、大小为 1 步长为 1的 Conv、Upsample 和 Concat 连接完成，其中，Upsample为上采样操作，其中Concat[i, j]中 j 代表网络中第 j 层操作得到的特征图，对 80*80*512 的特征图再通过下采样操作分别得到 80*80*512、40*40*512、20*20*512 三种不同大小的特征图，并将得到的三种不同大小的特征图作为预设识别模型的输入，以完成预设识别模型训练以及第一目标图像的识别。

S3、将所述训练特征数据导入预设识别模型中，并对所述预设识别模型进行训练，以得到训练识别模型；

如图4所示，所述步骤S3包括：

S31、将所述训练特征数据导入预设识别模型中，并根据所述训练特征数据计算坐标定位损失 L _box、置信度损失 L _obj以及类别损失 L _cls，其中，所述坐标定位损失 L _box采用 CIoUloss，所述置信度损失 L _obj以及所述类别损失 L _cls采用 BCEloss：

；

S32、根据所述坐标定位损失 L _box、所述置信度损失 L _obj以及所述类别损失 L _cls确定整体损失函数 L _total：

；

S33、通过所述整体损失函数反向传播迭代更新所述坐标定位损失权重、所述置信度损失权重以及所述类别损失权重，以对所述预设识别模型进行训练，得到训练识别模型；

其中，本实施例中的预设识别模型具体为Yolov5模型，其主要包括骨干网络（backbone）、颈部网络（neck）和头部网络结构（head），首先通过骨干网络完成上述步骤S2中的特征提取过程，并通过颈部网络对其分别进行上采样与下采样操作，以得80*80*512、40*40*512、20*20*512三种不大小的特征图，并将其导入头部网络结构中，头部网络结构采用多尺度特征图用于检测，用大图像检测小目标，小图像检测大目标，对上述三种不同尺度特征图，通过 Conv2d卷积操作，最终得到三个大小分别为 80*80*24、40*40*24、20*20*24的特征图，其中24为特征图的通道数，包含了网格点分别对应三种尺寸大小锚框的类别信息、正负样本信息和坐标信息，对这些信息进行回归训练，经过损失函数反向传播迭代更新参数权重，以得到最终的训练识别模型，最终达到特定类别目标检测识别效果。

S4、将所述识别特征数据导入所述训练识别模型中，以得到所述第一目标图像的置信度，判断所述置信度是否大于置信度阈值；

具体的，本实施例利用的K-means聚类算法对训练数据集中的目标框的宽高进行聚类，采用平均重叠度（Avg IOU）作为目标聚类分析的度量，获得最适合显示场景的锚框，有效提高了模型精度，而平均重叠度（Avg IOU）即为置信度。

如图5所示，其中，所述步骤S4包括：

S41、将所述识别特征数据导入所述训练识别模型中，以得到所述第一目标图像的置信度 f：

；

S42、判断所述置信度 f是否大于置信度阈值 f _k；

在本实施例中，置信度阈值为 f _k为0.5。

S5、若所述置信度大于所述置信度阈值，则输出与所述第一目标图像对应的所述告警标签；

具体的，所述告警标签包括目标的类别、所述置信度 f、告警原因以及所述目标在所述第一目标图像中的坐标；

该步骤为粗识别的过程，粗识别的结果包括识别出目标的类别、所述置信度、告警原因以及所述目标在所述第一目标图像中的坐标，粗识别过程中获得以上输出结果以后，将置信度高于置信度阈值的结果直接传给事件生成模块进行消息警告，即完成粗识别的过程，并将置信度低于置信度阈值的结果将被视为可疑目标发送至设备控制模块用于细识别，即为步骤S6。

S6、若所述置信度不大于所述置信度阈值，则获取第二目标图像，并将所述第二目标图像替换所述第一目标图像，重复执行所述对所述第一目标图像与所述模板图像分别进行特征提取处理，以得到识别特征数据与训练特征数据的步骤；

具体的，当置信度低于置信度阈值，则表示第一目标图像中的目标的识别结果不可信，因此需要获取的更清晰的可疑目标画面进行二次识别，即细识别，因此控制摄像头获取到更加清晰之后的第二目标图像后，将其替换掉第一目标图像，并返回执行步骤S2，以最终得到关于第二目标图像的告警标签，且第二目标图像与第一目标图像中的目标物相同，只是目标物分别在第二目标图像与第一目标图像中的比例以及位置不同。

如图6所示，其中，在所述步骤S6中，所述获取第二目标图像的步骤包括：

S61、根据所述目标在所述第一目标图像中的坐标，确定摄像头的拍摄中心；

具体的，根据坐标即可得到摄像头所处的中心位置，以及摄像头的拍摄中心与坐标之间的距离。

S62、调整所述摄像头的拍摄中心，以使所述拍摄中心与所述坐标重合；

通过转动或者移动摄像头，使得拍摄中心与坐标重合之后，才能够保证目标物能够清晰且完整的呈现在第二目标图像中。

S63、对所述摄像头进行聚焦与放大操作，并获取所述摄像头拍摄的第二目标图像；

具体的，通过对摄像头进行聚焦与放大操作，进而获取到更清晰的可疑目标画面，即获取到最终的第二目标图像，将其替换掉步骤S2中的第一目标图像，并重复执行步骤S2，即可得到第二目标图像的告警标签。

本实施例一的好处在于：首先获取第一目标图像及模板图像，以用于获取到预设识别模型的训练样本与识别样本，然后对所述第一目标图像与所述模板图像分别依次进行特征提取处理，以得到识别特征数据与训练特征数据，通过对第一目标图像与模板图像进行特征提取处理，可得到以供与预设识别模型处理的特征数据，然后将所述训练特征数据导入预设识别模型中，并对所述预设识别模型进行训练，以得到训练识别模型，使得训练之后的训练识别模型的检测识别精度更高，不易出现漏识别与错识别的情况，且将所述识别特征数据导入所述训练识别模型中，以得到所述第一目标图像的置信度，判断所述置信度是否大于置信度阈值，通过训练识别模型对识别特征数据进行识别之后，会得到与第一目标图像的置信度，通过与置信度阈值对比，即可在反应第一目标图像的识别结果，如大于置信度阈值，则可输出对应的告警标签，若不大于置信度阈值，则进行二次细识别，以确保识别精准度，本发明提升图像识别的精准度，并有效的提升识别效果，大大降低现场异常漏识别的情况，也降低了识别误差的情况发生，并且在保证识别准确率的基础上，增加对可疑目标的二次细识别，提升了整体画面检测识别率。

实施例二

如图7所示，在本发明的第二个实施例提供了一种图像识别系统，所述系统包括：

获取模块1，用于获取第一目标图像及模板图像，所述模板图像包括预设目标图像以及与所述预设目标图像对应的告警标签；

处理模块2，用于对所述第一目标图像与所述模板图像分别进行特征提取处理，以得到识别特征数据与训练特征数据；

训练模块3，用于将所述训练特征数据导入预设识别模型中，并对所述预设识别模型进行训练，以得到训练识别模型；

粗识别模块4，用于将所述识别特征数据导入所述训练识别模型中，以得到所述第一目标图像的置信度，判断所述置信度是否大于置信度阈值；

输出模块5，用于若所述置信度大于所述置信度阈值，则输出与所述第一目标图像对应的所述告警标签；

细识别模块6，用于细识别模块，用于若所述置信度不大于所述置信度阈值，则获取第二目标图像，并将所述第二目标图像替换所述第一目标图像，并控制所述处理模块2对所述第一目标图像与所述模板图像分别进行特征提取处理，以得到识别特征数据与训练特征数据。

其中，所述获取模块1包括：

视频获取子模块，用于通过opencv工具拉取摄像头，并获取所述摄像头拍摄的实时监控视频；

解析子模块，用于通过NVR设备rtsp视频流对所述实时监控视频进行实时画面解析；

分解子模块，用于将实时画面解析后的实时监控视频分解为单帧的第一目标图像。

所述处理模块2包括：

切片子模块，用于通过Focus模块对所述第一目标图像与所述模板图像进行切片处理，以得到若干实时切片图像与若干模板切片图像；

整合子模块，用于通过Concat将各所述实时切片图像与各所述模板切片图像的高度与宽度进行整合，并增加各所述实时切片图像与各所述模板切片图像的图像通道；

提取子模块，用于通过BottleneckCSP与Conv卷积提取各所述实时切片图像与各所述模板切片图像的特征，以得到识别特征图与训练特征图；

池化子模块，用于对所述识别特征图与所述训练特征图进行预设次数的最大池化操作，并通过所述Concat将最大池化操作后的所述识别特征图与所述训练特征图进行整合，以得到识别特征数据与训练特征数据。

所述训练模块3包括：

损失计算子模块，用于将所述训练特征数据导入预设识别模型中，并根据所述训练特征数据计算坐标定位损失 L _box、置信度损失 L _obj以及类别损失 L _cls，其中，所述坐标定位损失 L _box采用 CIoUloss，所述置信度损失 L _obj以及所述类别损失 L _cls采用 BCEloss：

；

损失函数确定子模块，用于根据所述坐标定位损失 L _box、所述置信度损失 L _obj以及所述类别损失 L _cls确定整体损失函数 L _total：

；

训练子模块，用于通过所述整体损失函数反向传播迭代更新所述坐标定位损失权重、所述置信度损失权重以及所述类别损失权重，以对所述预设识别模型进行训练，得到训练识别模型。

所述粗识别模块4包括：

置信度计算子模块，用于将所述识别特征数据导入所述训练识别模型中，以得到所述第一目标图像的置信度 f：

；

判断子模块，用于判断所述置信度 f是否大于置信度阈值 f _k。

所述细识别模块6包括：

拍摄中心子模块，用于根据所述目标在所述第一目标图像中的坐标，确定摄像头的拍摄中心；

调整子模块，用于调整所述摄像头的拍摄中心，以使所述拍摄中心与所述坐标重合；

操作子模块，用于对所述摄像头进行聚焦与放大操作，并获取所述摄像头拍摄的第二目标图像。

在本发明的另一些实施例中，本发明实施例提供以下技术方案，一种计算机设备，包括存储器102、处理器101以及存储在所述存储器102上并可在所述处理器101上运行的计算机程序，所述处理器101执行所述计算机程序时实现上所述的图像识别方法。

具体的，上述处理器101可以包括中央处理器（CPU），或者特定集成电路（Application SpecificIntegrated Circuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器102可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器102可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（Solid State Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerial Bus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器102可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器102可在数据处理装置的内部或外部。在特定实施例中，存储器102是非易失性（Non-Volatile）存储器。在特定实施例中，存储器102包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（Random Access Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-Only Memory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammable Read-Only Memory，简称为EEPROM）、电可改写ROM（ElectricallyAlterable Read-Only Memory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（Static Random-AccessMemory，简称为SRAM）或动态随机存取存储器（Dynamic Random AccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器（Fast Page ModeDynamicRandom Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（Extended Date Out Dynamic Random Access Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous DynamicRandom-Access Memory，简称SDRAM）等。

存储器102可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器101所执行的可能的计算机程序指令。

处理器101通过读取并执行存储器102中存储的计算机程序指令，以实现上述图像识别方法。

在其中一些实施例中，计算机设备还可包括通信接口103和总线100。其中，如图8所示，处理器101、存储器102、通信接口103通过总线100连接并完成相互间的通信。

通信接口103用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口103还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线100包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线100包括但不限于以下至少之一：数据总线（Data Bus）、地址总线（Address Bus）、控制总线（Control Bus）、扩展总线（Expansion Bus）、局部总线（Local Bus）。举例来说而非限制，总线100可包括图形加速接口（Accelerated Graphics Port，简称为AGP）或其他图形总线、增强工业标准架构（Extended Industry StandardArchitecture，简称为EISA）总线、前端总线（Front Side Bus，简称为FSB）、超传输（Hyper Transport，简称为HT）互连、工业标准架构（Industry StandardArchitecture，简称为ISA）总线、无线带宽（InfiniBand）互连、低引脚数（Low Pin Count，简称为LPC）总线、存储器总线、微信道架构（Micro ChannelArchitecture，简称为MCA）总线、外围组件互连（Peripheral ComponentInterconnect，简称为PCI）总线、PCI-Express（PCI-X）总线、串行高级技术附件（Serial AdvancedTechnologyAttachment，简称为SATA）总线、视频电子标准协会局部（VideoElectronicsStandards Association Local Bus，简称为VLB）总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线100可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机可以基于获取到图像识别系统，执行本申请的图像识别方法，从而实现图像的识别。

在本发明的再一些实施例中，结合上述的图像识别方法，本发明实施例提供以下技术方案，一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的图像识别方法。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述具体实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一具体实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像识别方法，其特征在于，在所述获取第一目标图像及模板图像，所述模板图像包括预设目标图像以及与所述预设目标图像对应的告警标签的步骤中，所述获取第一目标图像的步骤包括：

3.根据权利要求1所述的图像识别方法，其特征在于，所述对所述第一目标图像与所述模板图像分别进行特征提取处理，以得到识别特征数据与训练特征数据的步骤包括：

4.根据权利要求1所述的图像识别方法，其特征在于，所述将所述训练特征数据导入预设识别模型中，并对所述预设识别模型进行训练，以得到训练识别模型的步骤包括：

将所述训练特征数据导入预设识别模型中，并根据所述训练特征数据计算坐标定位损失L _box、置信度损失L _obj以及类别损失L _cls，其中，所述坐标定位损失L _box采用CIoUloss，所述置信度损失L _obj以及所述类别损失L _cls采用BCEloss：

；

根据所述坐标定位损失L _box、所述置信度损失L _obj以及所述类别损失L _cls确定整体损失函数L _total：

；

5.根据权利要求1所述的图像识别方法，其特征在于，所述将所述识别特征数据导入所述训练识别模型中，以得到所述第一目标图像的置信度，判断所述置信度是否大于置信度阈值的步骤包括：

将所述识别特征数据导入所述训练识别模型中，以得到所述第一目标图像的置信度f：

；

判断所述置信度f是否大于置信度阈值f _k。

6.根据权利要求1所述的图像识别方法，其特征在于，在所述若所述置信度大于所述置信度阈值，则输出与所述第一目标图像对应的所述告警标签的步骤中，所述告警标签包括目标的类别、所述置信度、告警原因以及所述目标在所述第一目标图像中的坐标。

7.根据权利要求6所述的图像识别方法，其特征在于，所述获取第二目标图像的步骤包括：

8.一种图像识别系统，其特征在于，所述系统包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的图像识别方法。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像识别方法。