CN117058485A

CN117058485A - 识别模型的训练方法、装置、电子设备和可读存储介质

Info

Publication number: CN117058485A
Application number: CN202311024817.8A
Authority: CN
Inventors: 陈友明; 陈思竹; 姜超
Original assignee: Sichuan Honghe Digital Intelligence Group Co ltd
Current assignee: Sichuan Honghe Digital Intelligence Group Co ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-11-14

Abstract

本申请实施例提供一种识别模型的训练方法、装置、电子设备和可读存储介质，涉及图像领域，其中的方法包括：获取施工标识对应的第一标签图像、携带施工标识标签的第一场景图像和不携带施工标识标签的第二场景图像；基于所述第二场景图像和所述第一标签图像进行融合处理，得到目标融合图像；基于所述目标融合图像、所述第一场景图像和所述第二场景图像生成训练数据集；基于所述训练数据集进行模型训练，得到施工标识识别模型。本申请实施例所述的方法解决了相关技术中由于模型受场景限定所导致的对于部分施工场景中的施工标识识别准确率过低的问题。

Description

识别模型的训练方法、装置、电子设备和可读存储介质

技术领域

本申请涉及图像领域，尤其涉及一种识别模型的训练方法、装置、电子设备和可读存储介质。

背景技术

施工的安全性问题一直受到广泛关注，因此，诸如施工标识牌、锥形桶、安全提醒文字等用于安全提示的施工标识至关重要。

在相关的通用智能平台的施工标识识别方案中，通常采用大量采集、标注、清洗含有标识物场景数据，对不同的深度模型进行训练，通过测试后上线部署运行，通过识别标识物来检测施工场地的安全性。

但是在上述方法中，模型与场景是强关联的，单个模型仅适用于几个对应的场景，对于未训练的施工场景或存在部分差异的施工场景执行识别任务时，模型对于施工标识的识别准确率就比较低；并且，标识牌的种类、形状、大小存在千种万种，而且还会受到标识牌摆放位置、角度的影响，存在模型泛化程度较差的问题。

发明内容

本申请实施例提供一种识别模型的训练方法、装置、电子设备和可读存储介质，解决了受场景限定导致的施工标识识别模型泛化程度差、识别准确率低的问题。

为了解决上述问题，第一方面，本申请实施例公开了一种识别模型的训练方法，所述方法包括：

获取施工标识对应的第一标签图像、携带施工标识标签的第一场景图像和不携带施工标识标签的第二场景图像；

基于所述第二场景图像和所述第一标签图像进行融合处理，得到目标融合图像；

基于所述目标融合图像、所述第一场景图像和所述第二场景图像生成训练数据集；

基于所述训练数据集进行模型训练，得到施工标识识别模型。

可选地，所述基于所述第二场景图像和所述第一标签图像进行融合处理，得到目标融合图像，包括：

对所述第一标签图像进行数据增强，得到待融合的第二标签图像；

确定所述第二标签图像的第一边缘点；

以所述第一边缘点为参考，基于所述第二标签图像和所述第二场景图像进行融合处理，得到目标融合图像。

可选地，所述以所述第一边缘点为参考，基于所述第二标签图像和所述第二场景图像进行融合处理，得到目标融合图像，包括：

对所述第二标签图像进行外部填充，得到第三标签图像；其中，所述第三标签图像的外部填充部分的像素点的像素值均为零；

从所述第一边缘点中确定位于第一直线上的第二边缘点，其中，所述第一直线为所述第三标签图像的第一中心点与第一目标像素点连接起来的直线，所述第一目标像素点为所述第三标签图像中的像素点；

从所述第二场景图像中确定一个第二中心点；

将所述第一中心点与所述第二中心点对齐，确定所述第二场景图像中与所述第一目标像素点对齐的第二目标像素点；

基于所述第一目标像素点与所述第二边缘点之间的距离，计算目标融合图像中所述第一目标像素点与所述第二目标像素点对应的融合像素值；其中，所述目标像素图像为将所述第二场景图像和所述第三标签图像融合后所得到的图像；

基于所述融合像素值，生成所述目标融合图像。

可选地，所述基于所述第一目标像素点与所述第二边缘点之间的距离，计算目标融合图像中所述第一目标像素点与所述第二目标像素点对应的融合像素值，包括：

计算第一距离与预设的第二距离的比例值，所述第一距离表示所述第一目标像素点与所述第二边缘点之间的距离；

基于所述比例值，对所述第一目标像素点的像素值与所述第二目标像素点的像素值进行加权计算，得到目标融合图像中所述第一目标像素点与所述第二目标像素点对应的融合像素值。

第二方面，本申请实施例公开了一种施工标识的识别方法，所述方法包括：

获取待识别图像；

将所述待识别图像输入预设的施工标识识别模型，得到所述待识别图像中施工标识的识别结果；

其中，所述施工标识识别模型为根据权利要求1所述的方法生成训练数据集并基于所述训练数据集训练得到的。

可选地，所述识别结果包括施工标识检测框；所述方法还包括：

检测第一标签图像中的第一标识符；所述第一标签图像为在生成所述训练数据的过程中获取到的；

提取所述第一标识符的语义特征，并基于所述语义特征从所述第一标识符中确定出施工标识符和所述施工标识符的第一特征张量；

对所述施工标识检测框中的内容进行文字检测，得到所述待识别图像中的第二标识符；

对所述第二标识符进行特征提取，得到所述第二标识符的第二特征张量；

计算所述第二特征张量和预设的施工标识符的第一特征张量的余弦相似度；

若所述余弦相似度大于预设值，则确定所述识别结果是正确的，属于施工标识；

若所述余弦相似度小于或等于预设值，则确定所述识别结果是错误的，不属于施工标识。

可选地，所述提取所述第一标识符的语义特征，并基于所述语义特征从所述第一标识符中确定出施工标识符和所述施工标识符的第一特征张量，包括：

利用预设的全连接网络提取对所述第一标识符进行特征提取，得到所述第一标识符的第三特征张量；

将所述第三特征张量输入预设的二分类模型，得到所述标识符的分类结果；

根据所述分类结果从所述第一标识符中确定出施工标识符，并从所述第二特征张量中确定出所述施工标识符的第一特征张量。

第三方面，本申请实施例公开了一种识别模型的训练装置，所述装置包括：

图像采集模块，用于获取施工标识对应的第一标签图像、携带施工标识标签的第一场景图像和不携带施工标识标签的第二场景图像；

图像融合模块，用于基于所述第二场景图像和所述第一标签图像进行融合处理，得到目标融合图像；

训练集生成模块，用于基于所述目标融合图像、所述第一场景图像和所述第二场景图像生成训练数据集；

模型训练模块，用于基于所述训练数据集进行模型训练，得到施工标识识别模型。

第四方面，本申请实施例公开了一种施工标识的识别装置，所述装置包括：

图像获取模块，用于获取待识别图像；

识别模块，用于将所述待识别图像输入预设的施工标识识别模型，得到所述待识别图像中施工标识的识别结果；

其中，所述施工标识识别模型为根据第一方面所述的方法生成训练数据集并基于所述训练数据集训练得到的。

第五方面，本申请实施例公开了一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器可以执行所述计算机程序以实现如前述一个或多个所述的识别模型的训练方法：

第六方面，本申请实施例公开了一种计算机可读存储介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的识别模型的训练方法。

本申请实施例包括以下优点：

本申请实施例提供了一种识别模型的训练方法，在获取到施工标识对应的第一标签图像、携带施工标识标签的第一场景图像和不携带施工标识标签的第二场景图像之后，基于第二场景图像和所述第一标签图像进行融合处理，得到目标融合图像，然后基于所述目标融合图像、所述第一场景图像和所述第二场景图像生成训练数据集，最后基于所述训练数据集进行模型训练，得到施工标识识别模型。在上述方法中，将以各种自然通用场景为基础结合第一标签图像得到的目标融合图像作为施工标识识别模型的训练集的一部分，使得训练得到的模型的识别能力不受场景的限定，解决了相关技术中由于模型受场景限定所导致的对于部分施工场景中的施工标识识别准确率过低的问题，提高了施工标识识别模型的泛化能力。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的一种识别模型的训练方法实施例的步骤流程图；

图2是本申请的施工标识的识别方法实施例的步骤流程图；

图3是本申请实施例提供的一种施工场景中施工标识状态的判断方法流程图；

图4是本申请的一种识别模型的训练装置实施例的结构框图；

图5是本申请的一种施工标识的识别装置实施例的结构框图；

图6是本申请实施例提出的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

方法实施例

参照图1，示出了本申请的一种识别模型的训练方法实施例的步骤流程图，应用于发送端，所述方法具体可以包括如下步骤：

步骤101、获取施工标识对应的第一标签图像、携带施工标识标签的第一场景图像和不携带施工标识标签的第二场景图像。

其中，施工标识是指施工现场、加油站等危险场所的安全示警标识，包括但不限于标识牌、锥形桶等施工标识物以及写有安全预警符号的施工标识符等。

第一标签图像是指施工标识物对应的标签图像。在本申请实施例中，可以通过开源数据集、网络爬虫、数据模拟等方式采集带有施工标识物的图像，然后对采集到的图像通过图像分割的方式将其中的施工标识物的图像提取出来从而得到第一标签图像。

携带施工标签的第一场景图像是指在对通过数据模拟图像或摄像头采集到的施工图像进行施工标签的标注工作后得到的场景图像，可以用于施工标识的识别模型的训练。

不携带施工标识标签的第二场景图像则是指根据开源数据获取到的大量的未经标注的不同自然通用场景的图像，可以用于与标签图像的融合，从而将不同场景与施工标识结合起来，再用于模型的训练，从而摆脱现有技术中特定的施工场景与模型的绑定关系。

作为一种示例，也可以通过图像掩码(mask)的方法提取图像中的施工标识对应的第一标签图像，具体可以包括如下过程：

(1)将原图中施工标识的所有像素值标注为1，其余像素点标注为0，作为背景，得到该图像对应的二值mask图。

(2)以二值mask图作为底图，将像素为1的像素值设置为255，生成灰度mask图；然后提取灰度mask的轮廓信息，具体可以通过cv2.findContours()函数完成；根据轮廓信息确认图像中施工标识对应的标签图像的数量，以及每个标签图像的边缘框。

(3)遍历原图中的标签图像及其对应的边缘框，对每个边缘框确认其最小x值、最小y值作为左上角点，确认其最大x值、最大y值作为右下角点，根据两个点确认标签图像在图像中的位置，并根据位置坐标将二值mask图中的对应位置的标签二值mask图扣取并保存下来，形成数据标签库，同时根据位置坐标将原图中对应位置的标签原图扣取并保存下来，形成数据图片库。

(4)以扣取的标签作为底图，以对应位置的标签二值mask图作为掩码，通过二值mask提取原图的对应区域像素值信息，获得标签mask原图，即第一标签图像，相当于原图中仅有施工标识对应的图像为原像素值，其余全部为0。该过程具体可以通过cv2.bitwise_and()函数完成，本申请不做限定。

(5)将第一标签图像存入数据库。

步骤102、基于所述第二场景图像和所述第一标签图像进行融合处理，得到目标融合图像。

其中，融合处理是指将施工标识物对应的第一标签图像添加到第二场景图像所描述的不同场景中，使得施工标识与不同场景的图像结合起来，进而得到大量的携带有施工标识的场景图像，即目标融合图像，例如将锥形桶添加到商场场景中得到的融合图像，便可以用作在商场这个场景下的施工标识识别模型的训练集，将告示牌添加到公路旁场景中得到的融合图像，便可以用作在公路这个场景下的施工标识识别模型的训练集。在这种情况下，由于第二场景图像本身就具备各种自然通用场景，因此，结合后得到的目标融合图像自然也是各个场景的图像都具备，自然也就不受特定场景的限定了。

将以各种自然通用场景为基础结合第一标签图像得到的目标融合图像作为施工标识识别模型的训练集的一部分，使得模型能够学习到如何在不同场景下实现对施工标识的识别，解决了相关技术中由于模型受场景限定所导致的对于部分施工场景中的施工标识识别准确率过低的问题，提高了施工标识识别模型的泛化能力。

步骤103、基于所述目标融合图像、所述第一场景图像和所述第二场景图像生成训练数据集。

目标融合图像、第一场景图像、第二场景图像均可以用作施工标识识别模型的训练样本。其中，第二场景图像本身属于未携带施工标识的自然通用场景图像，因此可以充当负样本，使得模型可以学习到哪些图像中没有施工标识。并且，在基于目标融合图像、第一场景图像、第二场景图像生成的训练样本集中，因为第二场景图像为经过标注，因此占据训练数据集的比例较小；而目标融合图像涉及各个自然通常场景与施工标识的结合，因此占据绝大部分，例如目标融合图像在训练数据集中的比例需要达到75％、80％等预设比例，具体可以根据实际情况进行调整，本申请不做限定。

步骤104、基于所述训练数据集进行模型训练，得到施工标识识别模型。

其中，施工标识识别模型为用于识别图像中施工标识的图像识别模型，模型的架构包括但不限于卷积神经网络架构、LeNet-5模型架构等神经网络模型架构，具体可以根据实际情况进行调整。在获取到模型的训练数据集之后，根据训练数据集对初始的神经网络模型进行迭代训练，直到模型达到预设的损失条件，停止训练，得到施工表示识别模型。

具体地，在模型训练过程中，为了提高模型的训练效果，可以进行如下方式的调整：

(1)通过网格调参等方法来选择最优的学习率参数，并且加入余弦退火等策略对学习率进行动态的调整防止陷入局部最优解。

(2)使用coco、imageNet等大规模数据集作为预训练模型缩短训练时间，减少模型训练的成本。

(3)引入focal_loss来增加困难样本的损失，从而提高精度。通过precision、recall、mAP来对模型进行精度评估。

综上所述，本申请实施例提供了一种识别模型的训练方法，在获取到施工标识对应的第一标签图像、携带施工标识标签的第一场景图像和不携带施工标识标签的第二场景图像之后，基于第二场景图像和所述第一标签图像进行融合处理，得到目标融合图像，然后基于所述目标融合图像、所述第一场景图像和所述第二场景图像生成训练数据集，最后基于所述训练数据集进行模型训练，得到施工标识识别模型。在上述方法中，将以各种自然通用场景为基础结合第一标签图像得到的目标融合图像作为施工标识识别模型的训练集的一部分，使得训练得到的模型的识别能力不受场景的限定，解决了相关技术中由于模型受场景限定所导致的对于部分施工场景中的施工标识识别准确率过低的问题，提高了施工标识识别模型的泛化能力。

可选地，步骤102所述基于所述第二场景图像和所述第一标签图像进行融合处理，得到目标融合图像，包括：

步骤S11、对所述第一标签图像进行数据增强，得到待融合的第二标签图像；

步骤S12、确定所述第二标签图像的第一边缘点；

步骤S13、以所述第一边缘点为参考，基于所述第二标签图像和所述第二场景图像进行融合处理，得到目标融合图像。

其中，数据增强的方式包括但不限于图像的上下翻转、左右翻转、旋转、透视变换、HSV(Hue,Saturation,Value)随机增强等方式。通过上述数据增强的方式，可以在标签图像有限的情况下，从空间、图像属性等方面实现对标签图像的扩充，无需针对不同位置、角度、图像属性的标签图像进行专门采集，极大的减少了数据成本。

具体地，可以预先设置各种数据增强方式分别对应的比例参数，在对第一标签数据进行数据增强时，首先确定需要增强的标签图像，然后针对每个数据增强方式产生一个对应的0-1的随机数，当某个数据增强方式对应的随机数小于该数据增强方式的比例参数时，按照该数据增强方式对标签图像进行数据增强。通过此种方式，可以充分保证数据增强后得到的第二标签图像的随机性，使得得到的各个第二标签图像能够适用于与不同自然场景的融合处理。

可以理解的是，图像的融合可以是指两个对应像素点的像素值的合并，因此，为了避免添加到场景图像中的标签图像出现与场景图像格格不入、边界过度僵硬等问题的出现，在得到待融合的第二标签图像后，以第二标签图像的边界上的像素点即第一边缘点为参照，基于第二标签图像和所述第二场景图像进行融合处理。例如，在图像的融合过程中，第二场景图像中的像素点距离第一边缘点所构成的边界越远，则该像素点在融合后的像素值越贴近其原本的像素值；第二场景图像中的像素点距离第一边缘点所构成的边界越近，则该像素点融合后的像素值越受标签图像的影响。

其中，针对步骤S12，可以利用图像掩码的方式确定第二标签图像的边缘点，具体方式如下：

(1)以待融合的第二标签图像作为基础底图，获取第二标签图像的宽、高、通道数并分别设定为W，H，C，创建一个(H,W,1)形状的像素值全0的图片作为第二标签图像的掩码maskCrop图，并将第二标签图像的像素值与掩码maskCrop图的像素值在RGB通道上进行相加，如果某个像素点位置上像素值相加和为0，则maskCrop图中的对应像素点位置为0，否则为1。

(2)获得maskCrop中所有为1的像素点，对自身四周的上下左右4个像素值相加，如果像素点对应的相加结果为4，那么确定该像素点为非边缘点，若像素点对应的相加结果小于4，则可以确定该像素点边缘点，也即第一边缘点，然后可以将该第二标签图像的所有第一边缘点的坐标通过集合进行存储，以供后续计算融合像素值。

可选地，步骤S13所述以所述第一边缘点为参考，基于所述第二标签图像和所述第二场景图像进行融合处理，得到目标融合图像，包括：

步骤S21、对所述第二标签图像进行外部填充，得到第三标签图像；其中，所述第三标签图像的外部填充部分的像素点的像素值均为零；

步骤S22、从所述第一边缘点中确定位于第一直线上的第二边缘点，其中，所述第一直线为所述第三标签图像的第一中心点与第一目标像素点连接起来的直线，所述第一目标像素点为所述第三标签图像中的像素点；

步骤S23、从所述第二场景图像中确定一个第二中心点；

步骤S24、将所述第一中心点与所述第二中心点对齐，确定所述第二场景图像中与所述第一目标像素点对齐的第二目标像素点；

步骤S25、基于所述第一目标像素点与所述第二边缘点之间的距离，计算目标融合图像中所述第一目标像素点与所述第二目标像素点对应的融合像素值；其中，所述目标像素图像为将所述第二场景图像和所述第三标签图像融合后所得到的图像；

步骤S26、基于所述融合像素值，生成所述目标融合图像。

在本申请实施例中，根据第三场景图像中像素点距离第二标签图像的边界的距离远近，来计算融合后像素点的像素值，以实现融合图像的边界区域的平滑过渡。

其中，根据第三场景图像中像素点与第二标签图像的边界之间的距离远近具体可以通过像素点到边缘点之间的距离来衡量，例如像素点到第一边缘点所构成的边界的垂直距离，又例如，连接像素点与第二标签图像的中心点，二者连接起来的直线即步骤S22所述的第一直线与第一边缘点构成的边界会存在一个交点，即第二边缘点，可以将这个交点与像素点的距离作为像素点与第二标签图像的边界之间的距离。具体地衡量像素点与第二标签图像的边界之间的距离的方式可以根据实际情况进行确定，本申请不做限定。

针对步骤S21，通过对第二标签图像进行外部填充所得到的第三标签图像包括第二标签图像部分和外部填充部分，其中，第二标签图像部分与第二标签图像保持一致，外部填充部分的像素点的像素值均为零，其实质上是在第三标签图像与第二场景图像融合时，作为从第二标签图像的边界到第二场景图像未融合部分之间的过渡区域，并且，第三标签图像的中心点为第二标签图像的中心点。当然，具体地外部填充比例本申请不做限定。

针对步骤S22，在本申请实施例中，确定第一直线与第一边缘点所构成的边界的交点即第二像素点，将该交点与第一目标像素点之间的距离作为像素点与第二标签图像的边界之间的距离，其中，第一直线所述第三标签图像的第一中心点与第一目标像素点连接起来的直线，第一目标像素点为第三标签图像中的像素点。

针对步骤S23，在本申请实施例中，第三标签图像在第二场景图像中的融合位置也即第二中心点，可以随机确定，也可以根据第二场景图像的具体内容确定第二中心点，本申请对此不做限定。

在确定了第三标签图像在第二场景图像中的融合位置，即从所述第二场景图像中确定一个第二中心点之后，将第一中心点与第二中心点对齐，确定第二场景图像中与所述第一目标像素点对齐的第二目标像素点，通过第一目标像素点与第二边缘点之间的距离，来计算目标融合图像中所述第一目标像素点与所述第二目标像素点对应的融合像素值，最后，在第三标签图像中每一个像素点对应地融合像素值之后，基于计算出的融合像素值生成目标统和图像。

具体地，针对步骤S25所述的融合像素值地计算，关于第三标签图像的第二标签图像部分，可以通过直接覆盖的方式进行图像融合，即第二标签部分的像素点在图像融合前后像素值保持不变；关于第三标签图像的外部填充部分，可以根据第一目标像素点与所述第二边缘点之间的距离，对第一目标像素点的像素值和对应的第二目标像素点的像素值进行加权运算，从而得到对应的融合像素值。当然，对于整个第三标签图像中的像素点，均可以通过加权的方式进行运算，不需要划分根据第二标签图像部分和填充部分进行划分，具体地融合像素值的计算方式本申请不做限定，可以根据图像的融合效果进行调整。

可选地，步骤S25所述基于所述第一目标像素点与所述第二边缘点之间的距离，计算目标融合图像中所述第一目标像素点与所述第二目标像素点对应的融合像素值，包括：

步骤S31、计算第一距离与预设的第二距离的比例值，所述第一距离表示所述第一目标像素点与所述第二边缘点之间的距离；

步骤S32、基于所述比例值，对所述第一目标像素点的像素值与所述第二目标像素点的像素值进行加权计算，得到目标融合图像中所述第一目标像素点与所述第二目标像素点对应的融合像素值。

其中，预设的第二距离可以为第三标签图像的尺寸中的某个数值，也可以直接预设，本申请对此不做限定。

作为一种示例，预设的第二距离可以为第三标签图像与第二标签图像的对角线距离的差，相应地，可以按照下述公式计算比例值(ratio)：

其中，X1、Y1表示第一目标像素点的横纵坐标，X2、Y2表示第二边缘点的横纵坐标，H_new和W_new表示第三标签图像的长宽，H和W表示第二标签，H_new＝H+2*0.25*H、W_new＝W+2*0.25*W。ratio大于等于0且小于等于1，当根据公式(1)计算得到的ratio大于1时，ratio取值为1，当根据公式(1)计算得到的ratio小于0时，ratio取值为0。

相应地，在确定了第一距离与预设的第二距离的比例值之后，可以按照下述公式计算第一像素点：

V_new_底＝(1-radio)*V_底+radio*V_拼， (2)

其中，V_new_底表示目标融合图像中对应位置的像素点的像素值，V拼表示第三标签图像中的像素点即第一目标像素点的像素值，，V底表示第二场景图像中的像素点即第二目标像素点的像素值。

参照图2，示出了本申请的一种施工标识的识别实施例的步骤流程图，所述方法具体可以包括如下步骤：

步骤201、获取待识别图像；

步骤202、将所述待识别图像输入预设的施工标识识别模型，得到所述待识别图像中施工标识的识别结果。其中，所述施工标识识别模型为根据图1所述的方法生成训练数据集并基于所述训练数据集训练得到的。

其中，识别结果可以包括识别出的施工标识的检测框以及对应的施工标识类别标签，例如标识牌、锥形桶、施工标识符等。

利用如图1所示的方法训练得到的施工标识识别模型进行施工标识的识别，能够满足各个场景下的识别任务需求，施工标识的识别不再受到场景的限制，解决了相关技术中由于模型受场景限定所导致的对于部分施工场景中的施工标识识别准确率过低的问题。

步骤S41、检测第一标签图像中的第一标识符；所述第一标签图像为在生成所述训练数据的过程中获取到的；

步骤S42、提取所述第一标识符的语义特征，并基于所述语义特征从所述第一标识符中确定出施工标识符和所述施工标识符的第一特征张量；

步骤S43、对所述施工标识检测框中的内容进行文字检测，得到所述待识别图像中的第二标识符；

步骤S44、对所述第二标识符进行特征提取，得到所述第二标识符的第二特征张量；

步骤S45、计算所述第二特征张量和预设的施工标识符的第一特征张量的余弦相似度；

步骤S46、若所述余弦相似度大于预设值，则确定所述识别结果是正确的，属于施工标识；若所述余弦相似度小于或等于预设值，则确定所述识别结果是错误的，不属于施工标识。

为了进一步确定识别结果的准确性，可以根据识别出来的检测框中的文字的特征进一步判断识别出来的标识是否为施工标识。

在本申请实施例中，可以以图1所示的训练数据集生成过程中获取到的第一标签图像为参照，通过对比第一标签图像中文字的特征与施工标识检测框中文字的特征的相似度来判断步骤201得到的识别结果是否是准确的。具体的，预先提取出第一标签图像中的第一标识符并进行分类和特征提取，从而第一标识符中的施工标识符以及施工标识符的第一特征张量，将施工标识符的第一特征张量作为常用的施工标识符的特征张量存入预设数据库，以用于后续对于识别结果的判断。

在施工标识识别模型输出了待识别图像中施工标识的识别结果后，提取出识别结果中的文字，得到第二标识符，进而对第二标识符进行特征提取，得到第二标识符的第二特征张量；通过计算第二特征张量和第一特征张量的余弦相似度，来对比第二标识符和预设的施工标识符，若余弦相似度大于预设值，则可以确定第二标识符为施工标识符，识别结果是正确的，识别出的识别检测框中是识别标识，若小于或等于预设值，则说明识别出的识别检测框中不是施工标识。其中，预设值可以根据实际情况进行调整。

作为一种示例，参照如图3所示的本申请实施例提供的一种施工场景中施工标识状态的判断方法流程图，该方法具体包括：

(1)将从摄像头中获取的待识别图片输入施工表示识别模型所得到的标识检测框，包括了三种检测结果：锥形桶、标识牌、施工标识符。其中，施工标识符。

(2)将施工标识符号检测框进行自身三倍的区域外扩得到施工标识符对应的文字检测区域；计算施工标识符对应的文字监测区域和标识牌的长和、宽和，如果宽和较小，则将文字监测区域和标识牌进行宽度上的拼接，否则进行长度上的拼接得到文字整体区域，并对长边还是宽边拼接情况、拼接比例进行记录，两部分字符同时处理，有助于缩短时间成本。

(3)字符检测，对文字整体区域通过paddle ocr进行字符检测，并且根据拼接的比例将字符分成两部分，将两部分中置信度高的字符作为施工标识符的检测结果，并对检测结果进行特征提取，形成高维的特征张量，即第二特征张量。

(4)语义相似度判断，将第二特征张量与数据库中常用的施工字符串张量即预设的施工字符串的第一特征张量进行余弦相似度计算，并对比，当余弦相似度大于0.9时，则认为识别出的字符与数据库中的字符相似，即确认文字整体区域的字符属于施工场景，对于标识牌和施工标识符的识别结果正确；当余弦相似度小于或等于时，则认为识别出的标识牌中的字符以及施工标识符与数据库中的字符不相似，即确认标识牌中的识别结果是错误的。

(5)最后还可以结合锥形桶判断待识别图像中施工标识是否齐全进行判断。具体地，在确定标识牌的识别结果是正确还是错误的基础上，对是否需要锥形桶进行辅助判断确认，并根据识别结果中是否存在锥形桶，分别得到待识别图像中施工标识的三种状态：无施工标识物；施工标识物不全，有施工标识物；例如在该场景下并不需要锥形桶，则在标识牌和施工标识符的识别结果正确的情况下，确定该场景中有施工标识物；而若是在该场景下需要锥形桶，但是识别结果中没有锥形桶，则在标识牌和施工标识符的识别结果正确的情况下，确定该场景中施工标识的状态为：施工标识物不全。

可选地，步骤S42所述提取所述第一标识符的语义特征，并基于所述语义特征从所述第一标识符中确定出施工标识符和所述施工标识符的第一特征张量，包括：

步骤S51、利用预设的全连接网络提取对所述第一标识符进行特征提取，得到所述第一标识符的第三特征张量；

步骤S52、将所述第三特征张量输入预设的二分类模型，得到所述标识符的分类结果；

步骤S53、根据所述分类结果从所述第一标识符中确定出施工标识符，并从所述第二特征张量中确定出所述施工标识符的第一特征张量。

具体地，在本申请实施例中，通过预先构建一个全连接网络(backbone)和一个用于判断是否属于施工类字符的二分类头，利用backbone对第一标识符进行特征提取，利用二分类头可以监督全连接网络进行特征信息即第三特征张量的提取，进而根据特征信息判断第一标识符是否属于施工标识符，最后记录第一标识符中的施工标识符输出的第三特征张量作为字符的语义信息。

装置实施例

参照图4，示出了本申请的一种识别模型的训练装置实施例的结构框图，所述装置具体可以包括：

图像采集模块301，用于获取施工标识对应的第一标签图像、携带施工标识标签的第一场景图像和不携带施工标识标签的第二场景图像；

图像融合模块302，用于基于所述第二场景图像和所述第一标签图像进行融合处理，得到目标融合图像；

训练集生成模块303，用于基于所述目标融合图像、所述第一场景图像和所述第二场景图像生成训练数据集；

模型训练模块304，用于基于所述训练数据集进行模型训练，得到施工标识识别模型。可选地，所述编码模块可以包括：

可选地，所述图像融合模块，包括：

数据增强子模块，用于对所述第一标签图像进行数据增强，得到待融合的第二标签图像；

第一边缘点确定子模块，用于确定所述第二标签图像的第一边缘点；

第一图像融合子模块，用于以所述第一边缘点为参考，基于所述第二标签图像和所述第二场景图像进行融合处理，得到目标融合图像。

可选地，所述第一图像融合子模块，包括：

图像填充子模块，用于对所述第二标签图像进行外部填充，得到第三标签图像；其中，所述第三标签图像的外部填充部分的像素点的像素值均为零；

第二边缘点确定子模块，用于从所述第一边缘点中确定位于第一直线上的第二边缘点，其中，所述第一直线为所述第三标签图像的第一中心点与第一目标像素点连接起来的直线，所述第一目标像素点为所述第三标签图像中的像素点；

中心点确定子模块，用于从所述第二场景图像中确定一个第二中心点；

图像对齐子模块，用于将所述第一中心点与所述第二中心点对齐，确定所述第二场景图像中与所述第一目标像素点对齐的第二目标像素点；

像素值计算子模块，用于基于所述第一目标像素点与所述第二边缘点之间的距离，计算目标融合图像中所述第一目标像素点与所述第二目标像素点对应的融合像素值；其中，所述目标像素图像为将所述第二场景图像和所述第三标签图像融合后所得到的图像；

第二图像融合子模块，用于基于所述融合像素值，生成所述目标融合图像。

可选地，所述像素值计算子模块，包括：

比例计算子模块，用于计算第一距离与预设的第二距离的比例值，所述第一距离表示所述第一目标像素点与所述第二边缘点之间的距离；

像素值加权计算子模块，用于基于所述比例值，对所述第一目标像素点的像素值与所述第二目标像素点的像素值进行加权计算，得到目标融合图像中所述第一目标像素点与所述第二目标像素点对应的融合像素值。

参照图5，示出了本申请的一种施工标识的识别装置实施例的结构框图，所述装置具体可以包括：

图像获取模块401，用于获取待识别图像；

识别模块402，用于将所述待识别图像输入预设的施工标识识别模型，得到所述待识别图像中施工标识的识别结果；

其中，所述施工标识识别模型为根据图1所述的方法生成训练数据集并基于所述训练数据集训练得到的。

可选地，所述识别结果包括施工标识检测框；所述装置还包括：

标识符检测模块，用于检测第一标签图像中的第一标识符；所述第一标签图像为在生成所述训练数据的过程中获取到的；

第一特征提取模块，用于提取所述第一标识符的语义特征，并基于所述语义特征从所述第一标识符中确定出施工标识符和所述施工标识符的第一特征张量；

文字检测模块，用于对所述施工标识检测框中的内容进行文字检测，得到所述待识别图像中的第二标识符；

第二特征提取模块，用于提取对所述第二标识符进行特征提取，得到所述第二标识符的第二特征张量；

余弦相似度计算模块，用于计算所述第二特征张量和预设的施工标识符的第一特征张量的余弦相似度；

识别结果判断模块，用于若所述余弦相似度大于预设值，则确定所述识别结果是正确的，属于施工标识；若所述余弦相似度小于或等于预设值，则确定所述识别结果是错误的，不属于施工标识。

可选地，所述第一特征提取模块，可以包括：

第三特征提取子模块，用于利用预设的全连接网络提取对所述第一标识符进行特征提取，得到所述第一标识符的第三特征张量；

分类子模块，用于将所述第三特征张量输入预设的二分类模型，得到所述标识符的分类结果；

施工标识符确定子模块，用于根据所述分类结果从所述第一标识符中确定出施工标识符，并从所述第二特征张量中确定出所述施工标识符的第一特征张量。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一发明构思，本申请实施例公开一种电子设备，图6示出了本申请实施例提出的电子设备的示意图，如图6所示，电子设备100包括：存储器110和处理器120，存储器110与处理器120之间通过总线通信连接，存储器110中存储有计算机程序，该计算机程序可在处理器120上运行，以实现本申请实施例公开的识别模型的训练方法中的步骤。

基于同一发明构思，本申请实施例公开一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请实施例公开的识别模型的训练方法中的步骤。

本申请实施例是参照根据本申请实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种识别模型的训练方法、装置、电子设备和可读存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种识别模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二场景图像和所述第一标签图像进行融合处理，得到目标融合图像，包括：

确定所述第二标签图像的第一边缘点；

3.根据权利要求2所述的方法，其特征在于，所述以所述第一边缘点为参考，基于所述第二标签图像和所述第二场景图像进行融合处理，得到目标融合图像，包括：

从所述第二场景图像中确定一个第二中心点；

基于所述融合像素值，生成所述目标融合图像。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一目标像素点与所述第二边缘点之间的距离，计算目标融合图像中所述第一目标像素点与所述第二目标像素点对应的融合像素值，包括：

5.一种施工标识的识别方法，其特征在于，所述方法包括：

获取待识别图像；

6.根据权利要求5所述的方法，其特征在于，所述识别结果包括施工标识检测框；所述方法还包括：

若所述余弦相似度大于预设值，则确定所述识别结果是正确的，属于施工标识；若所述余弦相似度小于或等于预设值，则确定所述识别结果是错误的，不属于施工标识。

7.根据权利要求6所述的方法，其特征在于，所述提取所述第一标识符的语义特征，并基于所述语义特征从所述第一标识符中确定出施工标识符和所述施工标识符的第一特征张量，包括：

8.一种识别模型的训练装置，其特征在于，所述训练装置包括：

9.一种施工标识的识别装置，其特征在于，所述识别装置包括：

图像获取模块，用于获取待识别图像；

10.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现权利要求1-4中任一所述的识别模型的训练方法中的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-4中任一所述的识别模型的训练方法中的步骤。