CN117274771A

CN117274771A - 图像识别方法、装置、设备及存储介质

Info

Publication number: CN117274771A
Application number: CN202311189223.2A
Authority: CN
Inventors: 张权; 王刚; 赵哲; 吕炎州; 肖圣端; 伍绍桂
Original assignee: Guangzhou Yihong Intelligent Equipment Co ltd
Current assignee: Guangzhou Yihong Intelligent Equipment Co ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-12-22

Abstract

本申请涉及一种图像识别方法、装置、设备及存储介质，所述图像识别方法包括：在获取到工业部件的图像信息，将所述图像信息输入至已经训练好的Transformer深度学习网络模型，输出得到图像信息的关联特征表示；将所述图像信息的关联特征表示与预先存储的关联特征表示进行比较，并根据比较结果得到图像识别结果。本申请中利用图像的自监督学习来训练Transformer深度学习网络模型，使得模型学习到没有缺陷的图像的复杂特征，从而可以利用已经训练好的Transformer深度学习网络模型来实现对图像缺陷特征的识别，提高图像的识别效率。

Description

图像识别方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像识别方法、装置、设备及存储介质。

背景技术

20世纪70年代以来，人工智能被称为世界三大尖端技术之一(空间技术、能源技术、人工智能)。也被认为是21世纪三大尖端技术(基因工程、纳米科学、人工智能)之一，近三十年来人工智能技术获得了迅速的发展，在很多学科领域都获得了广泛应用，并取得了丰硕的成果，人工智能已逐步成为一个独立的分支，无论在理论和实践上都已自成一个系统。人工智能技术尤其在机器视觉、指纹识别，人脸识别，以及图像识别领域应用更为广泛，在图像识别技术领域中常常采用人工智能模型来实现对图像特征的学习和识别。

人工智能模型在进行图像特征识别时，需要对图像的特征进行学习训练而学习到这些特征，进而利用模型对图像特征进行识别，需要大量的样本去实现。一般的AI建模是有监督学习，在有监督的学习情况下，必须有大量的缺陷图像和无缺陷的图像，才能输出一个有效AI模型，然而在工业生产初期，带有某些缺陷的产品出现的数量较少，只有极少数的带有缺陷的图像和大量的无缺陷的图像，导致AI模型无法从带有某些缺陷的产品图像中学习到这些缺陷特征，从而导致模型无法实现对图像缺陷特征的识别，导致图像识别效率低下。

发明内容

基于上述缺陷，本申请提供了一种图像识别方法，利用图像的自监督学习来训练Transformer深度学习网络模型，使得模型学习到没有缺陷的图像的复杂特征，从而可以利用已经训练好的Transformer深度学习网络模型来实现对图像缺陷特征的识别，提高图像的识别效率。

在一个实施例中，一种图像识别方法，包括：

获取工业部件的图像信息；

获取图像识别模型，所述图像识别模型为已经训练好的Transformer深度学习网络模型；所述已经训练好的Transformer深度学习网络模型是基于所述图像信息的自监督学习而训练得到；

将所述图像信息输入所述已经训练好的Transformer深度学习网络模型，输出得到图像信息的关联特征表示；

将所述图像信息的关联特征表示与预先存储的关联特征表示进行比较，并根据比较结果得到图像识别结果；所述预先存储的关联特征表示为将没有缺陷的图像输入至已经训练好的Transformer深度学习网络模型得到的关联特征表示。

进一步地，获取初始Transformer深度学习网络模型，对所述初始Transformer深度学习网络模型进行训练得到已经训练好的Transformer深度学习网络模型。

进一步地，对所述初始Transformer深度学习网络模型进行训练得到已经训练好的Transformer深度学习网络模型包括：

获取工业部件没有缺陷的图像信息；

对所述图像信息划分网格，并按比例随机遮挡图像信息的部分区域，将遮挡部分区域的网格图像输入初始Transformer深度学习网络模型，得到为未遮挡的可见区域所生成的特征表示；

利用可见区域像素恢复被遮挡区域的区域像素，更新各个可见区域的权重参数调整可见区域的特征表示，直至恢复出全部的被遮挡区域的区域像素，得到训练好的Transformer深度学习网络模型；

输出所述图像信息中全部可见区域的关联特征表示。

进一步地，用向量A来表示输出得到的所述图像信息的关联特征表示，用向量B来表示数据库中预先存储的关联特征表示；所述将所述图像信息的关联特征表示与预先存储的关联特征表示进行比较包括：

计算向量A和向量B的余弦相似度；

判断计算得到的余弦相似度是否大于阈值，若是，则识别所述图像信息为没有缺陷的图像信息；若否，则识别所述图像信息为带有缺陷的图像信息。

进一步地，所述余弦相似度的计算公式如下：

进一步地，所述阈值为0.8。

在本实施例中，本申请还提供了一种图像识别装置，包括：

第一获取模块，用于获取工业部件的图像信息；

第二获取模块，用于获取图像识别模型，所述图像识别模型为已经训练好的Transformer深度学习网络模型；所述已经训练好的Transformer深度学习网络模型是基于所述图像信息的自监督学习而训练得到；

输出模块，用于将所述图像信息输入所述已经训练好的Transformer深度学习网络模型，输出得到图像信息的关联特征表示；

比较模块，用于将所述图像信息的关联特征表示与预先存储的关联特征表示进行比较，并根据比较结果得到图像识别结果；所述预先存储的关联特征表示为将没有缺陷的图像输入至已经训练好的Transformer深度学习网络模型得到的关联特征表示。

进一步地，所述比较模块还包括：

计算单元，用于计算向量A和向量B的余弦相似度；

识别单元，用于判断计算得到的余弦相似度是否大于阈值，若是，则识别所述图像信息为没有缺陷的图像信息；若否，则识别所述图像信息为带有缺陷的图像信息。

在本实施例中，本申请还提供了一种计算机设备，包括：处理器；存储器，用于存储游所述处理器执行的计算机程序；其中，所述处理器执行所述计算机程序时实现上述实施例所述的图像识别方法。

在本实施例中，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述实施例所述的图像识别方法。

相对于现有技术，本申请的图像识别方法，在获取到工业部件的图像信息，将所述图像信息输入至已经训练好的Transformer深度学习网络模型，输出得到图像信息的关联特征表示；该Transformer深度学习网络模型是基于图像信息的自监督学习而训练得到；将所述图像信息的关联特征表示与预先存储的关联特征表示进行比较，并根据比较结果得到图像识别结果；所述预先存储的关联特征表示为将没有缺陷的图像输入至已经训练好的Transformer深度学习网络模型得到的关联特征表示。本申请中利用图像的自监督学习来训练Transformer深度学习网络模型，使得模型学习到没有缺陷的图像的复杂特征，从而可以利用已经训练好的Transformer深度学习网络模型来实现对图像缺陷特征的识别，提高图像的识别效率。

为了更清晰的理解本发明，以下将结合附图说明阐述本发明的具体实施方式。

附图说明

图1为本申请一实施例中图像识别方法的流程示意图；

图2为本申请一实施例中对于Transformer深度学习网络模型的训练过程示意图；

图3A-3C为对图像信息划分网格，并按比例随机进行遮挡的示意图；

图4为本发明一实施例中图像识别装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

在工业生产过程中会生产大量的产品，同时在生产的产品中可能存在带有缺陷的产品。为了识别出带有缺陷的产品，常常会采用AI人工智能模型从大量的缺陷产品中学习这些缺陷特征，从而识别带有缺陷的产品图像。然而，在工业生产的初期，生产的产品数量较少，其带有缺陷的产品出现的数量很小，从而导致无法基于AI模型无法从少量的缺陷产品图像中学习这些缺陷特征，从而导致无法准确识别带有缺陷的产品。

基于此，请参照图1。在一个实施例中，本申请提供了一种图像识别方法，包括：

步骤S1：获取工业部件的图像信息；

在本实施例中，采用图像采集设备收集工业生产中工业部件的图像，可选地，所述图像采集设备可以是相机。通过相机采用工业部件产品的正视图像，进而提高后续图像识别的准确性。具体地，在工业产线上采用相机采集的产品图像，可能是没有缺陷的产品图像，也可能是有缺陷的产品图像，在本实施例中，将采集的产品图像输入后续已经训练好的Transformer深度学习网络模型中得到图像特征表示，并与数据库中预先存储的没有缺陷的产品图像的图像特征表示进行相似度计算，来识别所采集的产品图像是否为有缺陷的产品图像，进而得到图像识别结果。

步骤S2：获取图像识别模型，所述图像识别模型为已经训练好的Transformer深度学习网络模型；所述已经训练好的Transformer深度学习网络模型是基于所述图像信息的自监督学习而训练得到；

在本实施例中，获取已经训练好的Transformer深度学习网络模型作为图像识别模型。在训练Transformer深度学习网络模型时，利用图像的自监督学习来进行训练，将没有缺陷的产品图像输入至初始Transformer深度学习网络模型中进行训练，使得模型学习到没有缺陷的产品图像中像素之间的关联性。

具体地，参见图2，其步骤S2中，对于Transformer深度学习网络模型的训练过程包括：

步骤S21：获取工业部件没有缺陷的图像信息；

现有技术中，在工业生产初期由于带有缺陷的产品出现的数量很小，从而导致无法基于AI模型从少量的缺陷产品样品中学习这些缺陷特征，从而导致无法准确识别带有缺陷的产品。因此在本实施例中，收集工业部件的无缺陷图像作为训练集对初始Transformer深度学习网络模型进行训练，学习图像中像素之间的关联性。

步骤S22：对所述图像信息划分网格，并按比例随机遮挡图像信息的部分区域，将遮挡了部分区域的所述图像信息输入初始Transformer深度学习网络模型，生成可见区域图像的特征表示；

具体地，在训练初始Transformer深度学习网络模型时，先收集获取没有缺陷的图像信息，对图像信息划分网格，并在对图像信息划分网格后随机按比例遮挡部分区域，使得后续利用未遮挡的可见区域来训练初始Transformer深度学习网络模型恢复被遮挡的部分区域，利用自监督方法来学习各个区域中像素之间的关联性。

下面结合附图3A-3C对上述对图像信息划分网格，并按比例随机进行遮挡的方式进行具体说明。

该步骤中，具体地，在获取到没有缺陷的图像信息时，可以对图像信息划分网络，如上图1，可以将图像信息等比划分为6*6的网格图像。可选地，也可以将图像信息等比划分为5*5的网格图像。其具体的划分方式并不限制，可以根据产品中实际缺陷的大小来进行划分，若实际缺陷大小为15*15，则也可以将图像信息以15*15的网格为基本单位进行等比划分。然后随机按比例遮挡其部分区域，可选地，其遮挡比例不限制，可以根据具体图像信息来确定，优选为60％-90％。例如，在本实施例中，可以遮挡网格图像中的70％，可见区域为网格图像中的30％，其遮挡情况可以如图2或图3所示，其中灰色的像素区域是可见区域，白色的像素区域是被遮挡区域，利用上述灰色的可见区域的像素来恢复白色的被遮挡区域的像素，由于遮挡是随机的，因此在恢复过程中初始Transformer深度学习网络模型学习到了图像信息中任意区域之间的关联性而得到训练好的Transformer深度学习网络模型。

假设图2中上述灰色可见区域的像素值为X₁、X₂、X₃......X₁₀，W₁、W₂、W₃......W₁₀依次为每个灰色可见区域各自对应的权重，被遮挡区域中某个区域的像素值为Y，则恢复过程中采用如下公式：

Y＝W₁X₁+W₂X₂+W₃X₃+......+W₁₀X₁₀

经过上述公式，可以基于可见区域每个区域的像素值X_i来计算得到某个被遮挡区域的像素值Y，因此建立了可见区域像素X_i和某个被遮挡区域的像素Y的关联关系。当某次遮挡情况如图2时，利用灰色可见区域恢复被遮挡区域1时，可见区域8在恢复过程中构建了与被遮挡区域1的关联关系；当遮挡情况如图3时，利用灰色可见区域恢复被遮挡区域8时，可见区域9在恢复过程中构建了与被遮挡区域8的关联关系。因此，随着不断地对上述划分网格后的图像信息进行随机遮挡，能够逐步恢复被遮挡的部分区域，在恢复出全部的被遮挡区域之后，即可构建任意两个区域像素之间的关联关系，而权重则表征了任意两个区域像素之间的关联关系。

进一步地，在训练初始Transformer深度学习网络模型时，对图像信息划分网格后随机按比例遮挡部分区域后，模型为一个可见区域生成特征表示L，假设30％的未遮挡网格图像中有N个可见区域，则所有可见区域的特征表示为N*L。可以理解地，对于一张图片而言，每个位置均由红、绿、蓝的三色值表示，假设原始图片是12*12的大小，将所述图像信息划分为6*6的网格图像，则自监督学习的基础单位是2*2，在图像未被遮挡的情况下则一个可见区域的原始特征表示则可以用2*2*3＝12来表示，因此在本实施例中，对图像信息划分网格并随机按比例遮挡部分区域后，生成一个可见区域的特征表示，其特征表示可以用L来表征；

步骤S23：利用可见区域像素恢复被遮挡区域的区域像素，更新各个可见区域的权重参数调整可见区域的特征表示，直至恢复出全部的被遮挡区域的区域像素，输出所述图像信息中全部可见区域的关联特征表示，得到训练好的Transformer深度学习网络模型。

具体地，对于训练初始Transformer深度学习网络模型的过程，实际上就是网格图像中任意两个区域学习关联关系的过程，例如，将上图2中遮挡部分区域的网格图像输入初始Transformer深度学习网络模型，在恢复过程中初始Transformer深度学习网络模型不断迭代更新权重参数，使得恢复的区域像素不断接近图1的网格图像，从而不断修改可见区域的特征表示，使得对于被遮挡区域的预测越来越准确，直至恢复出全部的被遮挡区域的区域像素，得到训练好的Transformer深度学习网络模型。

在本实施例中，基于没有缺陷的图像信息在对初始Transformer深度学习网络模型进行训练后，得到训练好的Transformer深度学习网络模型，输出没有缺陷的图像信息的关联特征表示。具体地，假设恢复后的可见区域为N个，则输出的关联特征表示为N*L。

具体地，在训练好初始Transformer深度学习网络模型之后，将图像信息输入至已经训练好的Transformer深度学习网络模型，就可以直接输出图像信息中全部可见区域的关联特征表示N*L。

步骤S3：将所述图像信息输入所述已经训练好的Transformer深度学习网络模型，输出得到图像信息的关联特征表示；

具体地，利用相机在工业产线上获取到产品的图像信息后，将该图像信息输入至上述已经训练好的Transformer深度学习网络模型，得到所述图像所述信息的关联特征表示N*L。由于已经训练好的Transformer深度学习网络模型已经学习到了没有缺陷的图像信息中各个区域的关联性，能够得到没有缺陷的图像信息长度为N*L的关联特征表示，该关联特征表示是Transformer深度学习网络模型基于自监督学习的，不再是图像高度、图像宽度、图像面积等一些简单的特征，而是被Transformer深度学习网络模型自动整合的、高度复杂的特征，因此本申请中是将自监督学习融入至被Transformer深度学习网络模型的训练和学习中，能够学习到没有缺陷的图像信息的关联特征表示，进而能够识别出带有缺陷的图像信息，能够更准确地实现对图像的识别。

步骤S4：将所述图像信息的关联特征表示与预先存储的关联特征表示进行比较，并根据比较结果得到图像识别结果；所述预先存储的关联特征表示为将没有缺陷的图像输入至已经训练好的Transformer深度学习网络模型得到的关联特征表示。

具体地，在使用已经训练好的Transformer深度学习网络模型时，先将没有缺陷的图像信息输入至已经训练好的Transformer深度学习网络模型中得到长度为N*L的关联特征表示，将该图像信息的ID以及得到的N*L的关联特征表示保存到数据库中，若有M张没有缺陷的图片，则一共有M个N*L的特征表示。而对于大量的没有缺陷的图像信息，为了减少数据库存储的信息，在将图像信息的ID以及得到的N*L的关联特征表示保存到数据库中时，判定当前图像信息的N*L关联特征表示与数据库中已存储的所有的N*L的关联特征表示的相似度大于阈值，则不加入数据库。这样，能够很大程度上减小没有缺陷的图像信息的特征数量，便于后续对于特征表示的比较。

进一步地，用向量A来表示输出得到的所述图像信息的关联特征表示，用向量B来表示数据库中预先存储的关联特征表示，上述步骤S4中，将所述图像信息的关联特征表示与预先存储的关联特征表示进行比较包括：

步骤41：计算向量A和向量B的余弦相似度；

具体地，计算向量A和向量B的余弦相似度的计算公式如下：

步骤42：判断计算得到的余弦相似度大于阈值，则识别所述图像信息为没有缺陷的图像信息；若否，则识别所述图像信息为带有缺陷的图像信息。

具体地，其计算得到的余弦相似度在[0-1]范围之间，优选地，阈值可以是0.8。而且，二者的余弦相似度越接近1，说明其特征表示的相似度更高，其获得的图像信息越接近于没有缺陷的图像信息。

本申请提供的上述图像识别方法，利用图像的自监督学习来训练Transformer深度学习网络模型，将有监督学习转为无监督学习，使得模型学习到没有缺陷的图像的复杂特征，并将其学习得到的复杂特征进行存储，当从生产线上得到产品图像时，将所得到的产品图像输入至已经训练好的Transformer深度网络学习模型中得到所述产品图像的特征，进而将所得到的产品图像的特征与存储的无缺陷图像的特征进行比对，从而实现了利用已经训练好的Transformer深度学习网络模型对图像缺陷特征的识别，提高对于缺陷图像信息的识别效率。

基于本实施例中提供的图像识别方法，参照图3，本申请还提供了一种图像识别装置，包括：

第一获取模块31，用于获取工业部件的图像信息；

第二获取模块32，用于获取图像识别模型，所述图像识别模型为已经训练好的Transformer深度学习网络模型；

输出模块33，用于将所述图像信息输入所述已经训练好的Transformer深度学习网络模型，输出得到图像信息的关联特征表示；

比较模块34，用于将所述图像信息的关联特征表示与预先存储的关联特征表示进行比较，并根据比较结果得到图像识别结果；所述预先存储的关联特征表示为将没有缺陷的图像输入至已经训练好的Transformer深度学习网络模型得到的关联特征表示。

进一步地，所述比较模块34还包括：

计算单元，用于计算向量A和向量B的余弦相似度；

基于本实施例中提供的图像识别方法，本申请还提供了一种计算机设备，所述计算机设备包括：

处理器；

存储器，用于存储游所述处理器执行的计算机程序；

其中，所述处理器执行所述计算机程序时实现本实施例所述的图像识别方法。

基于本实施例提供的图像识别方法，本实施例中还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现本实施例所述的图像识别方法。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种图像识别方法，其特征在于，包括：

获取工业部件的图像信息；

将所述图像信息输入所述已经训练好的Transformer深度学习网络模型，输出得到所述图像信息的关联特征表示；

2.根据权利要求1所述的图像识别方法，其特征在于：还包括：

获取初始Transformer深度学习网络模型，对所述初始Transformer深度学习网络模型进行训练得到已经训练好的Transformer深度学习网络模型。

3.根据权利要求2所述的图像识别方法，其特征在于：对所述初始Transformer深度学习网络模型进行训练得到已经训练好的Transformer深度学习网络模型包括：

获取工业部件没有缺陷的图像信息；

对所述图像信息划分网格，并按比例随机遮挡图像信息的部分区域，将遮挡部分区域的网格图像输入初始Transformer深度学习网络模型，得到未遮挡的可见区域所生成的特征表示；

输出所述图像信息中全部可见区域的关联特征表示。

4.根据权利要求1-3任一项所述的图像识别方法，其特征在于：用向量A来表示输出得到的所述图像信息的关联特征表示，用向量B来表示数据库中预先存储的关联特征表示；所述将所述图像信息的关联特征表示与预先存储的关联特征表示进行比较包括：

计算向量A和向量B的余弦相似度；

5.根据权利要求4所述的图像识别方法，其特征在于：

所述余弦相似度的计算公式如下：

6.根据权利要求4所述的图像识别方法，其特征在于，所述阈值为0.8。

7.一种图像识别装置，其特征在于，包括：

第一获取模块，用于获取工业部件的图像信息；

8.根据权利要求7所述的图像识别装置，其特征在于，所述比较模块还包括：

计算单元，用于计算向量A和向量B的余弦相似度；

识别单元，用于判断计算得到的余弦相似度大于阈值，则识别所述图像信息为没有缺陷的图像信息；若否，则识别所述图像信息为带有缺陷的图像信息。

9.一种计算机设备，其特征在于，所述计算机设备包括：处理器；存储器，用于存储游所述处理器执行的计算机程序；其中，所述处理器执行所述计算机程序时实现权利要求1-6所述的图像识别方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现权利要求1-6所述的图像识别方法。