CN117152459A

CN117152459A - 图像检测方法、装置、计算机可读介质及电子设备

Info

Publication number: CN117152459A
Application number: CN202311416947.6A
Authority: CN
Inventors: 王昌安
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2023-12-01
Anticipated expiration: 2043-10-30
Also published as: CN117152459B

Abstract

本申请公开了一种图像检测方法、装置、计算机可读介质以及电子设备，本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。所述方法包括：获取待检测图像和待检测图像对应的模板图像；通过目标图像检测模型对待检测图像中的多个待检测图像区域和模板图像中的多个模板图像区域进行图像特征提取，得到多个待检测图像区域特征和多个模板图像区域特征；目标图像检测模型是通过两个样本图像的异常区域的检测训练和两个样本图像在非异常区域的图像特征的语义一致训练得到的；根据多个待检测图像区域特征与多个模板图像区域特征之间的特征差值，确定待检测图像的异常区域。本申请技术方案提高了异常图像的检测精度和检测的准确性。

Description

图像检测方法、装置、计算机可读介质及电子设备

技术领域

本申请属于图像处理技术领域，具体涉及一种图像检测方法、装置、计算机可读介质以及电子设备。

背景技术

图像检测技术是图像处理领域中的一种重要技术，一种常用的应用场景是通过图像检测技术来确定所检测图像是否存在异常，例如，在纺织品生产过程中，通常对纺织面料拍摄图像，然后通过图像检测技术确定纺织面料是否存在瑕疵。目前常用的图像检测方法是使用目标检测算法进行检测，预先使用大量数据训练模型，然后将所拍摄图像输入至模型，通过模型找出有可能存在的缺陷类型。然而，这种检测方法对模型训练数据中存在的缺陷具有较好的检出率，但是难以检测出训练数据中未涉及的缺陷类型，检测的准确性较低。

发明内容

本申请的目的在于提供一种图像检测方法、装置、计算机可读介质以及电子设备，以提高异常图像的检测准确性。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种图像检测方法，包括：

获取待检测图像和所述待检测图像对应的模板图像；

通过目标图像检测模型，分别对所述待检测图像中的多个待检测图像区域和所述模板图像中的多个模板图像区域进行图像特征提取，得到多个待检测图像区域特征和多个模板图像区域特征；所述目标图像检测模型是通过两个样本图像的异常区域的检测训练，以及所述两个样本图像在非异常区域的图像特征的语义一致训练得到的；

通过所述目标图像检测模型，根据所述多个待检测图像区域特征与所述多个模板图像区域特征之间的特征差值，确定待检测图像的异常区域。

根据本申请实施例的一个方面，提供一种图像检测装置，包括：

图像获取模块，用于获取待检测图像和所述待检测图像对应的模板图像；

特征提取模块，用于通过目标图像检测模型，分别对所述待检测图像中的多个待检测图像区域和所述模板图像中的多个模板图像区域进行图像特征提取，得到多个待检测图像区域特征和多个模板图像区域特征；所述目标图像检测模型是通过两个样本图像的异常区域的检测训练，以及所述两个样本图像在非异常区域的图像特征的语义一致训练得到的；

图像检测模块，用于通过所述目标图像检测模型，根据所述多个待检测图像区域特征与所述多个模板图像区域特征之间的特征差值，确定待检测图像的异常区域。

在本申请的一个实施例中，所述装置还包括：

初始模型获取模块，用于获取初始图像检测模型，所述初始图像检测模型包括第一主干网络、第二主干网络和分割网络，所述第一主干网络和所述第二主干网络相同，所述第一主干网络用于提取所述两个样本图像中一个样本图像的特征，所述第二主干网络用于提取所述两个样本图像中另一个样本图像的特征，所述分割网络用于根据所述第一主干网络和所述第二主干网络提取的特征确定所述两个样本图像的异常区域；

语义一致训练模块，用于通过所述第一主干网络和所述第二主干网络提取的特征，进行所述两个样本图像在非异常区域的图像特征的语义一致训练，以更新所述初始图像检测模型的权重；

异常检测训练模块，用于通过所述第一主干网络和所述第二主干网络提取的特征，进行所述两个样本图像的异常区域的检测训练，以更新所述初始图像检测模型的权重；

目标模型生成模块，用于将训练好的所述初始图像检测模型，作为所述目标图像检测模型。

在本申请的一个实施例中，所述语义一致训练模块包括：

聚类单元，用于基于目标对象的第一样本图像中的多个图像区域特征，获取所述多个图像区域特征对应的多个目标聚类中心；

第一特征获取单元，用于通过所述第一主干网络，获取所述目标对象的第二样本图像中的多个图像区域特征；

第一匹配情况获取单元，用于获取所述第二样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况；

第二特征获取单元，用于通过所述第二主干网络，获取所述目标对象的第三样本图像中的多个图像区域特征，所述第二样本图像和所述第三样本图像属于所述两个样本图像；

第二匹配情况获取单元，用于获取所述第三样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况；

第一训练单元，用于将所述第二样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况，作为所述第三样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况的软标签，对所述初始图像检测模型进行语义一致训练，以更新所述初始图像检测模型的权重；

第二训练单元，用于将所述第三样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况，作为所述第二样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况的软标签，对所述初始图像检测模型进行语义一致训练，以更新所述初始图像检测模型的权重。

在本申请的一个实施例中，所述第一样本图像包括第一图像和第二图像；所述聚类单元包括：

第一特征提取子单元，用于通过所述第一主干网络，获取所述第一图像对应的多个第一图像区域特征；

第二特征提取子单元，用于通过所述第二主干网络，获取所述第二图像对应的多个第二图像区域特征；

聚类子单元，用于对所述多个第一图像区域特征和所述多个第二图像区域特征进行聚类处理，得到多个目标聚类中心。

在本申请的一个实施例中，所述聚类子单元具体用于：

根据所述多个第一图像区域特征对多个初始化聚类中心进行更新，得到多个候选聚类中心；

根据所述多个第二图像区域特征对所述多个候选聚类中心进行更新，得到多个目标聚类中心。

在本申请的一个实施例中，所述聚类子单元具体用于：

计算所述第一图像区域特征与所述第一图像区域特征当前所匹配的聚类中心之间的第一距离，以及计算所述第一图像区域特征与所述第一图像区域特征当前不匹配的聚类中心之间的第二距离；

根据所述第一距离和所述第二距离计算相对聚类损失值；

基于所述相对聚类损失值对所述聚类中心进行更新，直至所述相对聚类损失值达到预设条件，得到多个候选聚类中心。

在本申请的一个实施例中，所述聚类子单元具体用于：

根据所述第一图像区域特征和所述第一图像区域特征当前所匹配的聚类中心之间的第一距离计算绝对聚类损失值；

基于所述相对聚类损失值对所述聚类中心进行更新，直至所述相对聚类损失值达到预设条件，包括：

根据所述相对聚类损失值和所述相对聚类损失值对所述聚类中心进行更新，直至所述相对聚类损失值和所述相对聚类损失值达到预设条件。

在本申请的一个实施例中，所述聚类子单元具体用于：

对所述第一图像区域特征进行归一化处理，得到归一化值；

根据所述归一化值、预设系数和当前聚类中心计算更新后的聚类中心，以对所述聚类中心进行更新。

在本申请的一个实施例中，所述第一匹配情况获取单元具体用于：

计算所述第二样本图像中在非异常区域的图像区域特征与各个目标聚类中心之间的距离，并将最小距离对应的目标聚类中心作为与所述第二样本图像中在非异常区域的图像区域特征匹配的目标聚类中心；

将所述第二样本图像中在非异常区域的多个图像区域特征匹配的目标聚类中心作为所述第二样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况。

将所述第二样本图像中在非异常区域的多个图像区域特征各自属于所述多个目标聚类中心的概率分布作为所述第二样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况。

计算所述第二样本图像中在非异常区域的图像区域特征与各个目标聚类中心的距离；

将所述第二样本图像中在非异常区域的图像区域特征与各个目标聚类中心的距离除以所述第二样本图像中在非异常区域的图像区域特征与各个目标聚类中心的距离之和得到的值，作为所述第二样本图像中在非异常区域的图像区域特征属于所述多个目标聚类中心的概率分布。

在本申请的一个实施例中，所述装置还包括：

模型权重更新模块，用于根据所述语义一致训练过程中输出的针对所述两个样本图像在非异常区域的图像特征的语义预测结果以及所述两个样本图像对应的软标签计算第一模型损失；根据所述异常区域的检测过程中输出的针对所述两个样本图像的异常区域预测结果以及所述两个样本图像对应的预设标签计算第二模型损失；根据所述第一模型损失和所述第二模型损失更新所述初始图像检测模型的权重。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的图像检测方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器执行所述可执行指令使得所述电子设备执行如以上技术方案中的图像检测方法。

根据本申请实施例的一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上技术方案中的图像检测方法。

在本申请实施例提供的技术方案中，通过分别对待检测图像中的多个待检测图像区域和模板图像中的多个模板图像区域进行图像特征提取，得到多个待检测图像区域特征和多个模板图像区域特征；进而根据各个待检测图像区域特征与对应的模板图像区域特征之间的特征差值确定各个待检测图像区域特征对应的待检测图像区域是否异常，充分利用了模板图像所包含的无异常的图像特征来进行图像检测，提高了图像检测的准确性；另一方面，通过对各个待检测图像区域进行检测，细化了图像检测的粒度，可以达到像素级别的图像检测效果，并且可以精确定位到待检测图像中存在异常的图像区域，进一步提高异常图像的检测精度和检测的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了应用本申请技术方案的示例性系统架构框图。

图2示意性地示出了本申请一个实施例提供的图像检测方法的流程图。

图3示意性地示出了本申请一个实施例提供的图像检测方法的流程图。

图4示意性地示出了本申请一个实施例提供的图像检测模型的结构示意图。

图5示意性地示出了本申请一个实施例提供的语义一致训练过程的流程图。

图6示意性地示出了本申请一个实施例提供的语义类别识别过程的示意图。

图7示意性地示出了本申请实施例提供的图像检测装置的结构框图。

图8示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

如图1所示，系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、智能语音交互设备、智能家电、车载终端、飞行器等等。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

根据实现需要，本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如，服务器130可以是由多个服务器设备组成的服务器群组。另外，本申请实施例提供的技术方案可以应用于终端设备110，也可以应用于服务器130，或者可以由终端设备110和服务器130共同实施，本申请对此不做特殊限定。

本申请技术方案可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

举例而言，本申请技术方案可以应用于智慧工厂，例如，可以应用于纺织工厂的布匹质量检测设备。在布匹生产线的指定位置安装摄像装置，通过摄像装置拍摄所生成布匹的图像，并将该图像作为待检测图像传输至布匹质量检测设备。布匹质量检测设备可以预先存储布匹生产线上不同位置处的模板图像，在获取到待检测图像时，布匹质量检测设备可以根据该待检测图像的拍摄位置获取对应的模板图像。然后，布匹质量检测设备通过目标图像检测模型，分别对待检测图像中的多个待检测图像区域和模板图像中的多个模板图像区域进行图像特征提取，得到多个待检测图像区域特征和多个模板图像区域特征；目标图像检测模型是通过两个样本图像的异常区域的检测训练，以及两个样本图像在非异常区域的图像特征的语义一致训练得到的。最后，布匹质量检测设备通过目标图像检测模型，根据多个待检测图像区域特征与多个模板图像区域特征之间的特征差值，确定待检测图像的异常区域。布匹质量检测设备可以根据各个待检测图像区域特征对应的区域特征差计算待检测图像区域与模板图像区域之间的距离，当该距离大于阈值时，即认为对应的待检测图像区域存在异常。存在异常即表明布匹中对应区域存在瑕疵，此时布匹质量检测设备可以生成异常提示信息，以告知生产过程中的其他流程需对此布匹进行检修，避免瑕疵布匹流出。

在本申请中，图像特征提取、特征差值计算以及图像异常检测可以通过机器学习技术实现，例如，构建一种机器学习模型并对其进行训练，进而可以使用训练好的机器学习模型实现上述过程。机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请技术方案还可以应用于计算机视觉技术中。计算机视觉技术(ComputerVision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

下面结合具体实施方式对本申请提供的图像检测方法做出详细说明。

图2示意性地示出了本申请一个实施例提供的图像检测方法的流程图，该方法可以通过本申请任意实施例提供的图像检测装置实施，该装置可以配置于终端设备或服务器中，例如图1所示的终端设备110或服务器130。下面将以图像检测装置作为执行主体来阐述图像检测方法的具体实施过程。如图2所示，本申请实施例提供的图像检测方法包括步骤210至步骤230，具体如下：

步骤210、获取待检测图像和待检测图像对应的模板图像。

具体地，待检测图像是当前不确定是否存在异常、需要进行图像检测的图像，模板图像是不存在异常的图像，待检测图像与模板图像具有对应关系，待检测图像及其模板图像所包含的图像对象应是同一种。例如，对于印花纺织布料，当待检测图像是桃花纺织布料图像时，对应的模板图像同样是桃花纺织布料图像；当待检测图像是梅花纺织布料图像时，对应的模板图像同样是梅花纺织布料图像。在一些情况下，模板图像还与待检测图像的拍摄位置相关，例如，在桃花纺织布料的生产过程中，生产线上不同位置处对应的模板图像不同。

在本申请的一个实施例中，模板图像可以是图像检测装置预先存储的正常图像。在一些情况下，图像检测装置可以将在待检测图像之前进行图像检测过程中所确定的正常图像作为模板图像。示例性的，对于纺织布料生产线上的某个点位，在当前时刻对待检测图像进行图像检测时，图像检测装置可以获取在当前时刻之前进行图像检测过、且图像检测结果确定正常的该点位的纺织布料图像作为当前时刻的待检测图像对应的模板图像。图像检测装置可以获取距离当前时刻最近的正常图像作为模板图像，也可以周期性地基于图像检测所确定的正常图像对模板图像进行更新。

步骤220、通过目标图像检测模型，分别对待检测图像中的多个待检测图像区域和模板图像中的多个模板图像区域进行图像特征提取，得到多个待检测图像区域特征和多个模板图像区域特征；目标图像检测模型是通过两个样本图像的异常区域的检测训练，以及两个样本图像在非异常区域的图像特征的语义一致训练得到的。

具体地，目标图像检测模型可以对图像进行特征提取并根据提取的特征进行图像异常区域的检测。为了提高异常区域检测的精度，本实施例中通过两个样本图像的异常区域的检测训练结合两个样本图像在非异常区域的图像特征的语义一致训练，得到目标图像检测模型。样本图像的异常区域的检测训练可以使得图像检测模型能够准确识别出图像中的异常区域，语义一致训练可以使得图像检测模型能够准确识别图像区域所属的语义类别。语义类别是从语义信息上对图像分类所产生的类型，对于纺织布料图像来说，语义信息可以包括图像所反映的布料的纹理、样式、背景、花纹、装饰、颜色等信息，语义类别可以根据对应的语义信息来设定，比如语义类别可以包括条纹、印花、纯色等等。

将未训练好的模型即为初始图像检测模型，那么异常区域的检测训练是根据初始图像检测模型提取的样本图像的图像区域特征进行异常区域检测，语义一致训练是根据初始图像检测模型提取的样本图像的图像区域特征识别图像区域的语义类别。可以看出，异常区域检测训练和语义一致训练都是根据初始图像检测模型提取的样本图像的图像区域特征进行处理，从而要求初始图像检测模型提取的样本图像的图像区域特征既包含异常检测所需的信息，又包含语义类别识别所需的信息，进而增加了模型的语义感知能力，使得训练好的目标图像检测模型能够结合语义信息和异常检测所需的信息进行图像特征提取，进而使得后续能够结合语义信息确定待检测图像的异常区域，提高异常区域的识别精度和准确性。

进一步的，语义一致训练是基于样本图像在非异常区域的图像特征进行训练，之所以这样做，是因为非异常区域的语义类别通常不会改变，基于这一先验知识对模型进行训练，可以增强模型对于异常区域的感知能力，再结合异常检测训练，从而进一步加强模型对于图像异常区域的感知，提高异常检测的准确性。

在进行图像特征提取时，首先将图像分为多个图像区域，即将待检测图像划分为多个待检测图像区域，将模板图像划分为多个模板图像区域，然后对各个图像区域进行图像特征提取，得到对应的图像区域特征。在本申请实施例中，图像区域的最小尺寸为一个像素。待检测图像区域的划分方式与模板图像区域的划分方式相同，以保证待检测图像区域与模板图像区域是一一对应的。对每个待检测图像区域进行图像特征提取，得到对应的待检测图像区域特征，同样的，对每个模板图像区域进行图像特征提取，得到对应的模板图像区域特征。

在本申请的一个实施例中，目标图像检测模型可以通过神经网络实现，神经网络包括机器学习网络、深度学习网络等。在本申请实施例，目标图像检测模型中进行图像特征提取的网络称为主干网络，目标图像检测模型通过第一主干网络对待检测图像中的多个待检测图像区域进行图像特征提取，通过第二主干网络对模板图像中的多个模板图像区域进行图像特征提取，第一主干网络和第二主干网络是不同的网络，但是第一主干网络和第二主干网络是孪生网络，即第一主干网络和第二主干网络的网络结构及相关参数（例如网络权重）相同。通过互为孪生网络的两个网络分别对待检测图像和模板图像进行图像特征提取，进而可以充分利用模板图像的特征，后续可以基于提取的图像特征来判断待检测图像和模板图像之间的区别，进而判断待检测图像中是否存在异常，提高异常图像检测的准确性。孪生网络可以是UNet网络结构、基于Transformer的ViT模型、Swin-t模型等。

在本申请的一个实施例中，图像特征提取包括多次特征提取过程，这样可以提取深度更深、感受野更大的图像特征。示例性的，每次特征提取通过一个残差网络结构实施，串联多个残差网络结构，实现多次特征提取。在一些情况下，特征提取的输出数据体现为特征图的形式，每经过一次特征提取，所得到的特征图尺寸变宽、变窄。

步骤230、通过所述目标图像检测模型，根据所述多个待检测图像区域特征与所述多个模板图像区域特征之间的特征差值，确定待检测图像的异常区域。

具体地，在得到待检测图像区域特征和模板图像区域特征之后，计算二者之间的特征差值，一个待检测图像区域特征与其对应的模板图像区域特征之间的特征差值记为该待检测图像区域特征对应的区域特征差。

在本申请的一个实施例中，待检测图像区域特征与其对应的模板图像区域特征之间的特征差值可以通过待检测图像区域特征与其对应的模板图像区域特征之间的距离来表示，该距离可以是欧式距离、余弦距离等。

待检测图像区域特征对应的区域特征差，体现了该待检测图像区域特征对应的待检测图像区域与其对应的模板图像区域之间的差异性。由于模板图像是正常图像，那么待检测图像与模板图像之间的差异性越小，表明待检测图像与模板图像越相似，进而表明待检测图像存在异常的概率越小。以区域特征差为待检测图像区域特征与其对应的模板图像区域特征之间的距离为例来说明，当区域特征差小于预设距离阈值时，表示对应的待检测图像区域与模板图像区域具有较高的相似性，此时可以认为待检测图像区域与模板图像区域一致，即待检测图像区域无异常。当区域特征差大于预设距离阈值时，表示对应的待检测图像区域与模板图像区域之间具有较大的差异性，此时可以认为待检测图像区域与模板图像区域不一致，即待检测图像区域存在异常。可以理解，区域特征差等于预设距离阈值的情况可以根据实际需求归类至区域特征差大于预设距离阈值或者区域特征差小于预设距离阈值的情况。

在本申请的一个实施例中，图像检测装置可以直接将各待检测图像区域是否异常的检测结果作为待检测图像的检测结果，当待检测图像区域尺寸最够小时，就可以得到像素级别的图像检测结果，可以精确定位到待检测图像中存在异常的图像区域，提高异常图像的检测精度和检测的准确性。

在本申请的一个实施例中，图像检测装置可以根据各待检测图像区域中存在异常的待检测图像区域的数量来确定待检测图像的检测结果。例如，当存在异常的待检测图像区域的数量大于阈值，或者存在异常的待检测图像区域的数量占比大于预设值时，可以认为待检测图像存在异常；否则，认为待检测图像无异常。

在本申请实施例提供的技术方案中，通过目标图像检测模型分别对待检测图像中的多个待检测图像区域和模板图像中的多个模板图像区域进行图像特征提取，得到多个待检测图像区域特征和多个模板图像区域特征；进而根据各个待检测图像区域特征与对应的模板图像区域特征之间的特征差值确定各个待检测图像中的异常区域，一方面，由于目标图像检测模型是通过两个样本图像的异常区域的检测训练，以及两个样本图像在非异常区域的图像特征的语义一致训练得到的，故而目标图像检测模型具有较强的语义感知能力，能够结合图像语义信息和异常信息进行异常检测，进一步提高了图像异常检测的准确性。另一方面，充分利用了模板图像所包含的无异常的图像特征来进行图像检测，提高了图像检测的准确性，并且通过对各个待检测图像区域进行检测，细化了图像检测的粒度，可以达到像素级别的图像检测效果，并且可以精确定位到待检测图像中存在异常的图像区域，进一步提高异常图像的检测精度和检测的准确性。

图3示意性地示出了本申请一个实施例提供的图像检测方法的流程图，本实施例是对上述实施例的进一步细化。如图3所示，本申请实施例提供的图像检测方法包括步骤310至步骤370，具体如下：

步骤310、获取初始图像检测模型，初始图像检测模型包括第一主干网络、第二主干网络和分割网络，第一主干网络和第二主干网络相同，第一主干网络用于提取两个样本图像中一个样本图像的特征，第二主干网络用于提取两个样本图像中另一个样本图像的特征，分割网络用于根据第一主干网络和第二主干网络提取的特征确定两个样本图像的异常区域。

具体的，从结构上划分，初始图像检测模型包括第一主干网络、第二主干网络和分割网络，第一主干网络和第二主干网络为孪生网络，即二者相同。第一主干网络和第二主干网络用于进行图像特征提取，二者可以同时分别对不同的图像进行图像特征提取，在训练过程中，第一主干网络用于提取两个样本图像中一个样本图像的特征，第二主干网络用于提取两个样本图像中另一个样本图像的特征。分割网络用于识别图像的异常区域，其根据第一主干网络和第二主干网络提取的特征之间的差别来确定两个样本图像的异常区域。分割网络的结构可以由ASPP (atrous spatial pyramid pooling，空洞空间卷积池化金字塔)网络结合语义分割头构成。

在本申请的一个实施例中，从功能上划分，初始图像检测模型包括图像的异常检测部分和图像的语义类别识别部分，图像的异常检测部分包括主干网络和分割网络，图像的语义类别识别部分包括主干网络和图像语义识别网络，主干网络包括第一主干网络和第二主干网络。图像语义识别网络用于识别图像所属的语义类别，语义类别是从语义信息上对图像分类所产生的类型，对于纺织布料图像来说，语义信息可以包括图像所反映的布料的纹理、样式、背景、花纹、装饰、颜色等信息，语义类别可以根据对应的语义信息来设定，比如语义类别可以包括条纹、印花、纯色等等。

步骤320、通过第一主干网络和第二主干网络提取的特征，进行两个样本图像在非异常区域的图像特征的语义一致训练，以更新初始图像检测模型的权重。

具体地，语义一致训练是根据初始图像检测模型提取的样本图像的图像区域特征识别图像区域的语义类别，该过程也可以称为图像的语义识别部分。图像的语义类别识别部分类似多分类过程，标签数量多，如果对所有样本图像增加语义类别标签，将增加样本图像的采集压力。因此，通过无监督训练方式来训练图像的语义类别识别部分，可以使用大规模的无标签样本图像来自动获取语义类别，降低样本图像的采集压力。

在语义一致训练过程中，第一主干网络对两个样本图像中的一个样本图像的各个样本图像区域进行图像特征提取，得到对应的样本图像区域特征；同时，第一主干网络对两个样本图像中的另一个样本图像的各个样本图像区域进行图像特征提取，得到对应的样本图像区域特征。然后，基于其中一个样本图像的样本图像区域特征生成另一个样本图像中对应样本图像区域的软标签，该软标签用于标识另一个样本图像中对应样本图像区域所属的语义类别。最后可以基于该软标签进行“有监督”训练，即以软标签作为语义识别的预测目标，根据训练过程中语义识别的预测值和对应的预测目标（软标签）计算模型损失，该模型损失用于更新初始图像检测模型的权重。

步骤330、通过第一主干网络和第二主干网络提取的特征，进行两个样本图像的异常区域的检测训练，以更新初始图像检测模型的权重。

具体地，异常区域检测训练所依据的图像特征与前述步骤语义一致训练所依据的图像特征相同，即第一主干网络对两个样本图像中的一个样本图像的各个样本图像区域进行图像特征提取，得到对应的样本图像区域特征；同时，第一主干网络对两个样本图像中的另一个样本图像的各个样本图像区域进行图像特征提取，得到对应的样本图像区域特征。然后通过分割网络识别两个样本图像的样本图像区域特征间的差异，进而确定样本图像中的异常区域。

使用样本图像进行异常区域的检测训练时，样本图像具有一标签，该标签用于标识样本图像中的图像区域是否存在异常。示例性的，当样本图像中存在异常图像区域时，将该图像区域的标签设置为1；否则，将正常图像区域的标签设置为0。因此，异常区域的检测训练过程可以采用有监督训练方式。图像的异常检测部分相当于通过分割网络对图像进行了二分类，标签数量少，通过有标签数据进行有监督训练，可以提高模型进行异常检测的准确性。

示例性的，图4示意性地示出了本申请一个实施例提供的图像检测模型的结构示意图。如图4所示，图像检测模型包括主干网络410、图像语义识别网络420和分割网络430。其中，主干网络410采用孪生网络形式，包括第一主干网络411和第二主干网络412，第一主干网络411和第二主干网络412互为孪生网络，二者的网络结构及相关参数相同，相互之间权重绑定，即使用相同的网络权重。以第一主干网络411为例，第一主干网络411包括多个特征提取模块，如图4所示的特征模块P1~P5。样本图像x1输入图像检测模型后，首先由第一主干网络411中的特征模块P1~P5依次进行特征提取，最后由特征模块P5输出样本图像x1的样本图像区域特征。基于孪生网络结构，在训练过程中，还需要将另一样本图像x2输入至图像检测模型，由第二主干网络412中的特征模块P’1~P’5依次进行特征提取，最后由特征模块P’5输出样本图像x2的样本图像区域特征。在特征提取过程中，主干网络410将样本图像划分为多个样本图像区域，然后针对各个样本图像区域进行图像特征提取。

语义一致训练又称为语义蒸馏训练，故而图像语义识别网络420又称为语义蒸馏模块或语义一致训练模块，该模块使用主干网络410输出的样本图像x1的样本图像区域特征和样本图像x2的样本图像区域特征进行语义蒸馏，来识别样本图像x1和样本图像x2对应的语义类别。在样本图像划分为多个样本图像区域的情况下，图像语义识别网络420用于识别各个样本图像区域对应的语义类别。

分割网络430又称为差分变化模块，其根据样本图像x1的样本图像区域特征和样本图像x2的样本图像区域特征之间的特征差值判断样本图像x1和样本图像x2之间的差异。在样本图像划分为多个样本图像区域的情况下，分割网络430用于检测两个样本图像中对应位置的样本图像区域之间对应的差异。

在目标图像检测模型的使用过程中，待检测图像输入至第一主干网络411，由特征模块P5输出多个待检测图像区域特征。模板图像输入至第二主干网络412，由特征模块P’5输出多个模板图像区域特征。最后，分割网络430根据待检测图像区域特征和模板图像区域特征之间的特征差值判断待检测图像区域是否存在异常。

在本申请的一个实施例中，模型权重更新过程具体包括：根据语义一致训练过程中输出的针对两个样本图像在非异常区域的图像特征的语义预测结果以及两个样本图像对应的软标签计算第一模型损失；根据异常区域的检测过程中输出的针对两个样本图像的异常区域预测结果以及两个样本图像对应的预设标签计算第二模型损失；根据第一模型损失和第二模型损失更新初始图像检测模型的权重。

具体而言，基于语义一致训练过程得到第一模型损失，基于异常区域检测训练过程得到第二模型损失，最后融合第一模型损失和第二模型损失，对初始图像检测模型的权重进行更新，例如，可以采用反向传播法和梯度下降法实现模型参数更新。第一模型损失体现出模型对于语义信息的学习，第二模型损失体现出模型对图像异常信息的学习，通过融合这两种损失来更新模型参数，为模型的图像异常检测过程注入语义类别感知能力，进而提高模型的异常检测准确性。

步骤340、将训练好的初始图像检测模型，作为目标图像检测模型。

具体地，最终训练好的初始图像检测模型既具备图像异常检测能力，又具备图像语义类别识别能力。在本实施例中，应用目标图像检测模型对待检测图像进行检测时，舍弃了模型的图像语义类别识别能力，但并不影响模型的图像异常检测能力，目标图像检测模型具有较高的实用价值。

步骤350、获取待检测图像和待检测图像对应的模板图像。

步骤360、通过目标图像检测模型，分别对待检测图像中的多个待检测图像区域和模板图像中的多个模板图像区域进行图像特征提取，得到多个待检测图像区域特征和多个模板图像区域特征；目标图像检测模型是通过两个样本图像的异常区域的检测训练，以及两个样本图像在非异常区域的图像特征的语义一致训练得到的。

步骤370、通过目标图像检测模型，根据多个待检测图像区域特征与多个模板图像区域特征之间的特征差值，确定待检测图像的异常区域。

步骤350-步骤370的具体实施过程与前述实施例中的步骤210-步骤230相同，在此不再赘述。

在传统的图像检测技术中，由于无法结合语义信息而容易产生误判，例如，将纹理变化后的布料图像判定为瑕疵布料图像，这种图像缺陷通常是非真实缺陷。而在本申请实施例提供的技术方案中，图像的异常检测部分和图像的语义类别识别部分共用同一个主干网络，基于此，主干网络所提取的图像特征即包括进行语义类别识别所需要的语义特征，又包括进行异常检测所需要的图像特征，那么，分割网络在根据主干网络输出的特征确定图像是否异常时，实际上也参考了图像的语义特征。因此，本实施例中的目标图像检测模型能够结合图像语义信息进行图像检测，能够更加准确地检测出因语义变化而产生的非真实缺陷，进而提高了异常图像的检测准确性。

在本申请的一个实施例中，图5示意性地示出了本申请一个实施例提供的语义一致训练过程的流程图。如图5所示，语义一致训练过程包括步骤510至步骤570，具体如下：

步骤510、基于目标对象的第一样本图像中的多个图像区域特征，获取所述多个图像区域特征对应的多个目标聚类中心。

具体地，目标对象是指样本图像中所包含的对象，训练时应基于同一目标对象的样本图像进行训练，也就是在一次训练过程中，语义一致训练和异常区域检测训练应该使用同一目标对象所对应的样本图像，例如，布匹生产线上不同位置处的布匹所包含的对象不同，在一次训练过程中，应使用同一位置出的布匹样本图像。也可以将样本图像分为多个批次，不同批次的样本图像可以对应于不同的目标对象，同一批次的样本图像应对于相同的目标对象。

对第一样本图像中的多个图像区域特征进行聚类处理，实际上就是对这多个图像区域特征进行语义类别的分类处理，得到的目标聚类中心即表示对应的语义类别。

在本申请的一个实施例中，第一样本图像包括第一图像和第二图像，聚类过程具体包括：通过第一主干网络，获取第一图像对应的多个第一图像区域特征；通过第二主干网络，获取第二图像对应的多个第二图像区域特征；对多个第一图像区域特征和多个第二图像区域特征进行聚类处理，得到多个目标聚类中心。

为了实现像素级别的图像检测和语义类别识别，在进行图像特征提取时，对第一图像和第二图像进行划分，将第一图像划分为多个第一图像区域，同时将第二图像划分为多个第二图像区域。而后，通过第一主干网络对第一图像中的多个第一图像区域进行特征提取，得到多个第一图像区域特征；通过第二主干网络对第二图像中的多个第二图像区域进行特征提取，得到多个第二图像区域特征。主干网络的结构可以参考图4所示的网络结构示意图。最后对多个第一图像区域特征和多个第二图像区域特征进行聚类处理，得到所需要的多个目标聚类中心。

在本申请的一个实施例中，多个第一图像区域特征和多个第二图像区域特征进行聚类时共用同一组聚类中心，也就分别对多个第一图像区域特征和多个第二图像区域特征进行聚类（进行了两次聚类），但是聚类过程中的聚类中心是共享的，那么最终多个第一图像区域特征和多个第二图像区域特征对应于同一组目标聚类中心。

具体而言，该聚类过程包括：根据多个第一图像区域特征对多个初始化聚类中心进行更新，得到多个候选聚类中心；根据多个第二图像区域特征对多个候选聚类中心进行更新，得到多个目标聚类中心。

首先获取一组初始化聚类中心，然后选择两个图像中其中一个图像对应的图像区域特征进行聚类，本实施例以先对第一图像区域特征进行聚类为例。对多个第一图像区域特征进行无监督聚类得到的聚类中心记为候选聚类中心，该聚类过程是从初始化聚类中心开始进行聚类，通过不断迭代优化聚类中心，得到最终的候选聚类中心，其中，初始化聚类中心是预先设定的，在一些情况下，初始化聚类中心也可以在多个第一图像区域特征中随机确定。在对第一图像区域特征聚类完成后，第二图像区域特征在第一图像区域特征的聚类结果的基础上继续进行聚类，也即，在第二图像区域的聚类过程中，其初始聚类中心是基于第一图像区域特征聚类得到的候选聚类中心。最终，第二图像区域特征聚类完成后得到的聚类中心记为目标聚类中心。

在本申请的一个实施例中，聚类过程涉及聚类中心的更新，第一图像区域特征的聚类过程与第二图像区域特征的聚类过程相同，聚类中心的更新步骤也相同，下面以第一图像区域特征为例来说明聚类时的聚类中心更新过程。在更新聚类中心时，首先计算第一图像区域特征与第一图像区域特征当前所匹配的聚类中心之间的第一距离，以及计算第一图像区域特征与第一图像区域特征当前不匹配的聚类中心之间的第二距离。一般的，与第一图像区域特征相匹配的聚类中心为一个，与第一图像区域特征当前不匹配的聚类中心（记为不匹配聚类中心）有多个，故而第二距离是指第一图像区域特征与所有不匹配聚类中心的距离之和。然后，根据第一距离和第二距离计算相对聚类损失值，该相对聚类损失值可以通过比对损失的方式进行计算。第一距离和第二距离体现的是第一图像区域特征与对应聚类中心之间的相对距离，故而此时的相对聚类损失值约束的是第一图像区域特征与当前各个聚类中心之间的相对距离。最后基于相对聚类损失值对聚类中心进行更新，直至相对聚类损失值达到预设条件，完成聚类中心的迭代优化，得到候选聚类中心。

示例性的，假设图像中的图像区域i经过主干网络提取的图像区域特征为f_i，f_i∈R_1ⅹn，其中，n表示特征向量的维度。那么图像对应的所有特征可以记为X={f_i|i=1,…,M}，M表示图像所包含的图像区域的总数，那么X∈R_Mⅹn。相应的，假设聚类中心（prototype）的集合记为P，用P_k表示第k个聚类中心，则P_k∈R_1ⅹn，聚类中心总数记为K个，K值需在聚类前预先设定，那么有P={P_k|k=1,…,K}，P∈R_Kⅹn。

无标签数据聚类的目标是将具有相似特征的图像区域归类到同一个聚类中心，也就是使图像区域特征f_i与对应的聚类中心P_k尽可能接近，同时，不同的聚类中心要尽可能的分开，即图像区域中语义类别相差较大的图像区域特征所对应的最近的聚类中心要分得开。本实施例将图像区域特征f_i与聚类中心P_k之间的匹配关系用表示，其中为独热（one-hot）编码，当l为0时，表示图像区域特征f_i与对应聚类中心不匹配，当l为1时，表示图像区域特征f_i与对应聚类中心匹配。那么聚类目标可以抽象为：

其中，表示求匹配关系矩阵L的最优解，X^T为所有图像区域特征所构成矩阵的转置矩阵，P为聚类中心构成的矩阵。1^M表示全为1的M维向量，唯一匹配限制表示每个图像区域特征只能与一个聚类中心进行匹配，均等匹配限制表示强制每个聚类中心匹配到的图像区域特征的数量尽可能一致，即在每个训练批次（batch）中，每个聚类中心平均被匹配M/K次。唯一匹配限制和均等匹配限制有利于避免聚类中心迭代优化过程中的崩溃解（即所有图像区域特征均匹配至同一个聚类中心），从而保证每个聚类中心都具有一定的代表性。

为了优化聚类目标，本实施例放松对匹配关系矩阵L的限制，使其变为一个可以梯度求导的实数矩阵，即：

其中表示分配的熵，一般希望熵越大则分配越集中，而则为预设常数，用来正则化分配特征向量的平滑程度，取值范围是(0,1]。通过上述转化，将聚类中心的优化转化为求解最有传输距离，可以通过Sinkhorn-Knopp算法进行求解。

假设图像区域特征f_i匹配到的聚类中心为P_i,k，则相对聚类损失值L_contrast参考下式进行计算：

其中，表示图像区域特征f_i与图像区域特征f_i当前所匹配的聚类中心P_i,k之间的第一距离，表示图像区域特征f_i与所述图像区域特征f_i当前不匹配的聚类中心之间的第二距离，k’表示不匹配聚类中心的编号。

在计算相对聚类损失值后，对聚类中心进行更新，以基于更新后的聚类中心重新进行聚类，直至相对聚类损失值达到预设条件。例如，判断相对聚类损失值与预设相对阈值的大小，当相对聚类损失值大于预设相对阈值时，对聚类中心进行更新，根据更新后的聚类中心再次进行聚类，直至相对聚类损失值小于或等于预设相对阈值。可选的，也可以设置迭代次数，当迭代次数未达到设定次数时，对聚类中心更新以重新进行聚类。

在本申请的一个实施例中，除了采用相对聚类损失来约束图像区域特征和各个聚类中心之间的相对距离外，本申请实施例在进行聚类中心更新时，还引入了图像区域特征和各个聚类中心之间的绝对距离作为更新条件，具体包括：根据图像区域特征和图像区域特征当前所匹配的聚类中心之间的第一距离计算绝对聚类损失值；根据相对聚类损失值和相对聚类损失值对聚类中心进行更新，直至相对聚类损失值和相对聚类损失值达到预设条件。

绝对聚类损失值L_direct的计算方式参考下式：

在更新聚类中心时，判断相对聚类损失值和相对聚类损失值是否均达到预设条件，比如相对聚类损失值是否小于或等于预设相对阈值，绝对聚类损失值是否小于或等于预设绝对阈值。当二者未达到相应条件，进行聚类中心的迭代更新。相对聚类损失值可以拉近图像区域特征f_i与其匹配的聚类中心P_i,k之间的距离，同时拉远图像区域特征f_i与其不匹配的聚类中心P_i,k’之间的距离。相对聚类损失值可以使特征分布更加紧凑，鼓励模型最小化语义类别相近的一些图像区域特征之间的距离。

在本申请的一个实施例中，聚类中心的更新采用动量更新的形式，具体包括：对图像区域特征进行归一化处理，得到归一化值；根据归一化值、预设系数和当前聚类中心计算更新后的聚类中心，以对聚类中心进行更新。具体可以参考下式：

其中，箭头“←”左侧的P_i,k表示更新后的聚类中心，箭头“←”右侧的P_i,k表示当前聚类中心（更新前的聚类中心）。表示图像区域特征的归一化值，例如可以采用L2归一化值。μ为预设系数，或称为动量系数，取值范围是[0,1]，一般取0.999来稳定聚类过程。

在本申请的一个实施例中，聚类可以采用在线聚类的方式，聚类中心的更新可以通过在线的端到端方式进行迭代优化，使得模型能够实时更新。可选的，也可以采用离线聚类方式。

步骤520、通过第一主干网络，获取目标对象的第二样本图像中的多个图像区域特征。

具体地，第二样本图像可以与第一样本图像相同，也可以与第一样本图像不同，但是二者包含同一目标对象。第二样本图像的图像区域特征的获取过程与前述步骤中的图像特征提取过程相同，在此不再赘述。

步骤530、获取第二样本图像中在非异常区域的多个图像区域特征与多个目标聚类中心的匹配情况。

具体的，由于语义一致训练是基于样本图像中的非异常区域的图像区域特征进行训练，故而此步骤获取的匹配情况仅针对非异常区域的图像区域特征即可。

在本申请的一个实施例中，图像区域特征与多个目标聚类中心的匹配情况通过图像区域特征所属目标聚类中心来表示，该步骤具体包括：计算第二样本图像中在非异常区域的图像区域特征与各个目标聚类中心之间的距离，并将最小距离对应的目标聚类中心作为与第二样本图像中在非异常区域的图像区域特征匹配的目标聚类中心；将第二样本图像中在非异常区域的多个图像区域特征匹配的目标聚类中心作为第二样本图像中在非异常区域的多个图像区域特征与多个目标聚类中心的匹配情况。

具体而言，图像区域特征与目标聚类中心是否匹配，可以通过图像区域特征与目标聚类中心之间的距离来体现。二者距离越近，即表示二者越相似，那么二者的匹配度越高；二者距离越远，即表示二者越不相似，那么二者的匹配度越低。图像区域特征与目标聚类中心之间的距离，可以通过欧式距离、余弦距离等距离计算方法得到，也可以通过余弦相似度等相似度计算方法来体现二者距离。

在本申请的一个实施例中，图像区域特征与多个目标聚类中心的匹配情况还可以通过图像区域特征在多个目标聚类中心的概率分布来表示，该步骤具体包括：将第二样本图像中在非异常区域的多个图像区域特征各自属于多个目标聚类中心的概率分布作为第二样本图像中在非异常区域的多个图像区域特征与多个目标聚类中心的匹配情况。

具体而言，概率分布体现了图像区域特征与各个目标聚类中心之间的匹配情况，概率分布的计算过程包括：首先计算第二样本图像中在非异常区域的图像区域特征与各个目标聚类中心的距离；然后将第二样本图像中在非异常区域的图像区域特征与各个目标聚类中心的距离除以第二样本图像中在非异常区域的图像区域特征与各个目标聚类中心的距离之和得到的值，作为第二样本图像中在非异常区域的图像区域特征属于多个目标聚类中心的概率分布。

示例性的，可以参考下式计算图像区域特征在各个目标聚类中心的概率分布：

其中，p(c|i)表示第i个样本图像区域特征与第c个目标聚类中心相匹配的概率，v_i表示进行模型训练特征，在本实施例中，v_i即样本图像区域特征f_i。τ为温度系数，一般设置为0.07。

步骤540、通过第二主干网络，获取目标对象的第三样本图像中的多个图像区域特征，第二样本图像和第三样本图像属于两个样本图像。

步骤550、获取第三样本图像中在非异常区域的多个图像区域特征与多个目标聚类中心的匹配情况。

具体地，第三样本图像的图像区域特征的获取过程，以及图像区域特征与多个目标聚类中心的匹配情况的计算过程与前述步骤中对第二样本图像的进行图像特征提取和匹配情况计算的过程相同，在此不再赘述。需要说明的是，第三样本图像可以和第一样本图像相同，也可以不同，但是第三样本图像和第二样本图像不属于同一图像。

步骤560、将第二样本图像中在非异常区域的多个图像区域特征与多个目标聚类中心的匹配情况，作为第三样本图像中在非异常区域的多个图像区域特征与多个目标聚类中心的匹配情况的软标签，对初始图像检测模型进行语义一致训练，以更新初始图像检测模型的权重。

步骤570、将第三样本图像中在非异常区域的多个图像区域特征与多个目标聚类中心的匹配情况，作为第二样本图像中在非异常区域的多个图像区域特征与多个目标聚类中心的匹配情况的软标签，对初始图像检测模型进行语义一致训练，以更新初始图像检测模型的权重。

具体地，主干网络包括两个子网络，即第一主干网络和第二主干网络，将一个子网络视为一条模型中的一条支路，那么初始图像检测模型包括两个支路：第一主干网络对应的支路和第二主干网络对应的支路。在进行语义一致训练时，将其中一条支路输出特征的匹配结果作为另外一条支路输出结果的软标签，相当于自动给另外一条支路的输入数据添加了标签，实现“有监督”训练。支路输出特征的匹配结果是指该支路输出的图像区域特征与多个目标聚类中心的匹配情况，支路的输出结果是指基于该支路提取的特征进行语义类别预测所得到的预测结果。软标签也就是预测目标，这种将其中一条支路输出特征的匹配结果作为另外一条支路输出结果的软标签的方式也称为交叉预测，交叉预测仅针对非异常区域的图像区域特征。

基于上述规则，在对第二样本图像进行语义类别识别时，需要将第三样本图像中在非异常区域的多个图像区域特征与多个目标聚类中心的匹配情况作为对应的软标签；在对第三样本图像进行语义类别识别时，需要将第二样本图像中在非异常区域的多个图像区域特征与多个目标聚类中心的匹配情况作为对应的软标签。

在本申请的一个实施例中，当软标签是以图像区域特征所匹配的目标聚类中心来表示时，语义识别过程可以形式化地表示如下：

其中，x₁表示第三样本图像，x₂表示第二样本图像， c指第c个目标聚类中心，C为目标聚类中心总数，表示第三样本图像中的第i个图像区域特征匹配的目标聚类中心，表示第二样本图像中的第i个图像区域特征匹配的目标聚类中心，表示第三样本图像x₁中的第i个图像区域特征的预测结果，表示第二样本图像x₂中第i个图像区域特征的预测结果。

在本申请的一个实施例中，当软标签是以图像区域特征在各个目标聚类中心的概率分布来表示时，语义识别过程可以形式化地表示如下：

其中，p(c|i,x₂)表示第二样本图像x₂中第i个图像区域特征在第c个目标聚类中心的概率分布，p(c|i,x₁)表示第三样本图像x₁中第i个图像区域特征在第c个目标聚类中心的概率分布。

在本申请的一个实施例中，最后在计算用于更新模型权重的模型损失时，各条支路根据预测结果和对应的软标签分别计算损失，然后融合各支路的损失得到语义一致训练时的模型损失。

示例性的，图6示意性地示出了本申请一个实施例提供的语义类别识别过程的示意图。如图6所示，第一样本图像x₁经过第一主干网络的图像特征提取得到第一样本图像特征f_θ1，第二样本图像x₂经过第二主干网络的图像特征提取得到第二样本图像特征f_θ2，第一主干网络和第二主干网络为孪生网络，二者权重绑定（tied weights）。第一样本图像特征f_θ1匹配的第一目标聚类中心为p1，第二样本图像特征f_θ2匹配的第二目标聚类中心为p2。基于第一目标聚类中心为p1和第二目标聚类中心为p2，采用交叉预测（Swapped Prediction）方式进行模型蒸馏训练。语义类别识别模块C用于输出语义类别识别结果。

在本申请实施例提供的技术方案中，同时以两个样本图像作为孪生主干网络的输入并分别提取特征，然后使用分割网络通过特征对比的方式来预测瑕疵区域（即进行异常检测）。为了增强瑕疵预测对于语义类别的感知能力，在模型训练过程中，首先采用在线聚类的方法获取一系列像素级别的目标聚类中心，两个样本图像共享同一组目标聚类中心。为了将瑕疵跟目标聚类中心关联起来，本实施例使得非瑕疵区域的语义类别尽可能保持一致。基于非瑕疵区域语义类别不会变化的先验知识，具体来说，对于任意一侧（任一主干网络侧）的每个图像区域，本实施例将其预测目标设置为另一分支上相同位置上图像区域所匹配到的目标聚类中心，通过这种语义蒸馏的方式，为瑕疵预测所利用的特征注入语义信息，使得网络可以根据语义内容自适应地调整瑕疵预测的参数，进而提高瑕疵预测的准确性。同时，在推理阶段（即应用目标图像检测模型对待检测图像进行检测），可以舍弃模型的图像语义识别能力而并不影响推理效率，具有较高的实用价值。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的图像检测方法。图7示意性地示出了本申请实施例提供的图像检测装置的结构框图。如图7所示，本申请实施例提供的图像检测装置包括：

图像获取模块710，用于获取待检测图像和所述待检测图像对应的模板图像；

特征提取模块720，用于通过目标图像检测模型，分别对所述待检测图像中的多个待检测图像区域和所述模板图像中的多个模板图像区域进行图像特征提取，得到多个待检测图像区域特征和多个模板图像区域特征；所述目标图像检测模型是通过两个样本图像的异常区域的检测训练，以及所述两个样本图像在非异常区域的图像特征的语义一致训练得到的；

图像检测模块730，用于通过所述目标图像检测模型，根据所述多个待检测图像区域特征与所述多个模板图像区域特征之间的特征差值，确定待检测图像的异常区域。

在本申请的一个实施例中，所述装置还包括：

在本申请的一个实施例中，所述语义一致训练模块包括：

在本申请的一个实施例中，所述聚类子单元具体用于：

根据所述第一距离和所述第二距离计算相对聚类损失值；

在本申请的一个实施例中，所述聚类子单元具体用于：

对所述第一图像区域特征进行归一化处理，得到归一化值；

在本申请的一个实施例中，所述装置还包括：

本申请各实施例中提供的图像检测装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

图8示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图8示出的电子设备的计算机系统800仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理器801（Central Processing Unit，CPU），其可以根据存储在只读存储器802（Read-Only Memory，ROM）中的程序或者从存储部分808加载到随机访问存储器803（Random Access Memory，RAM）中的程序而执行各种适当的动作和处理。在随机访问存储器803中，还存储有系统操作所需的各种程序和数据。中央处理器801、在只读存储器802以及随机访问存储器803通过总线804彼此相连。输入/输出接口805（Input /Output接口，即I/O接口）也连接至总线804。

以下部件连接至输入/输出接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至输入/输出接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理器801执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种图像检测方法，其特征在于，包括：

获取待检测图像和所述待检测图像对应的模板图像；

2.根据权利要求1所述的图像检测方法，其特征在于，所述方法还包括：

获取初始图像检测模型，所述初始图像检测模型包括第一主干网络、第二主干网络和分割网络，所述第一主干网络和所述第二主干网络相同，所述第一主干网络用于提取所述两个样本图像中一个样本图像的特征，所述第二主干网络用于提取所述两个样本图像中另一个样本图像的特征，所述分割网络用于根据所述第一主干网络和所述第二主干网络提取的特征确定所述两个样本图像的异常区域；

通过所述第一主干网络和所述第二主干网络提取的特征，进行所述两个样本图像在非异常区域的图像特征的语义一致训练，以更新所述初始图像检测模型的权重；

通过所述第一主干网络和所述第二主干网络提取的特征，进行所述两个样本图像的异常区域的检测训练，以更新所述初始图像检测模型的权重；

将训练好的所述初始图像检测模型，作为所述目标图像检测模型。

3.根据权利要求2所述的图像检测方法，其特征在于，所述通过所述第一主干网络和所述第二主干网络提取的特征，进行所述两个样本图像在非异常区域的图像特征的语义一致训练，以更新所述初始图像检测模型的权重，包括：

基于目标对象的第一样本图像中的多个图像区域特征，获取所述多个图像区域特征对应的多个目标聚类中心；

通过所述第一主干网络，获取所述目标对象的第二样本图像中的多个图像区域特征；

获取所述第二样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况；

通过所述第二主干网络，获取所述目标对象的第三样本图像中的多个图像区域特征，所述第二样本图像和所述第三样本图像属于所述两个样本图像；

获取所述第三样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况；

将所述第二样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况，作为所述第三样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况的软标签，对所述初始图像检测模型进行语义一致训练，以更新所述初始图像检测模型的权重；

将所述第三样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况，作为所述第二样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况的软标签，对所述初始图像检测模型进行语义一致训练，以更新所述初始图像检测模型的权重。

4.根据权利要求3所述的图像检测方法，其特征在于，所述第一样本图像包括第一图像和第二图像；所述基于目标对象的第一样本图像中的多个图像区域特征，获取所述多个图像区域特征对应的多个目标聚类中心，包括：

通过所述第一主干网络，获取所述第一图像对应的多个第一图像区域特征；

通过所述第二主干网络，获取所述第二图像对应的多个第二图像区域特征；

对所述多个第一图像区域特征和所述多个第二图像区域特征进行聚类处理，得到多个目标聚类中心。

5.根据权利要求4所述的图像检测方法，其特征在于，所述对所述多个第一图像区域特征和所述多个第二图像区域特征进行聚类处理，得到多个目标聚类中心，包括：

6.根据权利要求5所述的图像检测方法，其特征在于，所述根据所述多个第一图像区域特征对多个初始化聚类中心进行更新，得到多个候选聚类中心，包括：

根据所述第一距离和所述第二距离计算相对聚类损失值；

7.根据权利要求6所述的图像检测方法，其特征在于，在基于所述相对聚类损失值对所述聚类中心进行更新之前，所述方法还包括：

8.根据权利要求6所述的图像检测方法，其特征在于，基于所述相对聚类损失值对所述聚类中心进行更新，包括：

对所述第一图像区域特征进行归一化处理，得到归一化值；

9.根据权利要求3所述的图像检测方法，其特征在于，所述获取所述第二样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况，包括：

10.根据权利要求3所述的图像检测方法，其特征在于，所述获取所述第二样本图像中在非异常区域的多个图像区域特征与所述多个目标聚类中心的匹配情况，包括：

11.根据权利要求10所述的图像检测方法，其特征在于，所述方法还包括：

12.根据权利要求3-11任一项所述的图像检测方法，其特征在于，更新所述初始图像检测模型的权重，包括：

根据所述语义一致训练过程中输出的针对所述两个样本图像在非异常区域的图像特征的语义预测结果以及所述两个样本图像对应的软标签计算第一模型损失；

根据所述异常区域的检测过程中输出的针对所述两个样本图像的异常区域预测结果以及所述两个样本图像对应的预设标签计算第二模型损失；

根据所述第一模型损失和所述第二模型损失更新所述初始图像检测模型的权重。

13.一种图像检测装置，其特征在于，包括：

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至12中任意一项所述的图像检测方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器执行所述可执行指令使得所述电子设备执行权利要求1至12中任意一项所述的图像检测方法。