CN117011214A

CN117011214A - 一种物体检测方法、装置、设备及存储介质

Info

Publication number: CN117011214A
Application number: CN202211060805.6A
Authority: CN
Inventors: 詹佳伟; 刘俊; 张天亮; 陈晓辰; 聂聪冲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2023-11-07

Abstract

本申请实施例提供了一种物体检测方法、装置、设备及存储介质，物体包括：获取待检测物体的第一图像和第二图像，第一图像为二维图像，第二图像至少包括光度立体合成的彩色法向量图像；将第一图像输入至二维目标检测模型输出第一检测结果，并将第二图像输入光度立体目标检测模型输出第二检测结果，第一检测结果用于指示从第一图像中检测得到的各个缺陷的位置坐标和置信概率，第二检测结果用于指示从第二图像中检测得到的各个缺陷的位置坐标和置信概率；将第一检测结果和第二检测结果输入联合处理模型与预设阈值进行比对输出待检测物体的质检结果。本申请实施例提供的技术方案用于提高物体检测的精确度。

Description

一种物体检测方法、装置、设备及存储介质

技术领域

本申请涉及工业检测技术领域，尤其涉及一种物体检测方法、装置、设备及存储介质。

背景技术

在工业制造场景中，常用人工智能和深度学习等新兴技术对产品的外观部分进行全自动化的质检工作，从而保证产品的一致性、良品率、安全性。针对物体的外观缺陷检测的常常采用如下流程：对该物体通过镜头生成图像，然后将图像输入已训练好的目标检测模型或者目标分割模型输出图像中的异常区域，从而达到外观质检的目标。

在实际场景中，物体一般都是三维立体的，而通过镜头成像时生成的是二维图像，相当于是对物体缺陷的单角度投影。这样对于一些较为细微的缺陷以及深度缺陷将不容易辨别，容易造成漏检。

因此现在急需要一种可以提高物体检测精确度的检测方法。

发明内容

本申请实施例提供了一种物体检测方法、装置、设备及存储介质，用于提高物体检测的精确度。

有鉴于此，本申请一方面提供一种物体检测方法，包括：获取待检测物体的第一图像和第二图像，该第一图像为二维图像，该第二图像至少包括光度立体合成的彩色法向量图像；将该第一图像输入至二维目标检测模型输出第一检测结果，并将该第二图像输入光度立体目标检测模型输出第二检测结果，该第一检测结果用于指示从该第一图像中检测得到的各个缺陷的位置坐标和置信概率，该第二检测结果用于指示从该第二图像中检测得到的各个缺陷的位置坐标和置信概率；将该第一检测结果和该第二检测结果输入联合处理模型与预设阈值进行比对输出该待检测物体的质检结果，该预设阈值包括置信概率的阈值、位置坐标数量的阈值和位置坐标的预设范围中的至少一项。

本申请另一方面提供一种物体检测装置，包括：获取模块，用于获取待检测物体的第一图像和第二图像，该第一图像为二维图像，该第二图像至少包括光度立体合成的彩色法向量图像；

处理模块，用于将该第一图像输入至二维目标检测模型输出第一检测结果，并将该第二图像输入光度立体目标检测模型输出第二检测结果，该第一检测结果用于指示从该第一图像检测得到的各个缺陷的位置坐标和置信概率，该第二检测结果用于指示从该第二图像中检测得到的各个缺陷的位置坐标和置信概率；

输出模块，用于将该第一检测结果和该第二检测结果输入联合处理模型与预设阈值进行比对输出该待检测物体的质检结果，该预设阈值包括置信概率的阈值、位置坐标数量的阈值和位置坐标的预设范围中的至少一项。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该物体检测装置还包括估算模块，该估算模块，用于利用路径积分原理根据该第二检测结果指示的位置坐标和该彩色法向量图像计算得到该第二检测结果指示的位置坐标内各个像素点的相对深度集合；选择该相对深度集合中的最大相对深度作为该第二检测结果指示的缺陷的估算深度。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该输出模块，具体用于将该第一检测结果、该第二检测结果和该估算深度输入联合处理模型输出与该预设阈值进行比对该待检测物体的质检结果，该预设阈值还包括估算深度的阈值。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该输入模块，具体用于在该第一检测结果指示的置信概率大于第一阈值或者该第二检测结果指示的置信概率大于第二阈值且该估算深度大于第三阈值时，输出该目标工作的质检结果为质检未通过；

在该第一检测结果指示的置信概率小于或等于该第一阈值，该第二检测结果指示的置信概率小于或等于该第二阈值且该估算深度小于或等于该第三阈值时，输出该目标工作的质检结果为质检通过。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该获取模块，具体用于通过目标镜头和至少三个光源获取该待检测物体在不同照明条件下的图像集合，该至少三个光源为相对于该待检测物体位于不同方位的光源；

选择该图像集合中的任意一张图像作为该第一图像，并选择该至少三个光源单独照射该待检测物体时生成的图像通过光度立体合成该第二图像。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该获取模块，具体用于根据该至少三个光源的入射方向、该待检测物体的表面反射率以及该至少三个光源的反射方向将该至少三个光源单独照射该待检测物体时生成的图像通过光度立体合成该第二图像，其中，该入射方向为通过光源标定确定。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，在该光源数量为4时，该获取模块，具体用于在第一光源照射该待检测物体时，通过该目标镜头生成该待检测物体的第三图像；

在第二光源照射该待检测物体时，通过该目标镜头生成该待检测物体的第四图像；

在第三光源照射该待检测物体时，通过该目标镜头生成该待检测物体的第五图像；

在第四光源照射该待检测物体时，通过该目标镜头生成该待检测物体的第六图像；

在该第一光源、该第二光源、该第三光源和该第四光源均照射该待检测物体时，通过该目标镜头生成该待检测物体的第七图像；其中，该图像集合包括该第三图像、该第四图像、该第五图像、该第六图像和该第七图像；

该第一光源、该第二光源、该第三光源和该第四光源为相对于该待检测物体位于不同方位的光源；

该获取模块，具体用于选择该第七图像作为该第一图像；

将该第三图像、该第四图像、该第五图像和该第六图像通过光度立体合成该第二图像。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该目标镜头为远心镜头或者长焦镜头；

该至少三个光源为具有均匀强度的远心照明光源或者远距离的点光源。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该第二图像还包括光度立体合成的反射率灰度图像。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该获取模块，还用于获取第一训练样本集和第二训练样本集、初始二维目标检测模型和初始光度立体目标检测模型，其中，该第一训练样本集中标注表面缺陷，该第二训练样本集标注深度缺陷；该物体检测装置还包括训练模块，该训练模块，用于利用该第一训练样本集对该初始二维目标检测模型进行有监督训练得到该二维目标检测模型，并利用该第二训练样本集对该初始光度立体目标检测模型进行有监督训练得到该光度立体目标检测模型。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该初始二维目标检测模型为级联的用于区域检测的卷积神经网络(CascadeRegion-basedConvolutional Neural Networks，Cascade RCNN)、快速用于区域检测的卷积神经网络(Faster Region-based Convolutional Neural Networks，Faster RCNN)或者用于目标检测的自注意力模型(DEtection Transformer，DETR)；

该初始光度立体目标检测模型为Cascade RCNN、Faster RCNN或者DETR。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，该初始二维目标检测模型和该初始光度立体目标检测模型中的特征提取骨干网络为具有特征金字塔的高分辨率网络(High-Resolution netV2P，HRNetV2P)、残差神经网络(ResidualNeural Network，ResNet)或者基于移动窗口的层次化视觉自注意力模型(SwinTransformer)。

本申请另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：将二维目标检测与光度立体检测结合，从而实现物体表面缺陷和物体划伤的深度缺陷均可以进行检测，进而提高物体检测的精确检测。

附图说明

图1为本申请实施例中应用系统的一个架构示意图；

图2为本申请实施例中Cascade RCNN的一个网络架构示意图；

图3为本申请实施例中HRNetV2P的一个网络架构示意图；

图4为本申请实施例中物体检测方法的一个流程示意图；

图5为本申请实施例中成像机台的一个架构示意图；

图6为本申请实施例中物体检测方法的一个实施例示意图；

图7为本申请实施例中光源标定的一个成像示意图；

图8为本申请实施例中光源标定过程中光源方向、光源反射方向之间的一个示意图；

图9为本申请实施例中该光源方向、反射方向与法向量之间的示意图；

图10为本申请实施例中光度立体图像合成的一个示意图；

图11为本申请实施例中物体检测方法的另一个实施例示意图；

图12为本申请实施例中高度场表示的一个示意图；

图13为本申请实施例中路径积分的一个示意图；

图14为本申请实施例中路径积分求解相对高度的一个示意图；

图15为本申请实施例中物体检测装置的一个实施例示意图；

图16为本申请实施例中物体检测装置的另一个实施例示意图；

图17为本申请实施例中物体检测装置的另一个实施例示意图；

图18为本申请实施例中物体检测装置的另一个实施例示意图；

图19为本申请实施例中物体检测装置的另一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为方便理解，下面对本申请中涉及的部分专业名词进行说明。

缺陷检测(Defect Detection)：缺陷又叫异常检测(Anomaly Detection)，主要任务是判断图像是否缺陷。

目标检测(Object Detection)：计算机视觉的一个重要应用，用于从图像中检测出包括特定的目标的框，目标如人脸、车辆或建筑等，根据实际应用场景而定。即目标检测关注特定的物体目标，要求同时获得这一目标的类别信息和位置信息(classification和localization)。目标检测模型需要对图片前景和背景有充分的理解，从而从背景中分离出感兴趣的目标，并确定这一目标的描述(类别和位置)。目标检测模型的输出是一个列表，列表的每一项使用一个数组给出检出目标的类别和位置(常用矩形检测框的坐标表示)。

机器学习(Machine Learning，ML)：人工智能的核心，是使计算机具有智能的根本途径，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。在本申请实施例中，目标检测模型可为机器学习模型。

损失函数(loss function)：用于度量模型的预测值与真实值(标注值)之间的不一致程度，通常作为学习准则与优化问题相联系，即通过最小化损失函数来实现模型训练。

卷积神经网络：卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。而RCNN为基于卷积神经网络听区域检测网络，其具体包括fasterRCNN和Cascade RCNN两种类型。

反向传播：前向传播是指模型的前馈处理过程，反向传播与前向传播相反，指根据模型输出的结果对模型各个层的权重参数进行更新。例如，模型包括输入层、隐藏层和输出层，则前向传播是指按照输入层-隐藏层-输出层的顺序进行处理，反向传播是指按照输出层-隐藏层-输入层的顺序，依次更新各个层的权重参数。

置信度(confidence)：也称为置信概率，用于表示对应的结果可信的概率，例如某个包括目标的预测框的置信度为80％，则表示该预测框实际包括目标的概率为80％。

光度立体(Photometric Stereo,PS)：光度立体是一种使用多个光源方向估计表面几何形状的方法。这种方法的用途是可以重建出物体表面的法向量，以及物体不同表面点的反射率。它不像传统的几何重建(例如立体匹配)方法那样需要去考虑图像的匹配问题，因为所需要做的只是采集三张以上，由不同方向的光照射物体的图像。这个过程中，物体和相机都不动，因此图像天然就是对齐的，这使得整个过程非常的简洁。

RGB：即是代表红、绿、蓝三个通道的颜色，是指对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色，是照相机成像后照片的保存格式和显示格式。在本文中也指代二维图像等与光度立体法向量图像相区分的一般照片。

在工业制造场景中，常用人工智能和深度学习等新兴技术对产品的外观部分进行全自动化的质检工作，从而保证产品的一致性、良品率、安全性。针对物体的外观缺陷检测的常常采用如下流程：对该物体通过镜头生成图像，然后将图像输入已训练好的目标检测模型或者目标分割模型输出图像中的异常区域，从而达到外观质检的目标。在实际场景中，物体一般都是三维立体的，而通过镜头成像时生成的是二维图像，相当于是对物体缺陷的单角度投影。这样对于一些较为细微的缺陷以及深度缺陷将不容易辨别，容易造成漏检。因此现在急需要一种可以提高物体检测精确度的检测方法。为了解决该问题，本申请提供如下技术方案：获取待检测物体的第一图像和第二图像，该第一图像为二维图像，该第二图像至少包括光度立体合成的彩色法向量图像；将该第一图像输入至二维目标检测模型输出第一检测结果，并将该第二图像输入光度立体目标检测模型输出第二检测结果，该第一检测结果用于指示从该第一图像中检测得到的各个缺陷的位置坐标和置信概率，该第二检测结果用于指示从该第二图像中检测得到的各个缺陷的位置坐标和置信概率；将该第一检测结果和该第二检测结果输入联合处理模型与预设阈值进行比对输出该待检测物体的质检结果，该预设阈值包括置信概率的阈值、位置坐标数量的阈值和位置坐标的预设范围中的至少一项。这样将二维目标检测与光度立体检测结合，从而实现物体表面缺陷和物体划伤的深度缺陷均可以进行检测，进而提高物体检测的精确检测。

本申请实施例提供的一种物体检测方法、装置、设备及存储介质，能够提高物体检测的精确度。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为各种类型的用户终端，也可以实施为服务器。

电子设备通过运行本申请实施例提供的物体检测的方案，可以提升物体检测的精确度，即提高电子设备自身的物体检测性能，适用于物体检测的多个应用场景。例如，钢板缺陷检测、地板瑕疵检测、印制电路板(Printed Circuit Board，PCB)缺陷检测、薄膜缺陷检测、灯珠缺陷检测、金属棒材端面检测、织物褶皱等级评定、工业零件的表面缺陷自动化质检仪器等。

参见图1，图1是本申请实施例提供的物体检测方案的一个应用场景下的一个可选的架构示意图，为实现支撑一个物体检测应用，终端设备100(示例性示出了终端设备1001和终端设备1002)通过网络200连接服务器300，服务器300连接数据库400，网络200可以是广域网或者局域网，又或者是二者的组合。其中用于实现物体检测方案的客户端部署于终端设备100上，其中，客户端可以通过浏览器的形式运行于终端设备100上，也可以通过独立的应用程序(application，APP)的形式运行于终端设备100上等，对于客户端的具体展现形式，此处不做限定。本申请涉及的服务器300可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备100可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表、车载设备、可穿戴设备等，但并不局限于此。终端设备100以及服务器300可以通过有线或无线通信方式通过网络200进行直接或间接地连接，本申请在此不做限制。服务器300和终端设备100的数量也不做限制。本申请提供的方案可以由终端设备100独立完成，也可以由服务器300独立完成，还可以由终端设备100与服务器300配合完成，对此，本申请并不做具体限定。其中，数据库400，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。数据库管理系统(Database Management System，DBMS)是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、可扩展标记语言(Extensible Markup Language,XML)；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如结构化查询语言(Structured Query Language，SQL)、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。在本申请中，数据库400可以用于存储训练样本集以及物体成像后生成的图像，当然，训练样本集的存储位置并不限于数据库，例如还可以存储于终端设备100、区块链或者服务器300的分布式文件系统中等。

在一些实施例中，服务器300可以执行本申请实施例提供的物体检测方法以及物体检测中二维目标检测模型和光度立体目标检测模型的训练方法。在执行二维目标检测模型和光度立体目标检测模型的训练方法时，其具体流程可以如下：从终端设备100和/或数据库400中获取对应有标注框的第一训练样本集和第二训练样本集，通过二维目标检测模型对该第一训练样本集进行检测处理得到该第一训练样本集中包括物体缺陷的预测框，根据包括预先设计损失因素(如间隔值和距离两个因素)的损失函数，确定预测框对应的损失值，进而对二维目标检测模型进行训练；同时通过光度立体目标检测模型对该第二训练样本集进行检测处理得到该第二训练样本集中包括物体缺陷的预测框，并根据包括预先设计损失因素(如间隔值和距离两个因素)的损失函数，确定预测框对应的损失值，进而对光度立体目标检测模型进行训练。本实施例中，该第一训练样本集中至少标注表面缺陷，该第二训练样本集至少标注深度缺陷。同时该第一训练样本集与该第二训练样本集可以是同一批图像也可以是不同的图像。即该二维目标检测模型和光度立体目标检测模型分别独立训练，相互之间并不影响参数的调整。这样可以提升该二维目标检测模型和光度立体目标检测模型的泛化能力。

在该服务器300训练该二维目标检测模型和光度立体目标检测模型时，该二维目标检测模型的初始模型架构可以为Cascade RCNN、Faster RCNN或者DETR，该光度立体目标检测模型的初始模型架构可以为Cascade RCNN、Faster RCNN或者DETR。即该二维目标检测模型和光度立体目标检测模型在训练时为并行训练，且该二维目标检测模型和光度立体目标检测模型可以根据其具体的要求，分别选择不同的模型架构，实现该物体检测中目标检测模型的灵活应用。一个示例性方案中，该二维目标检测模型的初始模型架构可以为Cascade RCNN，而该光度立体目标检测模型的初始模型架构可以为Faster RCNN。具体此处不做限定。而该二维目标检测模型和光度立体目标检测模型在不同的模型架构下均具有特征提取骨干网络，此时，其特征提取骨干网络可以为具有特征金字塔的高分辨率网络(High-Resolution netV2P，HRNetV2P)、残差神经网络(Residual Neural Network，ResNet)或者基于移动窗口的层次化视觉自注意力模型(Swin Transformer)。下面以Cascade RCNN以及特征提取骨干网络为HRNetV2P为例说明该二维目标检测模型和光度立体目标检测模型。如图2所示，该Cascade RCNN包括输入接口，然后将图像通过该输入接口输入该Cascade RCNN，然后通过该Cascade RCNN的特征提取骨干网络(conv)得到图像的特征表示图；然后将该特征表示图输入局部区域特征提取器(pool)提取该图像中的局部特征表示图；再将该局部特征表示图输入网络头进行特征变换从而丰富该图像的特征表示；最后能过分类器以及预设边界框得到该图像的分类结果。本实施例中，该HRNetV2P的具体网络结构可以如图3所示，即一个多分辨块由一个多分辨群卷积(group convolution)和一个多分辨卷积组成。多分辨群卷积是群卷积的一个简单扩展，它将输入通道分成了几组，并在不同空间尺度和每组之间分别应用常规卷积。多分辨卷积像常规卷积一样以全连接的方式将不同分支连接起来。同时多分辨卷积的通道间存在不同分辨率，输入和输出通道间的连接因分辨率不同需要降低或提高分辨率，分辨率的降低通过一个或多个步长为2卷积核尺寸为3x3的卷积实现，分辨率的提高通过双线性插值的上采样实现；然后再对得到的高分辨率特征图进行平均池化得到四种尺度的表达；在进行特征融合时，实现多尺度特征融合并直接拼接(concat)。

在对二维目标检测模型和光度立体目标检测模型训练完毕后，服务器300可以将二维目标检测模型和光度立体目标检测模型保存至本地，从而为终端设备100提供远程的物体检测功能。例如，服务器300可以接收终端设备100发送的待检测物体的第一图像和第二图像，并通过二维目标检测模型对第一图像进行检测处理，得到第一图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率；同时通过光度立体目标检测模型对第二图像进行检测处理，得到第二图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率。然后，服务器300根据将第一图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率和第二图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率进行联合处理确定该待检测物体的质检结果，最后将该质检结果发送至终端设备100，以使终端设备100在图形界面110(示例性示出了图形界面1101和图形界面1102)中显示质检结果。可以理解的是，该服务器300还可以将该第一图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率和该第二图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率发送给该终端设备100，使得该终端设备100在图形界面110(示例性示出了图形界面1101和图形界面1102)中显示该第一图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率和该第二图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率。

服务器300也可以将训练完毕的二维目标检测模型和光度立体目标检测模型发送(部署)至终端设备100，从而在终端设备100本地实现物体检测。例如，终端设备100可以实时获取待检测物体的第一图像和第二图像或从其他设备中获取待检测物体的第一图像和第二图像，并通过二维目标检测模型对第一图像进行检测处理，得到第一图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率；同时通过光度立体目标检测模型对第二图像进行检测处理，得到第二图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率。然后，终端设备100根据将第一图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率和第二图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率进行联合处理确定该待检测物体的质检结果；最后，终端设备100在图形界面110(示例性示出了图形界面1101和图形界面1102)中显示质检结果。可以理解的是，该终端设备100在图形界面110(示例性示出了图形界面1101和图形界面1102)中还可以显示该第一图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率和该第二图像中的缺陷对应的预测框(即位置坐标)及对应的置信概率。

基于上述系统，具体请参阅图4所示，本申请中物体检测方法的一个执行流程可以如下：

步骤1、对该待检测物体成像生成图像集合，并根据图像集合生成第一图像和第二图像。具体来说，将该待检测物体放置于已通过光源标定的机台通过目标镜头生成多个图像。一种示例性方案中，若该机台如图5所示，包含四个不同方向的光源，一个目标镜头，以及相应的观测平台，则将俯拍生成该待检测物体的5张不同的图像，其中这4张图像分别是前侧光源单独照射时拍摄得到的图像，后侧光源单独照射时拍摄得到的图像、左侧光源单独照射时拍摄得到的图像、右侧光源单独照射时拍摄得到的图像以及该四个光源同时照射时拍摄得到的图像。其中，可以选择该四个光源同时照射时拍摄得到的图像作为该第一图像，然后将剩下的图像通过光度立体合成生成该第二图像。可以理解的是，该第二图像至少包括彩色法向量图像。同时该第二图像还可以包括反射率灰度图像。

步骤2、将该第一图像通过二维目标检测模型进行检测得到第一检测结果；将该第二图像通过该光度目标检测模型进行检测得到第二检测结果。

步骤3、将该第二检测结果与该第二图像进行计算得到估算深度。

步骤4、将该第一检测结果、该第二检测结果和该估算深度通过联合处理模型确定得到该待检测物体的质检结果。

可以理解的是，在本申请的具体实施方式中，涉及到第一图像和第二图像等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

结合上述介绍，下面将以终端设备执行该物体检测方法为例对本申请中物体检测方法进行介绍，请参阅图6，本申请实施例中物体检测方法的一个实施例包括：

601、获取待检测物体的第一图像和第二图像，该第一图像为二维图像，该第二图像至少包括光度立体合成的彩色法向量图像。

该终端设备获取该待检测物体的第一图像和第二图像。具体来说，该终端设备通过目标镜头生成生成多个图像集合，然后从该图像集合中任意选择一个图像作为该第一图像，从该图像集合中选择至少三个光源单独照射该待检测物体时生成的图像进行光度立体合成该第二图像。

一种示例性方案中，如图5所示，包含四个不同方向的光源，一个目标镜头，以及相应的观测平台，则将俯拍生成该待检测物体的5张不同的图像，其中这4张图像分别是前侧光源单独照射时拍摄得到的图像，后侧光源单独照射时拍摄得到的图像、左侧光源单独照射时拍摄得到的图像、右侧光源单独照射时拍摄得到的图像以及该四个光源同时照射时拍摄得到的图像。其中，可以选择该四个光源同时照射时拍摄得到的图像作为该第一图像，然后将剩下的图像通过光度立体合成生成该第二图像。

本实施例中，该图5所示的成像机台在获取该待检测物体的图像集合之前，需要对该成像机台的光源进行光源标定。即光源标定的目的就是估计不同平行光源的入射方向，它是光度立体算法的第一步。在对该成像机台中的光源进行光源标定时，标定光源的一种方法是使用金属球，如图7所示，在拍摄的金属球的照片上面的最亮的点指明了光源的方向(受限于光源的形状不一定是点光源，一般可以取最亮区域的中心作为光源方向的近似)。在生成图像之后，根据图8所示的反射示意图，可以根据最亮点在图像中的像素坐标和该金属球在图像中的像素坐标求出当前光源照射下的法线向量。假设当前该光源的反射方向为R(可以理解的是，该R为固定方向)(P_x,P_y)为最亮点在图像中的像素坐标位置，(C_x,C_y)为金属球在图像中的中心点，由此我们可以求出法线向量N＝[N_x,N_y.N_z]^T。

其中，N_x＝P_x-C_x；N_y＝P_y-C_y；N_z中的γ是该金属球的半径。由于光源方向L与光源的反射方向R的模相等，即||L||＝||R||。这时必然存在某一个光源的L,R，使得R+L＝N＝2S；L＝2S-R，其中，S是R在N上的投影，|N|＝1，因此可以得到：此时代入L的表达式，可得：L＝2(R·N)N-R。由于只求解L的方向，即等式两边同时除以L,R的模，等式仍然成立。为了方便计算，我们将R赋值为/>得到：/>此时将法向量N带入到上述公式中，就可以求解光源方向。

在该光源的方向实现标定之后，该终端设备在获取到待检测物体的光度立体合成图像的过程可以如下：

该光源方向、反射方向与法向量的示意图如图9所示，基于该示意图以及该待检测物体的表面反射率ρ可以获取该待检测物体上的图像上的第一个像素的表示公式：I(x,y)＝ρ(x,y)L_iL·N(x,y)；在此公式中的L_i代表光源的强度，L和N表示方向向量(单位向量，方向模长为1)，ρ是常数。此时可以将ρ和N合并成G来表示。则对于一张图像而言，在假设光源强度为1的情况下可以将图像表示为I＝L^TG。基于图5所示的场景，对I＝L^TG通过最小二乘法进行表示得到公式min_G||I-L^TG||²，进而得到公式||I-L^TG||²＝I^TI+G^TLL^TG-2G^TLI。要求上式展开式的最小值，可以求关于G的偏微分并设为0，即得到公式2LL^TG-2LI＝0；此时再求解公式2LL^TG-2LI＝0可以得到(最小二乘得到的G的表达式)：G＝(LL^T)^-1LI。

由于G的模长就是反射率ρ，即ρ＝||G||，基于此得到归一化后的单位向量矩阵就是法向量N，即基于上述过程，一种示例性方案，如图10所示，光度立体图像合成的输入是四张不同图片光源打光的灰度图像，输出一张彩色法向量图和一张反射率灰度图。

可以理解的是，在该待检测物体通过光度立体合成得到彩色法向量图像和反射率灰度图像之后，可以仅将该彩色法向量图像作为该第二图像，也可以将该彩色法向量图像和反射率灰度图像均作为该第二图像。

本实施例中，为了保证该光度立体合成的图像可以更好的用于表示该待检测物体的表面信息，该目标镜头为远心镜头或者长焦镜头；该至少三个光源为具有均匀强度的远心照明光源或者远距离的点光源。

602、将该第一图像输入至二维目标检测模型输出第一检测结果，并将该第二图像输入光度立体目标检测模型输出第二检测结果，该第一检测结果用于指示从该第一图像中检测得到的各个缺陷的位置坐标和置信概率，该第二检测结果用于指示从该第二图像中检测得到的各个缺陷的位置坐标和置信概率。

该终端设备在获取到该第一图像和该第二图像之后，分别将该第一图像输入至该二维目标检测模型输出该第一检测结果，此时该第一检测结果用于指示该待检测物体的表面缺陷的位置坐标和对应的置信概率；同时将该第二图像输入至该光度立体目标检测模型输出该第二检测结果，此时该第二检测结果用于指示该待检测物体的深度缺陷的位置坐标和对应的置信概率。可以理解的是，该目标镜头的位置与该待检测物体的位置并未发生变化，因此该第一图像对应的位置坐标与该第二图像对应的位置坐标在同一坐标系内时相同的。一个示例性方案中，该第一检测结果可以包括如下信息：位置坐标1(a1，b1，c1，d1)，其对应的置信概率为0.5；位置坐标2(a2，b2，c2，d2)，其对应的置信概率为0.3；位置坐标3(a3，b3，c3，d3)，其对应的置信概率为0.8。即该终端设备检测出该待检测物体的表面缺陷有3个。第二检测结果可以包括如下信息：位置坐标4(a4，b4，c4，d4)，其对应的置信概率为0.3；位置坐标5(a5，b5，c5，d5)，其对应的置信概率为0.6；位置坐标6(a6，b6，c6，d6)，其对应的置信概率为0.8。即该终端设备检测出该待检测物体的深度缺陷有3个。

本实施例中，该光度立体目标检测模型的输入通道可以灵活更改。比如，在该光度立体目标检测模型中仅包括彩色法向量图像时，其输入通道为3；在该光度立体目标检测模型中包括该彩色法向量图像和反射率灰度图像时，其输入通道为4；在该光度立体目标检测模型中包括该彩色法向量图像和反射率灰度图像以及该第一图像时，其输入通道为7。

603、将该第一检测结果和该第二检测结果输入联合处理模型与预设阈值进行比对输出该待检测物体的质检结果，该预设阈值包括置信概率的阈值、位置坐标数量的阈值和位置坐标的预设范围中的至少一项。

该终端设备可以将该第一检测结果与该第二检测结果输入该联合处理模型进行综合计算从而得到该待检测物体的质检结果。具体来说，该终端设备可以将该第一检测结果中的各个缺陷的位置坐标以其相对应的置信概率与预设阈值进行比对，同时将该第二检测结果中的各个缺陷的位置坐标以及相对应的置信概率与预设阈值进行比对。

本实施例中，该预设阈值包括针对该第一检测结果的置信概率的阈值，即判断该待检测物体存在缺陷的可能性是否超出阈值；该预设阈值还包括针对该第二检测结果的置信概率的阈值，即判断该待检测物体存在缺陷的可能性是否超出阈值；该预设阈值还包括针对该第一检测结果和该第二检测结果中位置坐标的数量阈值，即判断该待检测物体可能存在的缺陷是否超出阈值；该预设阈值还包括针对该第一检测结果和该第二检测结果中各个缺陷的位置坐标的阈值，即判断该待检测物体可能存在缺陷的位置是否处于重要部分。可以理解的是，该预设阈值包括置信概率的阈值、位置坐标数量的阈值和位置坐标的预设范围中的至少一项。

一种示例性方案中，该预设阈值包括该置信概率的阈值，则该终端设备根据该第一检测结果中各个位置坐标的置信概率和该第二检测结果中各个位置坐标的置信概率确定该待检测物体的质检结果。即在该第一检测结果指示的置信概率大于第一阈值或者该第二检测结果指示的置信概率大于第二阈值时，输出该目标工作的质检结果为质检未通过；在该第一检测结果指示的置信概率小于或等于该第一阈值且该第二检测结果指示的置信概率小于或等于该第二阈值时，输出该目标工作的质检结果为质检通过。可以理解的是，该第一检测结果和第二检测结果中包括多个位置坐标(本实施例中，该位置坐标用于指示一个待确定为缺陷的缺陷目标)，而对应多个置信概率时，只要存在一个位置坐标的置信概率大于预设阈值，即可以确定该待检测物体的质检结果为不通过。比如，该第一检测结果可以包括如下信息：位置坐标1(a1，b1，c1，d1)，其对应的置信概率为0.5；位置坐标2(a2，b2，c2，d2)，其对应的置信概率为0.3；位置坐标3(a3，b3，c3，d3)，其对应的置信概率为0.8。即该终端设备检测出该待检测物体的表面缺陷目标有3个。第二检测结果可以包括如下信息：位置坐标4(a4，b4，c4，d4)，其对应的置信概率为0.3；位置坐标5(a5，b5，c5，d5)，其对应的置信概率为0.6；位置坐标6(a6，b6，c6，d6)，其对应的置信概率为0.8。即该终端设备检测出该待检测物体的深度缺陷目标有3个。而针对该表面缺陷的置信概率阈值为0.5，针对该深度缺陷的置信概率阈值为0.3，则该终端设备确认该待检测物体的质检结果为质检不通过。

另一种示例性方案中，该预设阈值包括该位置坐标数量的阈值，则该终端设备根据该第一检测结果中各个位置坐标的数量和该第二检测结果中各个位置坐标的数量确定该待检测物体的质检结果。即在该第一检测结果指示各个位置坐标的数量与该第二检测结果指示各个位置坐标的数量之和大于第四阈值时，输出该目标工作的质检结果为质检未通过；在该第一检测结果指示各个位置坐标的数量与该第二检测结果指示各个位置坐标的数量之后小于或等于第四阈值时，输出该目标工作的质检结果为质检通过。比如，该第一检测结果可以包括如下信息：位置坐标1(a1，b1，c1，d1)，其对应的置信概率为0.5；位置坐标2(a2，b2，c2，d2)，其对应的置信概率为0.3；位置坐标3(a3，b3，c3，d3)，其对应的置信概率为0.8。即该终端设备检测出该待检测物体的表面缺陷目标有3个。第二检测结果可以包括如下信息：位置坐标4(a4，b4，c4，d4)，其对应的置信概率为0.3；位置坐标5(a5，b5，c5，d5)，其对应的置信概率为0.6；位置坐标6(a6，b6，c6，d6)，其对应的置信概率为0.8。即该终端设备检测出该待检测物体的深度缺陷目标有3个，该终端设备检测出该待检测物体的缺陷目标数量总和为6。而针对该位置坐标数量的阈值设置为7，则该终端设备确认该待检测物体的质检结果为质检通过。

另一种示例性方案中，该预设阈值包括该位置坐标的阈值，则该终端设备根据该第一检测结果中各个位置坐标和该第二检测结果中各个位置坐标确定该待检测物体的质检结果。即在该第一检测结果指示各个位置坐标与该第二检测结果指示各个位置坐标位于该待检测物体的重要区域(即预设范围)，输出该目标工作的质检结果为质检未通过；在该第一检测结果指示各个位置坐标与该第二检测结果指示各个位置坐标未处于该待检测物体的重要区域(即预设范围)，输出该目标工作的质检结果为质检通过。比如，该第一检测结果可以包括如下信息：位置坐标1(a1，b1，c1，d1)，其对应的置信概率为0.5；位置坐标2(a2，b2，c2，d2)，其对应的置信概率为0.3；位置坐标3(a3，b3，c3，d3)，其对应的置信概率为0.8。第二检测结果可以包括如下信息：位置坐标4(a4，b4，c4，d4)，其对应的置信概率为0.3；位置坐标5(a5，b5，c5，d5)，其对应的置信概率为0.6；位置坐标6(a6，b6，c6，d6)，其对应的置信概率为0.8。而该待检测物体的重要区域为(A，B，C，D)，其中，该位置坐标1位于该重要区域内，该位置坐标4位于该重要区域内，则该终端设备确认该待检测物体的质检结果为质检不通过。

可以理解的是，该终端设备在将该第一检测结果与该第二检测结果与预设阈值进行比对时可以实现上述三个比对方案的任意结合，只要可以实现对该待检测物体的精确检测即可，具体方式此处不再赘述。比如，该预设阈值包括置信概率的阈值、位置坐标数量的阈值和位置坐标的预设范围。此时该终端设备通过上述三个示例性方案中的比对，只要任意一项符合质检不通过的条件，即可输出该待检测物体的质检结果为不通过。或者设置三个比对方案的结果所占的权重，并根据权重计算最终的质检结果。

本实施例中提供的技术方案中，将二维目标检测与光度立体检测结合，从而实现物体表面缺陷和物体划伤的深度缺陷均可以进行检测，进而提高物体检测的精确检测。

可以理解的是，在步骤602中得到该第二检测结果之后，该终端设备还可以将该第二检测结果中的位置坐标与该第二图像计算深度缺陷的估算深度，其具体流程可以如图11所示：

其中步骤1101至步骤1102与上述步骤601至步骤602相同，具体此处不再赘述。

1103、利用路径积分原理根据该第二检测结果指示的位置坐标和该彩色法向量图像计算得到该第二检测结果指示的位置坐标内各个像素点的相对深度集合。

本实施例中，该终端设备基于该第二检测结果指示的各个缺陷的位置坐标和通过光度立体合成的彩色法向量图像采用路径积分原理计算该第二检测结果指示的位置坐标内各个像素点的相对深度集合。可以理解的是，该相对深度集合中的各个相对深度是以该待检测物体的表面为坐标平面，在该待检测物体的表面发生向里的划痕和向外的突起的高度。

具体来说，该终端设备在计算该相对深度的过程可以如下：

首先将其高度场表示z＝f(x,y)，其示意图可以如图12所示，其中，该(a,b)用于指示该位置坐标指示的目标边界框内的一个像素点的坐标值，该(x,y)用于指示该位置坐标指示的目标边界框内的相对于该像素点(a,b)的另一个像素点的坐标值。基于图12可知，根据路径积分原理得到公式a：即该(a,b)至(x,y)两点之间的高度差等于方向导数的路径积分。因为法向量场源于高度场，所以上式积分与路径无关，可以如图13所示选取一条特殊的路径如(a,b)→(x,b)→(x,y)，此时该路径积分公式可以表示为公式b：/>而根据图13中的辅助点(s,y)可以得到公式c：/>因此联立公式a、公式b和公式c可以得到公式d：

然后根据梯度与法线的关系：

可以得到：

将变上限积分化为不定积分：

将上面的积分在图像上离散化：

即通过上述路径积分的一个示例性计算过程可以得到该(a,b)至(x,y)两点之间的高度差，从而得到该第二检测结果中各个位置坐标内对应的像素点的相对深度，进而得到该相对深度集合。可以理解的是，该n_x、n_y和n_z用于表示像素点对应的法向量的表示向量。

一种示例性方案中，如图14所示为某平整物体的表面针刺划伤的深度估算示意图，缺陷检测深度模型检测出局部针刺划伤的边界框后，只有位置坐标和置信概率，我们可以通过以上算法进行相对深度的估计，假设边界框的最左侧相对深度为0，通过法向量结合上述路径积分公式计算最大相对深度，既可以得到所求的输出值。

1104、选择该相对深度集合中的最大相对深度作为该第二检测结果指示的缺陷的估算深度。

该终端设备选择该相对深度集合中最大相对深度作为该第二检测结果指示的缺陷的估算深度。比如，在位置坐标4(a4，b4，c4，d4)指示的目标边界框内检测到的相对深度集合为：0.2毫米、0.3毫米、0.4毫米、0.5毫米、0.1毫米。则该终端设备可以选择该0.5毫米作为该目标边界框内的估算深度。

1105、将该第一检测结果、该第二检测结果和该估算深度输入联合处理模型与预设阈值进行比对输出该待检测物体的质检结果，该预设阈值包括估算深度的阈值以及置信概率的阈值、位置坐标数量的阈值和位置坐标的预设范围中的至少一项。

该终端设备可以将该第一检测结果与该第二检测结果以及该估算深度输入该联合处理模型进行综合计算从而得到该待检测物体的质检结果。具体来说，该终端设备可以将该第一检测结果中的各个缺陷的位置坐标以其相对应的置信概率与预设阈值进行比对，同时将该第二检测结果中的各个缺陷的位置坐标以及相对应的置信概率以及该第二检测结果中各个位置坐标对应的估算深度与预设阈值进行比对。

本实施例中，该预设阈值包括针对该第一检测结果的置信概率的阈值，即判断该待检测物体存在缺陷的可能性是否超出阈值；该预设阈值还包括针对该第二检测结果的置信概率的阈值，即判断该待检测物体存在缺陷的可能性是否超出阈值，在此基础上，该预设阈值还包括估算深度的阈值，即在确认该待检测物体存在缺陷时，判断该缺陷的划伤深度或者突起高度是否超出阈值；该预设阈值还包括针对该第一检测结果和该第二检测结果中位置坐标的数量阈值，即判断该待检测物体可能存在的缺陷是否超出阈值；该预设阈值还包括针对该第一检测结果和该第二检测结果中各个缺陷的位置坐标的阈值，即判断该待检测物体可能存在缺陷的位置是否处于重要部分。该预设阈值可以理解的是，该预设阈值包括置信概率的阈值、位置坐标数量的阈值和位置坐标的预设范围中的至少一项。

一种示例性方案中，该预设阈值包括该置信概率的阈值以及该估算深度的阈值，则该终端设备根据该第一检测结果中各个缺陷的置信概率和该第二检测结果中各个缺陷的置信概率确定该待检测物体的质检结果。即在该第一检测结果指示的置信概率大于第一阈值或者该第二检测结果指示的置信概率大于第二阈值且该估算深度大于第三阈值时，输出该目标工作的质检结果为质检未通过；在该第一检测结果指示的置信概率小于或等于该第一阈值，该第二检测结果指示的置信概率小于或等于该第二阈值且该估算深度小于或等于该第三阈值时，输出该目标工作的质检结果为质检通过。可以理解的是，该第一检测结果和第二检测结果中包括多个缺陷，而对应多个置信概率时，只要存在一个缺陷的置信概率大于预设阈值，即可以确定该待检测物体的质检结果为不通过。一个示例性方案中，一个示例性方案中，该第一检测结果可以包括如下信息：位置坐标1(a1，b1，c1，d1)，其对应的置信概率为0.5；位置坐标2(a2，b2，c2，d2)，其对应的置信概率为0.3；位置坐标3(a3，b3，c3，d3)，其对应的置信概率为0.8。即该终端设备检测出该待检测物体的表面缺陷有3个。第二检测结果可以包括如下信息：位置坐标4(a4，b4，c4，d4)，其对应的置信概率为0.3，估算深度为0.1毫米；位置坐标5(a5，b5，c5，d5)，其对应的置信概率为0.6，估算深度为0.3毫米；位置坐标6(a6，b6，c6，d6)，其对应的置信概率为0.8，估算深度为0.5毫米。即该终端设备检测出该待检测物体的深度缺陷有3个。而针对该表面缺陷的置信概率阈值为0.5，针对该深度缺陷的置信概率阈值为0.3，则该终端设备确认该待检测物体的质检结果为质检不通过。

本实施例提供的技术方案中，将二维目标检测与光度立体检测结合，从而实现物体表面缺陷和物体划伤的深度缺陷均可以进行检测，进而提高物体检测的精确检测。在通该光度立体目标检测模型检测出深度缺陷之后，还可以估算该深度缺陷的估算深度，增加联合处理模型的输入，即在第一检测结果和第二检测结果中再增加该估算深度，然后再根据这三个输入确定质检结果，这样使用多个维度的缺陷检测结果判断该物体的质检结果，使得物体的质检结果更加准确。同时在利用该路径积分原理计算该光度立体目标检测模型中检测出来的位置坐标内的各个像素点的相对深度时，检测面积较小，因此减少了计算估算深度的计算复杂度。

下面对本申请中的物体检测装置进行详细描述，请参阅图15，图15为本申请实施例中物体检测装置的一个实施例示意图，物体检测装置20包括：

获取模块201，用于获取待检测物体的第一图像和第二图像，该第一图像为二维图像，该第二图像至少包括光度立体合成的彩色法向量图像；

处理模块202，用于将该第一图像输入至二维目标检测模型输出第一检测结果，并将该第二图像输入光度立体目标检测模型输出第二检测结果，该第一检测结果用于指示从该第一图像检测得到的各个缺陷的位置坐标和置信概率，该第二检测结果用于指示从该第二图像中检测得到的各个缺陷的位置坐标和置信概率；

输出模块203，用于将该第一检测结果和该第二检测结果输入联合处理模型与预设阈值进行比对输出该待检测物体的质检结果，该预设阈值包括置信概率的阈值、位置坐标数量的阈值和位置坐标的预设范围中的至少一项。

本申请实施例中，提供了一种物体检测装置。采用上述装置，将二维目标检测与光度立体检测结合，从而实现物体表面缺陷和物体划伤的深度缺陷均可以进行检测，进而提高物体检测的精确检测。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的物体检测装置20的另一实施例中，如图16所示，该物体检测装置还包括估算模块204，该估算模块204，用于利用路径积分原理根据该第二检测结果指示的位置坐标和该彩色法向量图像计算得到该第二检测结果指示的位置坐标内各个像素点的相对深度集合；选择该相对深度集合中的最大相对深度作为该第二检测结果指示的缺陷的估算深度。

本申请实施例中，提供了一种物体检测装置。采用上述装置，在通该光度立体目标检测模型检测出深度缺陷之后，还可以估算该深度缺陷的估算深度，增加联合处理模型的输入，这样使用多个维度的缺陷检测结果判断该物体的质检结果，使得物体的质检结果更加准确。同时在利用该路径积分原理计算该光度立体目标检测模型中检测出来的位置坐标内的各个像素点的相对深度时，检测面积较小，因此减少了计算估算深度的计算复杂度。

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的物体检测装置20的另一实施例中，该输出模块203，具体用于将该第一检测结果、该第二检测结果和该估算深度输入联合处理模型与预设阈值进行比对输出该待检测物体的质检结果。

本申请实施例中，提供了一种物体检测装置。采用上述装置，增加联合处理模型的输入，即在第一检测结果和第二检测结果中再增加该估算深度，然后再根据这三个输入确定质检结果，这样使用多个维度的缺陷检测结果判断该物体的质检结果，使得物体的质检结果更加准确。

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的物体检测装置20的另一实施例中，该输入模块203，具体用于在该第一检测结果指示的置信概率大于第一阈值或者该第二检测结果指示的置信概率大于第二阈值且该估算深度大于第三阈值时，输出该目标工作的质检结果为质检未通过；

可选地，在上述图15或16所对应的实施例的基础上，本申请实施例提供的物体检测装置20的另一实施例中，该获取模块201，具体用于通过目标镜头和至少三个光源获取该待检测物体在不同照明条件下的图像集合，该至少三个光源为相对于该待检测物体位于不同方位的光源；

本申请实施例中，提供了一种物体检测装置。采用上述装置，通过多个不同方位的光源和对该待检测物体的不同照明条件获取到图像集合，然后选择相应的图像生成第一图像和第二图像。这样在固定镜头的情况下，获取的图像具有关联性，从而实现光度立体合成彩色法向量图像的功能。

可选地，在上述图15或16所对应的实施例的基础上，本申请实施例提供的物体检测装置20的另一实施例中，该获取模块201，具体用于根据该至少三个光源的入射方向、该待检测物体的表面反射率以及该至少三个光源的反射方向将该至少三个光源单独照射该待检测物体时生成的图像通过光度立体合成该第二图像，其中，该入射方向为通过光源标定确定。

可选地，在上述图15或16所对应的实施例的基础上，本申请实施例提供的物体检测装置20的另一实施例中，在该光源数量为4时，该获取模块201，具体用于

在第一光源照射该待检测物体时，通过该目标镜头生成该待检测物体的第三图像；

该获取模块201，具体用于选择该第七图像作为该第一图像；

可选地，在上述图15或16所对应的实施例的基础上，本申请实施例提供的物体检测装置20的另一实施例中，该目标镜头为远心镜头或者长焦镜头；

本申请实施例中，提供了一种物体检测装置。采用上述装置，增加对该目标镜头和光源的限制，这样可以更加有效的提高光度立体合成彩色法向量图像时的精确性。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的物体检测装置20的另一实施例中，该第二图像还包括光度立体合成的反射率灰度图像。

本申请实施例中，提供了一种物体检测装置。采用上述装置，该第二图像中增加反射率灰度图像，从而提升光度立体目标检测的精确度。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的物体检测装置20的另一实施例中，该获取模块，还用于获取第一训练样本集和第二训练样本集、初始二维目标检测模型和初始光度立体目标检测模型，其中，该第一训练样本集中标注表面缺陷，该第二训练样本集标注深度缺陷；

另一实施例中，如图17所示该物体检测装置还包括训练模块205，该训练模块205，用于利用该第一训练样本集对该初始二维目标检测模型进行有监督训练得到该二维目标检测模型，并利用该第二训练样本集对该初始光度立体目标检测模型进行有监督训练得到该光度立体目标检测模型。

本申请实施例中，提供了一种物体检测装置。采用上述装置，采用有监督的训练方式，且该二维目标检测模型和该光度立体目标检测模型的训练过程并行，使得该二维目标检测模型和该光度立体目标检测模型均有较好的泛化能力。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的物体检测装置20的另一实施例中，

该初始二维目标检测模型为级联的用于区域检测的卷积神经网络(CascadeRegion-based Convolutional Neural Networks，Cascade RCNN)、快速用于区域检测的卷积神经网络(Faster Region-based Convolutional Neural Networks，FasterRCNN)或者用于目标检测的自注意力模型(DEtection Transformer，DETR)；

本申请实施例中，提供了一种物体检测装置。采用上述装置，限制该二维目标检测模型和该光度立体目标检测模型的模型架构，使得该二维目标检测模型和该光度立体目标检测模型可以采用不同的有针对性的神经网络，使得整体目标检测模型灵活性较高。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的物体检测装置20的另一实施例中，该初始二维目标检测模型和该初始光度立体目标检测模型中的特征提取骨干网络为具有特征金字塔的高分辨率网络(High-Resolution netV2P，HRNetV2P)、残差神经网络(Residual Neural Network，ResNet)或者基于移动窗口的层次化视觉自注意力模型(Swin Transformer)。

本申请实施例中，提供了一种物体检测装置。采用上述装置，限制该二维目标检测模型和该光度立体目标检测模型的特征提取骨干网络的类型，使得该二维目标检测模型和该光度立体目标检测模型可以采用不同的有针对性的神经网络，使得整体目标检测模型灵活性较高。

本申请提供的物体检测装置可用于服务器，请参阅图18，图18是本申请实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图18所示的服务器结构。

本申请提供的物体检测装置可用于终端设备，请参阅图19，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。在本申请实施例中，以终端设备为笔记本电脑为例进行说明：

图19示出的是与本申请实施例提供的终端设备相关的笔记本电脑的部分结构的框图。参考图19，笔记本电脑包括：射频(radio frequency，RF)电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真(wireless fidelity，WiFi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解，图19中示出的笔记本电脑结构并不构成对笔记本电脑的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图19对笔记本电脑的各个构成部件进行具体的介绍：

RF电路410可用于收发信息或通话过程中，信号的接收和发送，特别地，将路由器的下行信息接收后，给处理器480处理；另外，将设计上行的数据发送给路由器。通常，RF电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器420可用于存储软件程序以及模块，处理器480通过运行存储在存储器420的软件程序以及模块，从而执行笔记本电脑的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据笔记本电脑的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元430可用于接收输入的数字或字符信息，以及产生与笔记本电脑的用户设置以及功能控制有关的键信号输入。具体地，输入单元430可包括触控面板431以及其他输入设备432。触控面板431，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器480，并能接收处理器480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431，输入单元430还可以包括其他输入设备432。具体地，其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及笔记本电脑的各种菜单。显示单元440可包括显示面板441，可选的，可以采用液晶显示器(liquidcrystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板441。进一步的，触控面板431可覆盖显示面板441，当触控面板431检测到在其上或附近的触摸操作后，传送给处理器480以确定触摸事件的类型，随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图19中，触控面板431与显示面板441是作为两个独立的部件来实现笔记本电脑的输入和输入功能，但是在某些实施例中，可以将触控面板431与显示面板441集成而实现笔记本电脑的输入和输出功能。

笔记本电脑还可包括至少一种传感器450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板441的亮度，接近传感器可在笔记本电脑移动到耳边时，关闭显示面板441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别笔记本电脑姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于笔记本电脑还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路460、扬声器461，传声器462可提供用户与笔记本电脑之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号，传输到扬声器461，由扬声器461转换为声音信号输出；另一方面，传声器462将收集的声音信号转换为电信号，由音频电路460接收后转换为音频数据，再将音频数据输出处理器480处理后，经RF电路410以发送给比如另一笔记本电脑，或者将音频数据输出至存储器420以便进一步处理。

WiFi属于短距离无线传输技术，笔记本电脑通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图19示出了WiFi模块470，但是可以理解的是，其并不属于笔记本电脑的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是笔记本电脑的控制中心，利用各种接口和线路连接整个笔记本电脑的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行笔记本电脑的各种功能和处理数据，从而对笔记本电脑进行整体监测。可选的，处理器480可包括一个或多个处理单元；可选的，处理器480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器480中。

笔记本电脑还包括给各个部件供电的电源490(比如电池)，可选的，电源可以通过电源管理系统与处理器480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，笔记本电脑还可以包括摄像头、蓝牙模块等，在此不再赘述。

上述实施例中由终端设备所执行的步骤可以基于该图19所示的终端设备结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种物体检测方法，其特征在于，包括：

获取待检测物体的第一图像和第二图像，所述第一图像为二维图像，所述第二图像至少包括光度立体合成的彩色法向量图像；

将所述第一图像输入至二维目标检测模型输出第一检测结果，并将所述第二图像输入光度立体目标检测模型输出第二检测结果，所述第一检测结果用于指示从所述第一图像中检测得到的各个缺陷的位置坐标和置信概率，所述第二检测结果用于指示从所述第二图像中检测得到的各个缺陷的位置坐标和置信概率；

将所述第一检测结果和所述第二检测结果输入联合处理模型与预设阈值进行比对输出所述待检测工件的质检结果，所述预设阈值包括置信概率的阈值、位置坐标数量的阈值和位置坐标的预设范围中的至少一项。

2.根据权利要求1所述的方法，其特征在于，在所述将所述第二图像输入光度立体目标检测模型输出第二检测结果之后，所述方法还包括：

利用路径积分原理根据所述第二检测结果指示的位置坐标和所述彩色法向量图像计算得到所述第二检测结果指示的位置坐标内各个像素点的相对深度集合；

选择所述相对深度集合中的最大相对深度作为所述第二检测结果指示的缺陷的估算深度。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一检测结果和所述第二检测结果输入联合处理模型与预设阈值进行比对输出所述待检测工件的质检结果包括：

将所述第一检测结果、所述第二检测结果和所述估算深度输入联合处理模型与所述预设阈值进行比对输出所述待检测工件的质检结果，所述预设阈值还包括估算深度的阈值。

4.根据权利要求3所述的方法，其特征在于，所述将所述第一检测结果、所述第二检测结果和所述估算深度输入联合处理模型与所述预设阈值进行比对输出所述待检测工件的质检结果包括：

在所述第一检测结果指示的置信概率大于第一阈值或者所述第二检测结果指示的置信概率大于第二阈值且所述估算深度大于第三阈值时，输出所述目标工作的质检结果为质检未通过；

在所述第一检测结果指示的置信概率小于或等于所述第一阈值，所述第二检测结果指示的置信概率小于或等于所述第二阈值且所述估算深度小于或等于所述第三阈值时，输出所述目标工作的质检结果为质检通过。

5.根据权利要求1所述的方法，其特征在于，所述获取待检测物体的第一图像和第二图像包括：

通过目标镜头和至少三个光源获取所述待检测物体在不同照明条件下的图像集合，所述至少三个光源为相对于所述待检测物体位于不同方位的光源；

选择所述图像集合中的任意一张图像作为所述第一图像，并选择所述至少三个光源单独照射所述待检测物体时生成的图像通过光度立体合成所述第二图像。

6.根据权利要求5所述的方法，其特征在于，所述选择所述至少三个光源单独照射所述待检测物体时生成的图像通过光度立体合成所述第二图像包括：

根据所述至少三个光源的入射方向、所述待检测物体的表面反射率以及所述至少三个光源的反射方向将所述至少三个光源单独照射所述待检测物体时生成的图像通过光度立体合成所述第二图像，其中，所述入射方向为通过光源标定确定。

7.根据权利要求5所述的方法，其特征在于，在所述光源数量为4时，所述通过目标镜头和至少三个不同方位的照明光源获取所述目标工作在不同照明条件下的图像集合包括：

在第一光源照射所述待检测物体时，通过所述目标镜头生成所述待检测物体的第三图像；

在第二光源照射所述待检测物体时，通过所述目标镜头生成所述待检测物体的第四图像；

在第三光源照射所述待检测物体时，通过所述目标镜头生成所述待检测物体的第五图像；

在第四光源照射所述待检测物体时，通过所述目标镜头生成所述待检测物体的第六图像；

在所述第一光源、所述第二光源、所述第三光源和所述第四光源均照射所述待检测物体时，通过所述目标镜头生成所述待检测物体的第七图像；其中，所述图像集合包括所述第三图像、所述第四图像、所述第五图像、所述第六图像和所述第七图像；

所述第一光源、所述第二光源、所述第三光源和所述第四光源为相对于所述待检测物体位于不同方位的光源；

所述选择所述图像集合中的任意一张图像作为所述第一图像，并选择至少三个光源单独照射所述待检测物体时生成的图像通过光度立体合成所述第二图像包括：

选择所述第七图像作为所述第一图像；

将所述第三图像、所述第四图像、所述第五图像和所述第六图像通过光度立体合成所述第二图像。

8.根据权利要求5所述的方法，其特征在于，所述目标镜头为远心镜头或者长焦镜头；

所述至少三个光源为具有均匀强度的远心照明光源或者远距离的点光源。

9.根据权利要求1至8中任一项所述的方法，所述第二图像还包括光度立体合成的反射率灰度图像。

10.根据权利要求1至8中任一项所述的方法，其特征在于，所述方法还包括：

获取第一训练样本集和第二训练样本集、初始二维目标检测模型和初始光度立体目标检测模型，其中，所述第一训练样本集中标注表面缺陷，所述第二训练样本集标注深度缺陷；

利用所述第一训练样本集对所述初始二维目标检测模型进行有监督训练得到所述二维目标检测模型，并利用所述第二训练样本集对所述初始光度立体目标检测模型进行有监督训练得到所述光度立体目标检测模型。

11.根据权利要求10所述的方法，其特征在于，所述初始二维目标检测模型为级联的用于区域检测的卷积神经网络Cascade RCNN、快速的用于区域检测的卷积神经网络FasterRCNN或者用于目标检测的自注意力模型DETR；

所述初始光度立体目标检测模型为Cascade RCNN、Faster RCNN或者DETR。

12.根据权利要求11所述的方法，其特征在于，所述初始二维目标检测模型和所述初始光度立体目标检测模型中的特征提取骨干网络为具有特征金字塔的高分辨率网络HRNetV2P、残差神经网络ResNet或者基于移动窗口的层次化视觉自注意力模型SwinTransformer。

13.一种物体检测装置，其特征在于，包括：

获取模块，用于获取待检测物体的第一图像和第二图像，所述第一图像为二维图像，所述第二图像至少包括光度立体合成的彩色法向量图像；

处理模块，用于将所述第一图像输入至二维目标检测模型输出第一检测结果，并将所述第二图像输入光度立体目标检测模型输出第二检测结果，所述第一检测结果用于指示从所述第一图像检测得到的各个缺陷的位置坐标和置信概率，所述第二检测结果用于指示从所述第二图像中检测得到的各个缺陷的位置坐标和置信概率；

输出模块，用于将所述第一检测结果和所述第二检测结果输入联合处理模型与预设阈值进行比对输出所述待检测物体的质检结果，所述预设阈值包括置信概率的阈值、位置坐标数量的阈值和位置坐标的预设范围中的至少一项。

14.一种计算机设备，其特征在于，包括：存储器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，所述处理器用于根据程序代码中的指令执行权利要求1至12中任一项所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至12中任一项所述的方法。