CN117115145A

CN117115145A - 检测方法及装置、电子设备、计算机可读介质

Info

Publication number: CN117115145A
Application number: CN202311351839.5A
Authority: CN
Inventors: 付文辉; 董建伟; 郑挺; 蔡振浩
Original assignee: Ningde Sikeqi Intelligent Equipment Co Ltd
Current assignee: Ningde Sikeqi Intelligent Equipment Co Ltd
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2023-11-24
Anticipated expiration: 2043-10-19
Also published as: CN117115145B

Abstract

本申请的实施例揭示了一种检测方法及装置、电子设备、计算机可读介质。该方法包括：获取待检测物体的多视图相机图像；进行多维特征提取；利用Transformer编解码器模型和单层神经网络对多视图相机图像的多维特征进行检测处理，得到所述待检测物体的类别以及所述待检测物体在每个视图相机图像中的位置；确定出所述待检测物体在相邻两个视图相机图像中的重叠区域和非重叠区域；从所述重叠区域中获取视差图对所述重叠区域进行视差优化，对所述视差优化处理后的重叠区域进行矫正处理，得到所述待检测物体的三维图像。本申请的实施例可以提高物体检测的准确性。

Description

检测方法及装置、电子设备、计算机可读介质

技术领域

本申请涉及视觉检测技术领域，具体涉及一种检测方法及装置、电子设备、计算机可读介质。

背景技术

随着智慧工厂的兴起，新能源行业中产品的装配越来越多用到自动化。传统的人工装配效率低、容易出现人工误差，如今自动化流水线相对于人工装配可以很大程度上提高工厂的作业速度。但是在自动化流水线中，如何在三维空间中准确检测出装配的物体是实现保证自动化装配的重要环节，直接决定了自动化装配能否顺利进行是一个需要研究的问题，研究人员提出了三维物体检测方法。

相关技术中，物体检测方法通常分为基于雷达的检测方法、基于单目视觉的检测方法以及基于多目视觉的检测方法，其中，基于雷达的物体检测方法的准确高，但该检测方法所使用的激光雷达传感器成本较高；基于单目视觉的物体检测方法目前主要在提高预测的性能，但是该检测方法对物体所处场景的理解仅限于单目检测网络，通常无法正确检测重叠区域中的物体，这会导致重叠区域出现误报，此外，重叠区域中的物体通常受到大量遮挡或由于相机畸变而导致形变，从而引起域的偏移。基于多目视觉的物体检测方法普遍应用深度神经网络，可以从多目视觉中学习到物体的深度信息，但是由于深度神经网络在学习过程中的归纳存在偏见，导致基于多目视觉的物体检测方法无法利用出现在其他不同视图图像中的附加信息，同时基于多目视觉的物体检测方法没有很好的解决重叠区域（即远离相机中心的区域）和非重叠区域（靠近相机中心的区域）之间的域偏移效应。可见，相关技术中的物体检测方法不能准确有效的检测重叠区域的物体。

发明内容

为解决上述技术问题，本申请的实施例提供了一种检测方法及装置、电子设备、计算机可读介质。

根据本申请实施例的一个方面，提供了一种检测方法，包括：获取待检测物体的多视图相机图像；利用ResNet对所述待检测物体的多视图相机图像进行多维特征提取，得到所述多视图相机图像的多维特征；利用Transformer编解码器模型和单层神经网络对所述多视图相机图像的多维特征进行检测处理，得到所述待检测物体的类别以及所述待检测物体在每个视图相机图像中的位置；根据所述待检测物体在每个视图相机图像中的位置确定出所述待检测物体在相邻两个视图相机图像中的重叠区域和非重叠区域；从所述重叠区域中获取视差图，根据所述视差图对所述重叠区域进行视差优化，得到视差优化处理后的重叠区域；对所述视差优化处理后的重叠区域进行矫正处理，得到矫正后的重叠区域，将所述矫正后的重叠区域作为所述待检测物体的三维图像。

在本申请的一个实施例中，所述利用ResNet对所述待检测物体的多视图相机图像进行多维特征提取，包括：利用ResNet对所述待检测物体的多视图相机图像进行编码处理，得到所述多视图相机图像的多维特征；所述编码处理的公式包括：

其中，F表示所述多视图相机图像的多维特征，表示第N个视图相机图像，N表示多视图相机图像的数量，H，W，C分别表示向量的三个维度，/>表示向量空间。

在本申请的一个实施例中，所述利用Transformer编解码器模型和单层神经网络对所述多视图相机图像的多维特征进行检测处理，得到所述待检测物体的类别以及所述待检测物体在每个视图相机图像中的位置，包括：将所述多视图相机图像的多维特征压缩成1维序列，得到查询特征集合；将所述查询特征集合输入Transformer编解码器模型处理，得到目标特征；通过所述单层神经网络对所述目标特征进行处理，得到所述待检测物体的类别以及所述待检测物体在每个视图相机图像中的位置。

在本申请的一个实施例中，所述Transformer编解码器模型由多个堆叠的Transformer编解码器组成，所述将所述查询特征集合输入Transformer编解码器模型处理，得到目标特征，包括：所述查询特征集合经过所述Transformer编解码器模型中的第一层Transformer编解码器处理后，得到所述查询特征集合中包含的每个查询特征在三维空间对应的参考点；获取所述查询特征集合中的每个查询特征对应的视图相机图像，将每个查询特征在三维空间对应的参考点反向投影到对应的视图相机图像上，得到所述查询特征在对应视图相机图像上的投影位置；基于所述查询特征在对应视图相机图像上的投影位置确定出所述查询特征的最终特征；基于所述查询特征的最终特征确定Transformer编解码器模型中的下一层Transformer编解码器的输入特征，直至Transformer编解码器模型中的最后一层Transformer编解码器输出目标特征。

在本申请的一个实施例中，所述获取所述查询特征集合中的每个查询特征对应的视图相机图像，将每个查询特征在三维空间对应的参考点反向投影到对应的视图相机图像上，得到所述查询特征在对应视图相机图像上的投影位置，包括：将所述查询特征集合中包含的每个查询特征在三维空间对应的参考点与同维度的全1特征矩阵进行拼接操作，得到第一特征矩阵；获取每个查询特征对应的视图相机图像的投影矩阵，将所述第一特征矩阵与所述投影矩阵进行乘积运算，得到参考点在视图相机图像上的第一投影位置；对所述第一投影位置和所述多视图相机图像的多维特征进行双线性插值操作，得到所述查询特征在对应视图相机图像上的投影位置；所述查询特征在对应视图相机图像上的投影位置的计算表达式如下：

其中，表示所述查询特征在对应视图相机图像上的投影位置，/>是拼接操作，是第m个视图相机图像的投影矩阵，/>表示所述查询特征集合中包含的每个查询特征在三维空间对应的参考点，/>表示第一特征矩阵，/>代表参考点/>在第m个视图相机图像上的第一投影位置，/>表示所述多视图相机图像的多维特征，/>表示双线性插值操作，/>表示Transformer编解码器模型中的第/>层Transformer编解码器。

在本申请的一个实施例中，所述通过所述单层神经网络对所述目标特征进行处理，得到所述待检测物体的类别以及所述待检测物体在每个视图相机图像中的位置，包括：

其中，表示单层神经网络中的区域预测函数，/>表示所述待检测物体在每个视图相机图像中的位置检测框，/>表示所述待检测物体的类别，/>表示单层神经网络中的类别预测函数，/>表示目标特征。

在本申请的一个实施例中，所述对所述视差优化处理后的重叠区域进行矫正处理，得到矫正后的重叠区域，将所述矫正后的重叠区域作为所述待检测物体的三维图像，包括：根据所述视差优化处理后的重叠区域，获取所述重叠区域中包含的查询特征；计算所述重叠区域与所述查询特征对应的源区域之间的损失函数；若所述损失函数大于等于所述预设损失阈值，则确定所述查询特征不属于重叠区域，将所述查询特征由重叠区域矫正为非重叠区域；直至对重叠区域中包含的所有查询特征都进行矫正处理后，得到矫正后的重叠区域，将所述矫正后的重叠区域作为所述待检测物体的三维图像。

在本申请的一个实施例中，所述计算所述重叠区域与所述查询特征对应的源区域之间的损失函数，所述损失函数的计算表达式包括：

其中，表示重叠区域与查询特征对应的源区域之间的损失函数，/>是网格搜索中用于控制/>的超参数，/>是网格搜索中用于控制/>的超参数，/>是网格搜索中用于控制/>的超参数，/>表示物体检测损失，/>表示重叠区域损失，/>表示区域分类损失。

根据本申请实施例的一个方面，提供了一种检测装置，包括：数据获取模块，配置为获取待检测物体的多视图相机图像；数据预处理模块，配置为利用ResNet对所述待检测物体的多视图相机图像进行多维特征提取，得到所述多视图相机图像的多维特征；物体检测模块，配置为利用Transformer编解码器模型和单层神经网络对所述多视图相机图像的多维特征进行检测处理，得到所述待检测物体的类别以及所述待检测物体在每个视图相机图像中的位置；确定模块，配置为根据所述待检测物体在每个视图相机图像中的位置确定出所述待检测物体在相邻两个视图相机图像中的重叠区域和非重叠区域；立体视差估计模块，配置为从所述重叠区域中获取视差图，根据所述视差图对所述重叠区域进行视差优化，得到视差优化处理后的重叠区域；重叠区域判别器模块，配置为对所述视差优化处理后的重叠区域进行矫正处理，得到矫正后的重叠区域，将所述矫正后的重叠区域作为所述待检测物体的三维图像。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如前所述的检测方法。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的检测方法。

在本申请的实施例所提供的技术方案中，通过获取待检测物体的多视图相机图像，并进行多维特征提取、检测处理后得到待检测物体的类别以及待检测物体在每个视图相机图像中的位置，从而确定出待检测物体在相邻两个视图相机图像中的重叠区域和非重叠区域，然后从重叠区域中获取视差图，根据视差图对重叠区域进行视差优化，最小化非重叠区域与重叠区域之间的间隙从而减小域偏移效应；本申请还对视差优化处理后的重叠区域进行矫正处理，一方面能够提高物体检测的准确性，另一方面能更好的让在不同相机图像中学习同一物体信息，提高检测准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请的一示例性实施例示出的一种检测方法的流程图；

图2是图1所示实施例中的步骤S130在一示例性实施例中的流程图；

图3是图2所示实施例中的步骤S220在一示例性实施例中的流程图；

图4是本申请的一示例性实施例示出的检测装置的框图；

图5是本申请的另一示例性实施例示出的检测装置的框图；

图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的方案涉及智能制造技术中的视觉检测技术。随着智慧工厂的兴起，新能源行业中的工厂作业正在逐步向自动化演变，例如自动化流水线、产品装配自动化等。传统的人工装配效率低、容易出现人工误差，自动化流水线相对于人工装配可以很大程度上提高工厂的作业速度。但是在自动化流水线中，如何在三维空间中准确检测出装配的物体是实现保证自动化装配的重要环节，直接决定了自动化装配能否顺利进行。相关技术中的物体检测方法分为基于雷达的检测方法、基于单目视觉的检测方法以及基于多目视觉的检测方法。其中，基于雷达的物体检测方法虽然准确但是因为激光雷达传感器的成本导致该方法预算较高。基于单目视觉的物体检测方法目前主要在提高预测的性能，但是方法对物体所处场景的理解可能仅限于单目检测网络，这会导致重叠区域出现误报。基于多目视觉的物体检测方法普遍应用深度神经网络，可以从多目视觉中学习到物体的深度信息，但是由于深度神经网络在学习过程中的归纳存在偏见，通常导致方法无法利用出现在其他不同视图图像中的附加信息，同时它们没有很好的解决重叠区域（即远离相机中心的区域）和非重叠区域（靠近相机中心的区域）之间的域偏移效应。可见，相关技术中的物体检测方法不能准确有效的检测重叠区域的物体。

基于此，本申请的实施例提出一种检测方法及检测装置、电子设备、计算机可读介质，下文将进行详细描述。

请参阅图1，图1是本申请的一示例性实施例示出的检测方法的流程图。

在一示例性的实施例中，检测方法至少包括步骤S110至步骤S130，详细介绍如下：

步骤S110，获取待检测物体的多视图相机图像。

本申请实施例中，在进行物体检测时，通常根据二维多视图相机图像对待检测物体在三维空间的形状进行还原，重叠区域中的物体通常主要由于相机的有限视图而被遮挡，或者由于相机镜头失真而遭受变形。

本申请实施例中的多视图相机图像是利用相机/摄像头从至少2个视角对待检测物体进行拍摄得到的图像。

在一示例性的实施例中，多视图相机图像为分别从前、前左、前右、后、后左、后右这6个视角对待检测物体进行拍摄得到的相机图像，得到的6个不同视图的图像即为多视图相机图像。

步骤S120，利用ResNet对待检测物体的多视图相机图像进行多维特征提取，得到多视图相机图像的多维特征。

在本申请实施例中，利用ResNet对待检测物体的多视图相机图像进行多维特征提取，包括：

利用ResNet对待检测物体的多视图相机图像进行编码处理，得到多视图相机图像的多维特征；编码处理的公式包括：

其中，F表示多视图相机图像的多维特征，表示第N个视图相机图像，N表示多视图相机图像的数量，H，W，C分别表示向量的三个维度，/>表示向量空间。

在一示例性的实施例中，若视图相机图像为分别从前、前左、前右、后、后左、后右这6个视角对待检测物体进行拍摄得到的相机图像，在进行多维特征提取时，利用ResNet将来自6个不同视图的相机图像进行编码得到特征W，C分别是向量的三个维度，这些多视图的特征为识别不同尺寸的物体提供了丰富的信息。

步骤S130，利用Transformer编解码器模型和单层神经网络对多视图相机图像的多维特征进行检测处理，得到待检测物体的类别以及待检测物体在每个视图相机图像中的位置。

本申请实施例中，对多视图相机图像进行检测处理，以便将二维图像转换成三维图像。

在一示例性的实施例中，如图2所示，步骤S130中通过缺陷检测模型对待检测图像进行图像处理、缺陷识别和缺陷检测，得到检测结果的过程，可以包括步骤S210至步骤S230，详细介绍如下：

步骤S210，将多视图相机图像的多维特征压缩成1维序列，得到查询特征集合。

步骤S220，将查询特征集合输入Transformer编解码器模型处理，得到目标特征。

在一示例性的实施例中，Transformer编解码器模型由多个堆叠的Transformer编解码器组成，利用堆叠的Transformer模型从三维图像中学习信息，并最终给出物体检测的结果。

示例性的，Transformer编解码器模型由L个堆叠的Transformer编解码器组成，物体检测模块通过堆叠L个基于Transformer的编解码器将二维的图像转换成三维图像从而完成物体检测。

在一示例性的实施例中，如图3所示，步骤S220中将查询特征集合输入Transformer编解码器模型处理，得到目标特征的过程，可以包括步骤S310至步骤S340，详细介绍如下：

步骤S310，查询特征集合经过Transformer编解码器模型中的第一层Transformer编解码器处理后，得到查询特征集合中包含的每个查询特征在三维空间对应的参考点，查询特征集合/>包括从1开始到M共M个查询特征，第1个查询特征为/>，/>指的是第/>层transformer编码器，/>用于指示中间变量。

举例说明，将多视图相机图像的多维特征压缩成1维序列，得到查询特征集合，查询特征集合中每一个/>经过一层基于Transformer的编解码器得到，/>表示查询特征集合中包含的每个查询特征在三维空间对应的参考点。

其中是本层的编解码器。

步骤S320，获取查询特征集合中的每个查询特征对应的视图相机图像，将每个查询特征在三维空间对应的参考点反向投影到对应的视图相机图像上，得到查询特征在对应视图相机图像上的投影位置。

在一示例性的实施例中，获取查询特征集合中的每个查询特征对应的视图相机图像后，步骤S320中将每个查询特征在三维空间对应的参考点反向投影到对应的视图相机图像上，得到查询特征在对应视图相机图像上的投影位置的过程，具体包括以下过程，详细介绍如下：

将查询特征集合中包含的每个查询特征在三维空间对应的参考点与同维度的全1特征矩阵进行拼接操作，得到第一特征矩阵；

获取每个查询特征对应的视图相机图像的投影矩阵，将第一特征矩阵与投影矩阵进行乘积运算，得到参考点在视图相机图像上的第一投影位置；

对第一投影位置和多视图相机图像的多维特征进行双线性插值操作，得到查询特征在对应视图相机图像上的投影位置，计算表达式如下：

其中，表示查询特征在对应视图相机图像上的投影位置，/>是拼接操作，/>是第/>个视图相机图像的投影矩阵，/>表示查询特征集合中包含的每个查询特征在三维空间对应的参考点，/>表示第一特征矩阵，/>代表参考点/>在第/>个视图相机图像上的第一投影位置，/>表示多视图相机图像的多维特征，/>表示双线性插值操作，/>表示堆叠的Transformer编解码器模型的第/>层。

步骤S330，基于查询特征在对应视图相机图像上的投影位置确定出查询特征的最终特征/>。

步骤S340，基于查询特征的最终特征确定Transformer编解码器模型中的下一层Transformer编解码器的输入特征，直至Transformer编解码器模型中的最后一层Transformer编解码器输出目标特征。

在一示例性的实施例中，查询特征的最终特征及下一层Transformer编解码器的输入特征的计算表达式如下：

其中，是二进制值（/>）代表参考点是否在图像中可见，/>是第m个视图相机图像，/>是一个极小值，用于避免除0错误，/>是Transformer编解码器模型中的第/>层Transformer编解码器，/>是第/>层Transformer编解码器的输入特征，/>是第/>层Transformer编解码器的输入特征。

步骤S230，通过单层神经网络对目标特征进行处理，得到待检测物体的类别以及待检测物体在每个视图相机图像中的位置。

在一示例性的实施例中，步骤S230中通过单层神经网络对目标特征进行处理，得到待检测物体的类别以及待检测物体在每个视图相机图像中的位置可以通过以下表达式实现：

其中，表示单层神经网络中的区域预测函数，/>表示待检测物体在每个视图相机图像中的位置检测框，/>表示待检测物体的类别，/>表示单层神经网络中的类别预测函数，/>表示目标特征。

步骤S140，根据待检测物体在每个视图相机图像中的位置确定出待检测物体在相邻两个视图相机图像中的重叠区域和非重叠区域。

步骤S150，从重叠区域中获取视差图，根据视差图对重叠区域进行视差优化，得到视差优化处理后的重叠区域。

需要说明的是，相邻的来自多个视图的摄像头会有重叠区域，通过学习这些重叠区域的信息，得到重叠区域物体可靠的视觉信息，为三维物体检测提供更好的性能。

在一示例性的实施例中，可以利用传统的立体视差估计方法从重叠区域获取可靠的视差信息，并将将视差信息作为监督信号，充分利用双目图像的几何潜力，提高整体检测准确性。

在一示例性的实施例中，步骤S150中从重叠区域中获取视差图，根据视差图对重叠区域进行视差优化，得到视差优化处理后的重叠区域的过程可以使用训练后的深度学习模型中的功能模块实现，例如可以通过训练Transformer编解码器模型中的立体视差估计模块实现。

举例说明，立体视差估计模块的输入是一对有重叠区域的两张图像，首先利用ResNet对两张图像进行特征提取，其次利用三维卷积学习图像信息。然后使用传统立体匹配算法（基于信息的逐像素的相互匹配）来计算两个像素之间的相关，从而获取视差图。对于在原图像中的每个二维像素点，本模块将其转换成三维的/>，然后再将该视图转化到目标图像的二维像素点/>，最后计算两个像素点之间的差异。

在一示例性的实施例中，立体视差估计模块在训练时，利用二进制掩码阻塞来自非重叠区域的梯度，通过计算重叠区域的损失从而更好的训练立体视差估计模块，重叠区域损失的计算表达式如下：

重叠区域损失的计算表达式如下：

其中，代表重叠区域，/>代表离散视差，/>设置为1.0，/>是给定像素点/>、视差/>的目标概率分布，/>是给目标视差图，/>是预测的概率分布。

步骤S160，对视差优化处理后的重叠区域进行矫正处理，得到矫正后的重叠区域，将矫正后的重叠区域作为待检测物体的三维图像。

需要说明的是，重叠区域中的物体通常主要由于相机的有限视图而被遮挡，或者由于相机镜头失真而遭受变形，重叠区域与非重叠区域之间存在域偏移效应。在本申请实施例中，为了更好的处理不同视图图像中的同一物体，使用正则化来显式地最小化非重叠区域和重叠区域之间的表示差异来减小域偏移效应，从而更好的学习不同视图中同一物体的信息。

在一示例性的实施例中，步骤S160中对视差优化处理后的重叠区域进行矫正处理，得到矫正后的重叠区域，将矫正后的重叠区域作为待检测物体的三维图像的过程可以使用训练后的深度学习模型中的功能模块实现，例如可以通过训练Transformer编解码器模型中的重叠区域判别器模块来判断查询特征是否来自重叠区域，具体地，通过使用梯度反转层（GRL）的对抗性框架来学习区域不变量的信息。在Transformer模型中（如物体检测的解码器部分），对于给定一个查询变量，重叠区域判别器/>获得这些查询特征/>并给出这些特征正确的源区域，使用区域分类损失/>来训练重叠区域判别器，区域分类损失/>的计算表达式如下：

其中，是对样本/>的期望，从输入数据分布/>中提取的，/> 表示重叠区域数量，/>=1表示样本/>来自重叠区域，/>=0表示样本/>来自非重叠区域，/>表示分类函数的结果。

需要说明的是，在本申请实施例中，区域分类损失被特殊设置为负数，有助于减少偏差，使得物体检测结果更加准确。

在一示例性的实施例中，步骤S160中对视差优化处理后的重叠区域进行矫正处理，得到矫正后的重叠区域，将矫正后的重叠区域作为待检测物体的三维图像的过程，可以包括以下步骤，详细介绍如下：

根据视差优化处理后的重叠区域，获取重叠区域中包含的查询特征；计算重叠区域与查询特征对应的源区域之间的损失函数；若损失函数大于等于预设损失阈值，则确定查询特征不属于重叠区域，将查询特征由重叠区域矫正为非重叠区域；直至对重叠区域中包含的所有查询特征都进行矫正处理后，得到矫正后的重叠区域，将矫正后的重叠区域作为待检测物体的三维图像。

在一示例性的实施例中，重叠区域与查询特征对应的源区域之间的损失函数的计算表达式包括：

其中，物体检测损失的计算表达式如下：

其中，N表示样本数量，表示预测结果，/>表示查询特征集合中包含的每个查询特征在三维空间对应的参考点，/>表示检测框的损失，/>表示检测框真实值，/>表示检测框预测值，/>表示超参数，/> 表示广义交并比损失（GIoULoss），/>表示超参数，/> 表示L1损失，/>用于表示预测值与真实值之间的关系，/>表示一组扰动集合，M表示样本数量（也就是N，可以改成N），/>表示样本被预测为是/>分类的概率，/>表示检测框的L1损失。

由上可知，本申请实施例提供一种基于多视图的三维物体检测方法，其利用到相机的多视图提供的丰富信息来完成三维物体检测。本申请实施例所提供的技术方案通过检测模型可以进行物体检测，得到精确的检测结果。本申请实施例获取待检测物体的多视图相机图像，并进行多维特征提取、检测处理后得到待检测物体的类别以及待检测物体在每个视图相机图像中的位置，从而确定出待检测物体在相邻两个视图相机图像中的重叠区域和非重叠区域，然后从重叠区域中获取视差图，根据视差图对重叠区域进行视差优化，最小化非重叠区域与重叠区域之间的间隙从而减小域偏移效应；本申请还对视差优化处理后的重叠区域进行矫正处理，一方面能够提高物体检测的准确性，另一方面能更好的让在不同相机图像中学习同一物体信息，提高物体检测的准确性。

图4是本申请的一示例性实施例示出的检测装置的框图。如图4所示，该示例性的检测装置包括：

数据获取模块410，配置为获取待检测物体的多视图相机图像；

数据预处理模块420，配置为利用ResNet对待检测物体的多视图相机图像进行多维特征提取，得到多视图相机图像的多维特征；

物体检测模块430，配置为利用Transformer编解码器模型和单层神经网络对多视图相机图像的多维特征进行检测处理，得到待检测物体的类别以及待检测物体在每个视图相机图像中的位置；

确定模块440，配置为根据待检测物体在每个视图相机图像中的位置确定出待检测物体在相邻两个视图相机图像中的重叠区域和非重叠区域；

立体视差估计模块450，配置为从重叠区域中获取视差图，根据视差图对重叠区域进行视差优化，得到视差优化处理后的重叠区域；

重叠区域判别器模块460，配置为对视差优化处理后的重叠区域进行矫正处理，得到矫正后的重叠区域，将所述矫正后的重叠区域作为所述待检测物体的三维图像。

需要说明的是，立体视差估计模块利用传统的立体视差估计方法从重叠区域获取可靠的视差信息，并在训练中遮掩非重叠区域，从而提高物体检测的准确性。重叠区域判别器被训练来判断查询特征是否来自重叠区域。重叠区域判别器模块使用正则化来显式地最小化非重叠区域与重叠区域之间的间隙，从而更好的让模型在不同图像中更好的学习同一物体信息，提高检测准确性。

在另一示例性的实施例中，数据预处理模块420包括：

编码子模块，配置为利用ResNet对待检测物体的多视图相机图像进行编码处理，得到多视图相机图像的多维特征；编码处理的公式包括：

在另一示例性的实施例中，物体检测模块430还包括：

压缩子模块，配置为将多视图相机图像的多维特征压缩成1维序列，得到查询特征集合；

处理子模块，配置为将查询特征集合输入Transformer编解码器模型处理，得到目标特征；

类别及位置确定模块，配置为通过单层神经网络对目标特征进行处理，得到待检测物体的类别以及待检测物体在每个视图相机图像中的位置。

在另一示例性的实施例中，处理子模块还包括：

参考点确定单元，配置为查询特征集合经过Transformer编解码器模型中的第一层Transformer编解码器处理后，得到查询特征集合中包含的每个查询特征在三维空间对应的参考点；Transformer编解码器模型由多个堆叠的Transformer编解码器组成；

投影位置确定单元，配置为获取查询特征集合中的每个查询特征对应的视图相机图像，将每个查询特征在三维空间对应的参考点反向投影到对应的视图相机图像上，得到查询特征在对应视图相机图像上的投影位置；

最终特征确定单元，配置为基于查询特征在对应视图相机图像上的投影位置确定出查询特征的最终特征；

目标特征确定单元，配置为基于查询特征的最终特征确定Transformer编解码器模型中的下一层Transformer编解码器的输入特征，直至Transformer编解码器模型中的最后一层Transformer编解码器输出目标特征。

在另一示例性的实施例中，投影位置确定单元包括：

第一特征矩阵确定子单元，配置为将查询特征集合中包含的每个查询特征在三维空间对应的参考点与同维度的全1特征矩阵进行拼接操作，得到第一特征矩阵；

第一计算子单元，配置为获取每个查询特征对应的视图相机图像的投影矩阵，将第一特征矩阵与投影矩阵进行乘积运算，得到参考点在视图相机图像上的第一投影位置；

第二计算子单元，配置为对第一投影位置和多视图相机图像的多维特征进行双线性插值操作，得到查询特征在对应视图相机图像上的投影位置；

查询特征在对应视图相机图像上的投影位置的计算表达式如下：

其中，表示查询特征在对应视图相机图像上的投影位置，/>是拼接操作，/>是第m个视图相机图像的投影矩阵，/>表示查询特征集合中包含的每个查询特征在三维空间对应的参考点，/>表示第一特征矩阵，/>代表参考点/>在第m个视图相机图像上的第一投影位置，/>表示多视图相机图像的多维特征，/>表示双线性插值操作，/>表示Transformer编解码器模型的第/>层Transformer编解码器。

在另一示例性的实施例中，类别及位置确定模块还包括：

类别及位置计算子模块，配置为执行以下计算表达式：

在另一示例性的实施例中，重叠区域判别器模块还包括：

获取子模块，配置为根据视差优化处理后的重叠区域，获取重叠区域中包含的查询特征；

损失计算子模块，配置为计算重叠区域与查询特征对应的源区域之间的损失函数；

矫正子模块，配置为若损失函数大于等于预设损失阈值，则确定查询特征不属于重叠区域，将查询特征由重叠区域矫正为非重叠区域；

三维图像确定子模块，配置为直至对重叠区域中包含的所有查询特征都进行矫正处理后，得到矫正后的重叠区域，将矫正后的重叠区域作为待检测物体的三维图像。

在另一示例性的实施例中，损失计算子模块还包括：损失计算单元，配置为执行以下计算表达式：

在一示例性的实施例中，如图5所示，主要包含数据预处理模块、物体检测模块、立体视差估计模块、重叠区域判别器模块。数据预处理模块主要是将多个视图的相机图像进行特征提取，供后续各模块使用；物体检测模块利用堆叠的Transformer编解码器模型以及单层神经网络实现对物体的检测，输出物体位置、物体类别；立体视差估计模块主要是通过寻找重叠区域，利用立体匹配算法计算两张图像的相关性，并且在训练中遮掩非重叠区域，让模型在训练中更专注重叠区域的差异，从而更好的学习重叠区域物体的信息；重叠区域判别器模块主要通过最小化非重叠区域和重叠区域之间的表示差异来减小域偏移效应，从而更好的从不同图像中标识出相同物体的位置。本申请通过设计立体视差估计模块来从重叠区域获取可靠的视差信息，并将其作为监督信号，提高了模型的检测准确性。其次，本申请设计了对抗性重叠区域判别器模块，通过最小化非重叠区域和重叠区域之间的表示差异来减小域偏移效应，从而更好的学习不同视图图像中同一物体的信息。

需要说明的是，上述实施例所提供的检测装置与上述实施例所提供的检测方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的检测装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处也不对此进行限制。

本申请的实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得电子设备实现上述各个实施例中提供的检测方法。

图6示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是，图6示出的电子设备的计算机系统600仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元（Central Processing Unit，CPU）601，其可以根据存储在只读存储器（Read-Only Memory，ROM）602中的程序或者从储存部分608加载到随机访问存储器（Random Access Memory，RAM）603中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 603中，还存储有系统操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（Input/Output，I/O）接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分607；包括硬盘等的储存部分608；以及包括诸如LAN（Local Area Network，局域网）卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入储存部分608。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元（CPU）601执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的检测方法。该计算机可读存储介质计算机可读介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种检测方法，其特征在于，包括：

获取待检测物体的多视图相机图像；

利用ResNet对所述待检测物体的多视图相机图像进行多维特征提取，得到所述多视图相机图像的多维特征；

利用Transformer编解码器模型和单层神经网络对所述多视图相机图像的多维特征进行检测处理，得到所述待检测物体的类别以及所述待检测物体在每个视图相机图像中的位置；

根据所述待检测物体在每个视图相机图像中的位置确定出所述待检测物体在相邻两个视图相机图像中的重叠区域和非重叠区域；

从所述重叠区域中获取视差图，根据所述视差图对所述重叠区域进行视差优化，得到视差优化处理后的重叠区域；

对所述视差优化处理后的重叠区域进行矫正处理，得到矫正后的重叠区域，将所述矫正后的重叠区域作为所述待检测物体的三维图像。

2.根据权利要求1所述的方法，其特征在于，所述利用ResNet对所述待检测物体的多视图相机图像进行多维特征提取，包括：利用ResNet对所述待检测物体的多视图相机图像进行编码处理，得到所述多视图相机图像的多维特征；所述编码处理的公式包括：；其中，F表示所述多视图相机图像的多维特征，/>表示第N个视图相机图像，N表示多视图相机图像的数量，H，W，C分别表示向量的三个维度，/>表示向量空间。

3.据权利要求2所述的方法，其特征在于，所述利用Transformer编解码器模型和单层神经网络对所述多视图相机图像的多维特征进行检测处理，得到所述待检测物体的类别以及所述待检测物体在每个视图相机图像中的位置，包括：

将所述多视图相机图像的多维特征压缩成1维序列，得到查询特征集合；

将所述查询特征集合输入Transformer编解码器模型处理，得到目标特征；

通过所述单层神经网络对所述目标特征进行处理，得到所述待检测物体的类别以及所述待检测物体在每个视图相机图像中的位置。

4.根据权利要求3所述的方法，其特征在于，所述Transformer编解码器模型由多个堆叠的Transformer编解码器组成，所述将所述查询特征集合输入Transformer编解码器模型处理，得到目标特征，包括：

所述查询特征集合经过所述Transformer编解码器模型中的第一层Transformer编解码器处理后，得到所述查询特征集合中包含的每个查询特征在三维空间对应的参考点；

获取所述查询特征集合中的每个查询特征对应的视图相机图像，将每个查询特征在三维空间对应的参考点反向投影到对应的视图相机图像上，得到所述查询特征在对应视图相机图像上的投影位置；

基于所述查询特征在对应视图相机图像上的投影位置确定出所述查询特征的最终特征；

基于所述查询特征的最终特征确定Transformer编解码器模型中的下一层Transformer编解码器的输入特征，直至Transformer编解码器模型中的最后一层Transformer编解码器输出目标特征。

5.根据权利要求4所述的方法，其特征在于，所述获取所述查询特征集合中的每个查询特征对应的视图相机图像，将每个查询特征在三维空间对应的参考点反向投影到对应的视图相机图像上，得到所述查询特征在对应视图相机图像上的投影位置，包括：

将所述查询特征集合中包含的每个查询特征在三维空间对应的参考点与同维度的全1特征矩阵进行拼接操作，得到第一特征矩阵；

获取每个查询特征对应的视图相机图像的投影矩阵，将所述第一特征矩阵与所述投影矩阵进行乘积运算，得到参考点在视图相机图像上的第一投影位置；

对所述第一投影位置和所述多视图相机图像的多维特征进行双线性插值操作，得到所述查询特征在对应视图相机图像上的投影位置；

所述查询特征在对应视图相机图像上的投影位置的计算表达式如下：；其中，/>表示所述查询特征在对应视图相机图像上的投影位置，/>是拼接操作，/>是第m个视图相机图像的投影矩阵，/>表示所述查询特征集合中包含的每个查询特征在三维空间对应的参考点，/>表示第一特征矩阵，/>代表参考点在第m个视图相机图像上的第一投影位置，/>表示所述多视图相机图像的多维特征，表示双线性插值操作，/>表示Transformer编解码器模型中的第/>层Transformer编解码器。

6.根据权利要求3所述的方法，其特征在于，通过所述单层神经网络对所述目标特征进行处理，得到所述待检测物体的类别以及所述待检测物体在每个视图相机图像中的位置，包括：其中，/>表示单层神经网络中的区域预测函数，表示所述待检测物体在每个视图相机图像中的位置检测框，/>表示所述待检测物体的类别，/>表示单层神经网络中的类别预测函数，/>表示目标特征。

7.根据权利要求1所述的方法，其特征在于，所述对所述视差优化处理后的重叠区域进行矫正处理，得到矫正后的重叠区域，将所述矫正后的重叠区域作为所述待检测物体的三维图像，包括：

根据所述视差优化处理后的重叠区域，获取所述重叠区域中包含的查询特征；

计算所述重叠区域与所述查询特征对应的源区域之间的损失函数；

若所述损失函数大于等于预设损失阈值，则确定所述查询特征不属于重叠区域，将所述查询特征由重叠区域矫正为非重叠区域；

直至对重叠区域中包含的所有查询特征都进行矫正处理后，得到矫正后的重叠区域，将所述矫正后的重叠区域作为所述待检测物体的三维图像。

8.根据权利要求7所述的方法，其特征在于，所述计算所述重叠区域与所述查询特征对应的源区域之间的损失函数，所述损失函数的计算表达式包括：；其中，/>表示重叠区域与查询特征对应的源区域之间的损失函数，/>是网格搜索中用于控制/>的超参数，/>是网格搜索中用于控制/>的超参数，/>是网格搜索中用于控制/>的超参数，/>表示物体检测损失，/>表示重叠区域损失，/>表示区域分类损失。

9.一种检测装置，其特征在于，包括：

数据获取模块，配置为获取待检测物体的多视图相机图像；

数据预处理模块，配置为利用ResNet对所述待检测物体的多视图相机图像进行多维特征提取，得到所述多视图相机图像的多维特征；

物体检测模块，配置为利用Transformer编解码器模型和单层神经网络对所述多视图相机图像的多维特征进行检测处理，得到所述待检测物体的类别以及所述待检测物体在每个视图相机图像中的位置；

确定模块，配置为根据所述待检测物体在每个视图相机图像中的位置确定出所述待检测物体在相邻两个视图相机图像中的重叠区域和非重叠区域；

立体视差估计模块，配置为从所述重叠区域中获取视差图，根据所述视差图对所述重叠区域进行视差优化，得到视差优化处理后的重叠区域；

重叠区域判别器模块，配置为对所述视差优化处理后的重叠区域进行矫正处理，得到矫正后的重叠区域，将所述矫正后的重叠区域作为所述待检测物体的三维图像。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至8中任一项所述的检测方法。

11.一种计算机可读介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1至8中任一项所述的检测方法。