CN109886206B

CN109886206B - 一种三维物体识别方法及设备

Info

Publication number: CN109886206B
Application number: CN201910136362.6A
Authority: CN
Inventors: 董帅; 李文生; 邹昆
Original assignee: University of Electronic Science and Technology of China Zhongshan Institute
Current assignee: Zhuhai Dawu Intelligent Technology Co ltd
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2021-09-14
Anticipated expiration: 2039-02-21
Also published as: CN109886206A

Abstract

本申请实施例提供一种三维物体识别方法及设备，涉及物体识别技术领域。该三维物体识别方法包括获取待识别物体的多张图像，并通过人工智能模型对多张图像进行特征提取处理，得到多个二维视图特征；根据人工智能模型对预设的多个注册视图特征进行组合处理，得到组合视图特征以及与组合视图特征对应的分类结果；根据人工智能模型对多个二维视图特征和组合视图特征进行分类决策处理，得到正负例分数结果；当正负例分数结果为正例分数时，以分类结果为依据确定待识别物体的类别。实施这种实施方式，能够通过多个人工智能模型对多张图像进行三维的物体识别，从而提高物体识别的准确性和普适性。

Description

一种三维物体识别方法及设备

技术领域

本申请涉及物体识别技术领域，具体而言，涉及一种三维物体识别方法及设备。

背景技术

目前，随着物体识别技术的不断发展，人们已经掌握了很多种物体识别的方法，其中就包括采用匹配算法进行物体识别的方法以及采用人工智能算法进行物体识别的方法。然而，在实践中发现，上述的采用匹配算法进行物体识别的方法因为其匹配条件难以完全满足，从而使得其识别精度较低、普适性较低；另外一种采用人工智能算法进行物体识别的方法，通常是通过单一物体图像的特征来确定物体的类别，这就使得在物体多侧的特征存在较大差异时会产生巨大的识别误差，从而降低了物体识别的准确性和普适性。

发明内容

本申请实施例的目的在于提供一种三维物体识别方法及设备，能够通过多个人工智能模型对多张图像进行三维的物体识别，从而提高物体识别的准确性和普适性。

本申请实施例第一方面提供了一种三维物体识别方法，包括：

获取待识别物体的多张图像，并根据预设的卷积网络模型对所述多张图像进行特征提取处理，得到多个二维视图特征；其中，所述待识别物体是三维物体，所述多张图像为所述待识别物体在多个角度下的图像；

根据预设的聚合网络模型对预设的多个注册视图特征进行组合处理，得到组合视图特征以及与所述组合视图特征对应的分类结果；

根据预设的相似度匹配模型对所述多个二维视图特征和所述组合视图特征进行分类决策处理，得到正负例分数结果；

当所述正负例分数结果为正例分数时，以所述分类结果为依据确定所述待识别物体的类别。

在上述实现过程中，优先获取待识别物体(三维物体)基于多个角度下的多张图像，并使用卷积网络模型对多张图像进行特征提取得到多个二维视图特征，从而使得二维特征视图通过人工智能模型提取得到，提高特征获取的精度；在获取到上述二维视图特征之后，在聚合网络模型中对预设的多个注册视图特征进行组合处理，得到一个包括多个注册视图特征的组合视图特征和与组合视图特征对应的分类结果，可见，该步骤可以通过人工智能模型对预存好的多个注册视图特征进行组合，得到有效的组合特征，以使后续的步骤可以根据该组合特征进行分类决策，从而实现对多个角度下的特征集合进行统一的分类决策，进而提高了识别的精准度，并避免单一特征导致的普适度不高的问题，同时还可以通过对注册视图特征进行更新的方法使得在添加新的物体时，只需要利用训练好的网络提取特征并注册，不需要对网络重新训练；最后，根据预设的相似度匹配模型对二维视图特征和组合视图特征综合进行分类决策处理，在判断出两者相同或相似的同时确定出分类结果对应的物体类别，从而实现通过验证提高识别精度的效果，同时通过正负例分数的使用还可以提高稳定性。可见，上述的实现过程可以通过多张物体图像结合人工智能模型来确认物体的种类，从而可以实现提高物体识别的准确度和普适性的技术效果。

进一步地，所述卷积网络模型包括卷积层和池化层；

所述根据预设的卷积网络模型对所述多张图像进行特征提取处理，得到多个二维视图特征的步骤包括：

根据所述卷积层和所述池化层对所述多张图像进行特征提取，得到多个二维视图特征；其中，所述卷积层的激活函数为线性整流函数。

在上述实现过程中，通过限定卷积网络模型的结构来对二维视图特征的提取步骤进行了限定，其中，通过该限定可以明确二维视图特征的人工智能提取手段，从而可以通过人工智能提高二维视图特征获取的准确性。

进一步地，所述卷积网络模型在训练过程中还包括卷积分类层，其中，所述卷积分类层用于对所述多个二维视图特征进行打分得到与所述多个二维视图特征中每个二维视图特征对应的预测分数，并根据预设的损失函数对所述每个二维视图特征对应的预测分数进行优化，得到与所述多个二维视图特征中每个二维视图特征对应的类别分数；所述类别分数用于判断卷积网络模型的性能。

在上述实现过程中，描述了卷积网络模型在训练过程中所使用的具体结构还可以包括卷积分类层，其中该卷积分类层可以实现对二维视图特征进行分辨打分，以使二维视图特征具有相应的类别分数，从而便于计算机或训练者根据类别分数做进一步处理，从而完成对卷积网络模型的优化，进而通过卷积网络模型建立过程的具体结构提高卷积网络模型在使用过程中的实际准确度。

进一步地，所述预测分数包括第一子分数以及小于所述第一子分数的第二子分数，所述损失函数为：

其中，L_total为所述损失函数；

为所述第二子分数，s为所述第一子分数；

为所述第二子分数与所述第一子分数之间的交叉熵损失函数；

为矫正损失函数；

λ为正则化参数；μ||w||²为正则项。

在上述实现过程中，限定所述预测分数包括第一子分数以及小于所述第一子分数的第二子分数，其中，第一子分数代表预测最大分数(该分数用于表示待识别物体最接近某物体的最大可能性)，第二子分数代表预测次大分数(该分数用于表示待识别物体第二接近另一种物体的可能性)，同时根据上述的限定使用上述实现过程中的公式，可以实现对损失函数的大幅度优化，并且该优化后的损失函数可以适用于本方案场景(及更多的类似场景)，从而实现提高准确度与普适性的效果。

进一步地，所述矫正损失函数为：

其中，k⁽ⁱ⁾表示第i个样本是否成功预测，成功为1，不成功为0；

表示第i个样本的第二子分数；

表示第i个样本的第一子分数；

ξ为10^-2，m为样本数量。

在上述实现过程中，该实现过程是对矫正损失函数的限定，同时，该矫正损失函数

会在输入的视图被正确分类的情况下进一步微调模型参数，使得真实类别的预测概率更接近于1，同时其他类别的概率更接近于0，从而实现对结果进行相应的极化，得到更清晰的结果，进而实现了对结果的精确获取以及避免以往的模糊性，提高普适性。

进一步地，所述方法还包括：根据预设的特征辨识度评估公式、所述第一子分数以及所述第二子分数对特征辨识度进行评估得到评估结果；所述评估结果用于表示所述多个二维视图特征的辨识度高低；

其中，所述特征辨识度评估公式为

其中，top2_dst为所述第一子分数与所述第二子分数之间的平均距离；

top1_dst为所述第一子分数与预设分数值之间的平均距离；所述预设分数值为所述第一子分数的分数上限值。

在上述实现过程中，可以在得到预测分数时，获取到该预测分数对应的二维视图特征的辨识度评估结果，从而可以得知识别过程中该二维视图特征的辨识度高低，进而便于监督或自反馈学习，使得总体的三维物体识别方法的识别精度可以提高。

进一步地，所述聚合网络模型为循环神经网络模型，并且所述聚合网络模型包括三个包括双曲正切单元的循环层，其中，所述循环层用于循环叠加所述多个二维视图特征得到所述组合视图特征。

在上述实现过程中，该限定是对聚合网络模型进行的限定，可见，通过对聚合网络模型进行限定可以提高多个注册视图特征的聚合效果，从而提高三维物体识别方法的准确程度；另一方面，使用该种循环神经网络模型结构的融合网络可以更好地融合原始特征，使得其得到的结果更好、更准确。

本申请实施例第二方面提供了一种三维物体识别设备，所述三维物体识别设备包括：

特征提取模块，用于获取待识别物体的多张图像，并根据预设的卷积网络模型对所述多张图像进行特征提取处理，得到多个二维视图特征；其中，所述待识别物体是三维物体，所述多张图像为所述待识别物体在多个角度下的图像；

特征聚合模块，用于根据预设的聚合网络模型对预设的多个注册视图特征进行组合处理，得到组合视图特征以及与所述组合视图特征对应的分类结果；

分类决策模块，用于根据预设的相似度匹配模型对所述多个二维视图特征和所述组合视图特征进行分类决策处理，得到正负例分数结果；

结果确定模块，用于在所述正负例分数结果为正例分数时，以所述分类结果为依据确定所述待识别物体的类别。

在上述实现过程中，优先通过特征提取模块获取待识别物体(三维物体)基于多个角度下的多张图像，并使用卷积网络模型对多张图像进行特征提取得到多个二维视图特征，从而使得二维特征视图通过人工智能模型提取得到，提高特征获取的精度；在特征提取模块获取到上述二维视图特征之后，通过特征聚合模块在聚合网络模型中对该多个注册视图特征进行组合处理，得到一个包括多个注册视图特征的组合视图特征以及与组合视图特征对应的分类结果，该操作可以通过人工智能模型对多个注册视图特征进行组合，得到有效的组合特征，以使后续的步骤可以根据该组合特征进行分类决策，从而实现对多个角度下的特征集合进行统一的分类决策，进而提高了识别的精准度，并避免单一特征导致的普适度不高的问题，同时还可以通过对特征聚合模块使用的注册视图特征进行更新的方法使得在添加新的物体时，只需要利用特征聚合模块提取相应特征并注册，而不需要对网络重新训练；最后，分类决策模块可以根据预设的相似度匹配模型对二维视图特征和组合视图特征综合进行分类决策处理，在判断出两者相同或相似的同时通过结果确定模块确定出分类结果对应的物体类别，从而实现通过验证提高识别精度的效果，同时通过正负例分数的使用还可以提高稳定性。可见，上述的实现过程可以通过多张物体图像结合人工智能模型来确认物体的种类，从而可以实现提高物体识别的准确度和普适性的技术效果。

进一步地，所述卷积网络模型包括卷积层和池化层，其中，所述特征提取模块包括：

获取子模块，用于获取待识别物体的多张图像；其中，所述待识别物体是三维物体，所述多张图像为所述待识别物体在多个角度下的图像；

提取子模块，用于根据所述卷积层和所述池化层对所述多张图像进行特征提取，得到多个二维视图特征；其中，所述卷积层的激活函数为线性整流函数。

在上述实现过程中，通过限定卷积网络模型的结构来对特征提取模块进行了进一步的限定，其中，通过该限定可以通过获取子模块获取待识别物体的多张图像，并通过提取子模块准确提取到多个二维视图特征，从而明确了二维视图特征的人工智能提取手段，进而可以通过人工智能提高二维视图特征提取的准确性。

本申请实施例第三方面提供了一种计算机设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行根据本申请实施例第一方面中任一项所述的一种三维物体识别方法。

本申请实施例第四方面提供了一种计算机可读存储介质，其存储有本申请实施例第三方面所述的计算机设备中所使用的计算机程序。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种三维物体识别方法的流程示意图；

图2为本申请实施例提供的另一种三维物体识别方法的流程示意图；

图3为本申请实施例提供的一种三维物体识别设备的结构示意图；

图4为本申请实施例提供的另一种三维物体识别设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

请参看图1，图1为本申请实施例提供的一种三维物体识别方法的流程示意图。其中，该三维物体识别方法包括：

S101、获取待识别物体的多张图像，并根据预设的卷积网络模型对多张图像进行特征提取处理，得到多个二维视图特征；其中，上述待识别物体是三维物体，上述多张图像为待识别物体在多个角度下的图像。

本实施例中，待识别物体是三维物体。

在本实施例中，待识别物体是当前场景下设备想要识别出物体种类的物体，其中，该场景可以是售货处、无人商店以及仓库等。

在本实施例中，三维物体可以理解为实际中存在的任何物体，也就是说，上述三维物体是基于三维坐标系存在三个方向的实际参数的，也就是说，三维物体包括动物、食物、装饰品以及纸张等，其中，以纸张举例，纸张虽薄，但是纸张仍然具有一定的厚度，因此满足上述三方向具有实际参数，属于上述的三维物体。

本实施例中，多张图像皆是待识别物体的图像。

本实施例中，卷积网络模型可以包括特征提取网络，该特征提取网络可以使用DenseNet，ResNet或者其他卷积网络结构。

作为一种可选的实施方式，获取待识别物体的多张图像的步骤可以包括：

确定待识别物体的图像获取范围，并在该图像获取范围内获取多张图像。

实施这种实施方式，可以在图像获取范围内获取多张图像，从而避免了多张图像的获取误差(误差是由图像偏差带来的，该方案中没有这种图像偏差)，从而提高了图像获取的准确程度，进而提高了物体识别的准确程度。

作为一种可选的实施方式，获取待识别物体的多张图像的步骤之后，还可以包括：

对多张图像进行核验，判断多张图像中每张图像是否与待识别物体相匹配，若相匹配，则执行后续步骤。

实施这种实施方式，可以实现另一种多张图像的校验的结果，从而提高多张图像的准确性，提高物体识别的准确程度。

本实施例中，待识别物体在同一角度的图像可以为多张。

本实施例中，上述多张图像为待识别物体在多个角度下的图像，举例来说，在同一水平面时，对待识别物体进行四张图像的获取，其中每个图像获取位置相差90度。

在本实施例中，多张图像所处的不同角度是基于空间角度的来说的。

本实施例中，每张图像中皆可以包括二维视图特征，其中，多个二维视图特征是针对多张图像总体来说的，因此一张图像可以包括或者不包括二维视图特征，也可以包括多个二维图像特征，对此本实施例中不作限定。

本实施例中，卷积网络模型在训练过程中还需要获取多个二维视图特征中每个二维视图特征对应的类别分数，该类别分数可以被机器或操作者识别，并进行校验，从而提高卷积网络模型提取二维视图特征的准确程度，从而提高卷积网络模型在使用过程中的精确程度。

本实施例中，类别分数是指每个二维视图特征对应的具体数值，该具体数值用于匹配相对应的物体类别，可见，该类别分数用于匹配物体的类别的。

在本实施例中，类别分数可以是具体的分数值(实际数值)，可以是百分比数值，还可以是其他类型的数据，对此本实施例中不作任何限定。

在本实施例中，具体的分数值可以直接用于类别匹配，而百分比数值用于表示该特征有多少的可能性是指定类别的物体。

本实施例中，卷积网络模型是人工智能模型。

S102、根据预设的聚合网络模型对预设的多个注册视图特征进行组合处理，得到组合视图特征以及与组合视图特征对应的分类结果。

本实施例中，聚合网络模型是人工智能模型。

本实施例中，预设的多个注册视图特征可以理解为数据库中存储好的视图特征；或者说，该多个注册视图特征为已经注册好的视图特征，是用于在人工智能模型进行三维物体识别的过程中可以直接调用的视图特征。

本实施例中，预设的多个注册视图特征可以被聚合网络模型自由组合得到组合视图特征，其中组合视图特征对应的分类结果可以根据被自由组合的多个注册视图特征对应的类别分数组合计算得到的，多个注册视图特征对应的类别分数皆是基于训练过程产生的，在三维物体的识别过程中分类结果可以是后台确定的，也可以是预先确定好，并在三维物体识别过程中匹配出来的。

本实施例中，组合视图特征是指注册好的三维特征集合，可以理解的是，该注册好的三维特征集合为数据库中存储好的。

本实施例中，分类结果可以呈数值的形式表示、可以呈百分比的形式表示、还可以呈物体的类别名的形式表示，对此本实施例中不作任何限定。

在本实施例中，上述数值意为用于匹配类别的数值；百分比意为与某类物体的符合比例；上述类别名就是类别的名字，如桌子、椅子或者杯子等等。

S103、根据预设的相似度匹配模型对多个二维视图特征和组合视图特征进行分类决策处理，得到正负例分数结果。

本实施例中，相似度匹配模型是人工智能模型。

作为一种可选的实施方式，根据预设的相似度匹配模型对多个二维视图特征和组合视图特征进行分类决策处理，得到正负例分数结果的步骤可以包括：

获取多个二维视图特征中的部分二维视图特征；

根据预设的相似度匹配模型对部分二维视图特征和组合视图特征进行分类决策处理，得到正负例分数结果。

实施这种实施方式，可以根据多个二维视图特征中的一部分二维视图特征进行分类决策处理，从而避免了全部数据的轮巡。

本实施例中，部分二维视图特征可以是指多个二维视图特征中一部分二维视图特征。

在本实施例中，二维视图特征是当下的最小特征单位，不会再进行细分，因此一部分二维视图特征并不存在二维视图特征的一部分的理解偏差。

本实施例中，正负例分数结果可以是正例分数或负例分数，具体的还可以划分真正例分数、假正例分数、真负例分数以及假负例分数。

在本实施例中，正负例分数结果用于表示组合视图特征是否与多个二维视图特征相符合，即判断是否为同一物体的特征，具体来说就是判断组合视图特征是否为待识别物体的特征，或者说是否满足待识别物体的识别特征。

S104、当正负例分数结果为正例分数时，以分类结果为依据确定待识别物体的类别。

本实施例中，当正负例分数结果为正例分数时用于表明组合视图特征为待识别物体的特征，即完成该步校验后可以说明该组合视图特征没有任何偏差问题，因此可以根据分类结果来确定物体的类别。

可见，实施图1所描述的三维物体识别方法，能够优先获取待识别物体(三维物体)基于多个角度下的多张图像，并使用卷积网络模型对多张图像进行特征提取得到多个二维视图特征，从而使得二维特征视图通过人工智能模型提取得到，较以往的提取方式使用人工智能模型进行特征提取可以有效地提高特征获取的精度；在获取到上述二维视图特征之后，在聚合网络模型中对预设的多个注册视图特征进行组合处理，得到一个包括多个二维视图特征的组合视图特征和与组合视图特征对应的分类结果，该步骤可以通过人工智能模型对预设的多个注册视图特征进行组合，得到有效的用于比对二维视图特征的组合特征，以使后续的步骤可以根据该组合特征进行分类决策，从而实现了以多个注册视图特征为基础的分类决策，进而通过更全面的对比对象进行对比来提高了识别的精确度，并避免单一特征导致的普适度不高的问题；最后，根据预设的相似度匹配模型对二维视图特征和组合视图特征综合进行分类决策处理，在判断出两者相同或相似的同时确定出分类结果对应的物体类别，从而实现通过验证提高识别精度的效果，同时通过正负例分数的使用还可以提高稳定性。可见，上述的实现过程可以通过多张物体图像结合人工智能模型来确认物体的种类，从而可以实现提高物体识别的准确度和普适性的技术效果。

实施例2

请参看图2，图2为本申请实施例提供的另一种三维物体识别方法的流程示意图。图2所描述的三维物体识别方法的流程示意图是根据图1所描述的三维物体识别方法的流程示意图进行改进得到的。其中，该三维物体识别方法包括：

S201、获取待识别物体的多张图像。

本实施例中，待识别物体是三维物体，多张图像为待识别物体在多个角度下的图像。

作为一种可选的实施方式，获取待识别物体的多张图像的步骤包括：

通过预设的绘图软件对待识别物体进行不同视角的投影，得到多张图像。

本实施例中，上述绘图软件可以为Unity工具。

实施这种实施方式，可以获取到特征度较高的数字图像，从而便于提高人工智能模型识别三维物体的精确度。

举例来说，该步骤可以是利用Unity工具生成二维视图数据集的，并将物体模型在三维空间中的形态按照不同视角投影得到二维视图。

在本实施例中，上述二维视图数据集中可以存在一些角度不同形态差异较大的物体，以及一些属于不同类别但某些视角下形态十分相近的物体。

S202、根据卷积层和池化层对多张图像进行特征提取，得到多个二维视图特征；其中，卷积层的激活函数为线性整流函数。

本实施例中，卷积网络模型包括卷积层和池化层。

本实施例中，根据卷积层和池化层对多张图像进行特征提取，得到多个二维视图特征；其中，卷积层的激活函数为线性整流函数的步骤在训练的过程中包括：

根据卷积层、池化层和卷积全连接层对多张图像进行特征提取，得到多个二维视图特征；卷积层、池化层和卷积全连接层的激活函数皆为线性整流函数。

实施这种实施方式，可以通过卷积全连接层来进行特征分类提取，并校验结果的准确性，从而实现监控卷积网络模型的建立过程，提高卷积网络模型进行特征提取的精确度。

本实施例中，在训练过程中的卷积网络模型包括卷积层、池化层、卷积全连接层以及卷积分类层；即卷积层、池化层、卷积全连接层以及卷积分类层构成卷积网络模型。

本实施例中，上述训练过程中的卷积网络模型用于提取二维视图特征，其中，上述卷积网络模型可以包括五个卷积子层、四个池化子层、两个卷积全连接层以及一个卷积分类层(本实施例中描述的子层皆应理解为卷积神经网络的神经网络层，其中上述子层对应的是卷积层或池化层中的一部分)。

在本实施例中，五个卷积子层、四个池化子层、两个卷积全连接层以及一个卷积分类层是并列的网络层，可见，上述的卷积层和池化层皆是一个概括性描述。

在本实施例中，卷积网络模型的具体结构优选为顺序排列的输入层、卷积子层、池化子层、卷积子层、卷积子层、池化子层、卷积子层、池化子层、卷积子层、池化子层、卷积全连接层、卷积全连接层、卷积分类层以及输出层。

在本实施例中，上述每个卷积子层(卷积模块)包含三个连续操作：3×3的卷积操作(Conv)、批标准化(BN)、线性整流单元(ReLU)；隐藏层中的卷积全连接层(全连接模块)由线性全连接、批标准化、线性整流单元组成；隐藏层中的卷积分类层由线性全连接和Softmax组成。其中，多张图像(输入视图)在该卷积网络模型中经过一系列线性和非线性操作后，最后一个卷积全连接层的输出可以作为输入视图的二维视图特征(二维视图特征可以理解为特征向量)。

本实施例中，用于三维物体识别过程中的卷积网络模型是不具有卷积全连接层和卷积分类层的。

作为一种可选的实施方式，在卷积网络模型的训练过程中，在根据卷积层和池化层对多张图像进行特征提取，得到多个二维视图特征的步骤之后，该方法还可以包括：

根据卷积分类层对多个二维视图特征进行打分得到与多个二维视图特征中每个二维视图特征对应的预测分数，并根据预设的损失函数对每个二维视图特征对应的预测分数进行优化，得到与多个二维视图特征中每个二维视图特征对应的类别分数。

实施这种实施方式，可以提高最终卷积网络模型建立完成后的使用准确度。

本实施例中，卷积网络模型在训练过程中还包括卷积分类层，其中，卷积分类层用于对多个二维视图特征进行打分得到与多个二维视图特征中每个二维视图特征对应的预测分数，并根据预设的损失函数对每个二维视图特征对应的预测分数进行优化，得到与多个二维视图特征中每个二维视图特征对应的类别分数；类别分数用于判断卷积网络模型的性能。

本实施例中，卷积网络模型可以包括卷积层、池化层、卷积全连接层以及卷积分类层；即卷积层、池化层、卷积全连接层以及卷积分类层构成卷积网络模型。

在本实施例中，上述每个卷积子层(卷积模块)包含三个连续操作：3×3的卷积操作(Conv)、批标准化(BN)、线性整流单元(ReLU)；隐藏层中的卷积全连接层(全连接模块)由线性全连接、批标准化、线性整流单元组成；隐藏层中的卷积分类层由线性全连接和Softmax组成。其中，多张图像(输入视图)在该卷积网络模型中经过一系列线性和非线性操作后，在卷积分类层得到类别分数(类别分数可以理解为预测分数)。

作为一种可选的实施方式，预测分数包括第一子分数以及小于第一子分数的第二子分数，上述损失函数为：

其中，L_total为损失函数；

为第二子分数，s为第一子分数；

为第二子分数与第一子分数之间的交叉熵损失函数；

为矫正损失函数；

λ为正则化参数；μ||w||²为正则项。

本实施例中，

表示类别标签与其预测分数间的交叉熵损失，m为一个批次中的样本数量；

为矫正损失函数；

表示L2正则化；λ取1，μ取5*10-4。

在本实施例中，trainable意为参与训练的数据总数。

实施这种实施方式，能够根据上述的限定使用上述实现过程中的公式，可以实现对损失函数的大幅度优化，并且该优化后的损失函数可以适用于本方案场景(及更多的类似场景)，从而实现提高准确度与普适性的效果

作为一种进一步可选的实施方式，上述矫正损失函数为：

表示第i个样本的第二子分数；

表示第i个样本的第一子分数；

ξ为10^-2，m为样本数量。

本实施例中，式中，k⁽ⁱ⁾表示第i个样本是否预测正确，正确为1，错误为0；

表示第i个样本的第一子分数(该第一子分数可以为识别出的物体类别是真实类别的概率)，

表示第i个样本的第二子分数(该第二子分数可以为识别出的物体类别是次大类别的概率)；ξ取10-2。L_rect会在输入的视图被正确分类的情况下进一步微调模型参数，使得真实类别的预测概率更接近于1，同时其他类别的概率更接近于0。

本实施例中，第一子分数代表预测最大分数(该分数用于表示待识别物体最接近某物体的最大可能性)，第二子分数代表预测次大分数(该分数用于表示待识别物体第二接近另一种物体的可能性)。

实施这种实施方式，该实现过程是对矫正损失函数的限定，同时，该矫正损失函数

作为一种可选的实施方式，该三维物体识别方法还可以包括：

根据预设的特征辨识度评估公式、第一子分数以及第二子分数对特征辨识度进行评估得到评估结果；评估结果用于表示多个二维视图特征的辨识度高低；

其中，特征辨识度评估公式为

其中，top2_dst为第一子分数与第二子分数之间的平均距离；

top1_dst为第一子分数与预设分数值之间的平均距离；预设分数值为第一子分数的分数上限值。

本实施例中，

是衡量特征辨识度高低的指标，top2_dst越大，同时top1_dst越小，则该值越大，也说明特征的辨识度越高。top2_dst表示在检索正确的结果中，最大与次大相似度之间的平均距离，即

其中correct_retrival意为正确选取出的数量总和，

可以理解为

用于表示第i个样本的第一子分数，

可以理解为表示第i个样本的第二子分数；top1_dst可以表示在检索正确的结果中，其中，预设分数值选取100％，即1.0，因此top1_dst可以表示为1.0与最大相似度之间的平均距离，即

实施这种实施方式，可以在得到预测分数时，获取到该预测分数对应的二维视图特征的辨识度评估结果，从而可以得知识别过程中该二维视图特征的辨识度高低，进而便于监督或自反馈学习，使得总体的三维物体识别方法的识别精度可以提高。

S203、根据预设的聚合网络模型对预设的多个注册视图特征进行组合处理，得到组合视图特征以及与组合视图特征对应的分类结果。

在本实施例中，在聚合网络模型的训练过程中，该根据预设的聚合网络模型对预设的多个注册视图特征进行组合处理，得到组合视图特征以及与组合视图特征对应的分类结果步骤可以包括：

根据预设的聚合网络模型对预设的多个注册视图特征以及与多个注册视图特征中每个注册视图特征对应的类别分数进行组合处理，得到组合视图特征以及与组合视图特征对应的分类结果。

实施这种实施方式，可以通过每个注册视图特征对应的类别分数进行组合处理计算出较为准确的分类结果，从而提高聚合网络模型的聚合效果，以使三维物体识别过程中对多个注册视图特征聚合的效果更好。

本实施例中，分类结果可以对应多个物体(该多个物体优选为特征评分较高的物体)，在后续以分类结果为依据确定待识别物体的类别时可以根据上述的多个物体进行待识别物体的识别，从而可以起到缩小匹配范围的结果。

本实施例中，使用了注册-匹配的模式，添加新的物体时，只需要利用训练好的神经网络提取相应的特征并注册，不需要对网络重新训练。其中，上述的聚合网络模型及用于提取出上述训练好的神经网络提取得到的相应的特征(注册号的)并进行组合处理，得到用于后续步骤的组合视图特征。实施这种实施方式，可以避免使用传统的分类网络来识别物体的方法，进而避免了对新增物体进行重新训练的过程。

本实施例中，组合视图特征对应的分类结果是预存好的，也可以根据本实施例中所描述的内容现场进行运算得到的，对此本实施例中不作任何限定；举例来说，组合视图特征在数据库中有与之相匹配的分类结果，此时可以直接调用，或者说，组合视图特征在组合得到的过程中根据组合过程对每个注册视图特征的特征分数进行处理可以得到上述的分类结果，其中，上述的特征分数是训练过程中保存的或者预存好的。

本实施例中，聚合网络模型可以是RNN结构的融合网络，用于融合注册视图特征。

本实施例中，聚合网络模型的作用是组合预设的多个注册视图特征，并得到一个更加紧凑且包含信息丰富的组合视图特征(特征向量)。

在本实施例中，采用带参数的循环结构自适应地学习如何组合多个视图特征；其中，该结构首先对第一个注册视图特征与第二个注册视图特征进行组合，再将其结果与第三个注册视图特征进行组合，直到将前面所有注册视图特征的组合结果与最后一个注册视图特征进行组合。

本实施例中，待识别物体的多个图像也可以视为对三维空间中旋转的物体在不同时刻采集到的时序图像。

作为一种可选的实施方式，聚合网络模型为循环神经网络模型，并且所述聚合网络模型包括三个包括双曲正切单元的循环层，其中，循环层用于循环叠加多个注册视图特征得到组合视图特征。

实施这种实施方式，可以有效且准确的对注册视图特征进行组合得到最佳的组合视图特征。

本实施例中，可以利用三个循环层以及一个聚合分类层(又称分类操作层)组成聚合网络模型。每个循环层中包括线性全连接和双曲正切单元(Tanh)，聚合分类层包括了线性全连接和Softmax操作层。

在本实施例中，其中，v₀和v₁分别表示第一视图特征和第二视图特征，W和U表示两个特征的组合参数，假设s_t为第t次组合后的结果，该结构对应于一个映射函数c(·)，则存在如下关系式：

s_t＝c(U·v_t+W·s_t-1)

＝c(U·v_t+W·c(U·v_t-1+W·s_t-2))

＝c(U·v_t+W·c(U·v_t-1+W·c(U·v_t-2+...)))

可见，s_t可以表示为上述的分类结果。

本实施例中，聚合网络模型采用

作为损失函数，其中λ取102，μ取0。

S204、根据预设的相似度匹配模型对多个二维视图特征和组合视图特征进行分类决策处理，得到正负例分数结果。

作为一种可选的实施方式，根据预设的相似度匹配模型对多个二维视图特征和组合视图特征进行分类决策处理，得到正负例分数结果的步骤可与包括：

对多个二维视图特征和组合视图特征进行拼接，得到拼接特征；

通过两个匹配全连接层对拼接特征进行全连接处理，得到全连接特征；

通过一个匹配分类层对全连接特征进行分类决策处理，得到正负例分数结果。

实施这种实施方式，用于将单视图特征(二维视图特征)和组合特征(组合视图特征)作为输入数据，用于对基于多视图的三维物体进行识别检索。

本实施例中，相似度匹配模型包括两个匹配全连接层和一个匹配分类层；即两个匹配全连接层和一个匹配分类层构成相似度匹配模型。

本实施例中，相似度匹配模型实质上是一个二分类模型。

本实施例中，输入由单视图特征和组合特征拼接而成，匹配全连接层由线性全连接、BN、ReLU组成。

本实施例中，匹配分类层由线性全连接和Softmax分类器组成。

本实施例中，该相似度匹配模型采用的损失函数为

λ取5*10^-4。

本实施例中，上述各种人工智能模型的训练过程中皆可以按照6:1:3将被训练的数据分配为训练集、验证集以及测试集来进行训练。

实施这种实施方式，能够通过对相似度匹配模型进行限定，使得人工智能模型更加具体，从而可以通过该具体的人工智能模型来提高正负例分数结果获取的准确性，进而更明确地得到正负例分数结果以提高三维物体识别的准确性和普适性。

S205、当正负例分数结果为正例分数时，以分类结果为依据确定待识别物体的类别。

本实施例中，正例分数为“1”。

在本实施例中，当正负例分数结果为正例分数时意为组合图像特征与多个二维图像特征相匹配。

作为一种可选的实施方式，以分类结果为依据确定待识别物体的类别的步骤包括：

当分类结果为物体类别标签时，确定该物体类别标签为待识别物体的类别。

实施这种实施方式，可以直接确定物体的类别，使得效率更高。

可见，通过实施图2所示的流程示意图和本实施例说描述的具体内容可以实现从输入、运算以及输出等多个方面的优化与精确化，从而可以有效地提高三维物体的识别准确度，也可以适应更多的场景，从而提高三位物体的识别普适性。

实施例3

请参看图3，图3为本申请实施例提供的一种三维物体识别设备的结构示意图。其中，该三维物体识别设备包括：

特征提取模块310，用于获取待识别物体的多张图像，并根据预设的卷积网络模型对所述多张图像进行特征提取处理，得到多个二维视图特征；其中，所述待识别物体是三维物体，所述多张图像为所述待识别物体在多个角度下的图像。

作为一种可选的实施方式，特征提取模块310获取待识别物体的多张图像的操作可以包括：

作为一种可选的实施方式，特征提取模块310在获取待识别物体的多张图像的操作之后，还可以用于对多张图像进行核验，判断多张图像中每张图像是否与待识别物体相匹配，若相匹配，则触发特征聚合模块320执行后续操作。

特征聚合模块320，用于根据预设的聚合网络模型对预设的多个注册视图特征进行组合处理，得到组合视图特征以及与所述组合视图特征对应的分类结果。

分类决策模块330，用于根据预设的相似度匹配模型对所述多个二维视图特征和所述组合视图特征进行分类决策处理，得到正负例分数结果。

结果确定模块340，用于在所述正负例分数结果为正例分数时，以所述分类结果为依据确定所述待识别物体的类别。

可见，实施图3所描述的三维物体识别设备可以优先通过特征提取模块获取待识别物体(三维物体)基于多个角度下的多张图像，并使用卷积网络模型对多张图像进行特征提取得到多个二维视图特征，从而使得二维特征视图和类别分数通过人工智能模型提取得到，提高特征获取的精度；在特征提取模块获取到上述二维视图特征之后，通过特征聚合模块在聚合网络模型中对预设的多个注册视图特征进行组合处理，得到一个包括多个注册视图特征的组合视图特征和与组合视图特征对应的分类结果，该操作可以通过人工智能模型对多个注册视图特征进行组合，得到有效的组合特征，以使后续的步骤可以根据该组合特征进行分类决策，从而实现对多个角度下的特征集合进行统一的分类决策，进而提高了识别的精确度，并避免单一特征导致的普适度不高的问题；最后，分类决策模块可以根据预设的相似度匹配模型对二维视图特征和组合视图特征综合进行分类决策处理，在判断出两者相同或相似的同时通过结果确定模块确定出分类结果对应的物体类别，从而实现通过验证提高识别精度的效果，同时通过正负例分数的使用还可以提高稳定性。可见，实施这种实施方式可以通过多张物体图像结合人工智能模型来确认物体的种类，从而可以实现提高物体识别的准确度和普适性的技术效果。

实施例4

请参看图4，图4为本申请实施例提供的另一种三维物体识别设备的结构示意图。图4所描述的三维物体识别设备的结构示意图是根据图3所描述的三维物体识别设备的结构示意图进行改进得到的。其中，上述卷积网络模型包括卷积层和池化层，其中，上述特征提取模块310包括：

获取子模块311，用于获取待识别物体的多张图像；其中，待识别物体是三维物体，多张图像为待识别物体在多个角度下的图像；

提取子模块312，用于根据卷积层和池化层对多张图像进行特征提取，得到多个二维视图特征；其中，卷积层的激活函数为线性整流函数。

实施这种实施方式，可以通过限定卷积网络模型的结构来对特征提取模块进行了进一步的限定，其中，通过该限定可以通过获取子模块获取待识别物体的多张图像，并通过提取子模块准确提取到多个二维视图特征，从而明确了二维视图特征的人工智能提取手段。

作为一种可选的实施方式，聚合网络模型可以为循环神经网络模型，并且聚合网络模型包括三个包括双曲正切单元的循环层，其中，循环层用于循环叠加多个二维视图特征得到组合视图特征

实施这种实施方式，能够对聚合网络模型进行一定的限定，并通过对聚合网络模型进行限定可以提高多个注册视图特征的聚合效果及分类结果的计算准确程度，从而提高三维物体识别方法的准确程度。

在本申请所提供的几个实施例中，对于相同或相似的名词限定、解释说明、步骤限定、步骤追加、操作限定以及操作追加皆可以使用相同的解释说明，同时，因为三维物体识别设备与三维物体识别方法相对应，因此相应的解释说明也可以对应引用说明，对此本实施例中不再进行赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种三维物体识别方法，其特征在于，包括：

根据预设的聚合网络模型对预设的多个注册视图特征进行组合处理，得到组合视图特征以及与所述组合视图特征对应的分类结果；所述聚合网络模型为循环神经网络模型，并且所述聚合网络模型包括三个包括双曲正切单元的循环层，其中，所述循环层用于循环叠加所述多个注册视图特征得到所述组合视图特征；

2.根据权利要求1所述的三维物体识别方法，其特征在于，所述卷积网络模型包括卷积层和池化层；

3.根据权利要求2所述的三维物体识别方法，其特征在于，所述卷积网络模型在训练过程中还包括卷积分类层，其中，所述卷积分类层用于对所述多个二维视图特征进行打分得到与所述多个二维视图特征中每个二维视图特征对应的预测分数，并根据预设的损失函数对所述每个二维视图特征对应的预测分数进行优化，得到与所述多个二维视图特征中每个二维视图特征对应的类别分数；所述类别分数用于判断卷积网络模型的性能。

4.根据权利要求3所述的三维物体识别方法，其特征在于，所述预测分数包括第一子分数以及小于所述第一子分数的第二子分数，所述损失函数为：