CN116783630A - 物体识别方法和物体识别系统 - Google Patents

物体识别方法和物体识别系统 Download PDF

Info

Publication number
CN116783630A
CN116783630A CN202080103768.5A CN202080103768A CN116783630A CN 116783630 A CN116783630 A CN 116783630A CN 202080103768 A CN202080103768 A CN 202080103768A CN 116783630 A CN116783630 A CN 116783630A
Authority
CN
China
Prior art keywords
feature vectors
photographs
images
fusion
object recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080103768.5A
Other languages
English (en)
Inventor
孟繁博
李想
王晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN116783630A publication Critical patent/CN116783630A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/76Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了物体识别方法,其包括:根据三维数字模型生成数个合成图像,数个合成图像的视角不同;分别提取数个合成图像的特征向量;根据数个合成图像的特征向量融合生成一个第一融合向量;将第一融合向量输入给分类器,以训练分类器;获取物体的数个照片,数个照片分别与至少部分数个合成图像的视角相同;分别提取数个照片的特征向量;根据数个照片的特征向量融合生成一个第二融合向量;将第二融合向量输入给经训练的分类器,以得到物体的分类结果。该物体识别方法的准确性较高。此外,本发明还提供了物体识别系统和计算机可读存储介质。

Description

物体识别方法和物体识别系统
技术领域
本发明属于计算机视觉领域。
背景技术
物体识别属于计算机视觉领域,它的主要任务是识别出图像中的物体。目前,主流的物体识别方法是基于2D真实图像训练和预测的识别方法或利用三维数字模型作为辅助的识别方法。现有的基于三维模型数据的物体识别方法的准确性无法满足工厂对工件分类的要求。
发明内容
本发明的目的是提供一种物体识别方法,其识别准确性较高。
本发明的另一个目的是提供一种物体识别系统,其识别准确性较高。
本发明的还一个目的是提供一种计算机可读存储介质,执行其上存储的代码能够较准确地识别物体。
本发明提供了一种物体识别方法,其包括:
根据三维数字模型生成数个合成图像,数个合成图像的视角不同;
分别提取数个合成图像的特征向量;
根据数个合成图像的特征向量融合生成一个第一融合向量;
将第一融合向量输入给分类器,以训练分类器;
获取物体的数个照片,数个照片分别与至少部分数个合成图像的视角相同;
分别提取数个照片的特征向量;
根据数个照片的特征向量融合生成一个第二融合向量;以及
将第二融合向量输入给经训练的分类器,以得到物体的分类结果。
该物体识别方法中,数个合成图像的视角不同,相应地数个照片的视角也不同,这使得能够体现更多的特征。数个照片分别与至少部分数个合成图像的视角相同,借此降低了角度不同产生的干扰。该物体识别方法具有较高的准确性。
在物体识别方法的另一种示意性实施方式中,根据数个合成图像的视角确定获取数个照片时的相机参数,或者根据数个照片的视角确定生成数个合成图像所使用的软件参数,以使数个照片分别与至少部分数个合成图像的视角相同。
在物体识别方法的再一种示意性实施方式中,当数个照片分别与全部数个合成图像的视角相同的情况下,将提取到的数个合成图像的特征向量融合生成第一融合向量,并将提取到的数个照片的特征向量融合生成第二融合向量。
在物体识别方法的还一种示意性实施方式中,当数个照片分别与部分数个合成图像的视角相同的情况下,将提取到的数个照片的特征向量结合辅助向量融合生成第二融合向量,其中数个照片的特征向量与辅助向量的总数等于合成图像的数量,并将提取到的与数个照片视角相同的数个合成图像的特征向量结合辅助向量融合生成第一融合向量,其中与数个照片视角相同的数个合成图像的特征向量与辅助向量的总数等于合成图像的数量。或者当数个照片分别与部分数个合成图像的视角相同的情况下,将提取到的与数个照片视角相同的数个合成图像的特征向量融合生成第一融合向量,并将提取到的数个照片的特征向量融合生成第二融合向量。
在物体识别方法的还一种示意性实施方式中,使用CAD软件根据三维数字模型生成数个合成图像。
在物体识别方法的还一种示意性实施方式中,使用CNN分别提取数个合成图像的特征向量和数个照片的特征向量。分类器为基于深度学习的分类器。
在物体识别方法的还一种示意性实施方式中,应用AutoML技术或神经架构搜索技术确定融合的方案。
在物体识别方法的还一种示意性实施方式中,先对数个合成图像进行域随机化处理,再分别提取数个合成图像的特征向量。先对数个照片进行域随机化处理,再分别提取数个照片的特征向量。
本发明还提供了一种物体识别系统,其包括一个处理器和一个拍摄机构。处理器内置有一个图像生成模块、一个特征提取模块、一个融合模块和一个分类器模块。图像生成模块能够根据三维数字模型生成数个合成图像。数个合成图像的视角不同。特征提取模块能够分别提取数个合成图像的特征向量。融合模块能够根据数个合成图像的特征向量融合生成一个第一融合向量。分类器模块能够根据输入的第一融合向量进行训练。拍摄机构能够获取物体的数个照片。处理器能够控制拍摄机构或图像生成模块,使数个照片分别与至少部分数个合成图像的视角相同。特征提取模块还能够分别提取数个照片的特征向量。融合模块还能够根据数个照片的特征向量融合生成一个第二融合向量。经训练的分类器模块能够根据输入的第二融合向量得到物体的分类结果。
该物体识别系统,生成的数个合成图像的视角不同,相应地获取的数个照片的视角也不同,这使得能够体现更多的特征。处理器能够控制拍摄机构或图像生成模块,使数个照片分别与至少部分数个合成图像的视角相同,借此降低了角度不同产生的干扰。该物体识别系统具有较高的准确性。
在物体识别系统的另一种示意性实施方式中,拍摄机构包括一个相机和一个支架。相机可运动地连接支架。物体识别系统还包括一个驱动机构,其能够驱动相机相对于支架运动。处理器能够根据数个合成图像的视角输出一组控制信号。驱动机构能够根据控制信号控制相机的运动,以获得分别与至少部分数个合成图像的视角相同的数个照片。
在物体识别系统的再一种示意性实施方式中,拍摄机构包括数个相机。物体识别系统还包括一个位置传感单元。位置传感单元能够检测数个相机的空间位置和拍摄角度并根据数个相机的空间位置和拍摄角度生成一组视角信号。处理器能够根据视角信号确定生成数个合成图像所使用的参数,以使数个照片分别与至少部分数个合成图像的视角相同。
在物体识别系统的还一种示意性实施方式中,当数个照片分别与全部数个合成图像的视角相同的情况下,融合模块能够将提取到的数个合成图像的特征向量融合生成第一融合向量,并能够将提取到的数个照片的特征向量融合生成第二融合向量。
在物体识别系统的还一种示意性实施方式中,当数个照片分别与部分数个合成图像的视角相同的情况下,融合模块能够将提取到的数个照片的特征向量结合辅助向量融合生成第二融合向量,其中数个照片的特征向量与辅助向量的总数等于合成图像的数量,并能够将提取到的与数个照片视角相同的数个合成图像的特征向量结合辅助向量融合生成第一融合向量,其中与数个照片视角相同的数个合成图像的特征向量与辅助向量的总数等于合成图像的数量。或者当数个照片分别与部分数个合成图像的视角相同的情况下,融合模块能够将提取到的与数个照片视角相同的数个合成图像的特征向量融合生成第一融合向量,并能够将提取到的数个照片的特征向量融合生成第二融合向量。
在物体识别系统的还一种示意性实施方式中,图像生成模块能够使用CAD软件根据三维数字模型生成数个合成图像。
在物体识别系统的还一种示意性实施方式中,特征提取模块使用CNN分别提取数个合成图像的特征向量和数个照片的特征向量。分类器模块为基于深度学习的分类器模块。
在物体识别系统的还一种示意性实施方式中,融合模块能够应用AutoML技术或神经架构搜索技术确定融合的方案。
在物体识别系统的还一种示意性实施方式中,特征提取模块能够先对数个合成图像进行域随机化处理,再分别提取数个合成图像的特征向量。特征提取模块能够先对数个照片进行域随机化处理,再分别提取数个照片的特征向量。
本发明还提供了一种计算机可读存储介质,其上存储有代码以供系统使用。当处理器执行代码时,系统执行上述的物体识别方法。
附图说明
以下附图仅对本发明做示意性说明和解释,并不限定本发明的范围。
图1为物体识别方法的一种示意性实施方式的流程图。
图2为图1所示的物体识别方法的步骤S11的流程图。
图3为物体识别方法的另一种示意性实施方式的流程图。
图4为物体识别系统的一种示意性实施方式的结构示意图。
图5用于说明图4所示的物体识别系统的示意性的工作过程。
图6用于说明特征提取模块的一种示意性实施方式。
图7为物体识别系统的另一种示意性实施方式的结构示意图。
标号说明
20 处理器
21 图像生成模块
22 特征提取模块
23 融合模块
24 分类器模块
40 拍摄机构
41 相机
42 支架
50 驱动机构
60 位置传感单元
80 物体
M 三维数字模型
S1、S2、S3 合成图像
Sv1、Sv2、Sv3 合成图像的特征向量
Fv1 第一融合向量
P1、P2、P3 照片
Pv1、Pv2、Pv3 照片的特征向量
Fv2 第二融合向量
CNN1、CNN2、CNN3 卷积神经网络
R 分类结果
具体实施方式
为了对发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式,在各图中相同的标号表示结构相同或结构相似但功能相同的部件。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。
在本文中,“第一”、“第二”等并非表示其重要程度或顺序等,仅用于表示彼此的区别,以利文件的描述。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。
图1为物体识别方法的一种示意性实施方式的流程图。如图1所示,本示意性实施方式的物体识别方法包括如下步骤,其中步骤间的顺序并不限于如下排列顺序。
S11:根据三维数字模型生成数个合成图像。数个合成图像的视角不同,且优选能够体现更多特征的多个视角。在本文中,“数个”解释为“至少两个”。
在示意性实施方式中,例如使用CAD(Computer Aided Design)软件根据三维数字模型生成数个合成图像。CAD软件例如为Autodesk公司开发的AutoCAD。在其他示意性实施方式中,也可以选用其他能够根据三维数字模型生成合成图像的软件,例如Siemens PLMSoftware公司开发的UG(Unigraphics NX)等。
具体地,以CAD软件为例,如图2所示,步骤S11例如包括在CAD软件中依次执行以下步骤:
S111:渲染三维数字模型,
S112:添加数个虚拟相机并设置各个虚拟相机的相机参数,其中虚拟相机的数量与要生成的合成图像的数量一致,虚拟相机的相机参数决定合成图像的视角,
S113:用虚拟相机捕获图像,以得到合成图像。
S12:分别提取数个合成图像的特征向量。在本示意性实施方式中,例如使用CNN(Convolutional Neural Networks,卷积神经网络)分别提取数个合成图像的特征向量,但不限于此,在其他示意性实施方式中,也可以采用其他方式提取合成图像的特征向量。
卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”。使用CNN利于提取到反应关键特征的特征向量,以进一步提高物体识别方法的准确性。
S13:根据数个合成图像的特征向量融合生成一个第一融合向量。在示意性实施方式中,例如应用AutoML(Automated Machine Learning)技术或神经架构搜索技术确定融合的方案,这样利于得到较优的融合方案,但不限于此。
AutoML是将机器学习中的数据预处理、特征选择、算法选择等步骤与深度学习中的模型架构设计和模型训练等步骤相结合,将其放在一个“黑箱”里。通过“黑箱”,我们只需要输入数据,就可以得到我们想要的预测结果。
“使用神经网络设计神经网络”的方法被称为神经架构搜索(NeuralArchitecture Search,NAS)技术,其通常使用强化学习或进化算法来设计新的神经网络结构。NAS能够自动化架构工程,只需要提供数据集,NAS能够自动得出最佳架构。
S14:将第一融合向量输入给分类器,以训练分类器。在示意性实施方式中,分类器为基于深度学习的分类器。
S21:使用相机获取物体(例如实物工件)的数个照片,数个照片分别与至少部分数个合成图像的视角相同。即照片的数量小于等于合成图像的数量。若合成图像的数量为5个,照片的数量例如为5个或3个。数个合成图像中具有与各个照片视角一致的合成图像。
S22:分别提取数个照片的特征向量。在示意性实施方式中,例如使用CNN(Convolutional Neural Networks,卷积神经网络)分别提取数个照片的特征向量。
S23:根据数个照片的特征向量融合生成一个第二融合向量。在示意性实施方式中,例如应用AutoML(Automated Machine Learning)技术或神经架构搜索技术确定融合的方案。此步骤中使用的融合方案与步骤S13中使用的融合方案相同。
S30:将第二融合向量输入给经步骤S14训练的分类器,以得到物体的分类结果。
在本示意性实施方式中,例如可以先生成数个合成图像,再根据数个合成图像的视角确定获取数个照片时的相机参数(例如位置和角度),以使数个照片分别与至少部分数个合成图像的视角相同。当然,也可以是先获取物体的数个照片,再根据数个照片的视角确定生成数个合成图像所使用的虚拟相机的相机参数。
在本示意性实施方式中,当数个照片分别与全部数个合成图像的视角相同的情况下(即照片和合成图像的数量相同,且视角一一对应),则在步骤S13中将提取到的数个合成图像的特征向量融合生成第一融合向量,并在步骤S23中将提取到的数个照片的特征向量融合生成第二融合向量。
当然,也可能出现数个照片分别与部分数个合成图像的视角相同的情况,即照片的数量少于合成图像的数量。这种情况例如发生在已经使用5个合成图像(例如主视图、后视图、俯视图、仰视图、立体图)完成了对分类器的训练,但对物体拍照时,例如由于空间的限制无法获得相同数量且角度相同的照片,只能获得部分角度相同的照片,例如3个(例如主视图、后视图、立体图)。那么,就在步骤S23中将提取到的数个照片的特征向量结合辅助向量融合生成第二融合向量,其中数个照片的特征向量与辅助向量的总数等于合成图像的数量。并在步骤S13中将提取到的与数个照片视角相同的数个合成图像的特征向量结合辅助向量融合生成第一融合向量,其中与数个照片视角相同的数个合成图像的特征向量与辅助向量的总数等于合成图像的数量。例如,若合成图像的数量为5,照片的数量为3,那么以上两个步骤所需要的辅助向量的数量均为2。该方法无需重新确定融合方案,仅需根据原有的融合方案重新融合生成第一融合向量,并根据重新生成的第一融合向量重新训练分类器即可。在本示意性实施方式中,辅助向量例如为单位向量(即模等于1的向量)或零向量。
但不限于此,在其他示意性实施方式中,也可以在步骤S13中将提取到的与数个照片视角相同的数个合成图像的特征向量融合生成第一融合向量,并在步骤S23中将提取到的数个照片的特征向量融合生成第二融合向量。由于更改了融合时输入的向量的数量,需要重新确定融合的方案,再根据新的融合方案重新融合生成第一融合向量,然后根据重新生成的第一融合向量重新训练分类器。
该物体识别方法中,数个合成图像的视角不同,相应地数个照片的视角也不同,这使得能够体现更多的特征。数个照片分别与至少部分数个合成图像的视角相同,借此降低了角度不同产生的干扰。该物体识别方法具有较高的准确性。
图3为物体识别方法的另一种示意性实施方式的流程图。本示意性实施方式的物体识别方法与图1所示的物体识别方法的相同之处在此不再赘述,与之不同之处如下所述。在本示意性实施方式中,在完成步骤S11之后,先执行步骤S15:对数个合成图像进行域随机化处理,再执行步骤S12。在完成步骤S21之后,先执行步骤S24:对数个照片进行域随机化处理,再执行步骤S22。通过域随机化能够在具体实施中排除已知的不能用于分区物体的特征(例如,物体摆放的环境,物体的颜色等),借此利于提高物体识别方法的准确性和识别效率。
本发明还提供了一种物体识别系统,图4为物体识别系统的一种示意性实施方式的结构示意图。如图4所示,物体识别系统包括一个处理器20和一个拍摄机构40。处理器20内置有一个图像生成模块21、一个特征提取模块22、一个融合模块23和一个分类器模块24。
图像生成模块21能够根据三维数字模型生成数个合成图像。数个合成图像的视角不同。在示意性实施方式中,图像生成模块21例如使用CAD(Computer Aided Design)软件根据三维数字模型生成数个合成图像。
特征提取模块22能够分别提取数个合成图像的特征向量。在本示意性实施方式中,特征提取模块22例如使用CNN(Convolutional Neural Networks,卷积神经网络)分别提取数个合成图像的特征向量,但不限于此,在其他示意性实施方式中,特征提取模块22也可以采用其他算法提取特征向量。
融合模块23能够根据数个合成图像的特征向量融合生成一个第一融合向量。在示意性实施方式中,融合模块23例如应用AutoML(Automated Machine Learning)技术或神经架构搜索技术确定融合的方案,这样利于得到较优的融合方案,但不限于此。
分类器模块24能够根据输入的第一融合向量进行训练。在本示意性实施方式中,分类器模块24例如为基于深度学习的分类器模块24,但不限于此。
拍摄机构40能够获取物体80的数个照片。在本示意性实施方式中,拍摄机构40包括一个相机41和一个支架42。相机41可运动地连接支架42。物体识别系统还包括一个驱动机构50,其能够驱动相机41相对于支架42运动。处理器20能够根据数个合成图像的视角输出一组控制信号。驱动机构50能够根据控制信号控制相机41的运动,以获得分别与至少部分数个合成图像的视角相同的数个照片。借此可根据合成图像的视角控制相机41的拍摄位置和角度,以节省人力。这种情况下,一个相机41需要变换不同的位置和角度以获得数个照片,但不限于此,在其他示意性实施方式中,相机41的数量可以是多个,这样可以节省获取照片所需要的时间。
特征提取模块22还能够分别提取数个照片的特征向量。融合模块23还能够根据数个照片的特征向量融合生成一个第二融合向量。经训练的分类器模块24能够根据输入的第二融合向量得到物体的分类结果。
在本示意性实施方式中,当数个照片分别与全部数个合成图像的视角相同的情况下(即照片和合成图像的数量相同,且视角一一对应),融合模块23能够将提取到的数个合成图像的特征向量融合生成第一融合向量,并能够将提取到的数个照片的特征向量融合生成第二融合向量。
当然,也可能出现数个照片分别与部分数个合成图像的视角相同的情况,即照片的数量少于合成图像的数量。这种情况例如发生在已经使用5个合成图像(例如主视图、后视图、俯视图、仰视图、立体图)完成了对分类器的训练,但对物体拍照时,例如由于空间的限制无法设置相机以获得相同数量和角度的照片,只能获得部分角度相同的照片,例如3个(例如主视图、后视图、立体图)。这种情况下,融合模块23能够将提取到的数个照片的特征向量结合辅助向量融合生成第二融合向量,其中数个照片的特征向量与辅助向量的总数等于合成图像的数量,并能够将提取到的与数个照片视角相同的数个合成图像的特征向量结合辅助向量融合生成第一融合向量,其中与数个照片视角相同的数个合成图像的特征向量与辅助向量的总数等于合成图像的数量。例如,若合成图像的数量为5,照片的数量为3,那么以上两个步骤所需要的辅助向量的数量均为2。借此无需重新确定融合方案,仅需根据原有的融合方案重新融合生成第一融合向量,并根据重新生成的第一融合向量重新训练分类器即可。在本示意性实施方式中,辅助向量例如为单位向量(即模等于1的向量)或零向量。
但不限于此,在其他示意性实施方式中,融合模块23例如能够将提取到的与数个照片视角相同的数个合成图像的特征向量融合生成第一融合向量,并能够将提取到的数个照片的特征向量融合生成第二融合向量。由于更改了融合时输入的向量的数量,融合模块23需要重新确定融合的方案,再根据新的融合方案重新融合生成第一融合向量,分类器模块24根据重新生成的第一融合向量重新训练。
在示意性实施方式中,特征提取模块22能够先对数个合成图像进行域随机化处理,再分别提取数个合成图像的特征向量。特征提取模块22能够先对数个照片进行域随机化处理,再分别提取数个照片的特征向量。通过域随机化能够在具体实施中排除已知的不能用于分区物体的特征(例如,物体摆放的环境,物体的颜色等),借此利于提高物体识别方法的准确性和识别效率。
图5用于说明图4所示的物体识别系统的示意性的工作过程,其并非用于限定本发明。如图5所示,将三维数字模型M输入给图像生成模块21,图像生成模块21能够根据三维数字模型M生成合成图像S1,合成图像S2和合成图像S3。将合成图像S1,合成图像S2和合成图像S3输入给特征提取模块22,特征提取模块22提取得到特征向量Sv1、特征向量Sv2和特征向量Sv3。将特征向量Sv1、特征向量Sv2和特征向量Sv3输入给融合模块23,融合模块23根据特征向量Sv1、特征向量Sv2和特征向量Sv3融合生成一个第一融合向量Fv1。第一融合向量Fv1被输入给分类器模块24以进行训练。
如图5所示,拍摄机构40拍摄物体80,获取照片P1、照片P2和照片P3。其中照片P1与合成图像S1视角相同,照片P2与合成图像S2视角相同,照片P3与合成图像S3视角相同。将照片P1、照片P2和照片P3输入给特征提取模块22,特征提取模块22提取得到特征向量Pv1、特征向量Pv2和特征向量Pv3。将特征向量Pv1、特征向量Pv2和特征向量Pv3输入给融合模块23,融合模块23根据特征向量Pv1、特征向量Pv2和特征向量Pv3融合生成一个第二融合向量Fv2。第二融合向量Fv2被输入给分类器模块24以得到分类结果R。
如图6所示,在示意性实施方式中,特征提取模块22例如具有数个卷积神经网络,即卷积神经网络CNN1、卷积神经网络CNN2和卷积神经网络CNN3,其用于分别处理不同的合成图像以得到相应的特征向量,数个卷积神经网络的参数可以不同也可以相同。融合模块23例如通过融合网络实现融合。
该物体识别系统,生成的数个合成图像的视角不同,相应地获取的数个照片的视角也不同,这使得能够体现更多的特征。处理器能够控制拍摄机构或图像生成模块,使数个照片分别与至少部分数个合成图像的视角相同,借此降低了角度不同产生的干扰。该物体识别系统具有较高的准确性。
图7为物体识别系统的另一种示意性实施方式的结构示意图。图7所示的物体识别系统与图4所示的物体识别系统相同之处在此不再赘述,与之不同之处如下所述。在本示意性实施方式中,拍摄机构40包括数个相机41,其数量与需要获取的照片的数量一致。物体识别系统还包括一个位置传感单元60。位置传感单元60能够检测数个相机41的空间位置和拍摄角度并根据数个相机41的空间位置和拍摄角度生成一组视角信号。处理器20能够根据视角信号确定生成数个合成图像所使用的参数,以使数个照片分别与至少部分数个合成图像的视角相同。借此可根据相机的空间位置和拍摄角度自动确定生成数个合成图像所使用的参数,节省人力。
应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施例的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方案或变更,如特征的组合、分割或重复,均应包含在本发明的保护范围之内。

Claims (18)

1.物体识别方法,其特征在于,包括:
根据三维数字模型生成数个合成图像,所述数个合成图像的视角不同;
分别提取所述数个合成图像的特征向量;
根据所述数个合成图像的特征向量融合生成一个第一融合向量;
将所述第一融合向量输入给分类器,以训练所述分类器;
获取物体的数个照片,所述数个照片分别与至少部分所述数个合成图像的视角相同;
分别提取所述数个照片的特征向量;
根据所述数个照片的特征向量融合生成一个第二融合向量;以及
将所述第二融合向量输入给经所述训练的所述分类器,以得到所述物体的分类结果。
2.如权利要求1所述的物体识别方法,其特征在于,根据所述数个合成图像的视角确定获取所述数个照片时的相机参数,或者根据所述数个照片的视角确定生成所述数个合成图像所使用的软件参数,以使所述数个照片分别与至少部分所述数个合成图像的视角相同。
3.如权利要求1所述的物体识别方法,其特征在于,当所述数个照片分别与全部所述数个合成图像的视角相同的情况下,将提取到的所述数个合成图像的特征向量融合生成所述第一融合向量,并将提取到的所述数个照片的特征向量融合生成所述第二融合向量。
4.如权利要求1所述的物体识别方法,其特征在于,当所述数个照片分别与部分所述数个合成图像的视角相同的情况下,将提取到的所述数个照片的特征向量结合辅助向量融合生成所述第二融合向量,其中所述数个照片的特征向量与辅助向量的总数等于所述合成图像的数量,并将提取到的与所述数个照片视角相同的数个所述合成图像的特征向量结合辅助向量融合生成所述第一融合向量,其中与所述数个照片视角相同的数个所述合成图像的特征向量与辅助向量的总数等于所述合成图像的数量;或者
当所述数个照片分别与部分所述数个合成图像的视角相同的情况下,将提取到的与所述数个照片视角相同的数个所述合成图像的特征向量融合生成所述第一融合向量,并将提取到的所述数个照片的特征向量融合生成所述第二融合向量。
5.如权利要求1所述的物体识别方法,其特征在于,使用CAD软件根据所述三维数字模型生成所述数个合成图像。
6.如权利要求1所述的物体识别方法,其特征在于,使用CNN分别提取所述数个合成图像的特征向量和所述数个照片的特征向量;所述分类器为基于深度学习的分类器。
7.如权利要求1所述的物体识别方法,其特征在于,应用AutoML技术或神经架构搜索技术确定所述融合的方案。
8.如权利要求1所述的物体识别方法,其特征在于,先对所述数个合成图像进行域随机化处理,再分别提取所述数个合成图像的特征向量;先对所述数个照片进行域随机化处理,再分别提取所述数个照片的特征向量。
9.物体识别系统,其特征在于,包括:
一个处理器(20),其内置有:
一个图像生成模块(21),其能够根据三维数字模型生成数个合成图像,所述数个合成图像的视角不同,
一个特征提取模块(22),其能够分别提取所述数个合成图像的特征向量,
一个融合模块(23),其能够根据所述数个合成图像的特征向量融合生成一个第一融合向量,及
一个分类器模块(24),其能够根据输入的所述第一融合向量进行训练;以及
一个拍摄机构(40),其能够获取物体的数个照片;所述处理器(20)能够控制所述拍摄机构(40)或所述图像生成模块(21),使所述数个照片分别与至少部分所述数个合成图像的视角相同;所述特征提取模块(22)还能够分别提取所述数个照片的特征向量,所述融合模块(23)还能够根据所述数个照片的特征向量融合生成一个第二融合向量,经所述训练的所述分类器模块(24)能够根据输入的所述第二融合向量得到所述物体的分类结果。
10.如权利要求9所述的物体识别系统,其特征在于,所述拍摄机构(40)包括一个相机(41)和一个支架(42),所述相机(41)可运动地连接所述支架(42);所述的物体识别系统还包括一个驱动机构(50),其能够驱动所述相机(41)相对于所述支架(42)运动;所述处理器(20)能够根据所述数个合成图像的视角输出一组控制信号;所述驱动机构(50)能够根据所述控制信号控制所述相机(41)的运动,以获得分别与至少部分所述数个合成图像的视角相同的所述数个照片。
11.如权利要求9所述的物体识别系统,其特征在于,所述拍摄机构(40)包括数个相机(41),所述的物体识别系统还包括一个位置传感单元(60),所述位置传感单元(60)能够检测所述数个相机(41)的空间位置和拍摄角度并根据所述数个相机(41)的空间位置和拍摄角度生成一组视角信号;所述处理器(20)能够根据所述视角信号确定生成所述数个合成图像所使用的参数,以使所述数个照片分别与至少部分所述数个合成图像的视角相同。
12.如权利要求9所述的物体识别系统,其特征在于,当所述数个照片分别与全部所述数个合成图像的视角相同的情况下,所述融合模块(23)能够将提取到的所述数个合成图像的特征向量融合生成所述第一融合向量,并能够将提取到的所述数个照片的特征向量融合生成所述第二融合向量。
13.如权利要求9所述的物体识别系统,其特征在于,当所述数个照片分别与部分所述数个合成图像的视角相同的情况下,所述融合模块(23)能够将提取到的所述数个照片的特征向量结合辅助向量融合生成所述第二融合向量,其中所述数个照片的特征向量与辅助向量的总数等于所述合成图像的数量,并能够将提取到的与所述数个照片视角相同的数个所述合成图像的特征向量结合辅助向量融合生成所述第一融合向量,其中与所述数个照片视角相同的数个所述合成图像的特征向量与辅助向量的总数等于所述合成图像的数量;或者
当所述数个照片分别与部分所述数个合成图像的视角相同的情况下,所述融合模块(23)能够将提取到的与所述数个照片视角相同的数个所述合成图像的特征向量融合生成所述第一融合向量,并能够将提取到的所述数个照片的特征向量融合生成所述第二融合向量。
14.如权利要求9所述的物体识别系统,其特征在于,所述图像生成模块(21)能够使用CAD软件根据所述三维数字模型生成所述数个合成图像。
15.如权利要求9所述的物体识别系统,其特征在于,所述特征提取模块(22)使用CNN分别提取所述数个合成图像的特征向量和所述数个照片的特征向量;所述分类器模块(24)为基于深度学习的分类器模块(24)。
16.如权利要求9所述的物体识别系统,其特征在于,所述融合模块(23)能够应用AutoML技术或神经架构搜索技术确定所述融合的方案。
17.如权利要求9所述的物体识别系统,其特征在于,所述特征提取模块(22)能够先对所述数个合成图像进行域随机化处理,再分别提取所述数个合成图像的特征向量;所述特征提取模块(22)能够先对所述数个照片进行域随机化处理,再分别提取所述数个照片的特征向量。
18.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有代码以供系统使用;当处理器执行所述代码时,所述系统执行根据权利要求1至8中任一项所述的物体识别方法。
CN202080103768.5A 2020-09-11 2020-09-11 物体识别方法和物体识别系统 Pending CN116783630A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/114844 WO2022052052A1 (en) 2020-09-11 2020-09-11 Method and system for identifying objects

Publications (1)

Publication Number Publication Date
CN116783630A true CN116783630A (zh) 2023-09-19

Family

ID=80630225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080103768.5A Pending CN116783630A (zh) 2020-09-11 2020-09-11 物体识别方法和物体识别系统

Country Status (4)

Country Link
US (1) US20230360380A1 (zh)
EP (1) EP4193297A4 (zh)
CN (1) CN116783630A (zh)
WO (1) WO2022052052A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017156043A1 (en) * 2016-03-08 2017-09-14 Nant Holdings Ip, Llc Image feature combination for image-based object recognition
CN109446985B (zh) * 2018-10-28 2021-06-04 贵州师范学院 基于矢量神经网络的多角度植物识别方法
CN110070626B (zh) * 2019-03-15 2023-08-11 西安电子科技大学 一种基于多视角分类的三维物体检索方法
CN110176064B (zh) * 2019-05-24 2022-11-18 武汉大势智慧科技有限公司 一种摄影测量生成三维模型的主体对象自动识别方法
CN111179440B (zh) * 2020-01-02 2023-04-14 哈尔滨工业大学 一种面向自然场景的三维物体模型检索方法

Also Published As

Publication number Publication date
EP4193297A1 (en) 2023-06-14
EP4193297A4 (en) 2024-03-27
US20230360380A1 (en) 2023-11-09
WO2022052052A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
Richardson et al. Learning detailed face reconstruction from a single image
Zhang et al. Densely connected pyramid dehazing network
AU2017324923B2 (en) Predicting depth from image data using a statistical model
Novotny et al. Learning 3d object categories by looking around them
Guerry et al. Snapnet-r: Consistent 3d multi-view semantic labeling for robotics
Brickwedde et al. Mono-sf: Multi-view geometry meets single-view depth for monocular scene flow estimation of dynamic traffic scenes
Guizilini et al. Robust semi-supervised monocular depth estimation with reprojected distances
Zhuang et al. Learning structure-and-motion-aware rolling shutter correction
US20120250982A1 (en) Image processing apparatus, image processing method, program, and recording medium
Pandey et al. Volumetric capture of humans with a single rgbd camera via semi-parametric learning
Leizea et al. Real-time deformation, registration and tracking of solids based on physical simulation
CN112530019A (zh) 三维人体重建方法、装置、计算机设备和存储介质
CN108734773A (zh) 一种用于混合图片的三维重建方法及系统
Ma et al. Risp: Rendering-invariant state predictor with differentiable simulation and rendering for cross-domain parameter estimation
Zhou et al. Sub-depth: Self-distillation and uncertainty boosting self-supervised monocular depth estimation
JP2010072910A (ja) 顔の3次元モデル生成装置、顔の3次元モデル生成方法および顔の3次元モデル生成プログラム
CN116783630A (zh) 物体识别方法和物体识别系统
WO2021069084A1 (en) Methods and systems for determining the 3d-locations, the local reference frames and the grasping patterns of grasping points of an object
Akande et al. A Review of Generative Models for 3D Vehicle Wheel Generation and Synthesis
Chen et al. End-to-end multi-view structure-from-motion with hypercorrelation volume
CN114078155A (zh) 用未标记成对图像训练神经网络以得出对象视角的方法及系统
Kanchan et al. Recent trends in 2D to 3D image conversion: algorithm at a glance
Zhou et al. Self-distillation and uncertainty boosting self-supervised monocular depth estimation
Dasgupta et al. 3D Face Reconstruction from Front and Profile Images for Low Computational Devices
Cao et al. Unsupervised Depth Estimation from Monocular Video based on Relative Motion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination