CN117333861A - 一种三维模型识别的方法和系统 - Google Patents

一种三维模型识别的方法和系统 Download PDF

Info

Publication number
CN117333861A
CN117333861A CN202311367772.4A CN202311367772A CN117333861A CN 117333861 A CN117333861 A CN 117333861A CN 202311367772 A CN202311367772 A CN 202311367772A CN 117333861 A CN117333861 A CN 117333861A
Authority
CN
China
Prior art keywords
recognition
object recognition
dimensional model
different
projection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311367772.4A
Other languages
English (en)
Inventor
郭凤威
屠翔
胡颖卓
潘紫良
张洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shipan Technology Beijing Co ltd
Original Assignee
Shipan Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shipan Technology Beijing Co ltd filed Critical Shipan Technology Beijing Co ltd
Priority to CN202311367772.4A priority Critical patent/CN117333861A/zh
Publication of CN117333861A publication Critical patent/CN117333861A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及三维模型识别技术领域,具体公开了一种三维模型识别的方法和系统,所述方法包括以下步骤:S1、选择N个不同视角,生成场景中基于不同视角的投影,基于投影进行对象识别;S2、对不同的投影图像识别结果进行综合,计算进行综合之后的对象识别置信度;所述系统包括:投影图像识别模块和识别结果综合模块,本发明提供了一种三维模型识别的方法和系统,充分利用在二维空间中进行对象识别的进展,实现在三维场景中的对象识别;充分利用三维场景中的多视点、多视角,提高整体对象识别的准确率。

Description

一种三维模型识别的方法和系统
技术领域
本发明涉及三维模型识别技术领域,具体是一种三维模型识别的方法和系统。
背景技术
对象识别包括分类和检测两项任务,分类用于判断一幅图像是否包含某类对象,检测则要求标出这些对象的位置和大小。对象识别是理解图像和场景的关键 ,具有广泛的应用前景,可用于Web图像自动标注、海量图像搜索、图像内容过滤、机器人、安全监视、医学远程会诊等多种领域。
近年来,由于基于深度学习的图像分类取得了巨大的成功,因此已经积极研究了基于深度学习的目标检测技术。现有的对象识别的方法都是基于二维空间的,在二维的图像或者视频上对目标对象进行框选并识别,目前还没有与二维空间同等效果的三维空间中三维对象的识别方法。
发明内容
本发明的目的在于提供一种三维模型识别的方法和系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种三维模型识别的方法,所述方法包括以下步骤:
S1、选择N个不同视角,生成场景中基于不同视角的投影,基于投影进行对象识别;
S2、对不同的投影图像识别结果进行综合,计算进行综合之后的对象识别置信度。
作为本发明进一步的技术方案,在步骤S1中,所述基于投影进行对象识别中对象识别的算法采用YOLO开源算法。
作为本发明进一步的技术方案,在步骤S2中,所述对不同的投影图像识别结果进行综合,计算进行综合之后的对象识别置信度的步骤包括:
对投影中识别结果进行反投影运算,根据投影射线最近、最远交点生成三维包围圈;
根据包围圈的重合进行对象匹配,重新计算对象的置信度,生成综合后的识别结果。
作为本发明进一步的技术方案,不同视角识别结果的置信度综合的算法中会剔除置信度50%以下的数据,选择置信度最高的N个结果,N<=5,按照(N-1)/N的投票策略进行置信度综合。
作为本发明实施例的另一目的在于提供一种三维模型识别的系统,所述系统包括:
投影图像识别模块,用于选择N个不同视角,生成场景中基于不同视角的投影,基于投影进行对象识别;
识别结果综合模块,用于对不同的投影图像识别结果进行综合,计算进行综合之后的对象识别置信度。
与现有技术相比,本发明的有益效果是:本发明提供了一种三维模型识别的方法和系统,充分利用在二维空间中进行对象识别的进展,实现在三维场景中的对象识别;充分利用三维场景中的多视点、多视角,提高整体对象识别的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为三维模型识别的方法中步骤S1的流程框图。
图2为三维模型识别的方法中步骤S2的流程框图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参与图1至图2,作为本发明的一个实施例,一种三维模型识别的方法,所述方法包括以下步骤:
S1、选择N个不同视角,生成场景中基于不同视角的投影,基于投影进行对象识别;
在步骤S1中,所述基于投影进行对象识别中对象识别的算法采用YOLO等开源算法。
S2、对不同的投影图像识别结果进行综合,计算进行综合之后的对象识别置信度。
在步骤S2中,所述对不同的投影图像识别结果进行综合,计算进行综合之后的对象识别置信度的步骤包括:
对投影中识别结果进行反投影运算,根据投影射线最近、最远交点生成三维包围圈;根据包围圈的重合进行对象匹配,重新计算对象的置信度,生成综合后的识别结果。
在本发明实施例中,不同视角识别结果的置信度综合的算法中会剔除置信度50%以下的数据,选择置信度最高的N个结果,N<=5,按照(N-1)/N的投票策略进行置信度综合。
作为本发明实施例的另一目的在于提供一种三维模型识别的系统,所述系统包括:
投影图像识别模块,用于选择N个不同视角,生成场景中基于不同视角的投影,基于投影进行对象识别;
识别结果综合模块,用于对不同的投影图像识别结果进行综合,计算进行综合之后的对象识别置信度。
本发明在三维场景中,通过多视点、多视角的投影,来提高利用二维空间对象识别技术,来完成对象识别,并提高识别准确率。
上述三维模型识别的方法所能实现的功能均由计算机设备完成,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现所述三维模型识别的方法的功能。
处理器从存储器中逐条取出指令、分析指令,然后根据指令要求完成相应操作,产生一系列控制命令,使计算机各部分自动、连续并协调动作,成为一个有机的整体,实现程序的输入、数据的输入以及运算并输出结果,这一过程中产生的算术运算或逻辑运算均由运算器完成;所述存储器包括只读存储器(Read-Only Memory,ROM),所述只读存储器用于存储计算机程序,所述存储器外部设有保护装置。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
本领域技术人员可以理解,上述服务设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等;存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例系统中的全部或部分模块/单元,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个系统实施例的功能。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,在本文中,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种三维模型识别的方法,其特征在于,所述方法包括以下步骤:
S1、选择N个不同视角,生成场景中基于不同视角的投影,基于投影进行对象识别;
S2、对不同的投影图像识别结果进行综合,计算进行综合之后的对象识别置信度。
2.根据权利要求1所述的一种三维模型识别的方法,其特征在于,在步骤S1中,所述基于投影进行对象识别中对象识别的算法采用YOLO开源算法。
3.根据权利要求2所述的一种三维模型识别的方法,其特征在于,在步骤S2中,所述对不同的投影图像识别结果进行综合,计算进行综合之后的对象识别置信度的步骤包括:
对投影中识别结果进行反投影运算,根据投影射线最近、最远交点生成三维包围圈;
根据包围圈的重合进行对象匹配,重新计算对象的置信度,生成综合后的识别结果。
4.根据权利要求3所述的一种三维模型识别的方法,其特征在于,不同视角识别结果的置信度综合的算法中会剔除置信度50%以下的数据,选择置信度最高的N个结果,N<=5,按照(N-1)/N的投票策略进行置信度综合。
5.一种三维模型识别的系统,其特征在于,所述系统包括:
投影图像识别模块,用于选择N个不同视角,生成场景中基于不同视角的投影,基于投影进行对象识别;
识别结果综合模块,用于对不同的投影图像识别结果进行综合,计算进行综合之后的对象识别置信度。
CN202311367772.4A 2023-10-23 2023-10-23 一种三维模型识别的方法和系统 Pending CN117333861A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311367772.4A CN117333861A (zh) 2023-10-23 2023-10-23 一种三维模型识别的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311367772.4A CN117333861A (zh) 2023-10-23 2023-10-23 一种三维模型识别的方法和系统

Publications (1)

Publication Number Publication Date
CN117333861A true CN117333861A (zh) 2024-01-02

Family

ID=89277130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311367772.4A Pending CN117333861A (zh) 2023-10-23 2023-10-23 一种三维模型识别的方法和系统

Country Status (1)

Country Link
CN (1) CN117333861A (zh)

Similar Documents

Publication Publication Date Title
US10846556B2 (en) Vehicle insurance image processing method, apparatus, server, and system
CN111950424B (zh) 一种视频数据处理方法、装置、计算机及可读存储介质
US20180336683A1 (en) Multi-Label Semantic Boundary Detection System
CN110147722A (zh) 一种视频处理方法、视频处理装置及终端设备
CN111862035B (zh) 光斑检测模型的训练方法、光斑检测方法、设备及介质
Bussa et al. Smart attendance system using OPENCV based on facial recognition
CN110188829B (zh) 神经网络的训练方法、目标识别的方法及相关产品
CN112215171B (zh) 目标检测方法、装置、设备及计算机可读存储介质
US20210166058A1 (en) Image generation method and computing device
Zhang et al. Object proposal generation using two-stage cascade SVMs
CN110569379A (zh) 一种汽车配件图片数据集制作方法
CN110781856A (zh) 异质人脸识别模型训练方法、人脸识别方法及相关装置
CN114758145B (zh) 一种图像脱敏方法、装置、电子设备及存储介质
CN115578590A (zh) 基于卷积神经网络模型的图像识别方法、装置及终端设备
CN114299343A (zh) 一种多粒度信息融合细粒度图像分类方法及系统
CN111753766A (zh) 一种图像处理方法、装置、设备及介质
CN116405745B (zh) 视频信息的提取方法、装置、终端设备及计算机介质
CN113743434A (zh) 一种目标检测网络的训练方法、图像增广方法及装置
Silvano et al. Artificial Mercosur license plates dataset
CN112287923A (zh) 卡证信息识别方法、装置、设备及存储介质
CN116993978A (zh) 小样本分割方法、系统、可读存储介质及计算机设备
CN117333861A (zh) 一种三维模型识别的方法和系统
CN115620317A (zh) 一种电子工程文档真实性验证方法和系统
KR20230159998A (ko) 비전 트랜스포머 기반의 영상 특징 추출 장치 및 방법
CN112989869B (zh) 人脸质量检测模型的优化方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination