CN112686230B - 对象识别方法、装置、设备以及存储介质 - Google Patents

对象识别方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN112686230B
CN112686230B CN202110272805.1A CN202110272805A CN112686230B CN 112686230 B CN112686230 B CN 112686230B CN 202110272805 A CN202110272805 A CN 202110272805A CN 112686230 B CN112686230 B CN 112686230B
Authority
CN
China
Prior art keywords
target space
objects
object recognition
spatial
dimensional coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110272805.1A
Other languages
English (en)
Other versions
CN112686230A (zh
Inventor
李康源
郝少刚
谢昌谕
廖奔犇
张胜誉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110272805.1A priority Critical patent/CN112686230B/zh
Publication of CN112686230A publication Critical patent/CN112686230A/zh
Application granted granted Critical
Publication of CN112686230B publication Critical patent/CN112686230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种对象识别方法、装置、设备以及存储介质,属于计算机技术领域。方法包括:获取目标空间内离散分布的多个对象的三维坐标;将目标空间划分为多个空间像素点;基于每个空间像素点与多个三维坐标之间的距离,确定每个空间像素点的像素值,像素值用于表示空间像素点与多个对象之间的相对位置关系;基于多个空间像素点的像素值,生成目标空间图像,目标空间图像用于训练对象识别模型。由于空间像素点的像素值是基于空间像素点和多个对象之间的距离确定的,因此多个空间像素点的像素值就能够表示多个对象之间的相对位置关系,采用目标空间图像作为样本数据来训练对象识别模型,能够提高对象识别模型的识别准确率。

Description

对象识别方法、装置、设备以及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种对象识别方法、装置、设备以及存储介质。
背景技术
随着计算机技术的发展,对象识别模型得到了广泛的应用。对象识别模型的准确度至关重要,为了训练出准确度满足要求的对象识别模型,需要选取合适的样本数据。
很多对象在空间上的分布是离散的,比如天空中的天体在太空中的分布是离散的。在一些情况下,能够采用对象在空间中的坐标来指代不同的对象。而在训练对象识别模型时,需要采用二进制转化的方法,将对象在空间中的坐标转化为二进制坐标,将转化得到的二进制坐标确定为用于训练对象识别模型的样本数据。
但是,由于二进制转化会显著增加数据的维度,因此还需要对二进制转化后的数据进行压缩,而数据压缩会导致信息丢失,导致样本数据准确度不高,进而导致训练出的对象识别模型的识别准确度不高。
发明内容
本申请实施例提供了一种对象识别方法、装置、设备以及存储介质,能够提升对象识别模型的识别准确性。所述技术方案如下。
一方面,提供了一种对象识别方法,所述方法包括:
获取目标空间内离散分布的多个对象的三维坐标;
将所述目标空间划分为多个空间像素点;
基于每个空间像素点与多个三维坐标之间的距离,确定所述每个空间像素点的像素值,所述像素值用于表示所述空间像素点与所述多个对象之间的相对位置关系;
基于所述多个空间像素点的像素值,生成目标空间图像,所述目标空间图像用于训练对象识别模型,所述对象识别模型用于根据任一目标空间图像识别所述目标空间中离散分布的对象。
一方面,一种对象识别方法,所述方法包括:
获取目标空间内离散分布的多个对象的三维坐标;
将所述目标空间划分为多个空间像素点;
基于每个空间像素点与多个三维坐标之间的距离,确定所述每个空间像素点的像素值,所述像素值用于表示所述空间像素点与所述多个对象之间的相对位置关系;
基于所述多个空间像素点的像素值,生成目标空间图像;
将所述目标空间图像输入对象识别模型,通过所述对象识别模型,基于所述目标空间图像进行预测,输出所述多个对象对应的预测标签,所述预测标签用于指示对应对象的类型。
一方面,提供了一种对象识别装置,所述装置包括:
第一获取模块,用于获取目标空间内离散分布的多个对象的三维坐标;
第一划分模块,用于将所述目标空间划分为多个空间像素点;
第一像素值确定模块,用于基于每个空间像素点与多个三维坐标之间的距离,确定所述每个空间像素点的像素值,所述像素值用于表示所述空间像素点与所述多个对象之间的相对位置关系;
第一目标空间图像生成模块,用于基于所述多个空间像素点的像素值,生成目标空间图像,所述目标空间图像用于训练对象识别模型,所述对象识别模型用于根据任一目标空间图像识别所述目标空间中离散分布的对象。
在一种可能的实施方式中,所述第一像素值确定模块,用于对于任一空间像素点,对所述空间像素点与多个三维坐标之间的距离进行分布变换,以使分布变换后的多个距离符合目标分布;将所述分布变换后的多个距离确定为一个空间像素点的像素值。
在一种可能的实施方式中,所述目标分布为高斯分布,所述第一像素值确定模块,用于对所述空间像素点与所述多个三维坐标之间的距离进行高斯变换,得到高斯变换后的多个距离;
将所述分布变换后的多个距离进行叠加,得到所述空间像素点的像素值。
在一种可能的实施方式中,所述装置还包括:
显示模块,用于显示所述目标空间图像;
方差调整模块,用于基于所述目标空间图像的清晰度,对高斯变换方差进行调整;
所述第一目标空间图像生成模块,还用于基于下一轮次中所述多个对象的三维坐标和调整后的高斯变换方差,重新生成所述下一轮次的目标空间图像。
在一种可能的实施方式中,所述第一获取模块,用于获取所述目标空间内所述多个对象的原始三维坐标;对所述多个对象的原始三维坐标进行归一化处理,得到所述多个对象的三维坐标。
在一种可能的实施方式中,所述第一获取模块,用于对于所述多个对象中的任一对象,将所述任一对象的原始三维坐标与所述目标空间的最大边长相除,得到所述任一对象的三维坐标。
在一种可能的实施方式中,所述第一目标空间图像生成模块,用于将所述目标空间划分为多个相互平行的虚拟平面,每个所述虚拟平面包括多个空间像素点;将每个所述虚拟平面上的多个空间像素点的像素值进行组合,得到每个所述虚拟平面对应的虚拟平面图像;将所述多个相互平行的虚拟平面对应的虚拟平面图像进行组合,得到所述目标空间图像。
在一种可能的实施方式中,所述装置还包括:
输入模块,用于将所述目标空间图像输入所述对象识别模型;
第一预测标签输出模块,用于通过所述对象识别模型,基于所述目标空间图像进行预测,输出所述多个对象对应的预测标签,所述预测标签用于指示对应对象的类型;
第一准确度获取模块,用于获取所述对象识别模型输出的预测标签的准确度;
数量确定模块,用于基于所述准确度,确定在下一轮次中将所述目标空间划分得到的空间像素点的数量,所述数量与所述准确度负相关。
在一种可能的实施方式中,所述对象识别模型的训练装置包括:
样本输入模块,用于将所述目标空间图像输入所述对象识别模型,由所述对象识别模型基于所述目标空间图像进行预测,输出所述多个对象在所述目标空间中的预测标签,所述预测标签用于指示对应对象的类型;
模型参数调整模块,用于基于所述多个对象在所述目标空间中的预测标签与所述多个对象在所述目标空间中的实际标签之间的差异,对所述对象识别模型的模型参数进行调整。
在一种可能的实施方式中,所述第一划分模块,用于将所述目标空间划分为多个虚拟立方体;将每个所述虚拟立方体确定为一个所述空间像素点。
一方面,提供了一种对象识别装置,所述装置包括:
第二获取模块,用于获取目标空间内离散分布的多个对象的三维坐标;
第二划分模块,用于将所述目标空间划分为多个空间像素点;
第二像素值确定模块,用于基于每个空间像素点与多个三维坐标之间的距离,确定所述每个空间像素点的像素值,所述像素值用于表示所述空间像素点与所述多个对象之间的相对位置关系;
第二目标空间图像生成模块,用于基于所述多个空间像素点的像素值,生成目标空间图像;
第二预测标签输出模块,用于将所述目标空间图像输入对象识别模型,通过所述对象识别模型,基于所述目标空间图像进行预测,输出所述多个对象对应的预测标签,所述预测标签用于指示对应对象的类型。
一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现所述对象识别方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现所述对象识别方法。
一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述对象识别方法。
通过本申请实施例提供的技术方案,计算机设备能够将目标空间划分为多个空间像素点,基于空间像素点与多个对象之间的距离,来确定每个空间像素点的像素值,从而生成目标空间中多个对象的目标空间图像。由于空间像素点的像素值是基于空间像素点和多个对象之间的距离确定的,因此多个空间像素点的像素值就能够表示多个对象之间的相对位置关系,采用目标空间图像作为样本数据来训练对象识别模型,能够提高对象识别模型的识别准确率。
附图说明
为例更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种对象识别方法的实施环境的示意图;
图2是本申请实施例提供的一种对象识别方法的流程图;
图3是本申请实施例提供的一种对象识别方法的流程图;
图4是本申请实施例提供的一种目标空间的示意图;
图5是本申请实施例提供的一种目标空间的示意图;
图6是本申请实施例提供的一种目标空间的示意图;
图7是本申请实施例提供的一种对象识别方法的流程图;
图8是本申请实施例提供的一种空间像素点数量对比图;
图9是本申请实施例提供的一种高斯变换方差对比图;
图10是本申请实施例提供的一种对象识别方法的流程图;
图11是本申请实施例提供的一种对象识别装置结构示意图;
图12是本申请实施例提供的一种对象识别装置结构示意图;
图13是本申请实施例提供的一种终端的结构示意图;
图14是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上,例如,多个参照人脸图像是指两个或两个以上的参照人脸图像。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。在本申请实施例中,计算机设备能够通过机器学习的方法,对对象识别模型进行训练,并利用训练完成的对象识别模型对目标空间中离散分布的对象进行识别。
高斯分布(Gaussian Distribution):也被称为正态分布(NormalDistribution),高斯分布的曲线呈钟型,中间高,两头低。高斯分布的期望值μ决定了高斯分布曲线的位置,标准差σ决定了曲线的范围。当μ = 0,σ = 1时的高斯分布是标准高斯分布。
本申请实施例提供的技术方案能够应用在计算机设备上,计算机设备可以实现为终端或服务器。图1是本申请实施例提供的一种对象识别方法的实施环境示意图,参见图1,该实施环境包括终端110和服务器140。在该实施环境中,终端110能够生成用于训练对象识别模型的目标空间图像,并将目标空间图像发送给服务器140,服务器140能够接收目标空间图像,并采用目标空间图像对对象识别模型进行训练。服务器140能够将训练完毕的对象识别模型发送给终端110,终端110能够通过该对象识别模型来进行对象识别。
终端110通过无线网络或有线网络与服务器140相连。可选地,终端110是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端110安装和运行有支持样本数据生成的应用程序。可选地,服务器140是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可选地,终端110泛指多个终端中的一个,本申请实施例仅以终端110来举例说明。
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
在一些实施例中,本申请实施例提供的技术方案能够应用在区块链系统上,也即是上述终端110和服务器140均作为区块链系统的节点,区块链系统的一些基础概念如下。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
在介绍完本申请实施例的实施环境之后,下面将结合上述实施环境,对本申请实施例的应用场景进行说明,下述应用场景介绍中的终端也即是上述实施环境中的终端110,服务器也即是上述实施环境中的服务器140。
本申请实施例提供的技术方案能够应用在天体识别的场景下,比如在一个星系中存在离散分布的多个天体的情况下,此时的对象也即是天体,每个天体具有自己的运行轨道,同一个天体在不同时刻可能处于不同的位置。对于一个稳定的星系来说,在万有引力的作用下,无论星系中的天体如何运动,均不会离开该星系。终端能够通过天体探测设备来获取多个天体的坐标,在一些实施例中,天体探测设备能够获取天体在不同时刻的三维坐标,比如,一个天体在第一时刻的三维坐标为(a,b,c),该天体在第二时刻的坐标变为(d,e,f)。终端存储多个天体在不同时刻的三维坐标,在一些实施例中,能够通过训练一个对象识别模型来识别该星系中的天体。在训练对象识别模型之前,终端能够本申请实施例提供的技术方案,基于多个天体在不同时刻的三维坐标,生成用于训练对象识别模型的目标空间图像。在一些实施例中,终端能够将生成的目标空间图像发送给服务器,由服务器基于目标空间图像对对象识别模型进行训练。训练完成之后,终端获取任一时刻该星系中多个天体的三维坐标,基于该时刻下该星系中多个天体的三维坐标,生成该时刻下的目标空间图像。将该时刻下的目标空间图像输入训练完毕的对象识别模型,就能够得到该时刻下不同天体的预测标签,预测标签也就能够指示天体的类型。
本申请实施例提供的技术方案也能够应用在微观粒子识别的场景下,比如应用在原子识别的场景下,或者应用在气体分子识别的场景下,本申请实施例对此不做限定。以应用在原子识别的场景为例,此时的对象也即是原子,对于一种特定的材料来说,其中原子的数量和类型是恒定的,在常温下,原子会在材料中不停的运动,也即是,原子的坐标是时刻变换的。在一些实施例中,能够通过训练一个对象识别模型来识别该材料中的原子。在训练对象识别模型之前,终端能够通过本申请实施例提供的技术方案,基于多个原子在不同时刻的三维坐标,生成用于训练对象识别模型的目标空间图像。在一些实施例中,终端能够将生成的目标空间图像发送给服务器,由服务器基于目标空间图像对对象识别模型进行训练。训练完成之后,终端获取任一时刻该材料中多个原子的三维坐标,基于该时刻下该材料中多个原子的三维坐标,生成该时刻下的目标空间图像。将该时刻下的目标空间图像输入训练完毕的对象识别模型,就能够得到该时刻下不同原子的预测标签,预测标签也就能够指示原子的类型。
在上述说明过程中,是以本申请实施例提供的技术方案应用在天体识别和材料中原子识别为例进行说明的,在其他可能的实施方式中,本申请实施例提供的技术方案也能够应用在其他在空间中离散部分的对象,本申请实施例对此不做限定。
介绍完本申请实施例的实施环境和应用场景之后,下面将对本申请实施例提供的技术方案进行说明,以执行主体为计算机设备为例,参见图2,方法包括下述步骤。
201、计算机设备获取目标空间内离散分布的多个对象的三维坐标。
可选地,若目标空间为星系,对应的对象也即是星系中的天体;若目标空间为材料,那么对象也即是材料中的原子;若目标空间为充有气体的密闭容器,那么对象也即是密闭容器中的气体分子,本申请实施例对于对象的类型不做限定。
202、计算机设备将目标空间划分为多个空间像素点。
其中,空间像素点也即是在目标空间中占据一定体积的像素点,每个空间像素点具有一个像素值。
203、计算机设备基于每个空间像素点与多个三维坐标之间的距离,确定每个空间像素点的像素值,像素值用于表示空间像素点与多个对象之间的相对位置关系。
204、计算机设备基于多个空间像素点的像素值,生成目标空间图像,目标空间图像用于训练对象识别模型,对象识别模型用于根据任一目标空间图像识别目标空间中离散分布的对象。
其中,目标空间图像也即是一个三维图像,目标空间图像包括多个相互平行的虚拟平面图像,每个虚拟平面图像上各个像素点的像素值也即是处于同一平面的空间像素点的像素值,多个虚拟平面相互叠加,得到该目标空间图像。在一些实施例中,对象识别模型为一个具有分类能力的模型,比如为3D-CNN(3-Dimension Convolutional NeuralNetworks,三维卷积神经网络)等,本申请实施例对此不做限定。
通过本申请实施例提供的技术方案,计算机设备能够将目标空间划分为多个空间像素点,基于空间像素点与多个对象之间的距离,来确定每个空间像素点的像素值,从而生成目标空间中多个对象的目标空间图像。由于空间像素点的像素值是基于空间像素点和多个对象之间的距离确定的,因此多个空间像素点的像素值就能够表示多个对象之间的相对位置关系,采用目标空间图像作为样本数据来训练对象识别模型,能够提高对象识别模型的识别准确率。
上述步骤201-204是本申请实施例提供技术方案的简单介绍,下面将结合一些例子,对本申请实施例提供的技术方案进行更加清楚的说明,以执行主体为计算机设备为例,参见图3,方法包括下述步骤。
301、计算机设备获取目标空间内离散分布的多个对象的三维坐标。
在一些实施例中,目标空间也即是计算机设备生成的一个“容器”,该“容器”用于容纳该多个对象,无论多个对象如何运动,均不会离开该“容器”,因此,在一些实施例中,目标空间中的多个对象也被称为一个系统。在一些实施中,目标空间为平行六面体,比如为正方体或者立方体。
若目标空间为正方体,该正方体的边长为a,假设该目标空间中存在m个对象,那么其中第i个对象的原始三维坐标为(xi,yi,zi)。对于第i个对象的原始三维坐标(xi,yi,zi)来说,与目标空间的边长a之间具有如下关系:0≤xi≤a,0≤yi≤a以及0≤zi≤a,也即是任一个对象均位于目标空间的内部。参见图4,401为一个正方体的目标空间,圆球402为目标空间中的对象,a为正方体的边长。在一些实施例中,不同大小的圆球代表不同类型的对象,比如在星系中,不同大小的圆球就代表不同类型的天体,在材料中,不同大小的圆球代表不同类型的原子。
在一种可能的实施方式中,计算机设备获取目标空间内多个对象的原始三维坐标。计算机设备对多个对象的原始三维坐标进行归一化处理,得到多个对象的三维坐标。其中,原始三维坐标也即是对象的实际坐标,若对象为天体,那么天体的原始坐标也即是天体在天文坐标系下的坐标,计算机设备对原始三维坐标进行归一化处理,也即是将天体的原始坐标从天体坐标系转化到单位坐标系下,从而对离散的原始三维坐标进行集中化,提高后续处理的效率,其中,单位坐标系也即是归一化后的天体坐标系。
举例来说,对于多个对象中的任一对象,计算机设备获取该对象的原始三维坐标,将该对象的原始三维坐标与目标空间的最大边长相除,得到该对象的三维坐标。对于目标空间中的第i个对象来说,计算机设备能够将第i个对象的原始三维坐标(xi,yi,zi)与目标空间的边长a相除,得到第i个对象的三维坐标(xi ,yi ,zi ),其中,xi = xi/a,yi = yi/a,zi =zi/a。由于第i个对象位于目标空间内,那么第i个对象的三维坐标(xi ,yi ,zi ),也即是第i个对象的三维坐标(xi ,yi ,zi )中的任一坐标值均小于目标空间的边长a,因此还具有如下关系:0≤xi ≤1,0≤yi ≤1以及0≤zi ≤1。
在这种实施方式下,无论对象的原始三维坐标的数值多大,计算机设备均能够通过上述归一化过程将原始三维坐标变换为数值在0-1之间的三维坐标,这样能够减少运算过程中数值,减小计算机设备的运算量。
比如,若对象为天体,且天体的原始三维坐标为(100,30,40),目标空间为立方体,立方体的三个边长分别为500、600和1000。那么计算机设备能够将天体的原始三维坐标(100,30,40)与立方体的最大边长1000相除,得到该天体的三维坐标(0.1,0.03,0.04)。在一些实施例中,若目标空间为正方体,且该立方体的边长为500,那么计算机设备能够将天体的原始三维坐标(100,30,40)与立方体的边长500相除,得到该天体的三维坐标(0.2,0.06,0.08)。
可选地,在上述实施方式的基础上,计算机设备还能够对目标空间进行归一化处理,得到归一化处理后的目标空间。在一些实施例中,归一化处理后的目标空间为边长为1的正方体。举例来说,若归一化前的目标空间为正方体,该正方体的边长为a,那么计算机设备能够将归一化前的目标空间的各个边长与a相除,从而得到归一化后边长为1的正方体。若归一化前的目标空间为立方体,该立方体的长宽高分别为a、b和c,那么计算机设备能够将目标空间的长与a相除,将目标空间的宽与b相除,将目标空间的高与c相除,得到归一化后边长为1的正方体。通过对目标空间的归一化,计算机设备能够将较大的目标空间转化为单位边长的目标空间,从而减少运算过程的数据量,提高处理效率。
302、计算机设备将目标空间划分为多个空间像素点。
在一种可能的实施方式中,计算机设备将目标空间划分为多个虚拟立方体,将每个虚拟立方体作为一个空间像素点。
举例来说,若目标空间为立方体,且立方体的边长为分别为500、600和1000,那么计算机设备能够将立方体划分为N个虚拟正方体,其中,若虚拟正方体的边长为1,N=500×600×1000。在后续处理过程中,计算机设备能够将一个虚拟立方体作为一个空间像素点,每个空间像素点具有一个像素值。
下面将通过两个例子对上述实施方式进行说明。
例1、计算机设备能够基于空间像素点的尺寸,在目标空间中确定多个虚拟顶点。计算机设备采用虚拟顶点之间的虚拟连线,将目标空间划分为多个虚拟立方体,每个虚拟立方体也即是一个空间像素点,其中,虚拟顶点为虚拟像素点的顶点,每条虚拟连线与目标空间的一条边平行。
比如,若空间像素点为正方体,那么计算机设备能够在目标空间中确定空间像素点每个顶点的坐标,采用虚拟连线将对应顶点相连,将目标空间划分为多个空间像素点,其中,对应顶点是指不同空间像素点的相同顶点,对于两个空间像素点来说,每个空间像素点包括8个顶点,若计算机设备采用相同的编号方式对两个空间像素点的8个顶点进行编号,那么对应顶点也即是编号相同的顶点,比如,若计算机设备将两个空间像素点左上角顶点的编号确定为7,那么两个空间像素点左上角的顶点也就为对应顶点。
例2、计算机设备能够基于空间像素点的尺寸,在目标空间的各个边上确定多个虚拟分割点,任意两个虚拟分割点之间的距离为空间像素点的对应边长。在目标空间的各个边所围成的虚拟平面上,计算机设备能够采用虚拟分割线,将对应虚拟分割点进行连接,得到多条虚拟分割线,其中,每条虚拟分割线与目标空间的一条边长平行。计算机设备按照虚拟分割线,将目标空间划分为多个虚拟立方体,每个虚拟立方体也即是一个空间像素点。
比如,若空间像素点为正方体,那么计算机设备根据空间像素点的边长,在目标空间的各个边上确定多个虚拟分割点的坐标。若空间像素点的边长为1,那么计算机设备能够在目标空间的各个边上,以1为间隔来确定多个虚拟分割点,若目标空间的一个边的长度为5,那么计算机设备也就能够在该边上确定4个虚拟分割点,通过该边的两个顶点以及4个虚拟分割点,将该边分为长度为1的五个线段。由于目标空间为平行六面体,那么目标空间也就包括六个虚拟平面,每个虚拟平面包括四条边,每条边上包括多个虚拟分割点,计算机设备能够采用多条虚拟分割线,将每个虚拟平面的两条对边上对应的虚拟分割点相连,将虚拟平面分化为多个虚拟格子。计算机设备能够按照虚拟分割线对目标空间进行分割,得到多个虚拟立方体,每个虚拟立方体也即是一个空间像素点。
303、计算机设备基于每个空间像素点与多个三维坐标之间的距离,确定每个空间像素点的像素值,像素值用于表示空间像素点与多个对象之间的相对位置关系。
在一些实施例中,空间像素点与多个对象之间的相对位置关系也被称为目标空间的结构信息。可选地,一个空间像素点被称为一个矩阵元,相应的,空间像素点的像素值也即是矩阵元的值。
在一种可能的实施方式中,对于任一空间像素点,计算机设备对该空间像素点与多个三维坐标之间的距离进行分布变换,以使分布变换后的多个距离符合目标分布。计算机设备将分布变换后的多个距离确定为一个空间像素点的像素值。
举例来说,计算机设备对空间像素点与多个三维坐标之间的距离进行高斯变换,得到高斯变换后的多个距离。计算机设备将高斯变换后的多个距离进行叠加,得到空间像素点的像素值。比如,计算机设备能够通过下述公式(1)来对空间像素点与多个三维坐标之间的距离进行高斯变换。
Figure 879678DEST_PATH_IMAGE001
其中,
Figure 560058DEST_PATH_IMAGE002
为坐标为
Figure 705869DEST_PATH_IMAGE003
的空间像素点的像素值,
Figure 222432DEST_PATH_IMAGE004
为坐标为
Figure 970945DEST_PATH_IMAGE003
的空间像素点与第
Figure 23608DEST_PATH_IMAGE005
个对象之间的距离,
Figure 248309DEST_PATH_IMAGE005
为对象的序号,0<
Figure 235857DEST_PATH_IMAGE005
Figure 663427DEST_PATH_IMAGE006
Figure 708613DEST_PATH_IMAGE006
为目标空间中空间像素点的数量,
Figure 320860DEST_PATH_IMAGE007
为高斯变换方差,用于控制高斯线型的宽度。在一些实施例中,
Figure 59619DEST_PATH_IMAGE002
也被称为高斯(Gaussian)展宽,公式(1)的处理过程也即是高斯变换(Gaussian-Smearing)的过程。
下面将结合公式(1)和图5,对上述实施方式进行说明。参见图5,以目标空间501为边长为2的正方体为例进行说明。计算机设备能够将目标空间501划分为八个虚拟正方体,每个虚拟正方体的边长均为1。若目标空间501包括4个对象A、B、C和D,计算机设备以目标空间的一个顶点F为原点建立三维坐标系,八个对象A、B、C和D的三维坐标分别为(0.1,0.1,0.1)、(0.2,0.2,0.2)、(0.3,0.3,0.3)以及(0.4,0.4,0.4)。对于八个虚拟正方体中的第一个虚拟正方体5011来说,该虚拟正方体5011的几何中心的三维坐标为(0.5,0.5,0.5)。计算机设备能够获取该虚拟正方体5011的几何中心分别与八个对象A、B、C和D的三维坐标(0.1,0.1,0.1)、(0.2,0.2,0.2)、(0.3,0.3,0.3)以及(0.4,0.4,0.4)之间的距离,也即是0.69、0.52、0.35以及0.17。计算机设备能够分别将距离0.69、0.52、0.35以及0.17带入公式(1),得到该虚拟正方体5011对应的空间像素点的像素值。
在一些实施例中,
Figure 884356DEST_PATH_IMAGE004
与目标空间的形状相关,若目标空间为正方体,也即是目标空间的长宽高均相同,那么计算机设备能够通过下述公式(2)来确定
Figure 269201DEST_PATH_IMAGE004
Figure 396557DEST_PATH_IMAGE008
其中,
Figure 607964DEST_PATH_IMAGE009
为对象在目标空间中的横坐标,
Figure 377337DEST_PATH_IMAGE010
为对象在目标空间中的纵坐标,
Figure 741322DEST_PATH_IMAGE011
为对象在目标空间中的竖坐标,
Figure 180525DEST_PATH_IMAGE012
为正方体的边长,
Figure 161119DEST_PATH_IMAGE013
为空间像素点的横坐标,
Figure 468604DEST_PATH_IMAGE014
为空间像素点的纵坐标,
Figure 939293DEST_PATH_IMAGE015
为空间像素点的竖坐标。在一些实施例中,若目标空间为立方体,也即是目标空间的长宽高均不相同,那么计算机设备能够通过下述公式(3)来确定
Figure 877293DEST_PATH_IMAGE004
Figure 548446DEST_PATH_IMAGE016
其中,
Figure 564681DEST_PATH_IMAGE009
为对象在目标空间中的横坐标,
Figure 637679DEST_PATH_IMAGE010
为对象在目标空间中的纵坐标,
Figure 808898DEST_PATH_IMAGE011
为对象在目标空间中的竖坐标,
Figure 360489DEST_PATH_IMAGE017
分别为立方体的长宽高。
在一些实施例中,若在步骤303之前,计算机设备对目标空间进行了归一化,也即是将目标空间转化为了边长为1的正方体,那么计算机设备能够通过下述公式(4)来确定
Figure 603252DEST_PATH_IMAGE004
Figure 812647DEST_PATH_IMAGE018
304、计算机设备基于多个空间像素点的像素值,生成目标空间图像,目标空间图像用于训练对象识别模型,对象识别模型用于根据任一目标空间图像识别目标空间中离散分布的对象。
在一些实施例中,目标空间图像也即是由像素值构成的一个三维矩阵。
在一种可能的实施方式中,计算机设备将目标空间划分为多个相互平行的虚拟平面,每个虚拟平面包括多个空间像素点。计算机设备将每个虚拟平面上的多个空间像素点的像素值进行组合,得到每个虚拟平面对应的虚拟平面图像。计算机设备将多个相互平行的虚拟平面对应的虚拟平面图像进行组合,得到目标空间图像。在一些实施例中,目标空间图像中显示有目标空间中的多个对象,计算机设备执行上述步骤301-304,也即是对目标空间中的对象进行三维拍照的过程,目标空间图像也即是目标空间中多个对象的一个三维照片。
举例来说,参见图6,计算机设备将目标空间601划分为多个相互平行的虚拟平面602,每个虚拟平面602包括多个空间像素点603。计算机设备将每个虚拟平面602上的多个空间像素点603的像素值进行组合,得到每个虚拟平面602对应的虚拟平面图像604。计算机设备将多个相互平行的虚拟平面图像604进行叠加,得到目标空间图像605。
下面将结合图7,对上述步骤301-304进行说明。
参见图7,包括目标空间701,对目标空间701划分后的多个空间像素点702以及目标空间图像703,目标空间701包括多个对象7011,其中,目标空间图像703右侧的图形704表示目标空间图像中像素值与颜色的对象关系。可选地,若目标空间图像703为灰度图像,那么目标空间图像703的像素值也即是灰度值,图形704也就表示灰度值与颜色的对应关系。在一些实施例中,目标空间701也被称为空间离散系统。
需要说明的是,在本申请实施例中,生成的目标空间图像是作为对象识别模型的训练样本,而训练样本会直接影响对象识别模型的识别准确度,基于此,计算机设备能够通过多个轮次的迭代,来生成多个轮次的目标空间图像,每个轮次生成目标空间图像的参数不同,本申请实施例对轮次的数量不做限定。在一些实施例中,生成目标空间图像的参数包括将目标空间划分为空间像素点的数量以及采用公式(1)时的高斯变换方差。计算机设备能够采用多个轮次的目标空间图像来对对象识别模型训练,基于训练出的对象识别模型的识别准确度来确定生成目标空间图像的参数。上述步骤301-304,也即是以计算机设备确定目标空间图像的一个轮次为例进行说明的。
对于将目标空间划分为空间像素点的数量来说,参见图8,在将公式(1)中的高斯变换方差固定为0.02时,分别获取n=10-90时,目标空间图像的一个截面图像,n也即是空间像素点的数量,
Figure 13821DEST_PATH_IMAGE007
也即是高斯变换方差。从图8中可以看出,当n较小时,生成的目标空间图像的清晰度较低,目标空间图像无法准确反映出对象在目标空间中的位置。随着n的增大,目标空间图像的清晰度也在逐渐上升,目标空间图像能够反映出对象在目标空间中的位置。这是由于随着n的增大,空间像素点的数量也在增加,像素点的增加也会导致图像分辨率的提高,图像分辨率的提高也就会导致图像清晰度的上升。
对于公式(1)中的高斯变换方差来说,参见图9,在将目标空间中空间像素点的数量固定为100时,分别获取
Figure 174413DEST_PATH_IMAGE007
=0.01-0.09时,目标空间图像的一个界面图像,
Figure 892971DEST_PATH_IMAGE007
也即是高斯变换方差,n也即是空间像素点的数量。从图9中可以看出,不同的高斯变换方差对目标空间图像的清晰度也有较大的影响,较小时,得到的目标空间图像中丢失了大量的对象;
Figure 940561DEST_PATH_IMAGE007
较大时,得到的目标空间图像的清晰度较低,因此,确定合适的
Figure 63369DEST_PATH_IMAGE007
能够使得目标空间图像在不丢失对象的前提下,具有较好的清晰度,这样在采用目标空间图像进行训练对象识别模型时,才能够使得训练得到的对象识别模型具有较高的识别准确度。
可选地,在步骤304之后,若计算机设备通过上述公式(1)来确定空间像素点的像素值,那么计算机设备能够显示目标空间图像。计算机设备基于目标空间图像的清晰度,对高斯变换方差进行调整。计算机设备基于下一轮次中多个对象的三维坐标和调整后的高斯变换方差,重新生成下一轮次的目标空间图像。
其中,计算机设备重新生成下一轮次的目标空间图像的方法与上述步骤301-304属于同一发明构思,在此不再赘述。
举例来说,计算机设备通过上述步骤301-304生成目标空间图像之后,能够显示目标空间图像的一个截面图像。计算机设备能够根据该截面图像的清晰度,对高斯变换方差进行调整,比如,当该截面图像的清晰度较低时,计算机设备能够减小高斯变换方差,并基于下一轮次中多个对象的三维坐标和减小后的高斯变换方差,重新生成下一轮次的目标空间图像。当该截面图像中丢失了对象时,计算机设备能够增大高斯变换方差,并基于下一轮次中多个对象的三维坐标和增大后的高斯变换方差,重新生成下一轮次的目标空间图像。在一些实施例中,在计算机设备确定清晰度和界面图像是否丢失对象时,技术人员也能够进行干预,也即是技术人员通过计算机设备来查看目标空间图像,并对高斯变换方差进行调整,以提高下一轮次生成的目标空间图像的清晰度。
305、计算机设备将目标空间图像输入对象识别模型。
306、计算机设备通过对象识别模型,基于目标空间图像进行预测,输出多个对象对应的预测标签,预测标签用于指示对应对象的类型。
在一种可能的实施方式中,对象识别模型为3D-CNN模型,计算机设备能够通过对象识别模型的三维卷积核,对目标空间图像进行卷积处理,得到目标空间图像的多个三维特征图。计算机设备通过对象识别模型,对多个三维特征图进行全连接处理和全连接处理,输出目标空间图像中多个对象对应于不同标签的概率。计算机设备将概率符合目标概率条件的标签确定为多个对象的预测标签。在一些实施例中,概率符合目标条件是指,概率大于概率阈值。
307、计算机设备获取对象识别模型输出的预测标签的准确度。
在一种可能的实施方式中,计算机设备能够预先为目标空间图像中不同的对象添加标签,该标签也即是目标空间中对象的实际标签,在一些实施例中,这个过程被称为样本标注。计算机设备能够将对象识别模型输出的预测标签和对象的实际标签进行比较,确定对象识别模型输出的预测标签的准确度。
比如,对于目标空间中的一个对象来说,若对象识别模型输出的预测标签为A,且该对象的实际标签也为A,那么计算机设备能够确定对象识别模型输出的预测标签准确,将预测准确的次数+1。对于目标空间中的另一个对象来说,若对象识别模型输出的预测标签为B,但是该对象的实际标签为A,那么计算机设备能够确定对象识别模型输出的预测标签不准确,将预测不准确的次数+1。计算机设备将预测准确的次数与预测总次数相除,也就能够得到对象识别模型输出的预测标签的准确度。
308、计算机设备基于准确度,确定在下一轮次中将目标空间划分得到的空间像素点的数量,数量与准确度负相关。
参见图8的相关描述,空间像素点的数量会影响目标空间图像的清晰度,当空间像素点的数量较少时,目标空间图像的清晰度也就较低,可能会丢失一部分信息,后续训练对象识别模型时,对象识别模型的识别准确度也就不高,在这种情况下,计算机设备能够在下一轮次中提高空间像素点的数量,从而提高目标空间图像的清晰度。
在一些实施例中,当空间像素点的数量较多时,计算机设备通过对象识别模型,基于目标空间图像进行对象识别时的开销也就会越大,对象识别的效率也就越低。在这种情况下,计算机设备能够降低空间像素点的数量,在保证对象识别模型的识别准确率的前提下,降低计算机设备的开销,提高对象识别的效率。
在一些实施例中,上述步骤301-308能够由不同类型的计算机设备来执行,比如,由终端执行上述步骤301-304,由服务器执行下述步骤305-308,也即是终端通过上述步骤301-304生成目标空间图像,终端将生成的目标空间图像发送给服务器,由服务器基于目标空间图像来执行下述步骤305-308。
下面以一次模型训练迭代为例,对对象识别模型的训练方法进行说明。
1、计算机设备将目标空间图像分别输入对象识别模型,由对象识别模型基于目标空间图像进行预测,输出多个对象在目标空间中的预测标签,预测标签用于指示对应对象的类型。
其中,计算机设备通过对象识别模型,基于目标空间图像进行预测的方法与上述步骤306属于同一发明构思,实现过程参见上述步骤306。
2、计算机设备基于多个对象在目标空间中的预测标签与多个对象在目标空间中的实际标签之间的差异,对对象识别模型的模型参数进行调整。
在一种可能的实施方式中,计算机设备能够基于对象识别模型输出的预测标签和对象的实际标签,构建一个损失函数。计算机设备通过该损失函数来对对象识别模型的模型参数进行更新。在一些实施例中,计算机设备能够基于损失函数,通过梯度下降法来更新对象识别模型的模型参数,当然也能够通过其他方法来更新对象识别模型的模型参数,本申请实施例对此不做限定。
需要说明的是,由于目标空间中的对象是在不停运动的,那么计算机设备能够基于不同时刻下目标空间中多个对象的三维坐标,来生成对应时刻的目标空间图像,采用多个目标空间图像作为样本数据来训练对象识别模型。也即是,比如存在5个时刻t1-t5,那么在第一次模型训练迭代过程中,计算机设备能够采用t1时刻对应的目标空间图像来训练对象识别模型,在下一次模型训练迭代过程中,采用t2时刻对应的目标空间图像来训练对象识别模型,以此类推。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
通过本申请实施例提供的技术方案,计算机设备能够将目标空间划分为多个空间像素点,基于空间像素点与多个对象之间的距离,来确定每个空间像素点的像素值,从而生成目标空间中多个对象的目标空间图像。由于空间像素点的像素值是基于空间像素点和多个对象之间的距离确定的,因此多个空间像素点的像素值就能够表示多个对象之间的相对位置关系,采用目标空间图像作为样本数据来训练对象识别模型,能够提高对象识别模型的识别准确率。
图10是本申请实施例提供的一种对象识别方法,参见图10,以执行主体为计算机设备为例,方法包括下述步骤。
1001、计算机设备获取目标空间内离散分布的多个对象的三维坐标。
步骤1001与上述步骤301属于同一发明构思,实现过程参见上述步骤301的描述,在此不再赘述。
1002、计算机设备将目标空间划分为多个空间像素点。
步骤1002与上述步骤302属于同一发明构思,实现过程参见上述步骤302的描述,在此不再赘述。
1003、计算机设备基于每个空间像素点与多个三维坐标之间的距离,确定每个空间像素点的像素值,像素值用于表示空间像素点与多个对象之间的相对位置关系。
步骤1003与上述步骤303属于同一发明构思,实现过程参见上述步骤303的描述,在此不再赘述。
1004、计算机设备基于多个空间像素点的像素值,生成目标空间图像。
步骤1004与上述步骤304属于同一发明构思,实现过程参见上述步骤304的描述,在此不再赘述。
1005、计算机设备将目标空间图像输入对象识别模型,通过对象识别模型,基于目标空间图像进行预测,输出多个对象对应的预测标签,预测标签用于指示对应对象的类型。
步骤1005与上述步骤305和306属于同一发明构思,实现过程参见上述步骤305和306的描述,在此不再赘述。
通过本申请实施例提供的技术方案,计算机设备能够将目标空间划分为多个空间像素点,基于空间像素点与多个对象之间的距离,来确定每个空间像素点的像素值,从而生成目标空间中多个对象的目标空间图像。由于空间像素点的像素值是基于空间像素点和多个对象之间的距离确定的,因此多个空间像素点的像素值就能够表示多个对象之间的相对位置关系,采用基于目标空间图像来进行对象识别时,能够达到较高的识别准确率。
图11是本申请实施例提供的一种对象识别装置结构示意图,参见图11,装置包括:第一获取模块1101、第一划分模块1102、第一像素值确定模块1103以及第一目标空间图像生成模块1104。
第一获取模块1101,用于获取目标空间内离散分布的多个对象的三维坐标。
第一划分模块1102,用于将目标空间划分为多个空间像素点。
第一像素值确定模块1103,用于基于每个空间像素点与多个三维坐标之间的距离,确定每个空间像素点的像素值,像素值用于表示空间像素点与多个对象之间的相对位置关系。
第一目标空间图像生成模块1104,用于基于多个空间像素点的像素值,生成目标空间图像,目标空间图像用于训练对象识别模型,对象识别模型用于根据任一目标空间图像识别目标空间中离散分布的对象。
在一种可能的实施方式中,第一像素值确定模块1103,用于对于任一空间像素点,对空间像素点与多个三维坐标之间的距离进行分布变换,以使分布变换后的多个距离符合目标分布。将分布变换后的多个距离确定为一个空间像素点的像素值。
在一种可能的实施方式中,目标分布为高斯分布,第一像素值确定模块1103,用于对空间像素点与多个三维坐标之间的距离进行高斯变换,得到高斯变换后的多个距离。将分布变换后的多个距离进行叠加,得到空间像素点的像素值。
在一种可能的实施方式中,装置还包括:
显示模块,用于显示目标空间图像。
方差调整模块,用于基于目标空间图像的清晰度,对高斯变换方差进行调整。
第一目标空间图像生成模块1104,还用于基于下一轮次中多个对象的三维坐标和调整后的高斯变换方差,重新生成下一轮次的目标空间图像。
在一种可能的实施方式中,第一获取模块1101,用于获取目标空间内多个对象的原始三维坐标。对多个对象的原始三维坐标进行归一化处理,得到多个对象的三维坐标。
在一种可能的实施方式中,第一获取模块1101,用于对于多个对象中的任一对象,将任一对象的原始三维坐标与目标空间的最大边长相除,得到任一对象的三维坐标。
在一种可能的实施方式中,第一目标空间图像生成模块1104,用于将目标空间划分为多个相互平行的虚拟平面,每个虚拟平面包括多个空间像素点。将每个虚拟平面上的多个空间像素点的像素值进行组合,得到每个虚拟平面对应的虚拟平面图像。将多个相互平行的虚拟平面对应的虚拟平面图像进行组合,得到目标空间图像。
在一种可能的实施方式中,装置还包括:
输入模块,用于将目标空间图像输入对象识别模型。
第一预测标签输出模块,用于通过对象识别模型,基于目标空间图像进行预测,输出多个对象对应的预测标签,预测标签用于指示对应对象的类型。
第一准确度获取模块,用于获取对象识别模型输出的预测标签的准确度。
数量确定模块,用于基于准确度,确定在下一轮次中将目标空间划分得到的空间像素点的数量,数量与准确度负相关。
在一种可能的实施方式中,对象识别模型的训练装置包括:
样本输入模块,用于将目标空间图像输入对象识别模型,由对象识别模型基于目标空间图像进行预测,输出多个对象在目标空间中的预测标签,预测标签用于指示对应对象的类型。
模型参数调整模块,用于基于多个对象在目标空间中的预测标签与多个对象在目标空间中的实际标签之间的差异,对对象识别模型的模型参数进行调整。
在一种可能的实施方式中,第一划分模块1102,用于将目标空间划分为多个虚拟立方体。将每个虚拟立方体确定为一个空间像素点。
需要说明的是:上述实施例提供的对象识别装置在识别对象时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的对象识别装置与对象识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
通过本申请实施例提供的技术方案,能够将目标空间划分为多个空间像素点,基于空间像素点与多个对象之间的距离,来确定每个空间像素点的像素值,从而生成目标空间中多个对象的目标空间图像。由于空间像素点的像素值是基于空间像素点和多个对象之间的距离确定的,因此多个空间像素点的像素值就能够表示多个对象之间的相对位置关系,采用目标空间图像作为样本数据来训练对象识别模型,能够提高对象识别模型的识别准确率。
图12是本申请实施例提供的一种对象识别装置结构示意图,参见图11,装置包括:第二获取模块1201、第二划分模块1202、第二像素值确定模块1203、第二目标空间图像生成模块1204以及第二预测标签输出模块1205。
第二获取模块1201,用于获取目标空间内离散分布的多个对象的三维坐标。
第二划分模块1202,用于将目标空间划分为多个空间像素点。
第二像素值确定模块1203,用于基于每个空间像素点与多个三维坐标之间的距离,确定每个空间像素点的像素值,像素值用于表示空间像素点与多个对象之间的相对位置关系。
第二目标空间图像生成模块1204,用于基于多个空间像素点的像素值,生成目标空间图像。
第二预测标签输出模块1205,用于将目标空间图像输入对象识别模型,通过对象识别模型,基于目标空间图像进行预测,输出多个对象对应的预测标签,预测标签用于指示对应对象的类型。
需要说明的是:上述实施例提供的对象识别装置在识别对象时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的对象识别装置与对象识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
通过本申请实施例提供的技术方案,能够将目标空间划分为多个空间像素点,基于空间像素点与多个对象之间的距离,来确定每个空间像素点的像素值,从而生成目标空间中多个对象的目标空间图像。由于空间像素点的像素值是基于空间像素点和多个对象之间的距离确定的,因此多个空间像素点的像素值就能够表示多个对象之间的相对位置关系,采用目标空间图像作为样本数据来训练对象识别模型,能够提高对象识别模型的识别准确率。
本申请实施例提供了一种计算机设备,用于执行上述方法,该计算机设备可以实现为终端或者服务器,下面先对终端的结构进行介绍:
图13是本申请实施例提供的一种终端的结构示意图。该终端1300可以是:智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。
通常,终端1300包括有:一个或多个处理器1301和一个或多个存储器1302。
处理器1301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1302中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器1301所执行以实现本申请中方法实施例提供的对象识别方法。
在一些实施例中,终端1300还可选包括有:外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地,外围设备包括:射频电路1304、显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。
外围设备接口1303可被用于将I/O(Input /Output,输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中,处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上;在一些其他实施例中,处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。
显示屏1305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时,显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时,显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。
摄像头组件1306用于采集图像或视频。可选地,摄像头组件1306包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。
音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1301进行处理,或者输入至射频电路1304以实现语音通信。
定位组件1308用于定位终端1300的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。
电源1309用于为终端1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。
在一些实施例中,终端1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于:加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。
加速度传感器1311可以检测以终端1300建立的坐标系的三个坐标轴上的加速度大小。
陀螺仪传感器1312可以终端1300的机体方向及转动角度,陀螺仪传感器1312可以与加速度传感器1311协同采集用户对终端1300的3D动作。
压力传感器1313可以设置在终端1300的侧边框和/或显示屏1305的下层。当压力传感器1313设置在终端1300的侧边框时,可以检测用户对终端1300的握持信号,由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在显示屏1305的下层时,由处理器1301根据用户对显示屏1305的压力操作,实现对UI界面上的可操作性空间进行控制。
指纹传感器1314用于采集用户的指纹,由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份,或者,由指纹传感器1314根据采集到的指纹识别用户的身份。
光学传感器1315用于采集环境光强度。在一个实施例中,处理器1301可以根据光学传感器1315采集的环境光强度,控制显示屏1305的显示亮度。
接近传感器1316用于采集用户与终端1300的正面之间的距离。
本领域技术人员可以理解,图13中示出的结构并不构成对终端1300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
上述计算机设备还可以实现为服务器,下面对服务器的结构进行介绍:
图14是本申请实施例提供的一种服务器的结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1401和一个或多个的存储器1402,其中,所述一个或多个存储器1402中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器1401加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器1400还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1400还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括计算机程序的存储器,上述计算机程序可由处理器执行以完成上述实施例中的对象识别方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory, ROM)、随机存取存储器(RandomAccess Memory,RAM)、只读光盘 (Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述对象识别方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种对象识别方法,其特征在于,所述方法包括:
获取目标空间内离散分布的多个对象的三维坐标;
将所述目标空间划分为多个空间像素点;
基于每个空间像素点与多个三维坐标之间的距离,确定所述每个空间像素点的像素值,所述像素值用于表示所述空间像素点与所述多个对象之间的相对位置关系;
将所述目标空间划分为多个相互平行的虚拟平面,每个所述虚拟平面包括多个空间像素点;
将每个所述虚拟平面上的多个空间像素点的像素值进行组合,得到每个所述虚拟平面对应的虚拟平面图像;
将所述多个相互平行的虚拟平面分别对应的虚拟平面图像进行组合,得到目标空间图像,所述目标空间图像用于训练对象识别模型,所述对象识别模型用于根据任一目标空间图像识别所述目标空间中离散分布的对象。
2.根据权利要求1所述的方法,其特征在于,所述基于每个空间像素点与多个三维坐标之间的距离,确定所述每个空间像素点的像素值包括:
对于任一空间像素点,对所述空间像素点与多个三维坐标之间的距离进行分布变换,以使分布变换后的多个距离符合目标分布;
将所述分布变换后的多个距离确定为一个空间像素点的像素值。
3.根据权利要求2所述的方法,其特征在于,所述目标分布为高斯分布,所述对所述空间像素点与多个三维坐标之间的距离进行分布变换包括:
对所述空间像素点与所述多个三维坐标之间的距离进行高斯变换,得到高斯变换后的多个距离;
所述将所述分布变换后的多个距离确定为一个空间像素点的像素值包括:
将所述高斯变换后的多个距离进行叠加,得到所述空间像素点的像素值。
4.根据权利要求3所述的方法,其特征在于,所述将所述高斯变换后的多个距离进行叠加,得到所述空间像素点的像素值之后,所述方法还包括:
显示所述目标空间图像;
基于所述目标空间图像的清晰度,对高斯变换方差进行调整;
基于下一轮次中所述多个对象的三维坐标和调整后的高斯变换方差,重新生成所述下一轮次的目标空间图像。
5.根据权利要求1所述的方法,其特征在于,所述获取目标空间内离散分布的多个对象的三维坐标,包括:
获取所述目标空间内所述多个对象的原始三维坐标;
对所述多个对象的原始三维坐标进行归一化处理,得到所述多个对象的三维坐标。
6.根据权利要求5所述的方法,其特征在于,所述对所述多个对象的原始三维坐标进行归一化处理,得到所述多个对象的三维坐标包括:
对于所述多个对象中的任一对象,将所述任一对象的原始三维坐标与所述目标空间的最大边长相除,得到所述任一对象的三维坐标。
7.根据权利要求1所述的方法,其特征在于,所述将所述多个相互平行的虚拟平面分别对应的虚拟平面图像进行组合,得到目标空间图像之后,所述方法还包括:
将所述目标空间图像输入所述对象识别模型;
通过所述对象识别模型,基于所述目标空间图像进行预测,输出所述多个对象对应的预测标签,所述预测标签用于指示对应对象的类型;
获取所述对象识别模型输出的预测标签的准确度;
基于所述准确度,确定在下一轮次中将所述目标空间划分得到的空间像素点的数量,所述数量与所述准确度负相关。
8.根据权利要求1所述的方法,其特征在于,所述对象识别模型的训练方法包括:
将所述目标空间图像输入所述对象识别模型,由所述对象识别模型基于所述目标空间图像进行预测,输出所述多个对象在所述目标空间中的预测标签,所述预测标签用于指示对应对象的类型;
基于所述多个对象在所述目标空间中的预测标签与所述多个对象在所述目标空间中的实际标签之间的差异,对所述对象识别模型的模型参数进行调整。
9.根据权利要求1所述的方法,其特征在于,所述将所述目标空间划分为多个空间像素点包括:
将所述目标空间划分为多个虚拟立方体;
将每个所述虚拟立方体确定为一个所述空间像素点。
10.一种对象识别方法,其特征在于,所述方法包括:
获取目标空间内离散分布的多个对象的三维坐标;
将所述目标空间划分为多个空间像素点;
基于每个空间像素点与多个三维坐标之间的距离,确定所述每个空间像素点的像素值,所述像素值用于表示所述空间像素点与所述多个对象之间的相对位置关系;
将所述目标空间划分为多个相互平行的虚拟平面,每个所述虚拟平面包括多个空间像素点;
将每个所述虚拟平面上的多个空间像素点的像素值进行组合,得到每个所述虚拟平面对应的虚拟平面图像;
将所述多个相互平行的虚拟平面分别对应的虚拟平面图像进行组合,得到目标空间图像;
将所述目标空间图像输入对象识别模型,通过所述对象识别模型,基于所述目标空间图像进行预测,输出所述多个对象对应的预测标签,所述预测标签用于指示对应对象的类型。
11.一种对象识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标空间内离散分布的多个对象的三维坐标;
第一划分模块,用于将所述目标空间划分为多个空间像素点;
第一像素值确定模块,用于基于每个空间像素点与多个三维坐标之间的距离,确定所述每个空间像素点的像素值,所述像素值用于表示所述空间像素点与所述多个对象之间的相对位置关系;
第一目标空间图像生成模块,用于将所述目标空间划分为多个相互平行的虚拟平面,每个所述虚拟平面包括多个空间像素点;将每个所述虚拟平面上的多个空间像素点的像素值进行组合,得到每个所述虚拟平面对应的虚拟平面图像;将所述多个相互平行的虚拟平面分别对应的虚拟平面图像进行组合,得到目标空间图像,所述目标空间图像用于训练对象识别模型,所述对象识别模型用于根据任一目标空间图像识别所述目标空间中离散分布的对象。
12.一种对象识别装置,其特征在于,所述装置包括:
第二获取模块,用于获取目标空间内离散分布的多个对象的三维坐标;
第二划分模块,用于将所述目标空间划分为多个空间像素点;
第二像素值确定模块,用于基于每个空间像素点与多个三维坐标之间的距离,确定所述每个空间像素点的像素值,所述像素值用于表示所述空间像素点与所述多个对象之间的相对位置关系;
第二目标空间图像生成模块,用于将所述目标空间划分为多个相互平行的虚拟平面,每个所述虚拟平面包括多个空间像素点;将每个所述虚拟平面上的多个空间像素点的像素值进行组合,得到每个所述虚拟平面对应的虚拟平面图像;将所述多个相互平行的虚拟平面分别对应的虚拟平面图像进行组合,得到目标空间图像;
第二预测标签输出模块,用于将所述目标空间图像输入对象识别模型,通过所述对象识别模型,基于所述目标空间图像进行预测,输出所述多个对象对应的预测标签,所述预测标签用于指示对应对象的类型。
13.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求9任一项所述的对象识别方法,或实现如权利要求10所述的对象识别方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的对象识别方法,或实现如权利要求10所述的对象识别方法。
CN202110272805.1A 2021-03-12 2021-03-12 对象识别方法、装置、设备以及存储介质 Active CN112686230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110272805.1A CN112686230B (zh) 2021-03-12 2021-03-12 对象识别方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110272805.1A CN112686230B (zh) 2021-03-12 2021-03-12 对象识别方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN112686230A CN112686230A (zh) 2021-04-20
CN112686230B true CN112686230B (zh) 2021-06-22

Family

ID=75455564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110272805.1A Active CN112686230B (zh) 2021-03-12 2021-03-12 对象识别方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN112686230B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8217953B2 (en) * 2008-04-25 2012-07-10 International Business Machines Corporation Anisotropic texture filtering with texture data prefetching
CN102592136A (zh) * 2011-12-21 2012-07-18 东南大学 基于几何图像中中频信息的三维人脸识别方法
CN111639626A (zh) * 2020-06-11 2020-09-08 深圳市泰沃德自动化技术有限公司 三维点云数据处理方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110225367A (zh) * 2019-06-27 2019-09-10 北京奇艺世纪科技有限公司 一种视频中对象信息的显示、识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8217953B2 (en) * 2008-04-25 2012-07-10 International Business Machines Corporation Anisotropic texture filtering with texture data prefetching
CN102592136A (zh) * 2011-12-21 2012-07-18 东南大学 基于几何图像中中频信息的三维人脸识别方法
CN111639626A (zh) * 2020-06-11 2020-09-08 深圳市泰沃德自动化技术有限公司 三维点云数据处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN112686230A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN113822977A (zh) 图像渲染方法、装置、设备以及存储介质
CN111931877B (zh) 目标检测方法、装置、设备及存储介质
WO2023116231A1 (zh) 图像分类方法、装置、计算机设备及存储介质
CN111914812A (zh) 图像处理模型训练方法、装置、设备及存储介质
CN109858333A (zh) 图像处理方法、装置、电子设备及计算机可读介质
JP2022177232A (ja) 画像処理方法、テキスト認識方法及び装置
CN112989767B (zh) 医学词语标注方法、医学词语映射方法、装置及设备
CN112749728A (zh) 学生模型训练方法、装置、计算机设备及存储介质
CN112036331A (zh) 活体检测模型的训练方法、装置、设备及存储介质
CN112699832B (zh) 目标检测方法、装置、设备以及存储介质
CN113569607A (zh) 动作识别方法、装置、设备以及存储介质
US20230281833A1 (en) Facial image processing method and apparatus, device, and storage medium
CN108364029A (zh) 用于生成模型的方法和装置
CN112990053A (zh) 图像处理方法、装置、设备及存储介质
CN111368116A (zh) 图像分类方法、装置、计算机设备及存储介质
CN109711441A (zh) 图像分类方法、装置、存储介质及电子设备
CN112381707A (zh) 图像生成方法、装置、设备以及存储介质
CN112115900A (zh) 图像处理方法、装置、设备及存储介质
CN114677350A (zh) 连接点提取方法、装置、计算机设备及存储介质
CN110110696B (zh) 用于处理信息的方法和装置
CN117237547B (zh) 图像重建方法、重建模型的处理方法和装置
CN117094362B (zh) 一种任务处理方法及相关装置
CN112037305B (zh) 对图像中的树状组织进行重建的方法、设备及存储介质
CN113822263A (zh) 图像标注方法、装置、计算机设备及存储介质
CN111310595B (zh) 用于生成信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40042450

Country of ref document: HK