CN115934993A - 物体定位方法、装置、电子设备和可读存储介质 - Google Patents
物体定位方法、装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN115934993A CN115934993A CN202211557301.5A CN202211557301A CN115934993A CN 115934993 A CN115934993 A CN 115934993A CN 202211557301 A CN202211557301 A CN 202211557301A CN 115934993 A CN115934993 A CN 115934993A
- Authority
- CN
- China
- Prior art keywords
- target
- objects
- sample
- information
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开了一种物体定位方法、装置、电子设备和可读存储介质,属于图像识别领域。所述方法包括:获取目标文本,以及获取目标空间内的N个物体的参数信息,所述参数信息包括物体特征信息和坐标信息,N为大于1的整数;从预设数据库的多个样本物体的标识中确定目标样本物体的标识,所述目标样本物体的标识与所述目标文本匹配,所述预设数据库中预存有所述多个样本物体的标识以及所述多个样本物体的物体特征信息;从所述目标空间内的N个物体中确定目标物体,所述目标物体的物体特征信息与所述目标样本物体的物体特征信息匹配;基于所述目标物体的坐标信息定位所述目标物体。
Description
技术领域
本申请属于图像识别技术领域,具体涉及一种物体定位方法、装置、电子设备和可读存储介质。
背景技术
在日常生活和工作中,人们经常遇到需要在空间内摆放的多个物体中定位所需要的物体的情况。
例如,在手术过程中,医生通常需要交替使用不同的手术器具,护士需要根据医生的指示,在手术室摆放的众多手术器具中快速且精准地定位到所需的手术器具并提供给医生。现有技术中,通常需要用户通过肉眼观察等方式对所需的物体进行定位,因此存在物体的定位效率较低的问题。
发明内容
本申请实施例的目的是提供一种物体定位方法、装置、电子设备和可读存储介质,能够解决物体的定位效率较低的问题。
第一方面,本申请实施例提供了一种物体定位方法,该方法包括:
获取目标文本,以及获取目标空间内的N个物体的参数信息,所述参数信息包括物体特征信息和坐标信息,N为大于1的整数;
从预设数据库的多个样本物体的标识中确定目标样本物体的标识,所述目标样本物体的标识与所述目标文本匹配,所述预设数据库中预存有所述多个样本物体的标识以及所述多个样本物体的物体特征信息;
从所述目标空间内的N个物体中确定目标物体,所述目标物体的物体特征信息与所述目标样本物体的物体特征信息匹配;
基于所述目标物体的坐标信息定位所述目标物体。
第二方面,本申请实施例提供了一种物体定位装置,包括:
第一获取模块,用于获取目标文本,以及获取目标空间内的N个物体的参数信息,所述参数信息包括物体特征信息和坐标信息,N为大于1的整数;
第一确定模块,用于从预设数据库的多个样本物体的标识中确定目标样本物体的标识,所述目标样本物体的标识与所述目标文本匹配,所述预设数据库中预存有所述多个样本物体的标识以及所述多个样本物体的物体特征信息;
第二确定模块,用于从所述目标空间内的N个物体中确定目标物体,所述目标物体的物体特征信息与所述目标样本物体的物体特征信息匹配;
定位模块,用于基于所述目标物体的坐标信息定位所述目标物体。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
在本申请实施例中,在获取目标文本后,通过将目标文本与预设数据库中的多个样本物体的标识进行匹配可以确定目标样本物体的标识,进而确定目标样本物体的物体特征信息。通过将目标样本物体的物体特征信息与目标空间内的N个物体的物体特征信息进行匹配,可以确定目标物体,基于获取到的目标物体的坐标信息定位目标物体。这样,在获取目标文本后,基于预设数据库中多个样本物体的标识和物体特征信息,以及目标空间内的N个物体的坐标信息和物体特征信息,即可以在目标空间中定位到所需的物体,提高了物体的定位效率。
附图说明
图1是本申请实施例提供的一种物体定位方法的流程图;
图2是本申请实施例提供的一种物体定位装置的结构框图;
图3是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的物体定位方法进行详细地说明。
本申请实施例提供的物体定位方法可以应用于任意需要对物体进行定位的场景中。示例性地,在一些实施例中,本申请实施例提供的物体定位方法可以对手术室内的手术器具进行定位。在另一些实施例中,本申请实施例提供的物体定位方法可以对不同类别的垃圾桶进行定位。在另一些实施例中,本申请实施例提供的物体定位方法可以对图书馆内摆放的图书进行定位。
请参见图1,图1是本申请实施例提供的一种物体定位方法的流程示意图之一。其中,所述物体定位方法具体包括以下步骤:
步骤101、获取目标文本,以及获取目标空间内的N个物体的参数信息,所述参数信息包括物体特征信息和坐标信息,N为大于1的整数。
在所述步骤101中,获取目标文本和获取目标空间内的N个物体的参数信息的时间顺序在此不做限定。示例性地,在一些实施例中,可以先获取目标文本,再获取目标空间内的N个物体的参数信息。在另一些实施例中,也可以同时获取目标文本和目标空间内的N个物体的参数信息。
在所述步骤101中,获取目标文本的具体方式在此不做限定。可选地,在一些实施例中,所述获取目标文本,包括:
获取目标输入,所述目标输入包括语音数据和/或文本数据;
基于所述目标输入确定目标文本。
应理解的是,在一些实施例中,目标输入可以为用户输入的。在另一些实施例中,目标输入可以为其他装置通过无线通信信号或其他类型的信号输入的。
在本申请实施例中,获取目标文本具体包括:获取目标输入,所述目标输入包括语音数据和/或文本数据;基于所述目标输入确定目标文本。目标输入包括语音数据和/或文本数据,可以提高获取目标输入的灵活性。
在一些实施例中,目标输入包括语音数据。在本实施例中,获取输入的语音数据,并基于语音数据得到语音数据对应的目标文本。基于语音数据确定目标文本的具体方式在此不做限定。
示例性地,在一些实施例中,可以基于自动语音识别(Automatic SpeechRecognition,ASR)技术对语音数据进行识别,得到目标文本。
示例性地,以对手术器具进行定位的应用场景为例。在此场景中,医生说出包含所需手术器具名称的语音,例如“手术刀”。在接收到医生的语音数据后,基于ASR技术自动对语音数据进行识别,得到目标文本。示例性地,目标文本为“手术刀”。
在一些实施例中,基于语音数据确定目标文本包括:对所述语音数据进行语音识别得到所述语音数据对应的文本,对所述语音数据对应的文本进行关键字提取,得到所述目标文本。
示例性地,以对不同类别的垃圾桶进行定位的应用场景为例。在此场景中,用户说出包含垃圾桶的类别的语音,例如“找一下那个垃圾桶,放厨余的那个”,在接收到用户的语音数据后,基于ASR技术自动对语音数据进行识别,得到语音数据对应的文本后,提取语音数据对应的文本中的关键字,得到目标文本。示例性地,目标文本为“厨余”和/或“垃圾桶”。
在本申请实施例中,目标输入包括语音数据,获取目标文本具体包括:获取语音数据,基于语音数据确定目标文本。通过上述方法,可以对用户说出的语音中包含的物体进行定位,提高了对物体进行定位的操作便捷度,减少了用户所需执行的操作。
在另一些实施例中,目标输入包括文本数据。在本实施例中,获取用户输入的文本数据,并基于文本数据确定目标文本。在一些情况下,可以直接将接收到的文本数据确定为目标文本,也可以对接收到的文本数据进行预设处理,得到目标文本。
示例性地,以对手术器具进行定位的应用场景为例。在接收到医生或护士以打字等方式输入的手术器具的名称后,将输入的手术器具的名称确定为目标文本。
在本申请实施例中,目标输入包括文本数据,获取目标文本具体包括:获取文本数据,基于文本数据确定目标文本。通过上述方法,提高了基于目标输入确定目标文本的准确度和精确度,从而提高了对物体进行定位的准确度和精确度。
步骤102、从预设数据库的多个样本物体的标识中确定目标样本物体的标识,所述目标样本物体的标识与所述目标文本匹配,所述预设数据库中预存有所述多个样本物体的标识以及所述多个样本物体的物体特征信息。
样本物体的标识可以用于区分不同的样本物体,其具体形式在此不做限定。示例性地,在一些实施例中,样本物体的标识为样本物体的名称。在另一些实施例中,样本物体的标识为样本物体的编号。
预设数据库中包括多个样本物体的标识,以及多个样本物体的物体特征信息,其中,样本物体的标识和样本物体的物体特征信息为一一关联对应的。因此,在确定了目标样本物体的标识后,即可从预设数据库中确定目标样本物体的物体特征信息。
从预设数据库的多个样本物体的标识中确定目标样本物体的标识的过程,也可以理解为从预设数据库的多个样本物体中确定目标样本物体的过程。判断样本物体的标识与目标文本是否匹配的具体方式在此不做限定。
示例性地,在一些实施例中,计算样本物体的标识与目标文本的文本相似度,在文本相似度大于或等于第一阈值的情况下,确定该样本物体的标识与目标文本匹配。
在另一些实施例中,计算样本物体的标识与目标文本的语义相似度,在语义相似度大于或等于第二阈值的情况下,确定该样本物体的标识与目标文本匹配。
在另一些实施例中,在样本物体的标识与目标文本相同的情况下,确定该样本物体的标识与目标文本匹配。
可选地,在一些实施例中,所述步骤102之前,所述方法还包括:
获取所述多个样本物体的标识,以及获取所述多个样本物体的物体特征信息,所述多个样本物体包括所述目标物体;
将所述多个样本物体的标识以及所述多个样本物体的物体特征信息关联存储于所述预设数据库。
预设数据库中不仅存储有多个样本物体的标识以及所述多个样本物体的物体特征信息,同时也存储有多个样本物体的标识以及所述多个样本物体的物体特征信息之间的一一关联对应关系。
示例性地,在一些实施例中,预设数据库以键值对(key-value)的形式存储数据,其中,key用于表征样本物体的标识,value用于表征对应的key关联对应的样本物体的物体特征信息。在另一些实施例中,预设数据库以对象的方式存储数据,其中,对象标识(Identity,ID)用于表征样本物体的标识,对象数据用于表征该对象ID关联对应的样本物体的物体特征信息。
在一些实施例中,将多个样本物体的标识以及多个样本物体的物体特征信息关联存储于预设数据库后,还可以基于用户的输入对多个样本物体的标识和/或多个样本物体的物体特征信息进行修改、删除和新增等操作。
可选地,在一些实施例中,所述获取所述多个样本物体的物体特征信息,包括:
将所述多个样本物体对应的图像输入至预先训练的第二特征提取模型,得到所述多个样本物体的物体特征信息。
在获得多个样本物体对应的图像后,将多个样本物体对应的图像输入至预先训练的第二特征提取模型,即可得到多个样本物体中每个样本物体的物体特征信息。
应理解的是,第二特征提取模型为预先训练的,第二特征提取模型的具体结构在此不做限定。第二特征提取模型可以对图像中的物体进行特征提取,得到图像中样本物体的物体特征信息。
应理解的是,多个样本物体对应的图像的数量在此不做限定。示例性地,在一些实施例中,一个图像中仅包括一个样本物体。在另一些实施例中,一个图像中可以包括至少两个样本物体,将该图像输入至第二特征提取模型,可以得到该图像包括的至少两个样本物体中每一个样本物体的物体特征信息。
在本申请实施例中,将所述多个样本物体对应的图像输入至预先训练的第二特征提取模型,得到所述多个样本物体的物体特征信息。在需要扩充预设数据库时,通过第二特征提取模型提取新的样本物体的物体特征信息即可。通过上述方法,可以提高获取多个样本物体的物体特征信息的便捷性和可靠性。
可选地,在一些实施例中,所述获取所述多个样本物体的标识,包括:
将所述多个样本物体对应的图像输入至预先训练的分类识别模型,得到所述多个样本物体的标识。
应理解的是,分类识别模型为预先训练的,分类识别模型的具体结构在此不做限定。分类识别模型可以对输入图像中的样本物体进行分类识别,得到输入图像中样本物体的类别,通过对分类识别模型进行预先训练,可以使得到的样本物体的类别即为样本物体的标识。
在本申请实施例中,将所述多个样本物体对应的图像输入至预先训练的分类识别模型,得到所述多个样本物体的标识。通过上述方式,可以提高获取样本物体的标识的便捷性和统一性,提高预设数据库的构建效率。
当然,在一些实施例中,也可以通过对多个样本物体进行人工标注等方式获取多个样本物体的标识。
为了方便理解,下面将以对手术器具进行定位的应用场景为例进行说明。
获取所述多个样本物体的物体特征信息的具体方式在此不做限定。示例性地,在一些实施例中,依次将手术中可能用到的每一个手术器具对应的图片输入第二特征提取模型,依次得到每一个手术器具的物体特征信息,从而提高获取手术器具的物体特征信息的准确度和可靠性。
在另一些实施例中,将手术中可能用到的所有手术器具以M个一组为单位进行划分,得到不同的器具组,M为大于1的整数。拍摄每一个器具组的照片,照片中包含该器具组内的M个手术器具。依次将每一个器具组的照片输入第二特征提取模型,得到照片中包括的M个手术器具中每一个手术器具的物体特征信息。通过本实施例提供的方法,可以提高获取手术器具的物体特征信息的效率和便捷性。
获取所述多个样本物体的标识的具体方式在此不做限定。示例性地,在一些实施例中,依次将手术中可能用到的每一个手术器具对应的图片输入至分类识别模型,依次得到每一个手术器具的标识,从而提高获取手术器具的标识的准确度和可靠性。
在另一些实施例中,将手术中可能用到的所有手术器具以K个一组为单位进行划分,得到不同的器具组,K为大于1的整数。拍摄每一个器具组的照片,照片中包含该器具组内的K个手术器具。依次将每一个器具组的照片输入分类识别模型,得到照片中包括的K个手术器具中每一个手术器具的标识。通过本实施例提供的方法,可以提高获取手术器具的标识的效率和便捷性。
步骤103、从所述目标空间内的N个物体中确定目标物体,所述目标物体的物体特征信息与所述目标样本物体的物体特征信息匹配。
在步骤103之前,获取了目标空间内的N个物体的物体特征信息,因此可以直接将N个物体中每一个物体的物体特征信息与目标样本物体的物体特征信息进行比对,以确定目标物体。其中,获取目标空间内的N个物体的参数信息的具体方式在此不做限定。
可选地,在一些实施例中,所述获取目标空间内的N个物体的参数信息,包括:
向采集设备发送第一指示信息,所述第一指示信息用于指示所述采集设备采集所述目标空间内的N个物体的坐标信息,以及指示所述采集设备采集目标图像,所述目标图像包括所述目标空间内的N个物体;
接收所述采集设备发送的所述目标空间内的N个物体的坐标信息和所述目标图像;
将所述目标图像输入至预先训练的第一特征提取模型,得到所述目标空间内的N个物体的物体特征信息。
需要说明的是,所述采集设备可以为任何具备图像采集功能和物体定位功能的设备,具体在此不做限定。目标空间可以理解为采集设备的视线范围内的空间。
示例性地,在一些实施例中,采集设备为摄像头,摄像头可以采集位于其视线范围内的物体的图像,同时可以以摄像头位置为原点建立空间坐标系,获取物体在空间坐标系内的坐标信息。
在一些实施例中,目标图像的数量为一张,一张目标图像包括目标空间内的N个物体。在另一些实施例中,目标图像的数量为至少两张,至少两张目标图像包括目标空间内的N个物体。
向采集设备发送第一指示信息,采集设备在接收到第一指示信息后,响应于第一指示信息,采集目标空间内的N个物体的坐标信息和目标图像,并上报目标空间内的N个物体的坐标信息和目标图像。
示例性地,以对手术器具进行定位的应用场景为例,采集设备为摄像头。摄像头的视线范围为整个手术室,手术器具摆放在手术室内的2个不同桌面上。摄像头在接收到第一指示信息后,拍摄视线范围内手术器具的照片,同时获取照片内每一个手术器具的坐标信息,然后将上报每一个手术器具的坐标信息以及拍摄的照片。在一些实施例中,摄像头可以拍摄一张手术室的全景图,全景图中包括2个桌面上所有的手术器具。在另一些实施例中,摄像头也可以通过调整焦距等参数,对2个桌面上的手术器具分别拍摄照片。
应理解的是,第一特征提取模型为预先训练的,第一特征提取模型的具体结构在此不做限定。第一特征提取模型可以对输入图像中的物体进行特征提取,得到输入图像中物体的物体特征信息。具体可以参见对第二特征提取模型的说明,为了避免重复,在此不做赘述。
在一些实施例中,第一特征提取模型和第二特征提取模型相同,从而可以提高对目标空间内的N个物体以及样本物体进行特征提取的操作一致性,进一步地提高确定目标物体的精确度。
判断目标物体的物体特征信息与目标样本物体的物体特征信息是否匹配的具体方式在此不做限定。
示例性地,在一些实施例中,计算N个物体中每个物体的物体特征信息与目标样本物体的物体特征信息的相似度,在相似度大于或等于第三阈值的情况下,确定该物体的物体特征信息与目标样本物体的物体特征信息匹配。
可选地,在一些实施例中,所述物体特征信息包括以下至少一者:外形特征、颜色特征、光泽度和平滑程度。
外形特征用于表征外形信息。示例性地,在一些实施例中,外形特征包括以下至少一者:形状、体积和边缘轮廓。以对手术器具进行定位的应用场景为例,不同手术器具的外形不同,因此通过手术器具的外形信息可以对不同的手术器具进行区分。在一些情况下,多个手术器具的外形可能较为相似,这种情况下,可以通过手术器具的光泽度和平滑程度进一步地对不同的手术器具进行区分,进一步地提高物体定位的准确度。
颜色特征用于表征颜色信息。示例性地,在一些实施例中,颜色特征包括以下至少一者:色彩值、颜色种类的数量和每种颜色覆盖的外表面面积。以对不同类别的垃圾桶进行定位的应用场景为例,不同类别的垃圾桶的颜色不同,因此通过垃圾桶的颜色可以对不同类别的垃圾桶进行区分。
在一些实施例中,所述物体特征信息还包括文字特征或符号特征。
在本实施例中,文字特征用于表征物体上包含的文字信息。以对图书进行定位的应用场景为例,图书的书脊上或封面上通常包括有图书的编号信息、图书的名称和图书的作者名称,因此通过图书的文字特征可以对不同的图书进行区分。根据实际情况,还可以通过本申请实施例提供的方法实现对同一作者的图书进行定位或对图书名称中包括相同字符的图书进行定位等功能。
在本实施例中,符号特征用于表征物体上是否包含预设符号。以对不同类别的垃圾桶进行定位的应用场景为例,不同类别的垃圾桶上的垃圾桶标识符号也不同,通过垃圾桶上的垃圾桶标识符号可以对不同类别的垃圾桶进行区分。
在一些实施例中,所述目标空间内的N个物体的物体特征信息包括以下至少一者:外形特征、颜色特征、光泽度、平滑程度、文字特征和符号特征。所述样本物体的物体特征信息包括以下至少一者:外形特征、颜色特征、光泽度、平滑程度、文字特征和符号特征。
在本申请实施例中,所述物体特征信息包括以下至少一者:外形特征、颜色特征、光泽度和平滑程度。通过外形特征、颜色特征、光泽度和平滑程度中的至少一者,可以对不同的物体进行区分,提高了从目标空间内的N个物体中确定目标物体的准确度。在具体实现时,可以根据应用场景调整物体特征信息。
步骤104、基于所述目标物体的坐标信息定位所述目标物体。
可选地,在一些实施例中,所述步骤104之后,所述方法还包括:
向操作设备发送第二指示信息,所述第二指示信息携带有所述目标物体的坐标信息,所述第二指示信息用于指示所述操作设备基于所述目标物体的坐标信息对所述目标物体执行目标操作。
应理解的是,根据实际应用场景的不同,所述目标操作的具体内容也可以不同。例如,在一些实施例中,目标操作可以包括以下至少一者:
拿取操作,所述拿取操作包括拿取所述目标物体;
移动操作,所述移动操作包括将所述目标物体由第一位置移动至预设位置,所述第一位置为所述目标物体的坐标信息指示的位置;
推倒操作,所述推倒操作包括向所述目标物体施加作用力,以使所述目标物体处于倾倒状态。
需要说明的是,根据操作设备所处的位置和所述目标操作的不同,在一些实施例中,操作设备基于目标物体的坐标信息对所述目标物体执行目标操作包括:操作设备基于目标物体的坐标信息移动至目标位置,在所述目标位置对所述目标物体执行目标操作,所述目标位置基于所述目标物体的坐标信息确定。
为了方便理解,下面将举例说明。在一些实施例中,目标操作包括拿取操作。以对图书进行定位的应用场景为例,在基于目标图书的坐标信息定位目标图书后,向操作设备发送携带目标图书的坐标信息的第二指示信息。操作设备接收到第二指示信息后,移动至目标位置并拿取目标图书,其中,目标位置为基于目标图书的坐标信息确定的,例如,目标位置为目标图书所在书架的正前方。
在一些实施例中,目标操作包括移动操作。以对手术器具进行定位的应用场景为例,在基于目标手术器具的坐标信息定位目标手术器具后,向操作设备发送携带目标手术器具的坐标信息的第二指示信息。操作设备接收到第二指示信息后,将目标手术器具从其当前所在位置移动至预设位置。在具体实现时,预设位置可以为医生或护士所在的位置。
在一些实施例中,目标操作包括推倒操作。以对不同类别的垃圾桶进行定位的应用场景为例,在基于目标垃圾桶的坐标信息定位目标垃圾桶后,向操作设备发送携带目标垃圾桶的坐标信息的第二指示信息。操作设备接收到第二指示信息后,移动至便于向目标垃圾桶施加作用力的目标位置后,向目标垃圾桶施加作用力使得目标垃圾桶处于倾倒状态,从而达到倒垃圾的效果。
在本申请实施例中,基于目标物体的坐标信息定位目标物体后,方法还包括向操作设备发送第二指示信息,第二指示信息携带有目标物体的坐标信息,第二指示信息用于指示操作设备基于目标物体的坐标信息对目标物体执行目标操作。通过上述设置,可以对目标物体执行不同的操作,节省人力资源和时间成本。
在本申请实施例中,在获取目标文本后,通过将目标文本与预设数据库中的多个样本物体的标识进行匹配可以确定目标样本物体的标识,进而确定目标样本物体的物体特征信息。通过将目标样本物体的物体特征信息与目标空间内的N个物体的物体特征信息进行匹配,可以确定目标物体,基于获取到的目标物体的坐标信息定位目标物体。这样,在获取目标文本后,基于预设数据库中多个样本物体的标识和物体特征信息,以及目标空间内的N个物体的坐标信息和物体特征信息,即可以在目标空间中定位到所需的物体,提高了物体的定位效率。
本申请实施例提供的物体定位方法,执行主体可以为物体定位装置。本申请实施例中以物体定位装置执行物体定位的方法为例,说明本申请实施例提供的物体定位装置。
参见图2,图2是本申请实施例提供的物体定位装置的结构框图。
如图2所示,所述物体定位装置200包括:
第一获取模块201,用于获取目标文本,以及获取目标空间内的N个物体的参数信息,所述参数信息包括物体特征信息和坐标信息,N为大于1的整数;
第一确定模块202,用于从预设数据库的多个样本物体的标识中确定目标样本物体的标识,所述目标样本物体的标识与所述目标文本匹配,所述预设数据库中预存有所述多个样本物体的标识以及所述多个样本物体的物体特征信息;
第二确定模块203,用于从所述目标空间内的N个物体中确定目标物体,所述目标物体的物体特征信息与所述目标样本物体的物体特征信息匹配;
定位模块204,用于基于所述目标物体的坐标信息定位所述目标物体。
可选地,所述第一获取模块201具体用于:
获取目标输入,所述目标输入包括语音数据和/或文本数据;
基于所述目标输入确定目标文本。
可选地,所述第一获取模块201具体用于:
向采集设备发送第一指示信息,所述第一指示信息用于指示所述采集设备采集所述目标空间内的N个物体的坐标信息,以及指示所述采集设备采集目标图像,所述目标图像包括所述目标空间内的N个物体;
接收所述采集设备发送的所述目标空间内的N个物体的坐标信息和所述目标图像;
将所述目标图像输入至预先训练的第一特征提取模型,得到所述目标空间内的N个物体的物体特征信息。
可选地,所述物体定位装置200还包括:
发送模块,用于向操作设备发送第二指示信息,所述第二指示信息携带有所述目标物体的坐标信息,所述第二指示信息用于指示所述操作设备基于所述目标物体的坐标信息对所述目标物体执行目标操作。
可选地,所述物体特征信息包括以下至少一者:外形特征、颜色特征、光泽度和平滑程度。
可选地,所述物体定位装置200还包括:
第二获取模块,用于获取所述多个样本物体的标识,以及获取所述多个样本物体的物体特征信息,所述多个样本物体包括所述目标物体;
存储模块,用于将所述多个样本物体的标识以及所述多个样本物体的物体特征信息关联存储于所述预设数据库。
可选地,所述第二获取模块具体用于:
将所述多个样本物体对应的图像输入至预先训练的第二特征提取模型,得到所述多个样本物体的物体特征信息。
可选地,所述第二获取模块具体用于:
将所述多个样本物体对应的图像输入至预先训练的分类识别模型,得到所述多个样本物体的标识。
本申请实施例提供的物体定位装置在获取目标文本后,通过将目标文本与预设数据库中的多个样本物体的标识进行匹配可以确定目标样本物体的标识,进而确定目标样本物体的物体特征信息。通过将目标样本物体的物体特征信息与目标空间内的N个物体的物体特征信息进行匹配,可以确定目标物体,基于获取到的目标物体的坐标信息定位目标物体。这样,在获取目标文本后,基于预设数据库中多个样本物体的标识和物体特征信息,以及目标空间内的N个物体的坐标信息和物体特征信息,即可以在目标空间中定位到所需的物体,提高了物体的定位效率。
本申请实施例中的物体定位装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例还提供一种物体定位系统,所述物体定位系统包括操作设备、采集设备和如图2所示的物体定位装置。所述操作设备与所述物体定位装置通信连接,所述采集设备与所述物体定位装置通信连接。
作为一个具体的实施例中,下面以对手术器具进行定位的应用场景为例,对本申请实施例提供的物体定位方法的流程进行说明。
将手术可能用到的所有手术器具以图片形式上传到物体定位装置。物体定位装置基于各手术器具的照片获取每一个手术器具的名称,以及获取每一个手术器具的物体特征信息。然后将手术器具的标识以及手术器具的物体特征信息关联存储至预设数据库中。物体特征信息包括外形特征、颜色特征、光泽度和平滑程度。在后续手术中,可能根据每场手术所需手术器具的不同,对预设数据库内的数据进行新增或修改等操作,而无需重复录入数据。
在手术执行过程中,医生或护士可与物体定位装置进行语音交互。例如,医生说出“手术刀”,物体定位装置通过语音识别,得到对应的目标文本“手术刀”,并从预设数据库中寻找与“手术刀”匹配的手术器具的标识(手术器具的名称)。在预设数据库中确定了手术器具的标识“手术刀”以及,“手术刀”对应的物体特征信息后,下发指令给采集设备(高清摄像头)。高清摄像头识别摄像头范围内的各个手术器具的坐标信息并拍摄包含手术室内手术器具的照片并上传至物体定位装置。物体定位装置获取照片包含的各个手术器具的物体特征信息,并与“手术刀”对应的物体特征信息进行匹配,从而确定目标手术器具。物体定位装置向操作设备发送携带目标手术器具的坐标信息的指令。操作设备根据目标手术器具的坐标信息执行拿取操作,将目标手术器具递到医生或护士可拿取空间范围内,操作设备递取的高度可以自行调节。
在本申请实施例中,预先将可能需要的手术器具的名称和关联的物体特征信息存入预设数据库中。基于用户的语音,通过语音识别技术获取到所需手术器具的名称,利用图像识别技术识别当前空间内各个手术器具的物体特征信息,将所需手术器具的名称与预设数据库中存储的手术器具的名称进行匹配,找到目标手术器具,再根据目标手术器具的物体特征信息与识别得到的当前空间内各个手术器具的物体特征信息进行匹配,对用户所需手术器具进行定位。通过本实施例提供的方法,用户可通过语音拿到自己需要的手术器具,减少此过程中所需的人力资源,同时提高定位手术器具的准确度和效率,节省了人力资源和时间成本。
本申请实施例中的物体定位装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的物体定位装置能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。
如图3所示,本申请实施例还提供一种电子设备300,包括处理器301和存储器302,存储器302上存储有可在所述处理器301上运行的程序或指令,该程序或指令被处理器301执行时实现上述物体定位方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述物体定位方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述物体定位方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述物体定位方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物体或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物体或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物体或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种物体定位方法,其特征在于,包括:
获取目标文本,以及获取目标空间内的N个物体的参数信息,所述参数信息包括物体特征信息和坐标信息,N为大于1的整数;
从预设数据库的多个样本物体的标识中确定目标样本物体的标识,所述目标样本物体的标识与所述目标文本匹配,所述预设数据库中预存有所述多个样本物体的标识以及所述多个样本物体的物体特征信息;
从所述目标空间内的N个物体中确定目标物体,所述目标物体的物体特征信息与所述目标样本物体的物体特征信息匹配;
基于所述目标物体的坐标信息定位所述目标物体。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文本,包括:
获取目标输入,所述目标输入包括语音数据和/或文本数据;
基于所述目标输入确定目标文本。
3.根据权利要求1所述的方法,其特征在于,所述获取目标空间内的N个物体的参数信息,包括:
向采集设备发送第一指示信息,所述第一指示信息用于指示所述采集设备采集所述目标空间内的N个物体的坐标信息,以及指示所述采集设备采集目标图像,所述目标图像包括所述目标空间内的N个物体;
接收所述采集设备发送的所述目标空间内的N个物体的坐标信息和所述目标图像;
将所述目标图像输入至预先训练的第一特征提取模型,得到所述目标空间内的N个物体的物体特征信息。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标物体的所述坐标信息定位所述目标物体之后,所述方法还包括:
向操作设备发送第二指示信息,所述第二指示信息携带有所述目标物体的坐标信息,所述第二指示信息用于指示所述操作设备基于所述目标物体的坐标信息对所述目标物体执行目标操作。
5.根据权利要求1所述的方法,其特征在于,所述从预设数据库的多个样本物体的标识中确定目标样本物体的标识之前,所述方法还包括:
获取所述多个样本物体的标识,以及获取所述多个样本物体的物体特征信息,所述多个样本物体包括所述目标物体;
将所述多个样本物体的标识以及所述多个样本物体的物体特征信息关联存储于所述预设数据库。
6.根据权利要求5所述的方法,其特征在于,所述获取所述多个样本物体的物体特征信息,包括:
将所述多个样本物体对应的图像输入至预先训练的第二特征提取模型,得到所述多个样本物体的物体特征信息。
7.根据权利要求5所述的方法,其特征在于,所述获取所述多个样本物体的标识,包括:
将所述多个样本物体对应的图像输入至预先训练的分类识别模型,得到所述多个样本物体的标识。
8.一种物体定位装置,其特征在于,包括:
第一获取模块,用于获取目标文本,以及获取目标空间内的N个物体的参数信息,所述参数信息包括物体特征信息和坐标信息,N为大于1的整数;
第一确定模块,用于从预设数据库的多个样本物体的标识中确定目标样本物体的标识,所述目标样本物体的标识与所述目标文本匹配,所述预设数据库中预存有所述多个样本物体的标识以及所述多个样本物体的物体特征信息;
第二确定模块,用于从所述目标空间内的N个物体中确定目标物体,所述目标物体的物体特征信息与所述目标样本物体的物体特征信息匹配;
定位模块,用于基于所述目标物体的坐标信息定位所述目标物体。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7中任一项所述的物体定位方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7中任一项所述的物体定位方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211557301.5A CN115934993A (zh) | 2022-12-06 | 2022-12-06 | 物体定位方法、装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211557301.5A CN115934993A (zh) | 2022-12-06 | 2022-12-06 | 物体定位方法、装置、电子设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115934993A true CN115934993A (zh) | 2023-04-07 |
Family
ID=86550179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211557301.5A Pending CN115934993A (zh) | 2022-12-06 | 2022-12-06 | 物体定位方法、装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115934993A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116660566A (zh) * | 2023-07-26 | 2023-08-29 | 四川徕伯益自动化技术有限公司 | 一种样本液的位置识别方法、系统、终端及介质 |
-
2022
- 2022-12-06 CN CN202211557301.5A patent/CN115934993A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116660566A (zh) * | 2023-07-26 | 2023-08-29 | 四川徕伯益自动化技术有限公司 | 一种样本液的位置识别方法、系统、终端及介质 |
CN116660566B (zh) * | 2023-07-26 | 2023-10-17 | 四川徕伯益自动化技术有限公司 | 一种样本液的位置识别方法、系统、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034069B (zh) | 用于生成信息的方法和装置 | |
EP2450808A2 (en) | Semantic visual search engine | |
US20110106805A1 (en) | Method and system for searching multilingual documents | |
CN109800303A (zh) | 一种文档信息提取方法、存储介质及终端 | |
CN110413875A (zh) | 一种文本信息推送的方法以及相关装置 | |
CN108364653B (zh) | 语音数据处理方法及处理装置 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN106022208A (zh) | 人体动作识别方法及装置 | |
CN115934993A (zh) | 物体定位方法、装置、电子设备和可读存储介质 | |
CN111026949A (zh) | 一种基于电子设备的搜题方法及系统 | |
CN111460185A (zh) | 书籍搜索方法、装置和系统 | |
CN112926300A (zh) | 图像搜索方法、图像搜索装置及终端设备 | |
Ryumin et al. | Towards automatic recognition of sign language gestures using kinect 2.0 | |
CN110169055B (zh) | 一种生成镜头信息的方法和装置 | |
EP2023266B1 (en) | Searching media content for objects specified using identifiers | |
US20220058214A1 (en) | Document information extraction method, storage medium and terminal | |
CN110795942A (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN109660621A (zh) | 一种内容推送方法及服务设备 | |
CN103984415B (zh) | 一种信息处理方法及电子设备 | |
JPH11250106A (ja) | 内容基盤の映像情報を利用した登録商標の自動検索方法 | |
CN113704623B (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN115019788A (zh) | 语音交互方法、系统、终端设备及存储介质 | |
CN111027353A (zh) | 一种搜索内容的提取方法及电子设备 | |
CN111753715B (zh) | 点读场景下试题拍摄的方法、装置、电子设备和存储介质 | |
CN108694394A (zh) | 人脸识别的翻译机、方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |