CN115292540B - 多模态零件信息识别方法、装置、设备和计算机可读介质 - Google Patents

多模态零件信息识别方法、装置、设备和计算机可读介质 Download PDF

Info

Publication number
CN115292540B
CN115292540B CN202210867480.6A CN202210867480A CN115292540B CN 115292540 B CN115292540 B CN 115292540B CN 202210867480 A CN202210867480 A CN 202210867480A CN 115292540 B CN115292540 B CN 115292540B
Authority
CN
China
Prior art keywords
vector
image
image group
group set
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210867480.6A
Other languages
English (en)
Other versions
CN115292540A (zh
Inventor
刘强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yiyou Material Technology Co ltd
Original Assignee
Hangzhou Yiyou Material Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yiyou Material Technology Co ltd filed Critical Hangzhou Yiyou Material Technology Co ltd
Priority to CN202210867480.6A priority Critical patent/CN115292540B/zh
Publication of CN115292540A publication Critical patent/CN115292540A/zh
Application granted granted Critical
Publication of CN115292540B publication Critical patent/CN115292540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开的实施例公开了多模态零件信息识别方法、装置、设备和计算机可读介质。该方法的一具体实施方式包括:响应于检测到作用于图像导入控件的选择操作,获取零件图像组集;对零件图像组集中各个零件图像组包括的零件图像进行文字识别,得到零件文字识别结果组集;对零件图像组集和零件文字识别结果组集进行类型检索处理,得到零件类型检索结果集合;在相关联的显示设备上对零件类型检索结果集合中的零件类型检索结果所对应的零件标准三维图进行展示。该实施方式提高了确定零件型号信息的效率。

Description

多模态零件信息识别方法、装置、设备和计算机可读介质
技术领域
本公开的实施例涉及计算机技术领域,具体涉及多模态零件信息识别方法、装置、设备和计算机可读介质。
背景技术
工作人员组装零件时,通常需要先确定零件型号信息,以挑选出待组装的零件,再进行组装。目前,在挑选出待组装的零件前,通常确定零件型号信息的方式为:工作人员根据大量零件图像对零件型号进行辨认,得到零件型号信息。此外,也可以通过对零件图像进行目标识别的方式,以得到零件型号信息。
然而,当采用上述方式确定零件型号信息时,经常会存在如下技术问题:
第一,工作人员辨认的效率较低,此外,通过目标识别的方式无法确认零件尺寸,导致只能确认零件类别,无法确认零件的具体型号,仍需工作人员二次辨认,未能有效提高效率。
第二,对零件图像组集和零件文字识别结果组集进行类型检索处理时,需要对预设零件向量数据库中存储的每个预设零件向量确定相似度,导致确定零件型号信息的效率较低。
第三,根据零件型号信息组装零件后,无法对组装后得到的组件是否正确进行验证,造成无法确认组件是否可以投入实际生产使用。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了多模态零件信息识别方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种多模态零件信息识别方法,该方法包括:响应于检测到作用于图像导入控件的选择操作,获取零件图像组集,其中,上述零件图像组集中的零件图像组对应于同一个零件,上述零件图像组集中零件图像组中的零件图像包括零件文字标注;对上述零件图像组集中各个零件图像组包括的零件图像进行文字识别,得到零件文字识别结果组集;对上述零件图像组集和上述零件文字识别结果组集进行类型检索处理,得到零件类型检索结果集合,其中,上述零件类型检索结果集合中的零件类型检索结果对应于上述零件图像组集中的零件图像组;在相关联的显示设备上对上述零件类型检索结果集合中的零件类型检索结果所对应的零件标准三维图进行展示。
第二方面,本公开的一些实施例提供了一种多模态零件信息识别装置,装置包括:获取单元,被配置成响应于检测到作用于图像导入控件的选择操作,获取零件图像组集,其中,上述零件图像组集中的零件图像组对应于同一个零件,上述零件图像组集中零件图像组中的零件图像包括零件文字标注;识别单元,被配置成对上述零件图像组集中各个零件图像组包括的零件图像进行文字识别,得到零件文字识别结果组集;类型检索单元,被配置成对上述零件图像组集和上述零件文字识别结果组集进行类型检索处理,得到零件类型检索结果集合,其中,上述零件类型检索结果集合中的零件类型检索结果对应于上述零件图像组集中的零件图像组;展示单元,被配置成在相关联的显示设备上对上述零件类型检索结果集合中的零件类型检索结果所对应的零件标准三维图进行展示。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的多模态零件信息识别方法,可以有效提高确定零件型号信息的效率。具体来说,造成确定零件型号信息的效率较低的原因在于:工作人员辨认的效率较低,此外,通过目标识别的方式无法确认零件尺寸,导致只能确认零件类别,无法确认零件的具体型号,仍需工作人员二次辨认,未能有效提高效率。基于此,本公开的一些实施例的多模态零件信息识别方法,首先,响应于检测到作用于图像导入控件的选择操作,获取零件图像组集。其中,上述零件图像组集中的零件图像组对应于同一个零件。上述零件图像组集中零件图像组中的零件图像包括零件文字标注。然后,对零件图像组集中各个零件图像组包括的零件图像进行文字识别,得到零件文字识别结果组集。由此,可以得到表示零件图像组集中各个零件图像所显示的文字的零件文字识别结果组集。其次,对零件图像组集和零件文字识别结果组集进行类型检索处理,得到零件类型检索结果集合。由此,可以得到对应各个零件的零件类型检索结果集合。最后,在相关联的显示设备上对零件类型检索结果集合中的零件类型检索结果所对应的零件标准三维图进行展示。由此,可以在显示设备上展示零件类型检索结果集合对应的各个零件标准三维图。因为通过对零件图像组集和零件文字识别结果组集进行类型检索处理,实现了对于图像和文字的多模态检索,通过零件文字标注可以确认零件的尺寸,从而可以确定零件型号,避免工作人员二次辨认,进而提高了确定零件型号信息(零件类型检索结果)的效率。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的多模态零件信息识别方法的一些实施例的流程图;
图2是根据本公开的多模态零件信息识别装置的一些实施例的结构示意图;
图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1示出了根据本公开的多模态零件信息识别方法的一些实施例的流程100。该多模态零件信息识别方法,包括以下步骤:
步骤101,响应于检测到作用于图像导入控件的选择操作,获取零件图像组集。
在一些实施例中,响应于检测到作用于图像导入控件的选择操作,多模态零件信息识别方法的执行主体(例如计算设备)可以获取零件图像组集。其中,上述零件图像组集中的零件图像组对应于同一个零件。上述零件图像组集中零件图像组中的零件图像包括零件文字标注。其中,上述零件文字标注可以为零件图像所显示的文字。上述零件文字标注可以包括零件名称和零件尺寸。上述零件名称可以为显示的零件的名称。上述零件尺寸可以为显示的零件的尺寸。上述图像导入控件可以为确定导入图像的控件。上述零件图像组集中的每个零件图像组所包括的各个零件图像可以为零件的任一视图。例如,对于零件图像组集中的每个零件图像组,上述零件图像组所包括的各个零件图像可以包括零件的正视图、侧视图、俯视图以及其他任意角度的视图。实践中,响应于检测到作用于图像导入控件的选择操作,上述执行主体可以通过有线连接或无线连接的方式从存储有零件图像组集的终端获取零件图像组集。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
需要说明的是,上述计算设备可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。应该理解,根据实现需要,可以具有任意数目的计算设备。
步骤102,对零件图像组集中各个零件图像组包括的零件图像进行文字识别,得到零件文字识别结果组集。
在一些实施例中,上述执行主体可以对上述零件图像组集中各个零件图像组包括的零件图像进行文字识别,得到零件文字识别结果组集。实践中,对于上述零件图像组集中每个零件图像组包括的每个零件图像,上述执行主体可以对上述零件图像利用OCR(Optical Character Recognition,光学字符识别)进行文字识别,得到零件文字识别结果。上述零件文字识别结果可以为对应的零件图像中显示的文字。由此,可以得到表示零件图像组集中各个零件图像所显示的文字的零件文字识别结果组集。
在一些实施例的一些可选的实现方式中,首先,上述执行主体可以对上述零件图像组集中各个零件图像组包括的零件图像进行图像二值化处理,得到二值化零件图像组集。然后,对于上述二值化零件图像组集中每个二值化零件图像组包括的每个二值化零件图像,确定上述二值化零件图像中每个像素的至少一个梯度,得到对应上述二值化零件图像的梯度组集。实践中,可以确定上述二值化零件图像中每个像素在预设邻域方向上的梯度。例如,可以确定上述二值化零件图像中每个像素在四邻域方向上的梯度,使得梯度组集中的每个梯度组包括四个梯度。之后,可以将所得到的各个梯度组集中包括的各个梯度均为0的梯度组所对应的像素从对应的二值化零件图像中删除,得到删除处理后的二值化零件图像组集作为待识别图像组集。最后,可以对上述待识别图像组集中待识别图像组包括的待识别图像进行文字识别,得到零件文字识别结果组集。实践中,可以对上述待识别图像组集中待识别图像组包括的待识别图像利用OCR进行文字识别,得到零件文字识别结果组集。由此,可以避免对与周围的像素的梯度为0的像素进行文字识别,从而提高了文字识别的速度和效率。
可选地,在执行步骤102之前,首先,响应于检测到作用于上述图像导入控件的选择操作,上述执行主体可以对显示上述图像导入控件的页面进行截图处理,得到导入页面图像。然后,可以对上述导入页面图像进行特征提取处理,得到导入页面特征向量。例如,可以使用matlab进行特征提取。其次,可以确定上述导入页面特征向量和预设零件向量数据库中存储的各个预设零件向量的相似度,得到导入页面向量相似度集合。例如,可以将上述导入页面特征向量和预设零件向量数据库中存储的各个预设零件向量的欧式距离确定为导入页面向量相似度,得到导入页面向量相似度集合。之后,可以将上述导入页面向量相似度集合中满足预设导入页面向量条件的导入页面向量相似度确定为目标导入页面向量相似度,得到目标导入页面向量相似度集合。其中,上述预设导入页面向量条件可以为导入页面向量相似度低于预设相似度阈值。上述预设相似度阈值可以为预先设定的阈值。最后,可以将上述预设零件向量数据库中对应上述目标导入页面向量相似度集合的各个预设零件向量从上述预设零件向量数据库中删除。
上述内容作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题二“对零件图像组集和零件文字识别结果组集进行类型检索处理时,需要对预设零件向量数据库中存储的每个预设零件向量确定相似度,导致确定零件型号信息的效率较低”。导致确定零件型号信息的效率较低的因素如下:对零件图像组集和零件文字识别结果组集进行类型检索处理时,需要对预设零件向量数据库中存储的每个预设零件向量确定相似度,导致确定零件型号信息的效率较低。如果解决了上述因素,就能达到提高确定零件型号信息的效率的效果。为了达到这一效果,本公开在响应于检测到作用于上述图像导入控件的选择操作后,通过截图和相似度确定,以及预设导入页面向量条件的筛选,将对应的相似度较低预设零件向量从上述预设零件向量数据库中删除,从而在后续的对零件图像组集和零件文字识别结果组集进行类型检索的处理时,可以提高类型检索的效率,进而提高定零件型号信息的效率。
步骤103,对零件图像组集和零件文字识别结果组集进行类型检索处理,得到零件类型检索结果集合。
在一些实施例中,上述执行主体可以对上述零件图像组集和上述零件文字识别结果组集进行类型检索处理,得到零件类型检索结果集合。其中,上述零件类型检索结果集合中的零件类型检索结果对应于上述零件图像组集中的零件图像组。其中,上述零件类型检索结果集合中的零件类型检索结果可以表征零件的类型(型号)。实践中,首先,上述执行主体可以对上述零件图像组集中零件图像组包括的零件图像进行特征向量提取处理,得到零件图像特征向量组集。例如,可以采用matlab进行特征向量提取处理。然后,可以将上述零件文字识别结果组集中零件文字识别结果组包括的零件文字识别结果转换为零件文字向量,得到零件文字向量组集。例如,可以采用独热编码的方式将零件文字识别结果转换为零件文字向量。其次,对于上述零件图像特征向量组集和上述零件文字向量组集中对应于同一零件的零件图像特征向量组和零件文字向量组,可以分别对上述零件图像特征向量组和上述零件文字向量组进行特征融合处理,以生成零件图像融合向量集合和零件文字融合向量集合。之后,对于对应于同一零件的零件图像融合向量和零件文字融合向量,第一步,可以确定预设零件图像向量集合中与上述零件图像融合向量的相似度最高的预设零件图像向量,并将该相似度确定为目标图像相似度。其中,上述预设零件图像向量集合可以为预先设定的零件图像的向量的集合。上述预设零件图像向量集合中的预设零件图像向量对应有零件类型。上述零件类型可以为零件型号。例如,上述零件型号可以为01。上述零件型号对应的零件的尺寸唯一。第二步,可以确定预设零件文字向量集合中与上述零件文字融合向量的相似度最高的预设零件文字向量,并将该相似度确定为目标文字相似度。其中,上述预设零件文字向量集合可以为预先设定的零件文本的向量的集合。上述零件文本可以为描述零件的文字。上述零件文本可以包括但不限于零件名称和零件尺寸。上述预设零件文字向量集合中的预设零件文字向量对应有零件类型。第三步,可以比较上述目标图像相似度和上述目标文字相似度的大小。第四步,响应于上述目标图像相似度大于上述目标文字相似度,可以将上述目标图像相似度对应的预设零件图像向量所对应的零件类型确定为零件类型检索结果。第五步,响应于上述目标图像相似度小于上述目标文字相似度,可以将上述目标文字相似度对应的预设零件文字向量所对应的零件类型确定为零件类型检索结果。第六步,响应于上述目标图像相似度与上述目标文字相似度相同,可以将上述目标文字相似度对应的预设零件文字向量所对应的零件类型确定为零件类型检索结果,或将上述目标图像相似度对应的预设零件图像向量所对应的零件类型确定为零件类型检索结果。由此,可以得到对应各个零件的零件类型检索结果集合。
在一些实施例的一些可选的实现方式中,首先,上述执行主体可以对上述零件图像组集中零件图像组包括的零件图像进行特征向量提取处理,得到零件图像特征向量组集。然后,可以将上述零件文字识别结果组集中零件文字识别结果组包括的零件文字识别结果转换为零件文字向量,得到零件文字向量组集。其次,对上述零件图像特征向量组集和上述零件文字向量组集中对应于同一零件的零件图像特征向量组和零件文字向量组进行特征融合处理,得到零件特征融合向量,以生成零件特征融合向量集合。实践中,可以采用向量拼接的方式对对应于同一零件的零件图像特征向量组和零件文字向量组进行特征融合处理,得到对应于该零件的零件特征融合向量。由此,可以得到表征各个零件的特征的零件特征融合向量集合。
在一些实施例的一些可选的实现方式中,对于上述零件特征融合向量集合中的每个零件特征融合向量,上述执行主体可以执行以下相似度向量确定操作:
第一步,确定上述零件特征融合向量和预设零件向量数据库中存储的各个预设零件向量的相似度,得到零件向量相似度集合。其中,上述预设零件向量数据库中存储有至少一个预设零件向量。上述预设零件向量数据库中存储的预设零件向量对应有零件类型。
第二步,将上述零件向量相似度集合中满足预设相似度条件的零件向量相似度确定为目标零件向量相似度。其中,上述预设相似度条件可以为零件向量相似度集合中最大的零件向量相似度。
第三步,将上述目标零件向量相似度对应的预设零件向量确定为目标零件向量。
第四步,将上述目标零件向量对应的零件类型确定为零件类型检索结果。由此,可以通过特征融合得到的零件特征融合向量确定零件类型检索结果。
步骤104,在相关联的显示设备上对零件类型检索结果集合中的零件类型检索结果所对应的零件标准三维图进行展示。
在一些实施例中,上述执行主体可以在相关联的显示设备上对上述零件类型检索结果集合中的零件类型检索结果所对应的零件标准三维图进行展示。其中,上述相关联的显示设备可以为用于显示零件标准三维图的设备。例如,上述相关联的显示设备可以为与上述执行主体通信连接的显示器。上述零件标准三维图可以为预先存储的零件的三维图。例如,上述零件标准三维图可以为包括零件的正视图、侧视图和俯视图的三视图。上述零件标准三维图也可以为可旋转的零件三维模型。实践中,可以以表格的形式对上述零件类型检索结果集合所对应的各个零件标准三维图同时展示。也可以依次对上述零件类型检索结果集合所对应的各个零件标准三维图进行展示。由此,可以在显示设备上展示零件类型检索结果集合对应的各个零件标准三维图。
可选地,上述执行主体可以在上述显示设备上对上述零件类型检索结果集合中的零件类型检索结果所对应的零件标准名称和零件标准尺寸进行展示。上述零件标准名称可以为预先存储的零件的名称。上述零件标准尺寸可以为预先存储的零件的尺寸。由此,可以对零件的零件标准名称和零件标准尺寸进行展示。
可选地,首先,根据上述零件类型检索结果集合,上述执行主体可以控制相关联的拣货机器人对仓库中的零件进行零件拣选处理,得到拣选零件集合。实践中,上述执行主体可以控制通信连接的拣货机器人在仓库中拣选对应的零件型号与上述零件类型检索结果集合中的零件类型检索结果相同的零件,得到拣选零件集合。然后,可以控制相关联的装配机器人对上述拣选零件集合中的拣选零件进行组装,得到组装后的零件作为组件。其中,上述相关联的装配机器人可以为通信连接的装配机器人。由此,可以实现对对应零件图像组集的零件的智能组装。
可选地,首先,上述执行主体可以从预设零件模型集合中选择对应上述零件类型检索结果集合的预设零件模型作为待拼接零件,得到待拼接零件模型集合。其中,上述预设零件模型集合存储在相应的数据库中。上述预设零件模型集合中的预设零件模型可以为预先设定的零件的三维模型。实践中,上述执行主体可以选择对应的零件型号与零件类型检索结果集合中的零件类型检索结果相同的预设零件模型作为待拼接零件,得到待拼接零件模型集合。然后,可以对上述待拼接零件模型集合中的待拼接零件模型进行拼接,得到组件模型。实践中,可以将上述待拼接零件模型集合中的待拼接零件模型按预设顺序依次放置在预设指定位置,以完成拼接处理,得到组件模型。上述预设指定位置可以为预先设定的模型放置的位置。之后,可以根据上述组件模型,生成组件模型三视图。上述组件模型三视图包括组件模型正视图、组件模型侧视图和组件模型俯视图。实践中,可以对上述组件模型的正面、侧面和俯视面分别截图,得到正视图、侧视图和俯视图作为组件模型三视图。这里,组件模型的正面、侧面和俯视面的具体方向,可以预先设置。最后,可以对上述组件模型三视图进行显示。
上述内容作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题三“根据零件型号信息组装零件后,无法对组装后得到的组件是否正确进行验证,造成无法确认组件是否可以投入实际生产使用”。导致无法确认组件是否可以投入实际生产使用的因素如下:根据零件型号信息组装零件后,无法对组装后得到的组件是否正确进行验证,造成无法确认组件是否可以投入实际生产使用。如果解决了上述因素,就能达到将验证通过的组件投入实际生产使用的效果。为了达到这一效果,本公开生成了组件模型三视图,使得相关工作人员可以根据上述组件模型三视图对组件进行验证,从而可以将将验证通过的组件投入实际生产使用。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的多模态零件信息识别方法,可以有效提高确定零件型号信息的效率。具体来说,造成确定零件型号信息的效率较低的原因在于:工作人员辨认的效率较低,此外,通过目标识别的方式无法确认零件尺寸,导致只能确认零件类别,无法确认零件的具体型号,仍需工作人员二次辨认,未能有效提高效率。基于此,本公开的一些实施例的多模态零件信息识别方法,首先,响应于检测到作用于图像导入控件的选择操作,获取零件图像组集。其中,上述零件图像组集中的零件图像组对应于同一个零件。上述零件图像组集中零件图像组中的零件图像包括零件文字标注。然后,对零件图像组集中各个零件图像组包括的零件图像进行文字识别,得到零件文字识别结果组集。由此,可以得到表示零件图像组集中各个零件图像所显示的文字的零件文字识别结果组集。其次,对零件图像组集和零件文字识别结果组集进行类型检索处理,得到零件类型检索结果集合。由此,可以得到对应各个零件的零件类型检索结果集合。最后,在相关联的显示设备上对零件类型检索结果集合中的零件类型检索结果所对应的零件标准三维图进行展示。由此,可以在显示设备上展示零件类型检索结果集合对应的各个零件标准三维图。因为通过对零件图像组集和零件文字识别结果组集进行类型检索处理,实现了对于图像和文字的多模态检索,通过零件文字标注可以确认零件的尺寸,从而可以确定零件型号,避免工作人员二次辨认,进而提高了确定零件型号信息(零件类型检索结果)的效率。
继续参考图2,作为对上述各图所示方法的实现,本公开提供了一种多模态零件信息识别装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图2所示,一些实施例的多模态零件信息识别装置200包括:获取单元201、识别单元202、类型检索单元203和展示单元204。其中,获取单元201被配置成响应于检测到作用于图像导入控件的选择操作,获取零件图像组集,其中,上述零件图像组集中的零件图像组对应于同一个零件,上述零件图像组集中零件图像组中的零件图像包括零件文字标注;识别单元202被配置成对上述零件图像组集中各个零件图像组包括的零件图像进行文字识别,得到零件文字识别结果组集;类型检索单元203被配置成对上述零件图像组集和上述零件文字识别结果组集进行类型检索处理,得到零件类型检索结果集合,其中,上述零件类型检索结果集合中的零件类型检索结果对应于上述零件图像组集中的零件图像组;展示单元204被配置成在相关联的显示设备上对上述零件类型检索结果集合中的零件类型检索结果所对应的零件标准三维图进行展示。
可以理解的是,该装置200中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置200及其中包含的单元,在此不再赘述。
下面参考图3,其示出了适于用来实现本公开的一些实施例的电子设备(例如计算设备)300的结构示意图。图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:响应于检测到作用于图像导入控件的选择操作,获取零件图像组集,其中,上述零件图像组集中的零件图像组对应于同一个零件;对上述零件图像组集中各个零件图像组包括的零件图像进行文字识别,得到零件文字识别结果组集;对上述零件图像组集和上述零件文字识别结果组集进行类型检索处理,得到零件类型检索结果集合,其中,上述零件类型检索结果集合中的零件类型检索结果对应于上述零件图像组集中的零件图像组;在相关联的显示设备上对上述零件类型检索结果集合中的零件类型检索结果所对应的零件标准三维图进行展示。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、识别单元、类型检索单元和展示单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,展示单元还可以被描述为“在相关联的显示设备上对上述零件类型检索结果集合中的零件类型检索结果所对应的零件标准三维图进行展示的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (9)

1.一种多模态零件信息识别方法,包括:
响应于检测到作用于图像导入控件的选择操作,获取零件图像组集,其中,所述零件图像组集中的零件图像组对应于同一个零件,所述零件图像组集中零件图像组中的零件图像包括零件文字标注;
对所述零件图像组集中各个零件图像组包括的零件图像进行文字识别,得到零件文字识别结果组集;
对所述零件图像组集和所述零件文字识别结果组集进行类型检索处理,得到零件类型检索结果集合,其中,所述零件类型检索结果集合中的零件类型检索结果对应于所述零件图像组集中的零件图像组;
在相关联的显示设备上对所述零件类型检索结果集合中的零件类型检索结果所对应的零件标准三维图进行展示;
控制通信连接的拣货机器人在仓库中拣选对应的零件型号与上述零件类型检索结果集合中的零件类型检索结果相同的零件,得到拣选零件集合;
选择对应的零件型号与零件类型检索结果集合中的零件类型检索结果相同的预设零件模型作为待拼接零件,得到待拼接零件模型集合;然后,对上述待拼接零件模型集合中的待拼接零件模型进行拼接,得到组件模型;
根据上述组件模型,生成组件模型三视图;
对上述组件模型三视图进行显示。
2.根据权利要求1所述的方法,其中,所述方法还包括:
根据所述零件类型检索结果集合,控制相关联的拣货机器人对仓库中的零件进行零件拣选处理,得到拣选零件集合;
控制相关联的装配机器人对所述拣选零件集合中的拣选零件进行组装,得到组装后的零件作为组件。
3.根据权利要求1所述的方法,其中,所述对所述零件图像组集中各个零件图像组包括的零件图像进行文字识别,包括:
对所述零件图像组集中各个零件图像组包括的零件图像进行图像二值化处理,得到二值化零件图像组集;
对于所述二值化零件图像组集中每个二值化零件图像组包括的每个二值化零件图像,确定所述二值化零件图像中每个像素的至少一个梯度,得到对应所述二值化零件图像的梯度组集;
将所得到的各个梯度组集中包括的各个梯度均为0的梯度组所对应的像素从对应的二值化零件图像中删除,得到删除处理后的二值化零件图像组集作为待识别图像组集;
对所述待识别图像组集中待识别图像组包括的待识别图像进行文字识别,得到零件文字识别结果组集。
4.根据权利要求1所述的方法,其中,所述对所述零件图像组集和所述零件文字识别结果组集进行类型检索处理,包括:
对所述零件图像组集中零件图像组包括的零件图像进行特征向量提取处理,得到零件图像特征向量组集;
将所述零件文字识别结果组集中零件文字识别结果组包括的零件文字识别结果转换为零件文字向量,得到零件文字向量组集;
对所述零件图像特征向量组集和所述零件文字向量组集中对应于同一零件的零件图像特征向量组和零件文字向量组进行特征融合处理,得到零件特征融合向量,以生成零件特征融合向量集合。
5.根据权利要求4所述的方法,其中,所述对所述零件图像组集和所述零件文字识别结果组集进行类型检索处理,还包括:
对于所述零件特征融合向量集合中的每个零件特征融合向量,执行以下相似度向量确定操作:
确定所述零件特征融合向量和预设零件向量数据库中存储的各个预设零件向量的相似度,得到零件向量相似度集合;
将所述零件向量相似度集合中满足预设相似度条件的零件向量相似度确定为目标零件向量相似度;
将所述目标零件向量相似度对应的预设零件向量确定为目标零件向量;
将所述目标零件向量对应的零件类型确定为零件类型检索结果。
6.根据权利要求1所述的方法,其中,所述方法还包括:
在所述显示设备上对所述零件类型检索结果集合中的零件类型检索结果所对应的零件标准名称和零件标准尺寸进行展示。
7.一种多模态零件信息识别装置,包括:
获取单元,被配置成响应于检测到作用于图像导入控件的选择操作,获取零件图像组集,其中,所述零件图像组集中的零件图像组对应于同一个零件,所述零件图像组集中零件图像组中的零件图像包括零件文字标注;
识别单元,被配置成对所述零件图像组集中各个零件图像组包括的零件图像进行文字识别,得到零件文字识别结果组集;
类型检索单元,被配置成对所述零件图像组集和所述零件文字识别结果组集进行类型检索处理,得到零件类型检索结果集合,其中,所述零件类型检索结果集合中的零件类型检索结果对应于所述零件图像组集中的零件图像组;
展示单元,被配置成在相关联的显示设备上对所述零件类型检索结果集合中的零件类型检索结果所对应的零件标准三维图进行展示;
所述多模态零件信息识别装置,用于控制通信连接的拣货机器人在仓库中拣选对应的零件型号与上述零件类型检索结果集合中的零件类型检索结果相同的零件,得到拣选零件集合,选择对应的零件型号与零件类型检索结果集合中的零件类型检索结果相同的预设零件模型作为待拼接零件,得到待拼接零件模型集合,然后,对上述待拼接零件模型集合中的待拼接零件模型进行拼接,得到组件模型,根据上述组件模型,生成组件模型三视图,对上述组件模型三视图进行显示。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202210867480.6A 2022-07-22 2022-07-22 多模态零件信息识别方法、装置、设备和计算机可读介质 Active CN115292540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210867480.6A CN115292540B (zh) 2022-07-22 2022-07-22 多模态零件信息识别方法、装置、设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210867480.6A CN115292540B (zh) 2022-07-22 2022-07-22 多模态零件信息识别方法、装置、设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN115292540A CN115292540A (zh) 2022-11-04
CN115292540B true CN115292540B (zh) 2023-06-13

Family

ID=83823624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210867480.6A Active CN115292540B (zh) 2022-07-22 2022-07-22 多模态零件信息识别方法、装置、设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN115292540B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102740676A (zh) * 2011-04-05 2012-10-17 富士机械制造株式会社 电子零件安装方法及安装装置
CN110930536A (zh) * 2019-11-06 2020-03-27 西安理工大学 一种基于数字孪生的连铸机通用零件在线监控与追溯方法
CN111712355A (zh) * 2018-02-06 2020-09-25 Abb瑞士股份公司 在装配线中装配零件
CN113408507A (zh) * 2021-08-20 2021-09-17 北京国电通网络技术有限公司 基于履历文件的命名实体识别方法、装置和电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2442238A1 (en) * 2010-09-29 2012-04-18 Accenture Global Services Limited Processing a reusable graphic in a document
US10140262B2 (en) * 2015-05-04 2018-11-27 King Fahd University Of Petroleum And Minerals Systems and associated methods for Arabic handwriting synthesis and dataset design
CN105158927B (zh) * 2015-09-28 2018-06-26 大连楼兰科技股份有限公司 智能眼镜在汽车维保过程中的零件拆卸的方法
CN110263736A (zh) * 2019-06-24 2019-09-20 广州偕作信息科技有限公司 一种构件识别方法、装置、存储介质及系统
CN113751332A (zh) * 2020-06-03 2021-12-07 泰连服务有限公司 视觉检查系统和检查零件的方法
CN113066087B (zh) * 2021-04-29 2022-08-05 中奥智能工业研究院(南京)有限公司 一种零部件智能检测与标签系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102740676A (zh) * 2011-04-05 2012-10-17 富士机械制造株式会社 电子零件安装方法及安装装置
CN111712355A (zh) * 2018-02-06 2020-09-25 Abb瑞士股份公司 在装配线中装配零件
CN110930536A (zh) * 2019-11-06 2020-03-27 西安理工大学 一种基于数字孪生的连铸机通用零件在线监控与追溯方法
CN113408507A (zh) * 2021-08-20 2021-09-17 北京国电通网络技术有限公司 基于履历文件的命名实体识别方法、装置和电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Chufan Lai 等.Automatic Annotation Synchronizing with Textual Description for Visualization.《CHI '20: Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems》.2020,1-13. *
Coresets for PCB Character Recognition based on Deep Learning;Sumyung Gang 等;《2020 International Conference on Artificial Intelligence in Information and Communication (ICAIIC)》;637-642 *
基于机器人手眼系统的无纹理工业堆叠零件识别与定位研究;国正;《中国优秀硕士学位论文全文数据库 信息科技辑》(第01(2022)期);I138-1254 *
基于机器视觉的机械臂分拣系统的研究;熊耕耘;《中国优秀硕士学位论文全文数据库 信息科技辑》(第02(2020)期);I138-1284 *

Also Published As

Publication number Publication date
CN115292540A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
US11256920B2 (en) Method and apparatus for classifying video
CN110288049B (zh) 用于生成图像识别模型的方法和装置
CN109740018B (zh) 用于生成视频标签模型的方法和装置
EP3605394A1 (en) Method and apparatus for recognizing body movement
US10970938B2 (en) Method and apparatus for generating 3D information
CN109816023B (zh) 用于生成图片标签模型的方法和装置
CN112883966B (zh) 图像字符识别方法、装置、介质及电子设备
CN111340015A (zh) 定位方法和装置
CN109829431B (zh) 用于生成信息的方法和装置
CN109829520B (zh) 图像处理方法和装置
CN114511744A (zh) 图像分类方法、装置、可读介质和电子设备
CN112150491B (zh) 图像检测方法、装置、电子设备和计算机可读介质
CN110674813B (zh) 汉字识别方法、装置、计算机可读介质及电子设备
CN111310595B (zh) 用于生成信息的方法和装置
CN116188583B (zh) 相机位姿信息生成方法、装置、设备和计算机可读介质
CN115292540B (zh) 多模态零件信息识别方法、装置、设备和计算机可读介质
CN118262188A (zh) 目标检测模型训练方法、物体检测信息生成方法和装置
CN111369624B (zh) 定位方法和装置
CN112308074B (zh) 用于生成缩略图的方法和装置
CN114613355B (zh) 视频处理方法、装置、可读介质及电子设备
CN115345931B (zh) 物体姿态关键点信息生成方法、装置、电子设备和介质
CN118229171B (zh) 电力设备存放区域信息展示方法、装置与电子设备
CN116107574B (zh) 应用界面自动构建方法、装置、电子设备和可读介质
CN117743555B (zh) 答复决策信息发送方法、装置、设备和计算机可读介质
CN117274377A (zh) 物品信息导航方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Multimodal part information recognition methods, devices, equipment, and computer-readable media

Granted publication date: 20230613

Pledgee: Bank of Hangzhou Limited by Share Ltd. science and Technology Branch

Pledgor: Hangzhou Yiyou Material Technology Co.,Ltd.

Registration number: Y2024980025309