CN110232418B - 一种语义识别方法、终端及计算机可读存储介质 - Google Patents

一种语义识别方法、终端及计算机可读存储介质 Download PDF

Info

Publication number
CN110232418B
CN110232418B CN201910533047.7A CN201910533047A CN110232418B CN 110232418 B CN110232418 B CN 110232418B CN 201910533047 A CN201910533047 A CN 201910533047A CN 110232418 B CN110232418 B CN 110232418B
Authority
CN
China
Prior art keywords
recognition result
image data
dimensional point
fusion
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910533047.7A
Other languages
English (en)
Other versions
CN110232418A (zh
Inventor
谭超
王恺
廉士国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Data Robotics Guangzhou Co ltd
Original Assignee
Cloudminds Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Robotics Co Ltd filed Critical Cloudminds Robotics Co Ltd
Priority to CN201910533047.7A priority Critical patent/CN110232418B/zh
Publication of CN110232418A publication Critical patent/CN110232418A/zh
Application granted granted Critical
Publication of CN110232418B publication Critical patent/CN110232418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例涉及计算机视觉领域,公开了一种语义识别方法、终端及计算机可读存储介质。本申请的部分实施例中,语义识别方法包括:获取场景的第一图像数据;根据第一图像数据的彩色图像数据和第一网络模型,得到第一语义识别结果;第一网络模型根据第一训练图像的彩色图像数据和第一训练图像的语义识别结果训练得到;根据第一图像数据的深度数据和第二网络模型,得到第二语义识别结果;第二网络模型根据第二训练图像的深度数据和第二训练图像的语义识别结果训练得到;融合第一语义识别结果和第二语义识别结果,得到第一图像数据的第一融合识别结果。该实现中,能够提高识别结果的准确性。

Description

一种语义识别方法、终端及计算机可读存储介质
技术领域
本发明实施例涉及计算机视觉领域,特别涉及一种语义识别方法、终端及计算机可读存储介质。
背景技术
在机器人执行导航、避障、操作等多种任务时,机器人需要对自身所在环境进行充分的理解,而对环境的语义分割与识别起到了基础性和至关重要的作用。
发明人发现,如何保证分割的区域是有效区域以及分割的准确性,是语义分割识别处理的关键所在。基于图像的分割识别技术较成熟,识别效果好,但是样本不足时就会导致识别结果不准确。基于点云的分割识别以点云的形式来对场景进行描述,得到的结果与视角无关,但是目前技术还不够成熟,样本数据少,结果容易受噪音影响,而且存在连续性问题。因此,亟需一种更为准确地语义分割识别方法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施方式的目的在于提供一种语义识别方法、终端及计算机可读存储介质,使得终端能够更准确的识别环境中的物体。
为解决上述技术问题,本发明的实施方式提供了一种语义识别方法,包括以下步骤:获取场景的第一图像数据;根据第一图像数据的彩色图像数据和第一网络模型,得到第一语义识别结果;第一网络模型根据第一训练图像的彩色图像数据和第一训练图像的语义识别结果训练得到;根据第一图像数据的深度数据和第二网络模型,得到第二语义识别结果;第二网络模型根据第二训练图像的深度数据和第二训练图像的语义识别结果训练得到;融合第一语义识别结果和第二语义识别结果,得到第一图像数据的第一融合识别结果。
本发明的实施方式还提供了一种终端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述实施方式提及的语义识别方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的语义识别方法。
本发明实施方式相对于现有技术而言,终端采用两种方式对第一图像数据进行分割识别,并融合两种识别方式的识别结果来确定最终的识别结果,使得在其中一种识别方法漏识别或误识别终端所在场景中的物体,或,物体的一部分时,可以由另外一种识别方法弥补,使得最终的识别结果更为准确。
另外,融合第一语义识别结果和第二语义识别结果,得到第一图像数据的第一融合识别结果,具体包括:将第一语义识别结果映射至第二语义识别结果,得到第三语义识别结果;根据第三语义识别结果中的每个第一三维点的候选结果集,确定每个第一三维点的语义识别结果;根据每个第一三维点的语义识别结果,确定第一图像数据的第一融合识别结果。该实现中,针对每个点进行语义识别结果的融合,提高了融合识别结果的准确性。
另外,根据第三语义识别结果中的每个第一三维点的候选结果集,确定每个第一三维点的语义识别结果,具体包括:针对第三语义识别结果中的每个第一三维点,分别进行以下操作:根据第一三维点的候选结果集中的候选结果的置信度,从候选结果集中选择一个候选结果,作为第一三维点的语义识别结果。该实现中,基于识别结果的置信度选择最终的识别结果,使得识别结果的准确性更高。
另外,第一三维点的候选结果集中包括第一候选结果和第二候选结果;其中,第一候选结果根据第一语义识别结果确定,第二候选结果根据第二语义识别结果确定;根据第一三维点的候选结果集中的候选结果的置信度,从候选结果集中选择一个候选结果,作为所述第一三维点的语义识别结果,具体包括:确定所述第一候选结果的第一置信度、第二候选结果的第二置信度、所述第一置信度的比例因子,以及所述第二置信度的比例因子;判断所述第一置信度和所述第一置信度的比例因子的乘积是否大于所述第二置信度和所述第二置信度的比例因子的乘积;若确定是,将所述第一候选结果作为所述第一三维点的语义识别结果;若确定不是,将第二候选结果作为第一三维点的语义识别结果。该实现中,针对不同情况,为第一网络模型和第二网络模型设置不同的比例因子,使得可以针对不同场景选择不同的网络模型,提高了语义识别方法的灵活性和通用性。
另外,在融合第一语义识别结果和第二语义识别结果,得到第一图像数据的第一融合识别结果之后,语义识别方法还包括:获取第二图像数据的第二融合识别结果;第二图像数据为第一图像数据的前一帧的图像数据;根据第一图像数据的第一融合识别结果和第二图像数据的第二融合识别结果,确定第一图像数据的第二融合识别结果,第二融合识别结果为第一图像数据的最终识别结果。该实现中,对识别结果进行帧间融合,使得最终的识别结果更为准确。
另外,第一图像数据为第N帧图像的图像数据;N为正整数;根据第一图像数据的第一融合识别结果和第二图像数据的第二融合识别结果,确定第一图像数据的第二融合识别结果,具体包括:根据第一图像数据的第一融合识别结果和第二图像数据的第二融合识别结果,确定第一图像数据的第一融合识别结果中的每个第一三维点的候选融合识别结果集;针对第一图像数据的第一融合识别结果的每个第一三维点,从第一三维点的候选融合识别结果集中选择一个候选融合识别结果,作为第一三维点的融合识别结果;根据每个第一三维点的融合识别结果,确定第一图像数据的第二融合识别结果。
另外,第一图像数据为第N帧图像的图像数据,N为大于预设值的正整数;根据第一图像数据的第一融合识别结果和第二图像数据的第二融合识别结果,确定第一图像数据的第二融合识别结果,具体包括:获取第一图像数据和第二图像数据的光流信息;针对第一图像数据的第一融合识别结果中的每个第一三维点,分别进行以下操作:根据光流信息,判断第二融合识别结果的第二三维点与第一三维点是否属于同一物体;其中,第二三维点与第一三维点坐标相同;若判断结果为是,将对应的第二三维点的融合识别结果作为第一三维点的融合识别结果;若判断结果为不是,根据对应的第二三维点的融合识别结果的置信度和第一三维点的融合识别结果的置信度,确定第一三维点的融合识别结果;根据每个第一三维点的融合识别结果,确定第一图像数据的第二融合识别结果。
另外,在针对第一图像数据的第一融合识别结果中的每个第一三维点进行操作之前,语义识别方法还包括:获取光流信息的置信度;确定光流信息的置信度大于阈值。
另外,确定第一图像数据和第二图像数据的光流信息,具体包括:根据第一图像数据、第二图像数据和第三网络模型,得到光流信息,以及光流信息的置信度;其中,第三网络模型中的参数根据第三训练图像数据、第四训练图像数据,以及第三训练图像数据和第四训练图像数据的光流信息确定。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明的第一实施方式的语义识别方法的流程图;
图2是本发明的第二实施方式的帧间融合方法的流程图;
图3是本发明的第二实施方式的语义识别方法的流程示意图;
图4是本发明的第三实施方式的语义识别装置的结构示意图;
图5是本发明的第四实施方式的终端的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种语义识别方法,应用于终端,例如,机器人或其他机器设备。如图1所示,本实施方式提及的语义识别方法包括以下步骤:
步骤101:获取场景的第一图像数据。
具体地说,第一图像数据中包括彩色(Red-Green-Blue,RGB)图像数据和深度(Depth)数据。其中,RGB图像数据可以由彩色摄像头采集,Depth(深度)数据可以由深度摄像头采集,也可以根据两个或多个彩色摄像头的RGB图像数据计算得到。终端可以在获取RGB图像数据和Depth数据时,将两者进行对齐。
步骤102:根据第一图像数据的彩色图像数据和第一网络模型,得到第一语义识别结果。
具体地说,第一网络模型是一个针对图像进行分割识别的网络模型,根据第一训练图像的彩色图像数据和第一训练图像的语义识别结果训练得到。将RGB图像数据输入第一网络模型,利用第一网络模型对RGB图像数据进行语义分割,得到第一语义识别结果,其中,第一语义识别结果为对彩色图像数据进行语义分割后得到的图像。
在一个例子中,第一网络模型为卷积神经网络模型,终端利用已标注好的训练图像,对卷积神经网络模型进行训练,得到卷积神经网络中的相关参数,从而使得训练后的卷积神经网络模型能够对彩色图像进行语义分割。
步骤103:根据第一图像数据的深度数据和第二网络模型,得到第二语义识别结果。
具体地说,第二网络模型根据第二训练图像的深度数据和第二训练图像的语义识别结果训练得到。
在一个例子中,第二网络模型包括转换子模型和识别子模型。终端将第一图像数据的深度数据输入转换子模型,转换子模型根据深度数据,得到场景的点云数据,并将点云数据输入识别子模型。识别子模型对点云数据进行分割处理,得到对应的第二语义识别结果,第二语义识别结果为分割识别后的点云数据。
在一个例子中,基于点云的识别过程主要是利用条件随机场来对点云的三维特征进行训练,首先对点云进行降采样来生成多尺度邻域,用来快速查找提取三维特征,然后利用随机森林分类器进行分类,从而做到点云的语义分割。
在一个例子中,转换子模型根据公式a,将深度数据转换为三维点云数据。
公式a:
Figure BDA0002100333380000051
公式a中,x表示点云数据中的三维点的横坐标值,y表示点云数据中的三维点的纵坐标值,Z表示点云数据中的三维点的深度值,u表示彩色图像的坐标系下的二维点的横坐标值,v表示彩色图像的坐标系下的二维点的纵坐标值,u0表示彩色图像的中心点的横坐标值,v0表示彩色图像的中心点的纵坐标值,fx和fy表示图像传感器内参,对应图像传感器的焦距。
需要说明的是,本实施方式中,为描述清楚,将步骤103设置为步骤102的后续步骤。但本领域技术人员可以理解,实际应用中,步骤103可以在步骤102之前执行,也可以与步骤102同时执行,本实施方式不起限定作用。
步骤104:融合第一语义识别结果和第二语义识别结果,得到第一图像数据的第一融合识别结果。
具体地说,第一语义识别结果是基于图像数据进行分割识别得到的,第二语义识别结果是基于3D点云数据分割识别得到的,终端对两种方法得到的识别结果进行融合,得到最终的第一融合识别结果。
通过上述内容可知,终端采用两种方式对第一图像数据进行分割识别,并基于两种识别方式得到的识别结果来确定最终的识别结果,相对于只使用一种识别方法来确定识别结果的方法,最终的识别结果更为准确。
在一个例子中,终端确定最终的第一融合识别结果的方法如下:终端将第一语义识别结果映射至第二语义识别结果,得到第三语义识别结果;根据第三语义识别结果中的每个第一三维点的候选结果集,确定每个第一三维点的语义识别结果;根据每个第一三维点的语义识别结果,确定第一图像数据的第一融合识别结果。
以下对第一语义识别结果的映射过程进行举例说明。第一语义识别结果中包括彩色图像数据中的二维点和二维点的二维识别结果,第二语义识别结果中包括点云数据中的三维点和三维点的三维识别结果。对于彩色图像数据中的二维点,终端通过二维图像和点云数据的映射关系,将该二维点映射至第二语义识别结果(即语义分割后的点云数据)中,得到映射后的三维点;若该映射后的三维点与点云数据中原始的三维点(即通过深度数据创建的三维点)重合,则确定与该映射后的三维点重合的三维点的候选结果集包括基于第二语义识别结果的三维识别结果(第二候选结果)和该二维点的二维识别结果(第一候选结果)。若映射后的三维点与点云数据中原始的三维点不重合,则更新点云数据,使其包含该映射后的三维点,并确定该映射后的三维点的候选结果集包含该二维点的二维识别结果(第一候选结果)。
通过上述内容可以看到,终端将基于彩色图像数据的语义识别结果映射至基于深度数据的语义识别结果中,既可以丰富基于深度数据的语义识别结果,也可以使得在基于彩色图像数的语义识别结果和基于深度数据的语义识别结果中选择更准确的语义识别结果,进而提高了语义识别结果的准确性。
在一个例子中,点云数据和彩色图像数据的映射关系如下公式b所示,基于公式b,可以将点云数据和彩色图像数据对应起来。
公式b:
Figure BDA0002100333380000061
公式b中,Zc表示终端上的图像传感器(如相机)的Z轴值,即目标到图像传感器的距离,u表示彩色图像的坐标系下的二维点的横坐标值,v表示彩色图像的坐标系下的二维点的纵坐标值,u0表示彩色图像的中心点的横坐标值,v0表示彩色图像的中心点的纵坐标值,R表示图像传感器的外参矩阵的3*3旋转矩阵,T表示图像传感器的外参矩阵的3*1的平移矩阵,fx和fy表示图像传感器的内参,对应图像传感器的焦距,XW表示点云数据中的三维点的横坐标值,YW表示点云数据中的三维点的纵坐标值,ZW表示点云数据中的三维点的深度值。
在一个例子中,终端根据第三语义识别结果中的每个第一三维点的候选结果集,确定每个第一三维点的语义识别结果的方法如下:针对第三语义识别结果中的每个第一三维点,分别进行以下操作:根据第一三维点的候选结果集中的候选结果的置信度,从候选结果集中选择一个候选结果,作为第一三维点的语义识别结果。
需要说明的是,本领域技术人员可以理解,实际应用中,也可以通过其他方式来选择最终的语义识别结果,本实施方式不限制选择最终的语义识别结果的方法。
值得一提的是,终端根据第一语义识别结果的第一置信度和第二语义识别结果的第二置信度来选择最终的语义识别结果,使得最终的语义识别结果的置信度更有保证,更符合实际场景。
在一个例子中,第一三维点的候选结果集中包括第一候选结果和第二候选结果;其中,第一候选结果根据第一语义识别结果确定,第二候选结果根据第二语义识别结果确定。终端确定第一候选结果的第一置信度、第二候选结果的第二置信度、第一置信度的比例因子,以及第二置信度的比例因子;判断第一置信度和第一置信度的比例因子的乘积是否大于第二置信度和第二置信度的比例因子的乘积;若确定是,将第一候选结果作为第一三维点的语义识别结果;若确定不是,将第二候选结果作为第一三维点的语义识别结果。其中,第一置信度的比例因子可以是第一网络模型的比例因子,第二置信度的比例因子可以是第二网络模型的比例因子。
需要说明的是,本领域技术人员可以理解,实际应用中,可以根据需要,选择确定点的语义识别结果的策略,本实施方式不限制从候选结果集选择三维点的语义识别结果的方法。
需要说明的是,本领域技术人员可以理解,第一网络模型的比例因子和第二网络模型的比例因子可以根据彩色图像数据集和深度数据集的大小,以及场景的复杂度来设置,例如,当彩色图像数据较多,足以支持不同视角下对物体的识别,第一网络模型的识别结果的置信度必然更高,可以设置第一网络模型的比例因子为0.7,第二网络模型的比例因子为0.3;又如,当彩色图像数据较少,但是深度数据质量较高,生成的点云质量较好,可以较好的还原实际物体时,第二网络模型的识别结果的置信度可能就会更高,可以设置第一网络模型的比例因子为0.4和第二网络模型的比例因子为0.6,本实施方式不限制第一网络模型的比例因子和第二网络模型的比例因子的具体数值。
值得一提的是,为第一网络模型和第二网络模型设置比例因子,使得开发人员可以根据不同的场景下,基于图像数据的分割识别方法和基于3D点云数据的分割识别方法所受到的干扰程度及准确性,为不同的识别方法设置不同的比例因子,使得终端可以选择更适合该场景的分割识别方法来对终端所在场景进行识别,进一步保证了识别结果的准确性。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的语义识别方法,终端采用两种识别方式对第一图像数据进行分割识别,同时结合了两者的优势,既能通过点云的形式从三维的角度来对场景进行识别,又能利用图像的纹理信息,来对场景进行进一步识别。终端通过融合两种识别方式的识别结果来确定最终的识别结果,使得在其中一种识别方法漏识别或误识别终端所在场景中的物体时,可以由另外一种识别方法弥补,使得最终的识别结果更为准确。
本发明的第二实施方式涉及一种语义识别方法。本实施方式在第一实施方式的基础上做了进一步改进,具体改进之处为:在确定第一融合识别结果之后,将第一融合识别结果与基于其他图像数据的语义识别结果进行帧间融合。
具体的说,如图2所示,在本实施方式中,帧间融合的方法包括以下步骤:
步骤201:获取第一融合识别结果和第二图像数据的第二融合识别结果。
具体地说,第一融合识别结果为第一图像数据的第一语义识别结果和第二语义识别结果的融合识别结果。第二图像数据为第一图像数据的前一帧的图像数据。第二图像数据的第二融合识别结果为第二图像数据的第一融合识别结果与第二图像数据的前一帧图像数据的最终识别结果的融合识别结果。
步骤202:根据第一图像数据的第一融合识别结果和第二图像数据的第二融合识别结果,确定第一图像数据的第二融合识别结果。
具体地说,第二融合识别结果为第一图像数据的最终识别结果。终端在对第N帧图像进行语义识别时,参考前N-1帧图像的语义识别结果,完善第N帧图像的第一融合识别结果,以进一步提高对第N帧图像的最终识别结果的准确性。
以下对终端参考前N-1帧图像的语义识别结果,得到第N帧图像的第二融合识别结果的方法进行举例说明。
方法1:终端根据第一图像数据的第一融合识别结果和第二图像数据的第二融合识别结果,确定第一图像数据的第一融合识别结果中的每个第一三维点的候选融合识别结果集;针对第一图像数据的第一融合识别结果的每个第一三维点,从第一三维点的候选融合识别结果集中选择一个候选融合识别结果,作为第一三维点的融合识别结果;根据每个第一三维点的融合识别结果,确定第一图像数据的第二融合识别结果。
在一个例子中,若候选融合识别结果集中的候选融合识别结果个数大于1,终端根据每个候选融合识别结果的置信度,选择置信度最高的候选融合识别结果作为第一三维点的融合识别结果。
假设,在帧间融合的过程中,若第一图像数据的第一融合识别结果指示点云数据中的某一个三维点为第一物体,第二图像数据的第二融合识别结果指示该三维点为第二物体,则该三维点的候选融合识别结果集包括第一候选融合识别结果和第二候选融合识别结果,第一候选融合识别结果指示该三维点为第一物体,第二候选融合识别结果指示该三维点为第二物体。终端判断该第一候选融合识别结果的置信度是否大于或等于第二候选融合识别结果的置信度,若确定是,则确定该三维点的融合识别结果为第一候选融合识别结果;若确定不是,则确定该三维点的融合识别结果为第二候选融合识别结果。若第一图像数据的第一融合识别结果指示点云数据中的某一个三维点为第一物体,第二图像数据的第二融合识别结果指示该三维点为第一物体,则候选融合识别结果集仅包括第一候选融合识别结果,该三维点的融合识别结果为第一候选融合识别结果。若第一图像数据的第一融合识别结果中存在某一三维点,第二图像数据的第二融合识别结果中不存在该三维点,则该三维点的融合识别结果为第一图像数据中该三维点的融合识别结果。若第一图像数据的第一融合识别结果中不存在某一三维点,第二图像数据的第二融合识别结果中存在该三维点,则该三维点的融合识别结果为第二图像数据中该三维点的融合识别结果。
方法2:终端根据N是否大于预设值,选择不同的处理方式。
在N小于或等于预设值时,终端根据第一图像数据的第一融合识别结果和第二图像数据的第二融合识别结果,确定第一图像数据的第一融合识别结果中的每个第一三维点的候选融合识别结果集;针对第一图像数据的第一融合识别结果的每个第一三维点,根据第一三维点的候选融合识别结果集中的候选融合识别结果的置信度,从候选融合识别结果集中选择一个候选融合识别结果,作为第一三维点的融合识别结果;根据每个第一三维点的融合识别结果,确定第一图像数据的第二融合识别结果。该情况下确定第二融合识别结果的过程可参考方法1的相关描述。
在N大于预设值时,终端获取第一图像数据和第二图像数据的光流信息;针对第一图像数据的第一融合识别结果中的每个第一三维点,分别进行以下操作:根据光流信息,判断第二融合识别结果的第二三维点与第一三维点是否属于同一物体;其中,第二三维点与第一三维点坐标相同;若判断结果为是,将对应的第二三维点的融合识别结果作为第一三维点的融合识别结果;若判断结果为不是,根据对应的第二三维点的融合识别结果的置信度和第一三维点的融合识别结果的置信度,确定第一三维点的融合识别结果;根据每个第一三维点的融合识别结果,确定第一图像数据的第二融合识别结果。
在一个例子中,终端在针对第一图像数据的第一融合识别结果中的每个第一三维点进行操作之前,获取光流信息的置信度;确定光流信息的置信度大于阈值。
需要说明的是,本领域技术人员可以理解,实际应用中,阈值、预设值可以根据需要设置,例如,预设值可以设置为大于1的任意正整数,如,大于10的正整数,阈值可以设置为大于50%的任意百分数,例如,可以设置为60%、70%等。
假设,在帧间融合的过程中,终端先获取第一图像数据和第二图像数据的光流信息,以及光流信息的置信度,若该光流信息的置信度大于阈值,则结合光流信息,得到第一图像数据的第二融合识别结果。具体地说,若第一图像数据的第一融合识别结果中的第一三维点与第二图像数据的第二融合识别结果中的第二三维点坐标相同,第一光流信息指示第一三维点与第二三维点是属于同一物体的三维点,第一三维点的融合识别结果指示该三维点为第一物体,第二图像数据的第二融合识别结果指示该三维点为第二物体,终端确定该三维点的融合识别结果指示该三维点为第二物体。若光流信息指示第一三维点和第二三维点不属于同一物体,则可以参照方法1的相关内容,确定该三维点的融合识别结果。若光流信息的置信度小于阈值,则参照方法1的相关内容,得到第一图像数据的第二融合识别结果。
值得一提的是,通过对光流信息进行分析,在考虑对第一图像数据和第二图像数据的一致性的情况下,结合第二图像数据的第二融合识别结果,对第一图像数据的第一融合识别结果进行完善,得到更为准确的最终识别结果。
在一个例子中,终端可以通过第三网络模型来确定第一图像数据和第二图像数据的光流信息。终端根据第一图像数据、第二图像数据和第三网络模型,得到光流信息,以及光流信息的置信度;其中,第三网络模型中的参数根据第三训练图像数据、第四训练图像数据,以及第三训练图像数据和第四训练图像数据的光流信息确定。
需要说明的是,第三网络模型可以是基于深度学习的网络模型,也可以是基于其他原理的网络模型,本实施方式不限制第三网络模型的具体类型。
在一个例子中,第三网络模型为卷积神经网络模型,该卷积神经网络模型的形式为F=CNN(θ,I1,I2),其中,θ可以通过训练学习获得,用于调节卷积神经网络,使得该网络具有光流预测的功能,I1和I2为相邻的两帧的彩色图像。
在一个例子中,本实施方式提及的语义识别方法的流程示意图如图3所示,终端先分别识别初始帧图像数据中的彩色图像数据和深度数据,并基于彩色图像数据的第一识别结果和基于深度数据的第二识别结果,确定帧内融合识别结果,即第一融合识别结果。终端基于第一图像数据中的彩色图像数据和第二图像数据中的彩色图像数据,确定第一图像数据和第二图像数据的光流信息,并基于该光流信息,利用第二图像数据的第一融合识别结果对第一图像数据的第一融合识别结果进行完善,得到更为准确的第一图像数据的第二融合识别结果。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的语义识别方法,由于光流信息可以用来表示物体的运动情况,可以利用运动估计、运动补偿等将不同帧之间的运动物体联系起来。光流信息中具有丰富的运动信息,因此可以通过光流信息,来对物体的运动进行预测,将不同帧间的信息结合互补,从而生成一个更加准确的识别结果。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明的第三实施方式涉及一种语义识别装置,如图4所示,包括:获取模块401、第一识别模块402、第二识别模块403和确定模块404。获取模块401用于获取场景的第一图像数据;第一识别模块402用于根据第一图像数据的彩色图像数据和第一网络模型,得到第一语义识别结果;第一网络模型根据第一训练图像的彩色图像数据和第一训练图像的语义识别结果训练得到;第二识别模块403用于根据第一图像数据的深度数据和第二网络模型,得到第二语义识别结果;第二网络模型根据第二训练图像的深度数据和第二训练图像的语义识别结果训练得到;确定模块404用于融合第一语义识别结果和第二语义识别结果,得到第一图像数据的第一融合识别结果。
不难发现,本实施方式为与第一实施方式相对应的系统实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明的第五实施方式涉及一种终端,如图5所示,包括:至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使至少一个处理器501能够执行上述实施方式提及的语义识别方法。
该终端包括:一个或多个处理器501以及存储器502,图5中以一个处理器501为例。处理器501、存储器502可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述语义识别方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器502中,当被一个或者多个处理器501执行时,执行上述任意方法实施方式中的语义识别方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。
本发明的第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (9)

1.一种语义识别方法,其特征在于,包括:
获取场景的第一图像数据;
根据所述第一图像数据的彩色图像数据和第一网络模型,得到第一语义识别结果;所述第一网络模型根据第一训练图像的彩色图像数据和所述第一训练图像的语义识别结果训练得到;
根据所述第一图像数据的深度数据和第二网络模型,得到第二语义识别结果;所述第二网络模型根据第二训练图像的深度数据和所述第二训练图像的语义识别结果训练得到;
融合所述第一语义识别结果和所述第二语义识别结果,得到所述第一图像数据的第一融合识别结果;
所述融合所述第一语义识别结果和所述第二语义识别结果,得到所述第一图像数据的第一融合识别结果,具体包括:
将所述第一语义识别结果映射至所述第二语义识别结果,得到第三语义识别结果;
根据所述第三语义识别结果中的每个第一三维点的候选结果集,确定每个所述第一三维点的语义识别结果;
根据每个所述第一三维点的语义识别结果,确定所述第一图像数据的第一融合识别结果。
2.根据权利要求1所述的语义识别方法,其特征在于,所述根据所述第三语义识别结果中的每个第一三维点的候选结果集,确定每个所述第一三维点的语义识别结果,具体包括:
针对所述第三语义识别结果中的每个第一三维点,分别进行以下操作:
根据所述第一三维点的候选结果集中的候选结果的置信度,从所述候选结果集中选择一个候选结果,作为所述第一三维点的语义识别结果。
3.根据权利要求2所述的语义识别方法,其特征在于,所述第一三维点的候选结果集中包括第一候选结果和第二候选结果;其中,所述第一候选结果根据所述第一语义识别结果确定,所述第二候选结果根据所述第二语义识别结果确定;
所述根据所述第一三维点的候选结果集中的候选结果的置信度,从所述候选结果集中选择一个候选结果,作为所述第一三维点的语义识别结果,具体包括:
确定所述第一候选结果的第一置信度、第二候选结果的第二置信度、所述第一置信度的比例因子,以及所述第二置信度的比例因子;
判断所述第一置信度和所述第一置信度的比例因子的乘积是否大于所述第二置信度和所述第二置信度的比例因子的乘积;
若确定是,将所述第一候选结果作为所述第一三维点的语义识别结果;
若确定不是,将所述第二候选结果作为所述第一三维点的语义识别结果。
4.根据权利要求1至3中任一项所述的语义识别方法,其特征在于,在所述融合所述第一语义识别结果和所述第二语义识别结果,得到所述第一图像数据的第一融合识别结果之后,所述语义识别方法还包括:
获取第二图像数据的最终识别结果;所述第二图像数据为所述第一图像数据的前一帧的图像数据;
根据所述第一图像数据的第一融合识别结果和所述第二图像数据的第二融合识别结果,确定所述第一图像数据的第二融合识别结果,所述第二融合识别结果为所述第一图像数据的最终识别结果。
5.根据权利要求4所述的语义识别方法,其特征在于,所述第一图像数据为第N帧图像的图像数据;N为正整数;
所述根据所述第一图像数据的第一融合识别结果和所述第二图像数据的第二融合识别结果,确定所述第一图像数据的第二融合识别结果,具体包括:
根据所述第一图像数据的第一融合识别结果和所述第二图像数据的第二融合识别结果,确定所述第一图像数据的第一融合识别结果中的每个第一三维点的候选融合识别结果集;
针对所述第一图像数据的第一融合识别结果的每个第一三维点,从所述第一三维点的候选融合识别结果集中选择一个候选融合识别结果,作为所述第一三维点的融合识别结果;
根据每个所述第一三维点的融合识别结果,确定所述第一图像数据的第二融合识别结果。
6.根据权利要求4所述的语义识别方法,其特征在于,所述第一图像数据为第N帧图像的图像数据,N为大于预设值的正整数;
所述根据所述第一图像数据的第一融合识别结果和所述第二图像数据的第二融合识别结果,确定所述第一图像数据的第二融合识别结果,具体包括:
获取所述第一图像数据和所述第二图像数据的光流信息;
针对所述第一图像数据的第一融合识别结果中的每个第一三维点,分别进行以下操作:根据所述光流信息,判断所述第二融合识别结果的第二三维点与所述第一三维点是否属于同一物体;其中,所述第二三维点与所述第一三维点坐标相同;若判断结果为是,将对应的所述第二三维点的融合识别结果作为所述第一三维点的融合识别结果;若判断结果为不是,根据所述对应的第二三维点的融合识别结果的置信度和所述第一三维点的融合识别结果的置信度,确定所述第一三维点的融合识别结果;
根据每个所述第一三维点的融合识别结果,确定所述第一图像数据的第二融合识别结果。
7.根据权利要求6所述的语义识别方法,其特征在于,在针对所述第一图像数据的第一融合识别结果中的每个第一三维点进行操作之前,所述语义识别方法还包括:
获取所述光流信息的置信度;
确定所述光流信息的置信度大于阈值。
8.一种终端,其特征在于,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的语义识别方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语义识别方法。
CN201910533047.7A 2019-06-19 2019-06-19 一种语义识别方法、终端及计算机可读存储介质 Active CN110232418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910533047.7A CN110232418B (zh) 2019-06-19 2019-06-19 一种语义识别方法、终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910533047.7A CN110232418B (zh) 2019-06-19 2019-06-19 一种语义识别方法、终端及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110232418A CN110232418A (zh) 2019-09-13
CN110232418B true CN110232418B (zh) 2021-12-17

Family

ID=67856265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910533047.7A Active CN110232418B (zh) 2019-06-19 2019-06-19 一种语义识别方法、终端及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110232418B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112154447A (zh) * 2019-09-17 2020-12-29 深圳市大疆创新科技有限公司 地表特征识别方法、设备、无人机及计算机可读存储介质
CN111881909A (zh) * 2020-07-27 2020-11-03 精英数智科技股份有限公司 煤矸识别方法、装置、电子设备及存储介质
CN112712023B (zh) * 2020-12-30 2024-04-05 武汉万集光电技术有限公司 车型识别方法、系统及电子设备
CN113345019B (zh) * 2021-06-09 2023-07-18 山东信通电子股份有限公司 一种输电线路通道隐患目标测距方法、设备及介质
CN114677660B (zh) * 2022-03-17 2024-08-23 上海伯镭智能科技有限公司 模型训练和道路检测方法及装置
CN117456285A (zh) * 2023-12-21 2024-01-26 宁波微科光电股份有限公司 基于tof相机与深度学习模型的地铁屏蔽门异物检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403430A (zh) * 2017-06-15 2017-11-28 中山大学 一种rgbd图像语义分割方法
WO2018213108A1 (en) * 2017-05-15 2018-11-22 Siemens Aktiengesellschaft Domain adaptation and fusion using weakly supervised target irrelevant data
CN109086821A (zh) * 2018-07-31 2018-12-25 太原理工大学 机器人的物体抓取判别方法
CN109409435A (zh) * 2018-11-01 2019-03-01 上海大学 一种基于卷积神经网络的深度感知显著性检测方法
CN109490926A (zh) * 2018-09-28 2019-03-19 浙江大学 一种基于双目相机和gnss的路径规划方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8787663B2 (en) * 2010-03-01 2014-07-22 Primesense Ltd. Tracking body parts by combined color image and depth processing
US9542626B2 (en) * 2013-09-06 2017-01-10 Toyota Jidosha Kabushiki Kaisha Augmenting layer-based object detection with deep convolutional neural networks
CN107644642B (zh) * 2017-09-20 2021-01-15 Oppo广东移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN108197587B (zh) * 2018-01-18 2021-08-03 中科视拓(北京)科技有限公司 一种通过人脸深度预测进行多模态人脸识别的方法
CN108549886A (zh) * 2018-06-29 2018-09-18 汉王科技股份有限公司 一种人脸活体检测方法及装置
CN109271990A (zh) * 2018-09-03 2019-01-25 北京邮电大学 一种针对rgb-d图像的语义分割方法及装置
CN109409246B (zh) * 2018-09-30 2020-11-27 中国地质大学(武汉) 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法
CN109711413B (zh) * 2018-12-30 2023-04-07 陕西师范大学 基于深度学习的图像语义分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018213108A1 (en) * 2017-05-15 2018-11-22 Siemens Aktiengesellschaft Domain adaptation and fusion using weakly supervised target irrelevant data
CN107403430A (zh) * 2017-06-15 2017-11-28 中山大学 一种rgbd图像语义分割方法
CN109086821A (zh) * 2018-07-31 2018-12-25 太原理工大学 机器人的物体抓取判别方法
CN109490926A (zh) * 2018-09-28 2019-03-19 浙江大学 一种基于双目相机和gnss的路径规划方法
CN109409435A (zh) * 2018-11-01 2019-03-01 上海大学 一种基于卷积神经网络的深度感知显著性检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RGB-D-Based Object Recognition Using Multimodal Convolutional Neural Networks: A Survey;Mingliang Gao 等;《IEEE Access》;20190409;第7卷;第43110 - 43136页 *

Also Published As

Publication number Publication date
CN110232418A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN110232418B (zh) 一种语义识别方法、终端及计算机可读存储介质
CN111179324B (zh) 基于颜色和深度信息融合的物体六自由度位姿估计方法
CN109410316B (zh) 物体的三维重建的方法、跟踪方法、相关装置及存储介质
CN112232293A (zh) 图像处理模型训练、图像处理方法及相关设备
CN109753913B (zh) 计算高效的多模式视频语义分割方法
CN109658454B (zh) 一种位姿信息确定方法、相关装置及存储介质
Sheng et al. Unsupervised collaborative learning of keyframe detection and visual odometry towards monocular deep slam
CN111222395A (zh) 目标检测方法、装置与电子设备
US11074438B2 (en) Disentangling human dynamics for pedestrian locomotion forecasting with noisy supervision
CN110706269B (zh) 一种基于双目视觉slam的动态场景密集建模方法
CN111724439A (zh) 一种动态场景下的视觉定位方法及装置
CN111274847B (zh) 一种定位方法
KR20220043847A (ko) 객체 포즈 추정 방법, 장치, 전자 장치 및 저장 매체
CN109584299B (zh) 一种定位方法、定位装置、终端及存储介质
Capellen et al. ConvPoseCNN: Dense convolutional 6D object pose estimation
CN112037142B (zh) 一种图像去噪方法、装置、计算机及可读存储介质
CN109543634B (zh) 定位过程中的数据处理方法、装置、电子设备和存储介质
CN114519853B (zh) 一种基于多模态融合的三维目标检测方法及系统
CN114445651A (zh) 一种语义分割模型的训练集构建方法、装置及电子设备
CN114511041A (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
CN117876608B (zh) 三维图像重建方法、装置、计算机设备及存储介质
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN110348351A (zh) 一种图像语义分割的方法、终端和可读存储介质
Cheng et al. G-Fusion: LiDAR and Camera Feature Fusion on the Ground Voxel Space
CN116188535A (zh) 基于光流估计的视频跟踪方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210226

Address after: 200245 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Applicant after: Dalu Robot Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: CLOUDMINDS (SHENZHEN) ROBOTICS SYSTEMS Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 200245 Building 8, No. 207, Zhongqing Road, Minhang District, Shanghai

Patentee after: Dayu robot Co.,Ltd.

Address before: 200245 2nd floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Patentee before: Dalu Robot Co.,Ltd.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20231024

Address after: Room 318, No. 9, Zhifeng Street, Huangpu District, Guangzhou, Guangdong 510799

Patentee after: Data Robotics (Guangzhou) Co.,Ltd.

Address before: 200245 Building 8, No. 207, Zhongqing Road, Minhang District, Shanghai

Patentee before: Dayu robot Co.,Ltd.

TR01 Transfer of patent right