CN114155417A - 图像目标的识别方法、装置、电子设备及计算机存储介质 - Google Patents
图像目标的识别方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN114155417A CN114155417A CN202111522242.3A CN202111522242A CN114155417A CN 114155417 A CN114155417 A CN 114155417A CN 202111522242 A CN202111522242 A CN 202111522242A CN 114155417 A CN114155417 A CN 114155417A
- Authority
- CN
- China
- Prior art keywords
- node
- layer
- target object
- nodes
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 62
- 238000002372 labelling Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000011218 segmentation Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010885 neutral beam injection Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种图像目标的识别方法、装置、电子设备及计算机存储介质,该方法包括:获取待识别图像,待识别图像中包括目标对象;对目标对象进行分层分解,得到至少两层的节点;将最底层作为当前层,重复执行以下步骤,直至当前层的上一层为最顶层,并根据预测得到的最顶层的节点的识别结果,确定目标对象的识别结果:识别出当前层的各节点之间的第一关联关系;根据当前层的各节点的识别结果和第一关联关系,预测出当前层的上一层的各父节点的识别结果。通过本发明的方法,通过对目标对象分层分解,减小了在对目标对象进行识别的时候,目标对象被遮挡的部分对未被遮挡部分的影响,从而使得本发明的方法能够很好地适应目标遮挡的场景。
Description
技术领域
本发明涉及计算机、图像处理、机器学习技术领域,具体而言,本发明涉及一种图像目标的识别方法、装置、电子设备及计算机存储介质。
背景技术
随着摄像机技术和计算机视觉技术的快速发展,图像实例分割已成为热门研究方向。图像实例分割是从图像中语义分割出多类(或单类)目标的所有实例。虽然目前的图像实例分割方法已经有较好的分割效果,但是针对复杂图像场景,其实例分割精度仍需要提高,因为现有的图像实例分割方法,对目标遮挡的处理能力不够,并且对图像上下文的识别能力也有限。因此,对于目标对象有遮挡的图像,目前亟需一种如何准确识别出该图像中的目标对象的方法。
发明内容
本发明所要解决的技术问题是提供一种图像目标的识别方法、装置、电子设备及计算机存储介质,旨在解决对有遮挡的图像无法对目标对象进行准确识别的问题。
本发明解决上述技术问题的技术方案如下:一种图像目标的识别方法,该方法包括:
获取待识别图像,待识别图像中包括目标对象;
对目标对象进行分层分解,得到至少两层的节点,至少两层包括最顶层和至少一个中低层,最顶层的父节点表征了目标对象,对于每个中低层,该中低层的上一层的各节点为该中低层的各子节点的父节点,对于每个所述中低层的每个子节点,该子节点表征了其父节点对应的对象的一部分,上述至少一个中低层包括最底层;
识别出最底层的各节点的识别结果;
将最底层作为当前层,重复执行以下步骤,直至当前层的上一层为最顶层,并根据当前层的节点的识别结果,确定目标对象的识别结果;
上述以下步骤包括:
识别出当前层的各节点之间的第一关联关系;
根据当前层的各节点的识别结果和第一关联关系,预测出当前层的上一层的各父节点的识别结果。
本发明的有益效果是:对于待识别图像中的目标对象,通过对该目标对象进行分层分解的到的各层的节点表征目标对象不同层级的特征,最顶层的节点表征目标对象的整体特征,中低层的节点表征目标对象的局部特征,通过对目标对象分层分解,减小了在对目标对象进行识别的时候,目标对象被遮挡的部分对未被遮挡部分的影响,从而在对目标对象识别的过程中,不依赖于目标对象的整体特征,即不受被遮挡部分的影响,基于目标对象的局部特征和各局部特征之间的关联关系,就可以实现对目标对象的准确识别。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,对于最底层的每个节点,每个节点对应一个节点得分,对于上述至少两层中的每层的各个节点,该层中具有关联关系的各节点之间的第一关联关系对应一个关系得分,对于每个节点,该节点得分表征了该节点的识别结果,对于具有关联关系的各节点,每个关系得分表征了该各节点之间的关联程度;
上述根据当前层的各节点的识别结果和第一关联关系,预测出当前层的上一层的各父节点的识别结果,包括:
对属于同一个父节点的当前层的各个子节点对应的节点得分和各关系得分进行融合,得到识别得分,将识别得分作为该父节点的节点得分。
采用上述进一步方案的有益效果是,对于每个节点,该节点的识别结果表征的是该节点是否被识别出,则可通过节点得分表征该识别结果,使得识别结果数字化,便于后续的处理,同理,对于第一关联关系,也可通过关系得分表征两个节点之间的关联程度,将第一关联关系数字化,便于后续的处理。另外,在节点的识别结果和第一关联关系均可通过得分表征时,预测出的当前层的上一层的各节点的识别结果也可通过节点得分表征,便于后续的处理。
进一步,上述识别出最底层的各节点的识别结果,包括:
获取最底层对应的节点识别模型;
根据最底层对应的节点识别模型,识别出最底层的各节点的识别结果;
识别出当前层的各节点之间的第一关联关系,包括:
获取当前层对应的节点关系识别模型;
根据当前层对应的节点关系识别模型,识别出当前层的各节点之间的第一关联关系。
采用上述进一步方案的有益效果是,最底层的各节点的识别结果可以通过节点识别模型进行识别,其他层的各节点的识别结果均是基于最底层的各节点的识别结果预测得到,可减少数据处理量,同时,通过节点识别模型可提高识别准确性。每层对应一个节点关系识别模型,通过当前层的节点关系识别模型识别当前层的各节点之间的第一关联关系,也可提高识别准确性。
进一步,该方法还包括:
识别出最顶层的各节点的识别结果;
根据预测得到的最顶层的节点的识别结果,确定目标对象的识别结果的处理过程,包括:
根据预测得到的最顶层的节点的识别结果和识别得到的最顶层的各节点的识别结果,确定目标对象的识别结果。
采用上述进一步方案的有益效果是,在确定目标对象的识别结果时,考虑到预测得到的最顶层的节点的识别结果,以及识别得到的最顶层的各节点的识别结果,可使得确定的目标对象的识别结果更加准确。
进一步,若待识别图像中还包括其他对象,最顶层还包括其他对象对应的节点,该方法还包括:
获取最顶层对应的节点关系识别模型;
根据最顶层对应的节点关系识别模型,识别出最顶层的各节点之间的第二关联关系;
上述根据预测得到的最顶层的节点的识别结果和识别得到的最顶层的各节点的识别结果,确定目标对象的识别结果的处理过程,包括:
根据预测得到的最顶层的节点的识别结果、识别得到的最顶层的各节点的识别结果和最顶层的各节点之间的第二关联关系,确定目标对象的识别结果。
采用上述进一步方案的有益效果是,考虑到该目标对象与其他对象之间的关联关系,则在确定目标对象的识别结果时,可结合最顶层的各节点之间的第二关联关系,使得最终确定的目标对象的识别结果更加准确。
进一步,上述最底层对应的节点识别模型是通过以下方式训练得到的:
获取多个样本图像,多个样本图像包括包含不同类型的目标对象的图像;
对于每个样本图像,根据样本图像中的目标对象,对目标对象进行分层分解,得到至少两层的节点,至少两层包括最底层,每一个节点对应一个第一标注结果,对于每个节点,第一标注结果表征了该节点的真实识别结果;
将各个样本图像对应的最底层的节点输入至第一初始模型,得到每个样本图像对应的最底层中每个节点的预测识别结果;
根据各个样本图像对应的最底层中各节点的预测识别结果和第一标注结果,确定第一初始模型的第一损失值;
若第一损失值满足预设的第一训练结束条件,结束训练,并将训练结束时对应的第一初始模型作为最底层的节点识别模型,若第一损失值不满足第一训练结束条件,调整第一初始模型的参数,并基于调整后的参数重新对第一初始模型进行训练,直到第一损失值满足第一训练结束条件;
上述当前层对应的节点关系识别模型是通过以下方式训练得到的:
获取多个样本图像,多个样本图像包括包含不同类型的目标对象的图像;
对于每个样本图像,根据样本图像中的目标对象,对目标对象进行分层分解,得到至少两层的节点,将每层的各节点中具有关联关系的节点作为一个节点集,每个节点集对应一个第二标注结果,第二标注结果表征了该节点集中节点之间的真实关联关系,当前层为至少两层中的任一层;
对于每个样本图像对应的每层,分别将每个样本图像对应的该层的各节点集输入至第二初始模型,得到每个样本图像对应的该层中每个节点集对应的预测关系识别结果;
根据各个样本图像对应的该层中各节点集的预测关系识别结果和第二标注结果,确定第二初始模型的第二损失值;
若第二损失值满足预设的第二训练结束条件,结束训练,并将训练结束时对应的第二初始模型作为该层的节点关系识别模型,若第二损失值不满足第二训练结束条件,调整第二初始模型的参数,并基于调整后的参数重新对第二初始模型进行训练,直到第二损失值满足第二训练结束条件。
采用上述进一步方案的有益效果是,在模型训练时,采用不同类型的样本图像,可使得训练得到的节点识别模型对于不同类型的图像中的目标对象均能进行准确的识别,同样可使得训练得到节点关系识别模型对于不同类型的图像中的目标对象包含的各子对象之间的关联关系均能进行准确的识别。另外每一层对应一个节点关系识别模型,这样可以进一步提高节点之间的关联关系的识别的准确性。
进一步,在得到目标对象的识别结果后,还包括:
根据目标对象的识别结果,在待识别图像中标记出目标对象。
采用上述进一步方案的有益效果是,在得到目标对象的识别结果后,可在待识别图像中标记出目标对象,便于将目标对象与待识别图像中的其他对象进行区分。
本发明为了解决上述技术问题还提供了一种图像目标的识别装置,该装置包括:
图像获取模块,用于获取待识别图像,待识别图像中包括目标对象;
目标对象分解模块,用于对目标对象进行分层分解,得到至少两层的节点,至少两层包括最顶层和至少一个中低层,最顶层的父节点表征了目标对象,对于每个中低层,该中低层的上一层的各节点为该中低层的各子节点的父节点,对于每个所述中低层的每个子节点,该子节点表征了其父节点对应的对象的一部分,上述至少一个中低层包括最底层;
底层节点识别模块,用于识别出最底层的各节点的识别结果;
识别结果确定模块,用于将最底层作为当前层,重复执行以下步骤,直至当前层的上一层为最顶层,并根据预测得到的最顶层的节点的识别结果,确定目标对象的识别结果;
上述以下步骤包括:
识别出当前层的各节点之间的第一关联关系;
根据当前层的各节点的识别结果和第一关联关系,预测出当前层的上一层的各父节点的识别结果。
本发明为了解决上述技术问题还提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时实现本申请的图像目标的识别方法。
本发明为了解决上述技术问题还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本申请的图像目标的识别方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍。
图1为本发明一个实施例提供的一种图像目标的识别方法的流程示意图;
图2为本发明一个实施例提供的一种各层的节点以及节点之间的关联关系的示意图;
图3为本发明一个实施例提供的一种第二初始模型的结构示意图;
图4为本发明一个实施例提供的又一种各层的节点以及节点之间的关联关系的示意图;
图5为本发明一个实施例提供的一种图像目标的识别装置的结构示意图;
图6为本发明一个实施例提供的一种电子设备的结构示意图。
具体实施方式
以下对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
下面以具体实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
本发明实施例所提供的方案可以适用于任何需要识别图像中的目标对象的应用场景中。本发明实施例所提供的方案可以由任一电子设备执行,比如,可以是用户的终端设备,上述终端设备可以是任何可以安装应用,并可通过该应用实现目标对象识别的终端设备,包括以下至少一项:智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备。
本发明实施例提供了一种可能的实现方式,如图1所示,提供了一种图像目标的识别方法的流程图,该方案可以由任一电子设备执行,例如,可以是终端设备,或者由终端设备和服务器共同执行。为描述方便,下面将以服务器作为执行主体为例对本发明实施例提供的方法进行说明,如图1中所示的流程图,该方法可以包括以下步骤:
步骤S110,获取待识别图像,待识别图像中包括目标对象;
步骤S120,对目标对象进行分层分解,得到至少两层的节点,至少两层包括最顶层和至少一个中低层,最顶层的父节点表征了目标对象,对于每个中低层,该中低层的上一层的各节点为该中低层的各子节点的父节点,对于每个所述中低层的每个子节点,该子节点表征了其父节点对应的对象的一部分,所述至少一个中低层包括最底层;
步骤S130,识别出最底层的各节点的识别结果;
步骤S140,将最底层作为当前层,重复执行以下步骤,直至当前层的上一层为最顶层,并根据当前层的节点的识别结果,确定目标对象的识别结果;
上述以下步骤包括:
步骤S1401,识别出当前层的各节点之间的第一关联关系;
步骤S1402,根据当前层的各节点的识别结果和第一关联关系,预测出当前层的上一层的各父节点的识别结果。
通过本发明的方法,对于待识别图像中的目标对象,通过对该目标对象进行分层分解的到的各层的节点表征目标对象不同层级的特征,最顶层的节点表征目标对象的整体特征,中低层的节点表征目标对象的局部特征,通过对目标对象分层分解,减小了在对目标对象进行识别的时候,目标对象被遮挡的部分对未被遮挡部分的影响,从而在对目标对象识别的过程中,不依赖于目标对象的整体特征,即不受被遮挡部分的影响,基于目标对象的局部特征和各局部特征之间的关联关系,就可以实现对目标对象的准确识别。
下面结合以下具体的实施例,对本发明的方案进行进一步的说明,在该实施例中,图像目标的识别方法可以包括以下步骤:
步骤S110,获取待识别图像,待识别图像中包括目标对象。
其中,待识别图像指的是需要进行目标对象识别的图像,该图像可以是通过图像拍摄装置拍摄得到的,也可以是从数据库中获取的图像,还可以是用户上传的图像,本发明中不限定该待识别图像的获取方式,均在本发明的可选方案中。待识别图像中包括至少一个对象,目标对象可以是待识别图像中的任一对象,或者,也可以是同一类型的对象,目标对象指的是待识别图像中需要识别出的对象,该目标对象可以是一个完整的对象,也可以是一个完整对象中的一部分。比如,待识别对象中包括一个人,目标对象可以是这个人,也可以是这个人的面部,具体可基于实际应用场景确定目标对象。
目标对象可以是人,可以是车,可以是动物,在本发明的方案中,不限定目标对象的类型。目标对象可以是待识别图像中同一类型的对象,也可以是不同类型的对象。
在本发明的可选方案中,该待识别图像中的目标对象为有遮挡的对象。
目标对象有遮挡指的是有遮挡物将目标对象的部分遮挡住,使得在待识别图像中看不到被遮挡的部分。
步骤S120,对目标对象进行分层分解,得到至少两层的节点,至少两层包括最顶层和至少一个中低层,最顶层的节点表征了目标对象,对于每个中低层,该中低层的上一层的各节点为该中低层的各子节点的父节点,对于每个所述中低层的每个子节点,该子节点表征了其父节点对应的对象的一部分,上述至少一个中低层包括最底层,最底层的上一层包括最顶层。
其中,对目标对象进行分层分解指的是通过不同层的节点表征目标对象的整体以及局部特征,具体分为几层的节点可基于识别精度和数据计算量确定,层数越少,处理遮挡的能力越弱,计算量越小。可选的,可通过分层图结构对目标对象进行分层分解。
作为一个示例,比如,目标对象为人,最顶层的节点可以表征该人,如果最顶层和最底层之间有一个中间层,中间层的每个节点可以表征该人的各个部位,比如,四肢、躯体、脑袋等,最底层的各节点可以表征中间层对应的每个部位包含的子部位,比如,对于中间层对应的脑袋,最底层的各节点可以表征脑袋中的各子部位,比如,五官。
作为一个示例,参见图2所示的各层的节点以及节点之间的关联关系的示意图,在图2中,包括k类目标对象,分别为图像目标1、图像目标2至图像目标k,各层的节点可表示为:
其中,表示第0层的节点,k表示目标对象的标识,比如,k=1,表示为图像目标1在第0层对应的节点,表示图像中第k类图像目标的整体区域,表示中低层(第1层~最底层)的各节点,其中,为分层图结构中第j层中由第j-1层第n个节点分解出的第i个子节点,表示图像目标的局部区域。
步骤S130,识别出最底层的各节点的识别结果。
识别出最底层的各节点的识别结果指的是识别出最底层的节点表征的目标对象的各个子对象。
在本发明的可选方案中,可通过最底层的节点识别模型,识别出最底层的各节点的识别结果。上述节点识别模型的训练过程将在下文具体描述,在此不再赘述。
在本发明的可选方案中,对于最底层的每个节点,每个节点对应一个节点得分,对于每个节点,节点得分表征了该节点的识别结果,通过节点得分表征该节点的识别结果,节点得分越高,表明该节点的识别结果越准确。
步骤S140,将最底层作为当前层,重复执行以下步骤,直至当前层的上一层为最顶层,并根据当前层的节点的识别结果,确定目标对象的识别结果;
上述以下步骤包括:
步骤S1401,识别出当前层的各节点之间的第一关联关系;
步骤S1402,根据当前层的各节点的识别结果和第一关联关系,预测出当前层的上一层的各父节点的识别结果。
其中,上述步骤S1401具体可以包括:获取当前层对应的节点关系识别模型;根据节点关系识别模型,识别出当前层的各节点之间的第一关联关系。
对于分层分解得到的至少两层,由于每层的分解粒度不同,则每层可对应一个节点关系识别模型,通过该层的节点关系识别模型对该层的各节点之间的关联关系进行识别,可提高识别准确性。
其中,每层的节点关系识别模型的训练过程将在下文具体描述,在此不再赘述。
其中,对于当前层的具有关联关系的节点,具有关联关系的节点之间的第一关联关系可以为位置关系,比如,左腿右腿之间的位置关系,或者该第一关联关系可以是尺度关系,比如,大小、胖瘦等。
在本发明的可选方案中,对于至少两层中的每层的各个节点,该层中的具有关联关系的各节点之间的第一关联关系对应一个关系得分,对于具有关联关系的各节点,每个关系得分表征了该各节点之间的关联程度;通过关系得分表征该各节点之间的关联程度,关系得分越高,表明该各节点的关联性越强。
由于在本发明的方案中,通过至少两层的节点表征目标对象的整体和局部特征,则基于最底层的各节点的识别结果和各节点之间的第一关联关系可以准确预测出该最底层的上一层的各节点的识别结果,即使其中有的节点被遮挡,通过本发明的方案,可基于该被遮挡的节点的邻居节点(与该被遮挡的节点的关联性较强的节点)的识别结果和该被遮挡的节点和邻居节点之间的关联关系,还是可以准确的预测出该被遮挡的节点对应的上一层的节点的识别结果。
在本发明的可选方案中,上述根据当前层的各节点的识别结果和第一关联关系,预测出当前层的上一层的各父节点的识别结果,包括:
对属于同一个父节点的当前层的各个子节点对应的节点得分和各关系得分进行融合,得到识别得分,将识别得分作为该父节点的节点得分。
其中,对于当前层的上一层中的每个父节点,该父节点在当前层中可对应至少两个子节点,则基于当前层的各子节点中的,属于该当前层的上一层中的同一个父节点的各子节点的节点得分和各关系得分,可以预测出该父节点的节点得分。
在本发明的可选方案中,对属于同一个父节点的当前层的各个子节点对应的节点得分和各关系得分进行融合的一种可实现方式为:对于属于同一个父节点的当前层的各个子节点中的每个子节点,将该子节点的节点得分和该子节点的关系得分通过至少一个卷积层,得到该父节点对应的节点得分。
作为一个示例,参见图2中所示的各层节点的示例图,假设当前层为第2层,当前层的上一层为第1层,对于第1层的父节点该节点在第2层对应的各子节点为子节点和子节点为子节点和子节点之间的关联关系,则基于子节点的节点得分、子节点的节点得分和关联关系的关系得分,可以预测出父节点的节点得分。
在将上述基于子节点的节点得分、子节点的节点得分和关联关系的关系得分进行融合时,可将两个子节点得分先进行融合,得到一个融合后的节点得分,然后再将该融合后的节点得分与关联关系的关系得分进行融合,融合后的得分作为父节点的节点得分。
在本发明的可选方案中,在得到目标对象的识别结果后,还包括:
根据目标对象的识别结果,在待识别图像中标记出目标对象。
具体的,可在待识别图像中通过标记框标记出目标对象,本发明中不限定标记的具体实现形式,均在本发明的保护范围内。
在本发明的可选方案中,该方法还包括:
识别出最顶层的各节点的识别结果;
根据预测得到的最顶层的节点的识别结果,确定目标对象的识别结果的处理过程,包括:
根据预测得到的最顶层的节点的识别结果和识别得到的最顶层的各节点的识别结果,确定目标对象的识别结果。
在确定目标对象的识别结果时,结合预测得到的最顶层的节点的识别结果和识别得到的最顶层的各节点的识别结果,可使得目标对象的识别结果更加准确,在本发明的一可选方案中,可将上述两种方式得到的最顶层的节点的识别结果进行融合,得到目标对象的识别结果,其中,一种融合方式可以为加权融合,即配置两个最顶层的节点的识别结果的权重,通过不同的权重,表征不同方式确定得到的最顶层的节点的识别结果的重要程度。
其中,上述识别出最顶层的各节点的识别结果的一种可选实现方式为:
获取最顶层对应的节点识别模型,通过最顶层对应的节点识别模型识别出最顶层的各节点的识别结果。
若待识别图像中还包括其他对象,最顶层还包括其他对象对应的节点,在本发明的可选方案中,该方法还包括:
根据最顶层对应的节点关系识别模型,识别出最顶层的各节点之间的第二关联关系;
根据预测得到的最顶层的节点的识别结果和识别得到的最顶层的各节点的识别结果,确定目标对象的识别结果的处理过程,包括:
根据预测得到的最顶层的节点的识别结果、识别得到的最顶层的各节点的识别结果和最顶层的各节点之间的第二关联关系,确定目标对象的识别结果。
如果待识别图像中还包括其他对象,该其他对象与目标对象可以是同类型的对象,也可以是不同类型的对象。考虑到该目标对象与其他对象之间的关联关系,则在确定目标对象的识别结果时,可结合最顶层的各节点之间的第二关联关系,使得最终确定的目标对象的识别结果更加准确。
可选的,最顶层也可对应一个节点识别模型,则通过最顶层的节点识别模型可以识别出最顶层的节点的识别结果。
在本发明的可选方案中,上述最底层对应的节点识别模型是通过以下方式训练得到的:
获取多个样本图像,多个样本图像包括包含不同类型的目标对象的图像;
对于每个样本图像,根据样本图像中的目标对象,对目标对象进行分层分解,得到至少两层的节点,至少两层包括最底层,每一个节点对应一个第一标注结果,对于每个节点,第一标注结果表征了该节点的真实识别结果;
将各个样本图像对应的最底层的节点输入至第一初始模型,得到每个样本图像对应的最底层中每个节点的预测识别结果;
根据各个样本图像对应的最底层中各节点的预测识别结果和第一标注结果,确定第一初始模型的第一损失值;
若第一损失值满足预设的第一训练结束条件,结束训练,并将训练结束时对应的第一初始模型作为最底层的节点识别模型,若第一损失值不满足第一训练结束条件,调整第一初始模型的参数,并基于调整后的参数重新对第一初始模型进行训练,直到第一损失值满足第一训练结束条件。
其中,上述最顶层的节点识别模型的训练过程与最底层的节点识别模型的训练过程相同,在此不再赘述。
其中,对每个样本图像中的目标对象进行分层分解与前文对待识别图像中的目标对象的分层分解方式相同,在此不再赘述。分层得到的至少两层中包括最底层和至少一个中低层,最顶层的节点表征了目标对象,对于每个所述中低层,该中低层的上一层的各节点为该中低层的各子节点的父节点,对于每个所述中低层的每个子节点,该子节点表征了其父节点对应的对象的一部分,至少一个中低层包括最底层,最底层的上一层包括最顶层。
其中,上述预测识别结果可以通过节点得分表征,第一标注结果也可通过节点得分表征。
可选的,上述第一初始模型可以为全卷积神经网络,比如,Mask RCNN,也可以为其他神经网络模型,在本发明方案中不做限定。
作为一个示例,在第一初始模型为全卷积神经网络时,可通过全卷积神经网络{C0,CB}分别建模{N0,NB},即通过全卷积神经网络确定出各节点的识别结果。其中,C0表示第0层对应的卷积层,CB表示最底层B对应的卷积层,N0为第0层中所有节点的集合、NB为最底层B中所有节点的集合。在本发明方案中,各节点还可称为各图节点。
在本发明的可选方案中,当前层对应的节点关系识别模型是通过以下方式训练得到的:
获取多个样本图像,多个样本图像包括包含不同类型的目标对象的图像;
对于每个样本图像,根据样本图像中的目标对象,对目标对象进行分层分解,得到至少两层的节点,将每层的各节点中具有关联关系的节点作为一个节点集,每个节点集对应一个第二标注结果,第二标注结果表征了该节点集中两个节点之间的真实关联关系,当前层为至少两层中的任一层;
对于每个样本图像对应的每层,分别将每个样本图像对应的该层的各节点集输入至第二初始模型,得到每个样本图像对应的该层中每个节点集对应的预测关系识别结果;
根据各个样本图像对应的该层中各节点集的预测关系识别结果和第二标注结果,确定第二初始模型的第二损失值;
若第二损失值满足预设的第二训练结束条件,结束训练,并将训练结束时对应的第二初始模型作为该层的节点关系识别模型,若第二损失值不满足第二训练结束条件,调整第二初始模型的参数,并基于调整后的参数重新对第二初始模型进行训练,直到第二损失值满足第二训练结束条件。
其中,上述预测关系预测识别结果可以通过关系得分表征,第二标注结果也可通过关系得分表征。
其中,每一层都对应一个节点关系识别模型,则在训练时,需要基于每一层中各节点集对第二初始模型进行训练,得到每一层对应的节点关系识别模型。
在本发明的可选方案中,上述第二初始模型可以为Transformer网络,该第二初始模型包括依次串联的线性嵌入模块和Swin Transformer模块;
其中,线性嵌入模块用于将输入第二初始模型的各节点集中的每个节点转换为向量;Swin Transformer模块用于基于线性嵌入模块输出的各节点的向量,预测每个节点集对应的预测关系识别结果。
其中,Swin Transformer模块可以为至少两个,Swin Transformer模块的个数越多,学习到的关系更深层次,模型的精度越高。
作为一个示例,可参见图3所示的第二初始模型的结构示意图,在图3中,将一层的各节点(包括图3中所示的节点和节点)输入至线性嵌入模块,通过该线性嵌入模块将各节点转换为向量,然后通过两个Swin Transformer模块建立各个节点之间的关联关系,最终输出该层的各节点之间的关联关系。在本示例中,可通过关系计算得分图表征该层的各节点之间的关联关系。通常得分图可以是一个矩阵,矩阵中的每个元素表征一个关联关系,每个元素可以对应一个得分。
上述节点间关系模型为Transformer,即利用Transformer网络{T1,l≥0}分别建模{Rl,l≥0},Rl为第l层所有的节点间关系的集合。
为了更好的说明及理解本发明所提供的方法的原理,下面结合一个可选的具体实施例对本发明的方案进行说明。需要说明的是,该具体实施例中的各步骤的具体实现方式并不应当理解为对于本发明方案的限定,在本发明所提供的方案的原理的基础上,本领域技术人员能够想到的其他实现方式也应视为本发明的保护范围之内。
在描述该实施例中的目标对象识别方法之前,先介绍一下预先训练好的模型,最底层的节点识别模型为基于全卷积神经网络CB训练得到的,最底层的节点识别模型可表示为CB,最顶层的节点识别模型为基于全卷积神经网络C0训练得到的,最底层的节点识别模型可表示为C0。节点间关系模型为基于Transformer网络训练得到的,每一层对应一个节点关系识别模型,各层的节点关系识别模型可以表示为{Tl,l≥0},两个节点之间的关系关系可表示为Rl,Rl为第l层所有的节点间关系的集合。
参见图4中所示的各层的节点以及节点之间的关联关系的示意图,图4中虚线箭头部分示意处理,识别图像目标1的流程,以图4中的图像目标1作为目标对象,对目标对象识别方法进行具体的描述,该方法包括以下步骤:
步骤1,获取待识别图像,该待识别图像中包括3个类型的目标对象,分别为图像目标1、图像目标2和图像目标3,图4中的k=3。其中,图像目标1为人,图像目标2为狗,图像目标3为车。
步骤2,通过分层图结构G对目标对象(图像目标1)进行分层分解,图4中,第0层(最顶层的节点)可表示为节点节点和节点为第1层的节点,节点节点节点和节点为第2层的节点,在本示例中,将第2层作为最底层。节点和节点属于节点节点和节点属于节点节点和节点之间的关联关系为节点和节点之间的关联关系为节点和节点之间的关联关系为节点与其他对象(图像目标2)对应的节点之间的关联关系为R0。
步骤3,获取最底层的节点识别模型CB,通过该节点识别模型CB识别出最底层的节点和节点对应的节点得分图SB1,以及节点和节点对应的节点得分图SB2,然后获取最底层的节点关系识别模型TB,通过该节点关系识别模型TB识别出最底层的节点和节点之间的关系得分图MB1(关联关系对应的关系得分图),以及节点和节点之间的关系得分图MB2(关联关系对应的关系得分图),将节点得分图SB1和关系得分图MB1通过卷积层进行融合,得到得分图将该得分图作为第1层的节点的节点得分图,将节点得分图SB2和关系得分图MB2通过卷积层进行融合,得到得分图将该得分图作为第1层的节点的节点得分图。
步骤4,利用与步骤3相同的原理,对图4中的第1层(最底层)的节点和节点通过第2层对应的节点关系识别模型T2,识别出节点和节点之间的关联关系对应的关系得分图M1,然后基于节点的节点得分图节点的节点得分图和关系得分图M1,预测得到第0层节点的节点得分图p0。
步骤5,获取最顶层(图4中所示的第0层)对应的节点识别模型C0,通过该节点识别模型C0识别出节点的节点得分图S0,获取最顶层对应的节点关系识别模型T0,通过节点关系识别模型T0识别出节点与节点之间的关联关系R0对应的关系得分图M0,根据节点得分图S0、节点得分图pw和关系得分图M0(比如,将三个得分图进行融合处理),得到节点的识别结果。
通过本发明的方案,采用分层图结构G对图像中不同类型的目标对象进行了分层分解,通过分层分解图像目标(目标对象),减小了在对目标对象进行图像分割的时候,被遮挡目标对象的部分对未遮挡部分的影响,从而使本发明方法能够很好地适应目标遮挡的场景。另外,分层图结构中每层都建模节点间关系,较充分地考虑图像上下文,有利于图像目标的精细分割。
通过本发明的方案,基于与图1中所示的方法相同的原理,本发明实施例还提供了一种图像目标的识别装置20,如图5中所示,该图像目标的识别装置20可以包括图像获取模块210、目标对象分解模块220、节点识别模块230和识别结果确定模块240,其中:
图像获取模块210,用于获取待识别图像,待识别图像中包括目标对象;
目标对象分解模块220,用于对目标对象进行分层分解,得到至少两层的节点,至少两层包括最顶层和至少一个中低层,最顶层的父节点表征了目标对象,对于每个中低层,该中低层的上一层的各节点为该中低层的各子节点的父节点,对于每个所述中低层的每个子节点,该子节点表征了其父节点对应的对象的一部分,所述至少一个中低层包括最底层;
底层节点识别模块230,用于识别出最底层的各节点的识别结果;
识别结果确定模块240,用于将最底层作为当前层,重复执行以下步骤,直至当前层的上一层为最顶层,并根据预测得到的最顶层的节点的识别结果,确定目标对象的识别结果;
上述以下步骤包括:
识别出当前层的各节点之间的第一关联关系;
根据当前层的各节点的识别结果和第一关联关系,预测出当前层的上一层的各父节点的识别结果。
可选的,对于最底层的每个节点,每个节点对应一个节点得分,对于至少两层中的每层的各个节点,该层中具有关联关系的各节点之间的第一关联关系对应一个关系得分,对于每个节点,节点得分表征了该节点的识别结果,对于具有关联关系的节点,每个关系得分表征了该各节点之间的关联程度;
上述识别结果确定模块240在根据当前层的各节点的识别结果和第一关联关系,预测出当前层的上一层的各父节点的识别结果时,具体用于:
对属于同一个父节点的当前层的各个子节点对应的节点得分和各关系得分进行融合,得到识别得分,将识别得分作为该父节点的节点得分。
可选的,上述底层节点识别模块230在识别出最底层的各节点的识别结果时,具体用于:
获取最底层对应的节点识别模型;
根据最底层对应的节点识别模型,识别出最底层的各节点的识别结果;
上述识别结果确定模块240在识别出当前层的各节点之间的第一关联关系时,具体用于:
获取当前层对应的节点关系识别模型;
根据当前层对应的节点关系识别模型,识别出当前层的各节点之间的第一关联关系。
可选的,该装置还包括:
顶层节点识别模块,用于识别出最顶层的各节点的识别结果;
上述识别结果确定模块240在根据预测得到的最顶层的节点的识别结果,确定目标对象的识别结果时,具体用于:
根据预测得到的最顶层的节点的识别结果和识别得到的最顶层的各节点的识别结果,确定目标对象的识别结果。
可选的,若待识别图像中还包括其他对象,上述最顶层还包括其他对象对应的节点,该装置还包括:
关联关系识别模块,用于获取最顶层对应的节点关系识别模型;根据最顶层对应的节点关系识别模型,识别出最顶层的各节点之间的第二关联关系;
上述识别结果确定模块240在根据预测得到的最顶层的节点的识别结果和识别得到的最顶层的各节点的识别结果,确定目标对象的识别结果时,具体用于:
根据预测得到的最顶层的节点的识别结果、识别得到的最顶层的各节点的识别结果和最顶层的各节点之间的第二关联关系,确定目标对象的识别结果。
可选的,最底层对应的节点识别模型是通过以下方式训练得到的:
获取多个样本图像,多个样本图像包括包含不同类型的目标对象的图像;
对于每个样本图像,根据样本图像中的目标对象,对目标对象进行分层分解,得到至少两层的节点,至少两层包括最底层,每一个节点对应一个第一标注结果,对于每个节点,第一标注结果表征了该节点的真实识别结果;
将各个样本图像对应的最底层的节点输入至第一初始模型,得到每个样本图像对应的最底层中每个节点的预测识别结果;
根据各个样本图像对应的最底层中各节点的预测识别结果和第一标注结果,确定第一初始模型的第一损失值;
若第一损失值满足预设的第一训练结束条件,结束训练,并将训练结束时对应的第一初始模型作为最底层的节点识别模型,若第一损失值不满足第一训练结束条件,调整第一初始模型的参数,并基于调整后的参数重新对第一初始模型进行训练,直到第一损失值满足第一训练结束条件;
上述当前层对应的节点关系识别模型是通过以下方式训练得到的:
获取多个样本图像,多个样本图像包括包含不同类型的目标对象的图像;
对于每个样本图像,根据样本图像中的目标对象,对目标对象进行分层分解,得到至少两层的节点,将每层的各节点中具有关联关系的节点作为一个节点集,每个节点集对应一个第二标注结果,第二标注结果表征了该节点集中两个节点之间的真实关联关系,当前层为至少两层中的任一层;
对于每个样本图像对应的每层,分别将每个样本图像对应的该层的各节点集输入至第二初始模型,得到每个样本图像对应的该层中每个节点集对应的预测关系识别结果;
根据各个样本图像对应的该层中各节点集的预测关系识别结果和第二标注结果,确定第二初始模型的第二损失值;
若第二损失值满足预设的第二训练结束条件,结束训练,并将训练结束时对应的第二初始模型作为该层的节点关系识别模型,若第二损失值不满足第二训练结束条件,调整第二初始模型的参数,并基于调整后的参数重新对第二初始模型进行训练,直到第二损失值满足第二训练结束条件。
可选的,在得到目标对象的识别结果后,该装置还包括:
标记模块,用于根据目标对象的识别结果,在待识别图像中标记出目标对象。
本发明实施例的图像目标的识别装置可执行本发明实施例所提供的图像目标的识别方法,其实现原理相类似,本发明各实施例中的图像目标的识别装置中的各模块、单元所执行的动作是与本发明各实施例中的图像目标的识别方法中的步骤相对应的,对于图像目标的识别装置的各模块的详细功能描述具体可以参见前文中所示的对应的图像目标的识别方法中的描述,此处不再赘述。
其中,上述图像目标的识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像目标的识别装置为一个应用软件;该装置可以用于执行本发明实施例提供的方法中的相应步骤。
在一些实施例中,本发明实施例提供的图像目标的识别装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的图像目标的识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的图像目标的识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable LogicDevice)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在另一些实施例中,本发明实施例提供的图像目标的识别装置可以采用软件方式实现,图5示出了存储在存储器中的图像目标的识别装置,其可以是程序和插件等形式的软件,并包括一系列的模块,包括图像获取模块210、目标对象分解模块220、节点识别模块230和识别结果确定模块240,用于实现本发明实施例提供的图像目标的识别方法。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
基于与本发明的实施例中所示的方法相同的原理,本发明的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机程序;处理器,用于通过调用计算机程序执行本发明任一实施例所示的方法。
在一个可选实施例中提供了一种电子设备,如图6所示,图6所示的电子设备30包括:处理器310和存储器330。其中,处理器310和存储器330相连,如通过总线320相连。可选地,电子设备30还可以包括收发器340,收发器340可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器340不限于一个,该电子设备30的结构并不构成对本发明实施例的限定。
处理器310可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器310也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线320可包括一通路,在上述组件之间传送信息。总线320可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线320可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器330可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器330用于存储执行本发明方案的应用程序代码(计算机程序),并由处理器310来控制执行。处理器310用于执行存储器330中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备也可以是终端设备,图6示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
根据本发明的另一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种实施例实现方式中提供的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
应该理解的是,附图中的流程图和框图,图示了按照本发明各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种图像目标的识别方法,其特征在于,包括以下步骤:
获取待识别图像,所述待识别图像中包括目标对象;
对所述目标对象进行分层分解,得到至少两层的节点,所述至少两层包括最顶层和至少一个中低层,所述最顶层的父节点表征了所述目标对象,对于每个所述中低层,该中低层的上一层的各节点为该中低层的各子节点的父节点,对于每个所述中低层的每个子节点,该子节点表征了其父节点对应的对象的一部分,所述至少一个中低层包括最底层;
识别出所述最底层的各节点的识别结果;
将所述最底层作为当前层,重复执行以下步骤,直至所述当前层的上一层为所述最顶层,并根据预测得到的所述最顶层的节点的识别结果,确定所述目标对象的识别结果;
所述以下步骤包括:
识别出所述当前层的各节点之间的第一关联关系;
根据所述当前层的各节点的识别结果和所述第一关联关系,预测出所述当前层的上一层的各父节点的识别结果。
2.根据权利要求1所述的方法,其特征在于,对于所述最底层的每个节点,每个所述节点对应一个节点得分,对于所述至少两层中的每层的各个节点,该层中具有关联关系的各节点之间的第一关联关系对应一个关系得分,对于每个节点,所述节点得分表征了该节点的识别结果,对于具有关联关系的各节点,每个所述关系得分表征了该各节点之间的关联程度;
所述根据所述当前层的各节点的识别结果和所述第一关联关系,预测出所述当前层的上一层的各父节点的识别结果,包括:
对属于同一个父节点的所述当前层的各个子节点对应的节点得分和各关系得分进行融合,得到识别得分,将所述识别得分作为该父节点的节点得分。
3.根据权利要求1所述的方法,其特征在于,所述识别出所述最底层的各节点的识别结果,包括:
获取所述最底层对应的节点识别模型;
根据所述最底层对应的节点识别模型,识别出所述最底层的各节点的识别结果;
所述识别出所述当前层的各节点之间的第一关联关系,包括:
获取所述当前层对应的节点关系识别模型;
根据所述当前层对应的节点关系识别模型,识别出所述当前层的各节点之间的第一关联关系。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
识别出所述最顶层的节点的识别结果;
所述根据预测得到的所述最顶层的节点的识别结果,确定所述目标对象的识别结果的处理过程,包括:
根据预测得到的所述最顶层的节点的识别结果和识别得到的所述最顶层的节点的识别结果,确定所述目标对象的识别结果。
5.根据权利要求4所述的方法,其特征在于,若所述待识别图像中还包括其他对象,所述最顶层还包括其他对象对应的节点,所述方法还包括:
获取所述最顶层对应的节点关系识别模型;
根据所述最顶层对应的节点关系识别模型,识别出所述最顶层的各节点之间的第二关联关系;
所述根据预测得到的所述最顶层的节点的识别结果和识别得到的所述最顶层的节点的识别结果,确定所述目标对象的识别结果的处理过程,包括:
根据预测得到的所述最顶层的节点的识别结果、识别得到的所述最顶层的节点的识别结果和所述最顶层的各节点之间的第二关联关系,确定所述目标对象的识别结果。
6.根据权利要求3所述的方法,其特征在于,所述最底层对应的节点识别模型是通过以下方式训练得到的:
获取多个样本图像,所述多个样本图像包括包含不同类型的目标对象的图像;
对于每个样本图像,根据所述样本图像中的目标对象,对所述目标对象进行分层分解,得到至少两层的节点,所述至少两层包括最底层,每一个节点对应一个第一标注结果,对于每个节点,所述第一标注结果表征了该节点的真实识别结果;
将各个所述样本图像对应的最底层的节点输入至第一初始模型,得到每个所述样本图像对应的最底层中每个节点的预测识别结果;
根据各个所述样本图像对应的最底层中各节点的预测识别结果和第一标注结果,确定所述第一初始模型的第一损失值;
若所述第一损失值满足预设的第一训练结束条件,结束训练,并将训练结束时对应的第一初始模型作为所述最底层的节点识别模型,若所述第一损失值不满足所述第一训练结束条件,调整所述第一初始模型的参数,并基于调整后的参数重新对所述第一初始模型进行训练,直到所述第一损失值满足所述第一训练结束条件;
所述当前层对应的节点关系识别模型是通过以下方式训练得到的:
获取多个样本图像,所述多个样本图像包括包含不同类型的目标对象的图像;
对于每个样本图像,根据所述样本图像中的目标对象,对所述目标对象进行分层分解,得到至少两层的节点,将每层的各节点中具有关联关系的节点作为一个节点集,每个节点集对应一个第二标注结果,所述第二标注结果表征了该节点集中节点之间的真实关联关系,所述当前层为所述至少两层中的任一层;
对于每个样本图像对应的每层,分别将每个所述样本图像对应的该层的各节点集输入至第二初始模型,得到每个所述样本图像对应的该层中每个节点集对应的预测关系识别结果;
根据各个所述样本图像对应的该层中各节点集的预测关系识别结果和第二标注结果,确定所述第二初始模型的第二损失值;
若所述第二损失值满足预设的第二训练结束条件,结束训练,并将训练结束时对应的第二初始模型作为该层的节点关系识别模型,若所述第二损失值不满足所述第二训练结束条件,调整所述第二初始模型的参数,并基于调整后的参数重新对所述第二初始模型进行训练,直到所述第二损失值满足所述第二训练结束条件。
7.根据权利要求1至3中任一项所述的方法,其特征在于,在得到所述目标对象的识别结果后,还包括:
根据所述目标对象的识别结果,在所述待识别图像中标记出所述目标对象。
8.一种图像目标的识别装置,其特征在于,包括:
图像获取模块,用于获取待识别图像,所述待识别图像中包括目标对象;
目标对象分解模块,用于对所述目标对象进行分层分解,得到至少两层的节点,所述至少两层包括最顶层和至少一个中低层,所述最顶层的父节点表征了所述目标对象,对于每个所述中低层,该中低层的上一层的各节点为该中低层的各子节点的父节点,对于每个所述中低层的每个子节点,该子节点表征了其父节点对应的对象的一部分,所述至少一个中低层包括最底层;
底层节点识别模块,用于识别出所述最底层的各节点的识别结果;
识别结果确定模块,用于将所述最底层作为当前层,重复执行以下步骤,直至所述当前层的上一层为所述最顶层,并根据预测得到的所述最顶层的节点的识别结果,确定所述目标对象的识别结果;
所述以下步骤包括:
识别出所述当前层的各节点之间的第一关联关系;
根据所述当前层的各节点的识别结果和所述第一关联关系,预测出所述当前层的上一层的各父节点的识别结果。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111522242.3A CN114155417B (zh) | 2021-12-13 | 2021-12-13 | 图像目标的识别方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111522242.3A CN114155417B (zh) | 2021-12-13 | 2021-12-13 | 图像目标的识别方法、装置、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114155417A true CN114155417A (zh) | 2022-03-08 |
CN114155417B CN114155417B (zh) | 2022-07-19 |
Family
ID=80450685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111522242.3A Active CN114155417B (zh) | 2021-12-13 | 2021-12-13 | 图像目标的识别方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114155417B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116245882A (zh) * | 2023-05-11 | 2023-06-09 | 深圳市世宗自动化设备有限公司 | 电路板电子元件检测方法、装置及计算机设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018166114A1 (zh) * | 2017-03-13 | 2018-09-20 | 平安科技(深圳)有限公司 | 图片识别的方法、系统、电子装置及介质 |
CN111179304A (zh) * | 2018-11-09 | 2020-05-19 | 北京京东尚科信息技术有限公司 | 目标关联方法、装置和计算机可读存储介质 |
CN111444334A (zh) * | 2019-01-16 | 2020-07-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
US20200250461A1 (en) * | 2018-01-30 | 2020-08-06 | Huawei Technologies Co., Ltd. | Target detection method, apparatus, and system |
CN112329772A (zh) * | 2020-11-06 | 2021-02-05 | 浙江大搜车软件技术有限公司 | 车辆部件识别方法、装置、电子装置和存储介质 |
CN112668462A (zh) * | 2020-12-25 | 2021-04-16 | 平安科技(深圳)有限公司 | 车损检测模型训练、车损检测方法、装置、设备及介质 |
CN113011282A (zh) * | 2021-02-26 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 图数据处理方法、装置、电子设备及计算机存储介质 |
CN113435522A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 图像分类方法、装置、设备及存储介质 |
WO2021190115A1 (zh) * | 2020-03-25 | 2021-09-30 | 北京沃东天骏信息技术有限公司 | 检索目标的方法和装置 |
CN113722600A (zh) * | 2021-09-06 | 2021-11-30 | 阿波罗智联(北京)科技有限公司 | 应用于大数据的数据查询方法、装置、设备及产品 |
CN113779960A (zh) * | 2021-09-26 | 2021-12-10 | 挂号网(杭州)科技有限公司 | 文本特征确定方法、装置、设备及介质 |
-
2021
- 2021-12-13 CN CN202111522242.3A patent/CN114155417B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018166114A1 (zh) * | 2017-03-13 | 2018-09-20 | 平安科技(深圳)有限公司 | 图片识别的方法、系统、电子装置及介质 |
US20200250461A1 (en) * | 2018-01-30 | 2020-08-06 | Huawei Technologies Co., Ltd. | Target detection method, apparatus, and system |
CN111179304A (zh) * | 2018-11-09 | 2020-05-19 | 北京京东尚科信息技术有限公司 | 目标关联方法、装置和计算机可读存储介质 |
CN111444334A (zh) * | 2019-01-16 | 2020-07-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
WO2021190115A1 (zh) * | 2020-03-25 | 2021-09-30 | 北京沃东天骏信息技术有限公司 | 检索目标的方法和装置 |
CN112329772A (zh) * | 2020-11-06 | 2021-02-05 | 浙江大搜车软件技术有限公司 | 车辆部件识别方法、装置、电子装置和存储介质 |
CN112668462A (zh) * | 2020-12-25 | 2021-04-16 | 平安科技(深圳)有限公司 | 车损检测模型训练、车损检测方法、装置、设备及介质 |
CN113011282A (zh) * | 2021-02-26 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 图数据处理方法、装置、电子设备及计算机存储介质 |
CN113435522A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 图像分类方法、装置、设备及存储介质 |
CN113722600A (zh) * | 2021-09-06 | 2021-11-30 | 阿波罗智联(北京)科技有限公司 | 应用于大数据的数据查询方法、装置、设备及产品 |
CN113779960A (zh) * | 2021-09-26 | 2021-12-10 | 挂号网(杭州)科技有限公司 | 文本特征确定方法、装置、设备及介质 |
Non-Patent Citations (4)
Title |
---|
JIALIAN WU 等: ""Forest R-CNN: Large-Vocabulary Long-Tailed Object Detection and Instance Segmentation"", 《MM "20: PROCEEDINGS OF THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
TAO WANG 等: ""End-to-end text recognition with convolutional neural networks"", 《PROCEEDINGS OF THE 21ST INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR2012)》 * |
张青芳: ""基于调控范围语义相似性的致病基因预测方法"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
杨春: ""复杂场景文本识别技术研究"", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116245882A (zh) * | 2023-05-11 | 2023-06-09 | 深圳市世宗自动化设备有限公司 | 电路板电子元件检测方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114155417B (zh) | 2022-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN108764133B (zh) | 图像识别方法、装置及系统 | |
CN114358203B (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN114926835A (zh) | 文本生成、模型训练方法和装置 | |
CN114049512A (zh) | 模型蒸馏方法、目标检测方法、装置及电子设备 | |
US20240019777A1 (en) | Training method and apparatus for lithographic mask generation model, device and storage medium | |
CN112712068B (zh) | 一种关键点检测方法、装置、电子设备及存储介质 | |
CN113837257A (zh) | 一种目标检测方法及装置 | |
CN114067294B (zh) | 一种基于文本特征融合的细粒度车辆识别系统及方法 | |
CN114170654A (zh) | 年龄识别模型的训练方法、人脸年龄识别方法及相关装置 | |
CN114155417B (zh) | 图像目标的识别方法、装置、电子设备及计算机存储介质 | |
CN113747168A (zh) | 多媒体数据描述模型的训练方法和描述信息的生成方法 | |
CN116152933A (zh) | 一种异常检测模型的训练方法、装置、设备及存储介质 | |
CN114359618A (zh) | 神经网络模型的训练方法、电子设备及计算机程序产品 | |
CN110889290B (zh) | 文本编码方法和设备、文本编码有效性检验方法和设备 | |
KR102413588B1 (ko) | 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램 | |
CN117011569A (zh) | 一种图像处理方法和相关装置 | |
CN116230146A (zh) | 数据处理方法、icd编码模型的训练方法及相关设备 | |
CN113779159A (zh) | 模型训练、论元检测方法、装置、电子设备及存储介质 | |
CN114626376A (zh) | 文本分类模型的训练方法、装置及文本分类方法 | |
CN116777814A (zh) | 图像处理方法、装置、计算机设备、存储介质及程序产品 | |
CN115393914A (zh) | 多任务模型训练方法、装置、设备及存储介质 | |
CN113191401A (zh) | 基于视觉显著性共享的用于三维模型识别的方法及装置 | |
CN113033212B (zh) | 文本数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |