CN113516088B

CN113516088B - 物体识别方法、装置及计算机可读存储介质

Info

Publication number: CN113516088B
Application number: CN202110834898.2A
Authority: CN
Inventors: 赵鲁; 浦贵阳; 程耀
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2024-02-27
Anticipated expiration: 2041-07-22
Also published as: CN113516088A

Abstract

本发明公开了一种物体识别方法、装置及计算机可读存储介质，所述物体识别方法包括：获取包含目标物体的待识别图像；对所述待识别图像进行特征提取，并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息；根据所述第一类别信息以及位置信息确定所述目标物体的目标图像；对所述目标图像进行特征提取，并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息，其中，所述第二类别信息为所述第一类别信息的子类别信息。本发明能够识别物体的具体类别。

Description

物体识别方法、装置及计算机可读存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种物体识别方法、装置及计算机可读存储介质。

背景技术

随着互联网+产业与移动端技术的发展，软件产品的研发对用户体验提出了更高的要求，就物体识别领域而言，对物体进行粗分类，识别物体所属的大类，已无法支撑当今的智能应用场景。例如，对于宠物识别而言，识别猫、狗等宠物大类的能力已无法满足应用场景对于用户体验的要求，交互场景下需要的是更细致的分类结果，比如输出柯基犬、波斯猫等具体类别。因此，物体识别算法应具备更细粒度的识别能力，满足更细腻的用户交互需求，现有的物体识别方法多是利用检测技术与识别技术对物体进行粗分类，只能识别出物体所属的大类，物体识别的分类太过宽泛，不能识别物体所属的具体类别。

发明内容

本发明的主要目的在于提供一种物体识别方法、装置及计算机可读存储介质，旨在识别物体所属的具体类别。

为实现上述目的，本发明提供一种物体识别方法，所述物体识别方法包括：

获取包含目标物体的待识别图像；

对所述待识别图像进行特征提取，并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息；

根据所述第一类别信息以及位置信息确定所述目标物体的目标图像；

对所述目标图像进行特征提取，并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息，其中，所述第二类别信息为所述第一类别信息的子类别信息。

在一实施例中，所述对所述目标图像进行特征提取，并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括：

在所述目标图像上提取多个候选区域，并对提取的多个所述候选区域进行过滤以去除冗余候选区域；

获取过滤后的各个所述候选区域包含所述目标物体的第一概率；

根据所述第一概率确定预设数量的目标候选区域，其中，所述目标候选区域包含所述目标物体的第一概率大于除所述目标候选区域外其他候选区域包含所述目标物体的第一概率；

对各个所述目标候选区域进行特征提取，并根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息。

在一实施例中，所述根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息的步骤包括：

将提取的各个所述目标候选区域的特征与所述目标图像的特征进行拼接得到所述目标物体的目标特征；

根据所述目标特征确定所述目标物体属于所述第一类别信息下各个子类别信息的第二概率；

将第二概率最大的子类别信息确定为所述目标物体的第二类别信息。

在一实施例中，所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像的步骤包括：

获取所述待识别图像的中心位置；

根据所述中心位置、所述位置信息以及所述第一类别信息在所述待识别图像中确定所述目标物体的目标图像。

在一实施例中，所述待识别图像包括多个所述目标物体，所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像的步骤包括：

根据各个所述目标物体的第一类别信息以及位置信息对所述待识别图像进行分割处理得到各个所述目标物体的目标图像；

其中，所述对所述目标图像进行特征提取，并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括：

将分割处理后的各个所述目标图像分配至各个所述目标物体的第一类别信息对应的识别网络进行特征提取，根据提取的各个所述目标图像的特征确定各个所述目标物体的第二类别信息。

在一实施例中，所述根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息的步骤包括：

对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征；

根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。

在一实施例中，所述获取包含目标物体的待识别图像的步骤包括：

获取包含目标物体的原始图像；

对所述原始图像进行正确性校验，并将通过校验后的所述原始图像转换为RGB图像；

对所述RGB图像进行归一化处理得到包含目标物体的待识别图像。

此外，为实现上述目的，本发明还提供一种物体识别装置，所述物体识别装置包括：

获取模块，用于获取包含目标物体的待识别图像；

第一特征提取模块，用于对所述待识别图像进行特征提取，并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息；

确定模块，用于根据所述第一类别信息以及位置信息确定所述目标物体的目标图像；

第二特征提取模块，用于对所述目标图像进行特征提取，并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息，其中，所述第二类别信息为所述第一类别信息的子类别信息。

此外，为实现上述目的，本发明还提供一种物体识别装置，所述物体识别装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的物体识别程序，所述物体识别程序被所述处理器执行时实现上述任一项所述的物体识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有物体识别程序，所述物体识别程序被处理器执行时实现上述任一项所述的物体识别方法的步骤。

本发明提出了一种物体识别方法、装置及计算机可读存储介质，物体识别装置通过获取包含目标物体的待识别图像，对待识别图像进行特征提取，并根据提取的待识别图像的特征确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息，根据第一类别信息以及位置信息确定目标物体的目标图像，对目标图像进行特征提取，并根据提取的目标图像的特征确定目标物体的第二类别信息，其中，第二类别信息为第一类别信息的子类别信息。本方案通过两次异步特征提取的方式，在识别物体大类的情况下进一步特征提取得到物体的具体类别，从而实现对物体具体类别的准确识别。

附图说明

图1是本发明实施例方案涉及的物体识别装置的硬件架构示意图；

图2是本发明物体识别方法的第一实施例的流程示意图；

图3是本发明物体识别方法的第二实施例的流程示意图；

图4是本发明物体识别方法的第三实施例的流程示意图；

图5是本发明物体识别方法的第四实施例的流程示意图；

图6是本发明实施例方案涉及的物体识别装置的模块结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

作为一种实现方案，参照图1，图1是本发明实施例方案涉及的物体识别装置的硬件架构示意图，如图1所示，该物体识别装置可以包括处理器101，例如CPU，存储器102，通信总线103，其中，通信总线103用于实现这些模块之间的连接通信。

存储器102可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。如图1所示，作为一种计算机可读存储介质的存储器102中可以包括物体识别程序；而处理器101可以用于调用存储器102中存储的物体识别程序，并执行以下操作：

获取包含目标物体的待识别图像；

在一实施例中，处理器101可以用于调用存储器102中存储的物体识别程序，并执行以下操作：

获取所述待识别图像的中心位置；

获取包含目标物体的原始图像；

参照图2，图2是本发明物体识别方法的第一实施例的流程示意图，所述物体识别方法包括：

步骤S10，获取包含目标物体的待识别图像；

在本实施例中，物体识别方法的执行主体是物体识别装置，其中，物体识别装置是指可以检测物体类别的设备，物体识别装置可以是具有物体识别功能的终端设备，例如计算机、平板电脑或者手机等，在其他实施例中，物体识别装置也可以根据实际情况确定，本实施例对此不作限定。

在本实施例中，物体识别装置获取包含目标物体的待识别图像，待识别图像可选为RGB图像，物体识别装置可以通过自带的摄像模块拍摄包含目标物体的图像，物体识别装置也可以通过与其它摄像设备建立通信连接，接收其它摄像设备拍摄到的包含目标物体的图像，物体识别装置可以将获取到的图像转换为RGB图像得到待识别图像，需要说明的是，物体识别装置也可以直接接收经第三方处理设备处理后的RGB图像得到待识别图像。

在本实施例中，待识别图像包含目标物体，目标物体是指物体识别装置需要识别的对象，目标物体可以是动物，例如，目标物体可以是猫、狗或者鸟等，在其他实施例中，目标物体可以根据实际情况确定，本实施例对此不作限定。

可选地，物体识别装置可以通过摄像模块对目标物体进行拍摄或者接收摄像设备拍摄的包含目标物体的图像得到包含目标物体的原始图像，其中，原始图像是指物体识别装置拍摄的未经任何图像处理操作的图像，物体识别装置获取到原始图像后，对原始图像进行正确性校验，物体识别装置将通过校验后的原始图像转换为RGB图像，然后对RGB图像进行归一化处理得到待识别图像，其中，正确性校验是指利用常用图像处理工具(如Pillow,opencv等工具)打开原始图像，若原始图像能正常打开，则原始图像的正确性校验通过，反之，原始图像的正确性校验不通过，在原始图像的正确性不通过时，返回错误信息。

步骤S20，对所述待识别图像进行特征提取，并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息；

具体地，物体识别装置获取到目标物体的待识别图像后，将待识别图像输入到物体检测模块，通过物体检测模块对待识别图像进行特征提取，根据提取的待识别图像的特征确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息。其中，目标物体的第一类别信息是指目标物体所属的大类，例如，若待识别图像中的目标物体为柯基犬，其所属的大类为狗，则待识别图像经过物体检测模块特征提取后，可以输出目标物体的第一类别信息为狗类；目标物体在待识别图像中的位置信息是指目标物体在待识别图像中所处的位置坐标，待识别图像经过物体检测模块特征提取后，可以输出目标物体在待识别图像中的位置坐标。需要说明的是，物体检测模块可以根据实际需要选取合适的网络模型搭建，本实施例对此不作限定。

步骤S30，根据所述第一类别信息以及位置信息确定所述目标物体的目标图像；

具体地，物体识别装置得到目标物体的第一类别信息以及目标物体在待识别图像中的位置信息后，获取待识别图像的中心位置，根据待识别图像的中心位置、目标物体的第一类别信息以及目标物体的位置信息对待识别图像进行分割处理得到目标物体的目标图像，其中，目标图像是指待识别图像的局部区域的图像，目标图像包含目标物体，且目标图像的面积小于或等于待识别图像的面积。

步骤S40，对所述目标图像进行特征提取，并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息，其中，所述第二类别信息为所述第一类别信息的子类别信息。

具体地，物体识别装置得到目标图像后，将目标图像输入物体细分类模块，通过物体细分类模块对目标图像进行特征提取，根据提取的目标图像的特征确定目标物体的第二类别信息，其中，目标物体的第二类别信息是指目标物体的第一类别信息下的子类别信息，也即第二类别信息是指目标物体的具体类别信息。例如，若待识别图像中的目标物体为柯基犬，目标物体的第一类别信息为狗，目标物体的第二类别信息为狗的具体类别：柯基犬，物体识别装置将目标物体的目标图像输入物体细分类模块后，可以输出目标物体的第二类别信息为柯基犬。物体细分类模块可以根据实际情况选取合适的网络模型搭建，本实施例对此不作限定。

需要说明的是，目标物体的第一类别信息下包括多个子类别信息，例如，第一类别信息为狗，则第一类别信息下的子类别信息可以包括柯基犬、哈士奇、泰迪、柴犬、金毛等狗的具体类别。

进一步地，物体识别装置得到目标物体的第二类别信息后，可以将第二类别信息映射到待识别图像并输出显示。

本实施例提供的技术方案中，物体识别装置通过获取包含目标物体的待识别图像，先对待识别图像进行特征提取，并根据提取的待识别图像的特征确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息，根据第一类别信息以及位置信息确定目标物体的目标图像，然后对目标图像进行特征提取，并根据提取的目标图像的特征确定目标物体的第二类别信息，其中，第二类别信息为第一类别信息的子类别信息。本方案通过两次异步特征提取的方式，在识别物体大类的情况下进一步特征提取得到物体的具体类别，从而实现对物体具体类别的准确识别。

参照图3，图3是本发明物体识别方法的第二实施例的流程示意图，基于第一实施例，上述S40的步骤包括：

步骤S41，在所述目标图像上提取多个候选区域，并对提取的多个所述候选区域进行过滤以去除冗余候选区域；

在本实施例中，物体识别装置得到目标物体的目标图像后，将目标图像输入物体细分类模块进行特征提取，其中，物体细分类模块可以采用NTS-Net(Navigator-Teacher-Scrutinizer Network)作为细粒度分类引擎。NTS网络架构主要由Navigator agent，Teacher agent和Scrutinizer agent三部分组成，目标图像输入物体细分类模块后，通过NTS网络架构的Navigator agent在目标图像上提取多个候选区域，并对提取的候选区域进行过滤以去除冗余候选区域，其中，候选区域是指在目标图像上框选的区域，每个候选区域的面积小于目标图像的面积。

具体地，Navigator agent通过改进的anchor机制提取多个候选区域，并通过NMS(non-maximum suppression)对冗余的候选区域进行过滤以去除冗余候选区域得到一组过滤后的候选区域：

{R′₁,R′₂,...,R′_A}

其中，R’_A表示第A个候选区域。需要说明的是，Navigator agent的anchor机制提取的候选区域共有{48，96，192}三种尺寸以及{2:3，1:1，3:2}三种比例。

步骤S42，获取过滤后的各个所述候选区域包含所述目标物体的第一概率；

在本实施例中，物体细分类检测模块的Navigator agent得到过滤后的候选区域后，获取各个候选区域包含目标物体的第一概率I(R_A)，其中,第一概率是指各个候选区域包含目标物体的可能性，第一概率用于判断候选区域是否包含有目标物体以及包含多少目标物体。

具体地，物体细分类模块的Navigator agent获取各个候选区域包含目标物体的信息量，根据信息量确定各个候选区域包含目标物体的概率。

步骤S43，根据所述第一概率确定预设数量的目标候选区域，其中，所述目标候选区域包含所述目标物体的第一概率大于除所述目标候选区域外其他候选区域包含所述目标物体的第一概率；

在本实施例中，物体细分类模块的Navigator agent得到各个候选区域包含目标物体的第一概率后，根据第一概率确定预设数量的目标候选区域，其中，预设数量可以根据实际需要设定，本实施例对此不作限定。

具体地，物体细分类模块的Navigator agent得到各个候选区域包含目标物体的第一概率后，对各个候选区域包含目标物体的第一概率进行排序：

I(R₁)≥I(R₂)≥...≥I(R_A)

其中，A是候选区域的数量，I(R_A)为第A个候选区域包含目标物体的第一概率。将第一概率排在前面的预设数量的候选区域确定为目标候选区域，即目标候选区域包含目标物体的第一概率大于除目标候选区域外其他候选区域包含目标物体的第一概率。

步骤S44，对各个所述目标候选区域进行特征提取，并根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息。

在本实施例中，物体细分类模块的Navigator agent得到目标候选区域后，对各个目标候选区域进行特征提取，物体细分类模块的Navigator agent将提取的目标候选区域的特征输入至物体细分类模块的Scrutinizer agent，Scrutinizer agent根据接收到的目标候选区域的特征确定目标对物体的第二类别信息。

具体地，物体细分类模块的Scrutinizer agent将提取的各个目标候选区域的特征与目标图像的特征进行拼接得到目标物体的目标特征，根据目标特征确定目标物体属于第一类别信息下各个子类别信息的第二概率，将第二概率最大的子类别信息确定为目标物体的第二类别信息。

需要说明的是，物体细分类模块的Teacher agent可以接收物体细分类模块的Navigator agent提取的目标候选区域的特征，根据目标候选区域的特征对物体细分类模块的Navigator agent进行训练。具体地，根据目标候选区域的特征计算每个目标候选区域包含目标物体的置信度，根据置信度判断物体细分类模块的Navigator agent是否收敛，若收敛，对目标候选区域进行特征提取并将提取的特征发送至物体细分类模块的Scrutinizer agent，若不收敛，将判断结果反馈至物体细分类模块的Navigator agent，直到其提取包含目标物体更多信息量的候选区域。

本实施例提供的技术方案中，通过在目标图像上提取多个候选区域，并对提取的多个候选区域进行过滤以去除冗余候选区域，获取过滤后的各个候选区域包含目标物体的第一概率，根据第一概率确定预设数量的目标候选区域，对各个目标候选区域进行特征提取，并根据提取的各个目标候选区域的特征确定目标物体的第二类别信息。本方案通过对目标图像的目标候选区域进行细分类的特征提取，可以准确确定目标物体的具体类别。

参照图4，图4是本发明物体识别方法的第三实施例的流程示意图，基于第一实施例，上述S30的步骤包括：

步骤S31，根据各个所述目标物体的第一类别信息以及位置信息对所述待识别图像进行分割处理得到各个所述目标物体的目标图像；

其中，上述S40的步骤包括：

步骤S45，将分割处理后的各个所述目标图像分配至各个所述目标物体的第一类别信息对应的识别网络进行特征提取，根据提取的各个所述目标图像的特征确定各个所述目标物体的第二类别信息。

在本实施例中，若待识别图像中包括多个目标物体，物体识别装置在对待识别图像进行特征提取，根据提取的待识别图像的特征确定各个目标物体的第一类别信息以及各个目标物体在待识别图像中的位置信息后，根据各个目标物体的第一类别信息以及位置信息对待识别图像进行分割处理得到各个目标物体的目标图像，对于单个目标物体的目标图像的确定方式与待识别图像中只有一个目标物体的目标图像的确定方式相同，具体可参照实施例一的内容，在此不再赘述。

进一步地，物体识别装置将分割处理后的各个目标图像分配至各个目标物体的第一类别信息对应的识别网络进行特征提取，根据提取的各个目标图像的特征确定各个目标物体的第二类别信息。其中，物体识别装置可以包括多个物体细分类模块，每一个第一类别信息可以对应有一个物体细分类模块，用于识别该第一类别信息下的子类别信息。对于单个目标物体，通过该目标物体的第一类别信息对应的物体细分类模块进行特征提取确定该目标物体的第二类别信息的过程，具体可参考实施例一与实施例二的内容，在此不再赘述。

进一步地，物体识别装置得到各个目标物体的第二类别信息后，将各个目标物体的第二类别信息进行汇总以及整合，物体识别装置可以将各个目标物体的第二类别信息映射到待识别图像并输出显示。

本实施例提供的技术方案中，在待识别图像中包括多个目标物体时，物体识别装置根据各个目标物体的第一类别信息以及位置信息对待识别图像进行分割处理得到各个目标物体的目标图像，将分割处理后的各个目标图像分配至各个目标物体的第一类别信息对应的识别网络进行特征提取，根据提取的各个目标图像的特征确定各个目标物体的第二类别信息。本方案通过分割和分流处理使物体识别装置具备对单张待识别图像存在多个目标物体的输入场景进行识别的能力。

参照图5，图5是本发明物体识别方法的第四实施例的流程示意图，基于第一实施例，上述S20的步骤包括：

步骤S21，对所述待识别图像进行特征提取，并对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征；

在本实施例中，物体识别装置获取到待识别图像后，将待识别图像输入物体检测模块进行特征提取得到待识别图像的特征，其中，待识别图像的特征为多尺度的特征，物体检测模块可以基于EfficientDet网络搭建，EfficientDet作为专门的物体检测网络，其网络架构由特征提取网络EfficientDet backbone、特征融合网络BiFPN Layer与两个预测子网络(类别预测子网络与box预测子网络)组成。

在本实施例中，特征提取网络EfficientDet backbone作为Efficientdet的基础网络，其主要作用是提取输入图像的特征。EfficientDet采用EfficientNet作为其特征提取网络，在学习效果上取得了前所未有的效果。在深度学习领域，普遍的观点是海量数据应由大规模网络进行适配以取得更好的精度，因此当前许多工作致力于扩大基础网络的规模。EfficientNet同样遵循此方法，不同的是，其对网络进行缩放的方式是采用统一对深度、宽度、输入图像大小进行缩放。由于深度、宽度、输入图像大小在缩放过程中存在一定的制约关系，因此等比例缩放的方式相对于其他方式会有最优效果。

进一步地，物体识别装置通过特征提取网络EfficientDet backbone提取到待识别图像不同尺度的特征后，采用特征融合网络BiFPN Layer对提取的待识别图像的不同尺度的特征进行融合处理得到待识别图像的融合特征。其中，待识别图像的融合特征也是多尺度的特征。

在本实施例中，EfficientDet网络采用双向特征金字塔网络(bidirectionalfeature pyramid networks,BiFPN)作为特征融合网络，通过给定一组多尺度特征：

其中为第l_i层的特征，特征融合的目的是找到一个映射变换，将多尺度特征变为融合后的特征：

FPN(feature pyramid networks)可以将3-7层的特征作为融合网络的输入，自上而下聚合多尺度特征：

其中，Conv表示一次卷积操作，Resize表示一次采样操作。由于自上而下对特征进行聚合，因此FPN存在单向信息流的限制，为解决该问题，PANet(Path AggregationNetwork)增加了自下而上的特征聚合通路，而NAS-FPN(Neural Architecture Searchfeature pyramid networks)更进一步提出了跨尺度特征融合方式。BiFPN结合了PANet与NAS-FPN的优点，将双向特征融合与跨尺度特征融合结合在一起，既可以灵活进行特征融合，又减轻了网络规模。此外，BiFPN还考虑到不同大小的输入对输出的影响是不同的，因此加入了加权特征融合方法Fast normalized fusion:

其中w_i为可学习权重，ε为一个小量，I_i为不同分辨率的输入。BiFPN结合了双向跨尺度与加权特征融合，最终输出计算方式如下(以第6层特征为例)：

其中P₆ ^td为中间特征。

步骤S22，根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。

在本实施例中，物体识别装置通过特征融合网络BiFPN Layer对提取的待识别图像的特征进行融合处理得到待识别图像的融合特征后，通过预测子网络根据融合特征预测目标物体的第一类别信息以及目标物体在待识别图像中的位置信息。其中，预测子网络包括类别预测子网络与box预测子网络，类别预测子网络采用softmax函数对待识别图像的特征进行分类得到目标物体的第一类别信息，box预测子网络通过回归的方式输出目标物体在待识别图像中的坐标值。

本实施例提供的技术方案中，通过对待识别图像进行特征提取，并对提取的待识别图像的特征进行融合处理得到待识别图像的融合特征，根据融合特征确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息。本方案对待识别图像进行特征提取可以准确确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息。

参照图6，本发明还提供了一种物体识别装置，所述物体识别装置包括：

获取模块100，用于获取包含目标物体的待识别图像；

第一特征提取模块200，用于对所述待识别图像进行特征提取，并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息；

确定模块300，用于根据所述第一类别信息以及位置信息确定所述目标物体的目标图像；

第二特征提取模块400，用于对所述目标图像进行特征提取，并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息，其中，所述第二类别信息为所述第一类别信息的子类别信息。

在一实施例中，所述对所述目标图像进行特征提取，并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息方面，所述第二特征提取模块400具体应用于：

在一实施例中，所述根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息方面，所述第二特征提取模块400具体应用于：

在一实施例中，所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像方面，所述确定模块300具体应用于：

获取所述待识别图像的中心位置；

在一实施例中，所述待识别图像包括多个所述目标物体，所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像方面，所述确定模块300具体应用于：

在一实施例中，所述根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息方面，所述第一特征提取模块200具体应用于：

在一实施例中，所述获取包含目标物体的待识别图像方面，所述获取模块100具体应用于：

获取包含目标物体的原始图像；

基于上述实施例，本发明还提供了一种物体识别装置，上述物体识别装置可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的物体识别程序，上述处理器执行上述物体识别程序时，实现如上述任一实施例所述的物体识别方法的步骤。

基于上述实施例，本发明还提供一种计算机可读存储介质，其上存储有物体识别程序，上述物体识别程序被处理器执行时实现如上述任一实施例所述的物体识别方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是智能电视、手机、计算机等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种物体识别方法，其特征在于，所述物体识别方法包括：

获取包含目标物体的待识别图像；

对所述待识别图像进行特征提取，并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息，其中，所述待识别图像的特征为多尺度的特征；

对所述目标图像进行特征提取，并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息，其中，所述第二类别信息为所述第一类别信息的子类别信息；

所述根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息的步骤包括：

对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征，其中，通过特征提取网络提取所述待识别图像的特征，所述特征提取网络为EfficientDetbackbone，通过所述特征提取网络提取到所述待识别图像不同尺度的特征后，采用特征融合网络BiFPN Layer对提取的所述待识别图像的不同尺度的特征进行融合处理得到待识别图像的融合特征，所述待识别图像的融合特征为多尺度的特征；

2.如权利要求1所述的物体识别方法，其特征在于，所述对所述目标图像进行特征提取，并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括：

3.如权利要求2所述的物体识别方法，其特征在于，所述根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息的步骤包括：

4.如权利要求1所述的物体识别方法，其特征在于，所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像的步骤包括：

获取所述待识别图像的中心位置；

5.如权利要求1所述的物体识别方法，其特征在于，所述待识别图像包括多个所述目标物体，所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像的步骤包括：

6.如权利要求1所述的物体识别方法，其特征在于，所述获取包含目标物体的待识别图像的步骤包括：

获取包含目标物体的原始图像；

7.一种物体识别装置，其特征在于，所述物体识别装置包括：

获取模块，用于获取包含目标物体的待识别图像；

第二特征提取模块，用于对所述目标图像进行特征提取，并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息，其中，所述第二类别信息为所述第一类别信息的子类别信息；

所述第一特征提取模块，还用于对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征，其中，通过特征提取网络提取所述待识别图像的特征，所述特征提取网络为EfficientDet backbone，通过所述特征提取网络提取到所述待识别图像不同尺度的特征后，采用特征融合网络BiFPN Layer对提取的所述待识别图像的不同尺度的特征进行融合处理得到待识别图像的融合特征，所述待识别图像的融合特征为多尺度的特征；

8.一种物体识别装置，其特征在于，所述物体识别装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的物体识别程序，所述物体识别程序被所述处理器执行时实现如权利要求1-6中任一项所述的物体识别方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有物体识别程序，所述物体识别程序被处理器执行时实现如权利要求1-6中任一项所述的物体识别方法的步骤。