CN113516088B - 物体识别方法、装置及计算机可读存储介质 - Google Patents

物体识别方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN113516088B
CN113516088B CN202110834898.2A CN202110834898A CN113516088B CN 113516088 B CN113516088 B CN 113516088B CN 202110834898 A CN202110834898 A CN 202110834898A CN 113516088 B CN113516088 B CN 113516088B
Authority
CN
China
Prior art keywords
image
target
target object
identified
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110834898.2A
Other languages
English (en)
Other versions
CN113516088A (zh
Inventor
赵鲁
浦贵阳
程耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110834898.2A priority Critical patent/CN113516088B/zh
Publication of CN113516088A publication Critical patent/CN113516088A/zh
Application granted granted Critical
Publication of CN113516088B publication Critical patent/CN113516088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种物体识别方法、装置及计算机可读存储介质,所述物体识别方法包括:获取包含目标物体的待识别图像;对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息。本发明能够识别物体的具体类别。

Description

物体识别方法、装置及计算机可读存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种物体识别方法、装置及计算机可读存储介质。
背景技术
随着互联网+产业与移动端技术的发展,软件产品的研发对用户体验提出了更高的要求,就物体识别领域而言,对物体进行粗分类,识别物体所属的大类,已无法支撑当今的智能应用场景。例如,对于宠物识别而言,识别猫、狗等宠物大类的能力已无法满足应用场景对于用户体验的要求,交互场景下需要的是更细致的分类结果,比如输出柯基犬、波斯猫等具体类别。因此,物体识别算法应具备更细粒度的识别能力,满足更细腻的用户交互需求,现有的物体识别方法多是利用检测技术与识别技术对物体进行粗分类,只能识别出物体所属的大类,物体识别的分类太过宽泛,不能识别物体所属的具体类别。
发明内容
本发明的主要目的在于提供一种物体识别方法、装置及计算机可读存储介质,旨在识别物体所属的具体类别。
为实现上述目的,本发明提供一种物体识别方法,所述物体识别方法包括:
获取包含目标物体的待识别图像;
对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;
根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息。
在一实施例中,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括:
在所述目标图像上提取多个候选区域,并对提取的多个所述候选区域进行过滤以去除冗余候选区域;
获取过滤后的各个所述候选区域包含所述目标物体的第一概率;
根据所述第一概率确定预设数量的目标候选区域,其中,所述目标候选区域包含所述目标物体的第一概率大于除所述目标候选区域外其他候选区域包含所述目标物体的第一概率;
对各个所述目标候选区域进行特征提取,并根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息。
在一实施例中,所述根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息的步骤包括:
将提取的各个所述目标候选区域的特征与所述目标图像的特征进行拼接得到所述目标物体的目标特征;
根据所述目标特征确定所述目标物体属于所述第一类别信息下各个子类别信息的第二概率;
将第二概率最大的子类别信息确定为所述目标物体的第二类别信息。
在一实施例中,所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像的步骤包括:
获取所述待识别图像的中心位置;
根据所述中心位置、所述位置信息以及所述第一类别信息在所述待识别图像中确定所述目标物体的目标图像。
在一实施例中,所述待识别图像包括多个所述目标物体,所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像的步骤包括:
根据各个所述目标物体的第一类别信息以及位置信息对所述待识别图像进行分割处理得到各个所述目标物体的目标图像;
其中,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括:
将分割处理后的各个所述目标图像分配至各个所述目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个所述目标图像的特征确定各个所述目标物体的第二类别信息。
在一实施例中,所述根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息的步骤包括:
对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征;
根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。
在一实施例中,所述获取包含目标物体的待识别图像的步骤包括:
获取包含目标物体的原始图像;
对所述原始图像进行正确性校验,并将通过校验后的所述原始图像转换为RGB图像;
对所述RGB图像进行归一化处理得到包含目标物体的待识别图像。
此外,为实现上述目的,本发明还提供一种物体识别装置,所述物体识别装置包括:
获取模块,用于获取包含目标物体的待识别图像;
第一特征提取模块,用于对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;
确定模块,用于根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
第二特征提取模块,用于对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息。
此外,为实现上述目的,本发明还提供一种物体识别装置,所述物体识别装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的物体识别程序,所述物体识别程序被所述处理器执行时实现上述任一项所述的物体识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有物体识别程序,所述物体识别程序被处理器执行时实现上述任一项所述的物体识别方法的步骤。
本发明提出了一种物体识别方法、装置及计算机可读存储介质,物体识别装置通过获取包含目标物体的待识别图像,对待识别图像进行特征提取,并根据提取的待识别图像的特征确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息,根据第一类别信息以及位置信息确定目标物体的目标图像,对目标图像进行特征提取,并根据提取的目标图像的特征确定目标物体的第二类别信息,其中,第二类别信息为第一类别信息的子类别信息。本方案通过两次异步特征提取的方式,在识别物体大类的情况下进一步特征提取得到物体的具体类别,从而实现对物体具体类别的准确识别。
附图说明
图1是本发明实施例方案涉及的物体识别装置的硬件架构示意图;
图2是本发明物体识别方法的第一实施例的流程示意图;
图3是本发明物体识别方法的第二实施例的流程示意图;
图4是本发明物体识别方法的第三实施例的流程示意图;
图5是本发明物体识别方法的第四实施例的流程示意图;
图6是本发明实施例方案涉及的物体识别装置的模块结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
作为一种实现方案,参照图1,图1是本发明实施例方案涉及的物体识别装置的硬件架构示意图,如图1所示,该物体识别装置可以包括处理器101,例如CPU,存储器102,通信总线103,其中,通信总线103用于实现这些模块之间的连接通信。
存储器102可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。如图1所示,作为一种计算机可读存储介质的存储器102中可以包括物体识别程序;而处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
获取包含目标物体的待识别图像;
对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;
根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息。
在一实施例中,处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
在所述目标图像上提取多个候选区域,并对提取的多个所述候选区域进行过滤以去除冗余候选区域;
获取过滤后的各个所述候选区域包含所述目标物体的第一概率;
根据所述第一概率确定预设数量的目标候选区域,其中,所述目标候选区域包含所述目标物体的第一概率大于除所述目标候选区域外其他候选区域包含所述目标物体的第一概率;
对各个所述目标候选区域进行特征提取,并根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息。
在一实施例中,处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
将提取的各个所述目标候选区域的特征与所述目标图像的特征进行拼接得到所述目标物体的目标特征;
根据所述目标特征确定所述目标物体属于所述第一类别信息下各个子类别信息的第二概率;
将第二概率最大的子类别信息确定为所述目标物体的第二类别信息。
在一实施例中,处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
获取所述待识别图像的中心位置;
根据所述中心位置、所述位置信息以及所述第一类别信息在所述待识别图像中确定所述目标物体的目标图像。
在一实施例中,处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
根据各个所述目标物体的第一类别信息以及位置信息对所述待识别图像进行分割处理得到各个所述目标物体的目标图像;
其中,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括:
将分割处理后的各个所述目标图像分配至各个所述目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个所述目标图像的特征确定各个所述目标物体的第二类别信息。
在一实施例中,处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征;
根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。
在一实施例中,处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
获取包含目标物体的原始图像;
对所述原始图像进行正确性校验,并将通过校验后的所述原始图像转换为RGB图像;
对所述RGB图像进行归一化处理得到包含目标物体的待识别图像。
参照图2,图2是本发明物体识别方法的第一实施例的流程示意图,所述物体识别方法包括:
步骤S10,获取包含目标物体的待识别图像;
在本实施例中,物体识别方法的执行主体是物体识别装置,其中,物体识别装置是指可以检测物体类别的设备,物体识别装置可以是具有物体识别功能的终端设备,例如计算机、平板电脑或者手机等,在其他实施例中,物体识别装置也可以根据实际情况确定,本实施例对此不作限定。
在本实施例中,物体识别装置获取包含目标物体的待识别图像,待识别图像可选为RGB图像,物体识别装置可以通过自带的摄像模块拍摄包含目标物体的图像,物体识别装置也可以通过与其它摄像设备建立通信连接,接收其它摄像设备拍摄到的包含目标物体的图像,物体识别装置可以将获取到的图像转换为RGB图像得到待识别图像,需要说明的是,物体识别装置也可以直接接收经第三方处理设备处理后的RGB图像得到待识别图像。
在本实施例中,待识别图像包含目标物体,目标物体是指物体识别装置需要识别的对象,目标物体可以是动物,例如,目标物体可以是猫、狗或者鸟等,在其他实施例中,目标物体可以根据实际情况确定,本实施例对此不作限定。
可选地,物体识别装置可以通过摄像模块对目标物体进行拍摄或者接收摄像设备拍摄的包含目标物体的图像得到包含目标物体的原始图像,其中,原始图像是指物体识别装置拍摄的未经任何图像处理操作的图像,物体识别装置获取到原始图像后,对原始图像进行正确性校验,物体识别装置将通过校验后的原始图像转换为RGB图像,然后对RGB图像进行归一化处理得到待识别图像,其中,正确性校验是指利用常用图像处理工具(如Pillow,opencv等工具)打开原始图像,若原始图像能正常打开,则原始图像的正确性校验通过,反之,原始图像的正确性校验不通过,在原始图像的正确性不通过时,返回错误信息。
步骤S20,对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;
具体地,物体识别装置获取到目标物体的待识别图像后,将待识别图像输入到物体检测模块,通过物体检测模块对待识别图像进行特征提取,根据提取的待识别图像的特征确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息。其中,目标物体的第一类别信息是指目标物体所属的大类,例如,若待识别图像中的目标物体为柯基犬,其所属的大类为狗,则待识别图像经过物体检测模块特征提取后,可以输出目标物体的第一类别信息为狗类;目标物体在待识别图像中的位置信息是指目标物体在待识别图像中所处的位置坐标,待识别图像经过物体检测模块特征提取后,可以输出目标物体在待识别图像中的位置坐标。需要说明的是,物体检测模块可以根据实际需要选取合适的网络模型搭建,本实施例对此不作限定。
步骤S30,根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
具体地,物体识别装置得到目标物体的第一类别信息以及目标物体在待识别图像中的位置信息后,获取待识别图像的中心位置,根据待识别图像的中心位置、目标物体的第一类别信息以及目标物体的位置信息对待识别图像进行分割处理得到目标物体的目标图像,其中,目标图像是指待识别图像的局部区域的图像,目标图像包含目标物体,且目标图像的面积小于或等于待识别图像的面积。
步骤S40,对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息。
具体地,物体识别装置得到目标图像后,将目标图像输入物体细分类模块,通过物体细分类模块对目标图像进行特征提取,根据提取的目标图像的特征确定目标物体的第二类别信息,其中,目标物体的第二类别信息是指目标物体的第一类别信息下的子类别信息,也即第二类别信息是指目标物体的具体类别信息。例如,若待识别图像中的目标物体为柯基犬,目标物体的第一类别信息为狗,目标物体的第二类别信息为狗的具体类别:柯基犬,物体识别装置将目标物体的目标图像输入物体细分类模块后,可以输出目标物体的第二类别信息为柯基犬。物体细分类模块可以根据实际情况选取合适的网络模型搭建,本实施例对此不作限定。
需要说明的是,目标物体的第一类别信息下包括多个子类别信息,例如,第一类别信息为狗,则第一类别信息下的子类别信息可以包括柯基犬、哈士奇、泰迪、柴犬、金毛等狗的具体类别。
进一步地,物体识别装置得到目标物体的第二类别信息后,可以将第二类别信息映射到待识别图像并输出显示。
本实施例提供的技术方案中,物体识别装置通过获取包含目标物体的待识别图像,先对待识别图像进行特征提取,并根据提取的待识别图像的特征确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息,根据第一类别信息以及位置信息确定目标物体的目标图像,然后对目标图像进行特征提取,并根据提取的目标图像的特征确定目标物体的第二类别信息,其中,第二类别信息为第一类别信息的子类别信息。本方案通过两次异步特征提取的方式,在识别物体大类的情况下进一步特征提取得到物体的具体类别,从而实现对物体具体类别的准确识别。
参照图3,图3是本发明物体识别方法的第二实施例的流程示意图,基于第一实施例,上述S40的步骤包括:
步骤S41,在所述目标图像上提取多个候选区域,并对提取的多个所述候选区域进行过滤以去除冗余候选区域;
在本实施例中,物体识别装置得到目标物体的目标图像后,将目标图像输入物体细分类模块进行特征提取,其中,物体细分类模块可以采用NTS-Net(Navigator-Teacher-Scrutinizer Network)作为细粒度分类引擎。NTS网络架构主要由Navigator agent,Teacher agent和Scrutinizer agent三部分组成,目标图像输入物体细分类模块后,通过NTS网络架构的Navigator agent在目标图像上提取多个候选区域,并对提取的候选区域进行过滤以去除冗余候选区域,其中,候选区域是指在目标图像上框选的区域,每个候选区域的面积小于目标图像的面积。
具体地,Navigator agent通过改进的anchor机制提取多个候选区域,并通过NMS(non-maximum suppression)对冗余的候选区域进行过滤以去除冗余候选区域得到一组过滤后的候选区域:
{R′1,R′2,...,R′A}
其中,R’A表示第A个候选区域。需要说明的是,Navigator agent的anchor机制提取的候选区域共有{48,96,192}三种尺寸以及{2:3,1:1,3:2}三种比例。
步骤S42,获取过滤后的各个所述候选区域包含所述目标物体的第一概率;
在本实施例中,物体细分类检测模块的Navigator agent得到过滤后的候选区域后,获取各个候选区域包含目标物体的第一概率I(RA),其中,第一概率是指各个候选区域包含目标物体的可能性,第一概率用于判断候选区域是否包含有目标物体以及包含多少目标物体。
具体地,物体细分类模块的Navigator agent获取各个候选区域包含目标物体的信息量,根据信息量确定各个候选区域包含目标物体的概率。
步骤S43,根据所述第一概率确定预设数量的目标候选区域,其中,所述目标候选区域包含所述目标物体的第一概率大于除所述目标候选区域外其他候选区域包含所述目标物体的第一概率;
在本实施例中,物体细分类模块的Navigator agent得到各个候选区域包含目标物体的第一概率后,根据第一概率确定预设数量的目标候选区域,其中,预设数量可以根据实际需要设定,本实施例对此不作限定。
具体地,物体细分类模块的Navigator agent得到各个候选区域包含目标物体的第一概率后,对各个候选区域包含目标物体的第一概率进行排序:
I(R1)≥I(R2)≥...≥I(RA)
其中,A是候选区域的数量,I(RA)为第A个候选区域包含目标物体的第一概率。将第一概率排在前面的预设数量的候选区域确定为目标候选区域,即目标候选区域包含目标物体的第一概率大于除目标候选区域外其他候选区域包含目标物体的第一概率。
步骤S44,对各个所述目标候选区域进行特征提取,并根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息。
在本实施例中,物体细分类模块的Navigator agent得到目标候选区域后,对各个目标候选区域进行特征提取,物体细分类模块的Navigator agent将提取的目标候选区域的特征输入至物体细分类模块的Scrutinizer agent,Scrutinizer agent根据接收到的目标候选区域的特征确定目标对物体的第二类别信息。
具体地,物体细分类模块的Scrutinizer agent将提取的各个目标候选区域的特征与目标图像的特征进行拼接得到目标物体的目标特征,根据目标特征确定目标物体属于第一类别信息下各个子类别信息的第二概率,将第二概率最大的子类别信息确定为目标物体的第二类别信息。
需要说明的是,物体细分类模块的Teacher agent可以接收物体细分类模块的Navigator agent提取的目标候选区域的特征,根据目标候选区域的特征对物体细分类模块的Navigator agent进行训练。具体地,根据目标候选区域的特征计算每个目标候选区域包含目标物体的置信度,根据置信度判断物体细分类模块的Navigator agent是否收敛,若收敛,对目标候选区域进行特征提取并将提取的特征发送至物体细分类模块的Scrutinizer agent,若不收敛,将判断结果反馈至物体细分类模块的Navigator agent,直到其提取包含目标物体更多信息量的候选区域。
本实施例提供的技术方案中,通过在目标图像上提取多个候选区域,并对提取的多个候选区域进行过滤以去除冗余候选区域,获取过滤后的各个候选区域包含目标物体的第一概率,根据第一概率确定预设数量的目标候选区域,对各个目标候选区域进行特征提取,并根据提取的各个目标候选区域的特征确定目标物体的第二类别信息。本方案通过对目标图像的目标候选区域进行细分类的特征提取,可以准确确定目标物体的具体类别。
参照图4,图4是本发明物体识别方法的第三实施例的流程示意图,基于第一实施例,上述S30的步骤包括:
步骤S31,根据各个所述目标物体的第一类别信息以及位置信息对所述待识别图像进行分割处理得到各个所述目标物体的目标图像;
其中,上述S40的步骤包括:
步骤S45,将分割处理后的各个所述目标图像分配至各个所述目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个所述目标图像的特征确定各个所述目标物体的第二类别信息。
在本实施例中,若待识别图像中包括多个目标物体,物体识别装置在对待识别图像进行特征提取,根据提取的待识别图像的特征确定各个目标物体的第一类别信息以及各个目标物体在待识别图像中的位置信息后,根据各个目标物体的第一类别信息以及位置信息对待识别图像进行分割处理得到各个目标物体的目标图像,对于单个目标物体的目标图像的确定方式与待识别图像中只有一个目标物体的目标图像的确定方式相同,具体可参照实施例一的内容,在此不再赘述。
进一步地,物体识别装置将分割处理后的各个目标图像分配至各个目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个目标图像的特征确定各个目标物体的第二类别信息。其中,物体识别装置可以包括多个物体细分类模块,每一个第一类别信息可以对应有一个物体细分类模块,用于识别该第一类别信息下的子类别信息。对于单个目标物体,通过该目标物体的第一类别信息对应的物体细分类模块进行特征提取确定该目标物体的第二类别信息的过程,具体可参考实施例一与实施例二的内容,在此不再赘述。
进一步地,物体识别装置得到各个目标物体的第二类别信息后,将各个目标物体的第二类别信息进行汇总以及整合,物体识别装置可以将各个目标物体的第二类别信息映射到待识别图像并输出显示。
本实施例提供的技术方案中,在待识别图像中包括多个目标物体时,物体识别装置根据各个目标物体的第一类别信息以及位置信息对待识别图像进行分割处理得到各个目标物体的目标图像,将分割处理后的各个目标图像分配至各个目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个目标图像的特征确定各个目标物体的第二类别信息。本方案通过分割和分流处理使物体识别装置具备对单张待识别图像存在多个目标物体的输入场景进行识别的能力。
参照图5,图5是本发明物体识别方法的第四实施例的流程示意图,基于第一实施例,上述S20的步骤包括:
步骤S21,对所述待识别图像进行特征提取,并对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征;
在本实施例中,物体识别装置获取到待识别图像后,将待识别图像输入物体检测模块进行特征提取得到待识别图像的特征,其中,待识别图像的特征为多尺度的特征,物体检测模块可以基于EfficientDet网络搭建,EfficientDet作为专门的物体检测网络,其网络架构由特征提取网络EfficientDet backbone、特征融合网络BiFPN Layer与两个预测子网络(类别预测子网络与box预测子网络)组成。
在本实施例中,特征提取网络EfficientDet backbone作为Efficientdet的基础网络,其主要作用是提取输入图像的特征。EfficientDet采用EfficientNet作为其特征提取网络,在学习效果上取得了前所未有的效果。在深度学习领域,普遍的观点是海量数据应由大规模网络进行适配以取得更好的精度,因此当前许多工作致力于扩大基础网络的规模。EfficientNet同样遵循此方法,不同的是,其对网络进行缩放的方式是采用统一对深度、宽度、输入图像大小进行缩放。由于深度、宽度、输入图像大小在缩放过程中存在一定的制约关系,因此等比例缩放的方式相对于其他方式会有最优效果。
进一步地,物体识别装置通过特征提取网络EfficientDet backbone提取到待识别图像不同尺度的特征后,采用特征融合网络BiFPN Layer对提取的待识别图像的不同尺度的特征进行融合处理得到待识别图像的融合特征。其中,待识别图像的融合特征也是多尺度的特征。
在本实施例中,EfficientDet网络采用双向特征金字塔网络(bidirectionalfeature pyramid networks,BiFPN)作为特征融合网络,通过给定一组多尺度特征:
其中为第li层的特征,特征融合的目的是找到一个映射变换,将多尺度特征变为融合后的特征:
FPN(feature pyramid networks)可以将3-7层的特征作为融合网络的输入,自上而下聚合多尺度特征:
其中,Conv表示一次卷积操作,Resize表示一次采样操作。由于自上而下对特征进行聚合,因此FPN存在单向信息流的限制,为解决该问题,PANet(Path AggregationNetwork)增加了自下而上的特征聚合通路,而NAS-FPN(Neural Architecture Searchfeature pyramid networks)更进一步提出了跨尺度特征融合方式。BiFPN结合了PANet与NAS-FPN的优点,将双向特征融合与跨尺度特征融合结合在一起,既可以灵活进行特征融合,又减轻了网络规模。此外,BiFPN还考虑到不同大小的输入对输出的影响是不同的,因此加入了加权特征融合方法Fast normalized fusion:
其中wi为可学习权重,ε为一个小量,Ii为不同分辨率的输入。BiFPN结合了双向跨尺度与加权特征融合,最终输出计算方式如下(以第6层特征为例):
其中P6 td为中间特征。
步骤S22,根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。
在本实施例中,物体识别装置通过特征融合网络BiFPN Layer对提取的待识别图像的特征进行融合处理得到待识别图像的融合特征后,通过预测子网络根据融合特征预测目标物体的第一类别信息以及目标物体在待识别图像中的位置信息。其中,预测子网络包括类别预测子网络与box预测子网络,类别预测子网络采用softmax函数对待识别图像的特征进行分类得到目标物体的第一类别信息,box预测子网络通过回归的方式输出目标物体在待识别图像中的坐标值。
本实施例提供的技术方案中,通过对待识别图像进行特征提取,并对提取的待识别图像的特征进行融合处理得到待识别图像的融合特征,根据融合特征确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息。本方案对待识别图像进行特征提取可以准确确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息。
参照图6,本发明还提供了一种物体识别装置,所述物体识别装置包括:
获取模块100,用于获取包含目标物体的待识别图像;
第一特征提取模块200,用于对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;
确定模块300,用于根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
第二特征提取模块400,用于对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息。
在一实施例中,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息方面,所述第二特征提取模块400具体应用于:
在所述目标图像上提取多个候选区域,并对提取的多个所述候选区域进行过滤以去除冗余候选区域;
获取过滤后的各个所述候选区域包含所述目标物体的第一概率;
根据所述第一概率确定预设数量的目标候选区域,其中,所述目标候选区域包含所述目标物体的第一概率大于除所述目标候选区域外其他候选区域包含所述目标物体的第一概率;
对各个所述目标候选区域进行特征提取,并根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息。
在一实施例中,所述根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息方面,所述第二特征提取模块400具体应用于:
将提取的各个所述目标候选区域的特征与所述目标图像的特征进行拼接得到所述目标物体的目标特征;
根据所述目标特征确定所述目标物体属于所述第一类别信息下各个子类别信息的第二概率;
将第二概率最大的子类别信息确定为所述目标物体的第二类别信息。
在一实施例中,所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像方面,所述确定模块300具体应用于:
获取所述待识别图像的中心位置;
根据所述中心位置、所述位置信息以及所述第一类别信息在所述待识别图像中确定所述目标物体的目标图像。
在一实施例中,所述待识别图像包括多个所述目标物体,所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像方面,所述确定模块300具体应用于:
根据各个所述目标物体的第一类别信息以及位置信息对所述待识别图像进行分割处理得到各个所述目标物体的目标图像;
其中,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括:
将分割处理后的各个所述目标图像分配至各个所述目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个所述目标图像的特征确定各个所述目标物体的第二类别信息。
在一实施例中,所述根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息方面,所述第一特征提取模块200具体应用于:
对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征;
根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。
在一实施例中,所述获取包含目标物体的待识别图像方面,所述获取模块100具体应用于:
获取包含目标物体的原始图像;
对所述原始图像进行正确性校验,并将通过校验后的所述原始图像转换为RGB图像;
对所述RGB图像进行归一化处理得到包含目标物体的待识别图像。
基于上述实施例,本发明还提供了一种物体识别装置,上述物体识别装置可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的物体识别程序,上述处理器执行上述物体识别程序时,实现如上述任一实施例所述的物体识别方法的步骤。
基于上述实施例,本发明还提供一种计算机可读存储介质,其上存储有物体识别程序,上述物体识别程序被处理器执行时实现如上述任一实施例所述的物体识别方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是智能电视、手机、计算机等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种物体识别方法,其特征在于,所述物体识别方法包括:
获取包含目标物体的待识别图像;
对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息,其中,所述待识别图像的特征为多尺度的特征;
根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息;
所述根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息的步骤包括:
对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征,其中,通过特征提取网络提取所述待识别图像的特征,所述特征提取网络为EfficientDetbackbone,通过所述特征提取网络提取到所述待识别图像不同尺度的特征后,采用特征融合网络BiFPN Layer对提取的所述待识别图像的不同尺度的特征进行融合处理得到待识别图像的融合特征,所述待识别图像的融合特征为多尺度的特征;
根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。
2.如权利要求1所述的物体识别方法,其特征在于,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括:
在所述目标图像上提取多个候选区域,并对提取的多个所述候选区域进行过滤以去除冗余候选区域;
获取过滤后的各个所述候选区域包含所述目标物体的第一概率;
根据所述第一概率确定预设数量的目标候选区域,其中,所述目标候选区域包含所述目标物体的第一概率大于除所述目标候选区域外其他候选区域包含所述目标物体的第一概率;
对各个所述目标候选区域进行特征提取,并根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息。
3.如权利要求2所述的物体识别方法,其特征在于,所述根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息的步骤包括:
将提取的各个所述目标候选区域的特征与所述目标图像的特征进行拼接得到所述目标物体的目标特征;
根据所述目标特征确定所述目标物体属于所述第一类别信息下各个子类别信息的第二概率;
将第二概率最大的子类别信息确定为所述目标物体的第二类别信息。
4.如权利要求1所述的物体识别方法,其特征在于,所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像的步骤包括:
获取所述待识别图像的中心位置;
根据所述中心位置、所述位置信息以及所述第一类别信息在所述待识别图像中确定所述目标物体的目标图像。
5.如权利要求1所述的物体识别方法,其特征在于,所述待识别图像包括多个所述目标物体,所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像的步骤包括:
根据各个所述目标物体的第一类别信息以及位置信息对所述待识别图像进行分割处理得到各个所述目标物体的目标图像;
其中,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括:
将分割处理后的各个所述目标图像分配至各个所述目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个所述目标图像的特征确定各个所述目标物体的第二类别信息。
6.如权利要求1所述的物体识别方法,其特征在于,所述获取包含目标物体的待识别图像的步骤包括:
获取包含目标物体的原始图像;
对所述原始图像进行正确性校验,并将通过校验后的所述原始图像转换为RGB图像;
对所述RGB图像进行归一化处理得到包含目标物体的待识别图像。
7.一种物体识别装置,其特征在于,所述物体识别装置包括:
获取模块,用于获取包含目标物体的待识别图像;
第一特征提取模块,用于对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;
确定模块,用于根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
第二特征提取模块,用于对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息;
所述第一特征提取模块,还用于对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征,其中,通过特征提取网络提取所述待识别图像的特征,所述特征提取网络为EfficientDet backbone,通过所述特征提取网络提取到所述待识别图像不同尺度的特征后,采用特征融合网络BiFPN Layer对提取的所述待识别图像的不同尺度的特征进行融合处理得到待识别图像的融合特征,所述待识别图像的融合特征为多尺度的特征;
根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。
8.一种物体识别装置,其特征在于,所述物体识别装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的物体识别程序,所述物体识别程序被所述处理器执行时实现如权利要求1-6中任一项所述的物体识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有物体识别程序,所述物体识别程序被处理器执行时实现如权利要求1-6中任一项所述的物体识别方法的步骤。
CN202110834898.2A 2021-07-22 2021-07-22 物体识别方法、装置及计算机可读存储介质 Active CN113516088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110834898.2A CN113516088B (zh) 2021-07-22 2021-07-22 物体识别方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110834898.2A CN113516088B (zh) 2021-07-22 2021-07-22 物体识别方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113516088A CN113516088A (zh) 2021-10-19
CN113516088B true CN113516088B (zh) 2024-02-27

Family

ID=78067718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110834898.2A Active CN113516088B (zh) 2021-07-22 2021-07-22 物体识别方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113516088B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020048265A1 (zh) * 2018-09-06 2020-03-12 北京市商汤科技开发有限公司 多级目标分类及交通标志检测方法和装置、设备、介质
CN110991465A (zh) * 2019-11-15 2020-04-10 泰康保险集团股份有限公司 一种物体识别方法、装置、计算设备及存储介质
CN111104988A (zh) * 2019-12-28 2020-05-05 Oppo广东移动通信有限公司 图像识别方法及相关装置
CN111291819A (zh) * 2020-02-19 2020-06-16 腾讯科技(深圳)有限公司 图像识别方法、装置、电子设备及存储介质
CN111783812A (zh) * 2019-11-18 2020-10-16 北京沃东天骏信息技术有限公司 违禁图像识别方法、装置和计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106732A (ja) * 2012-11-27 2014-06-09 Sony Computer Entertainment Inc 情報処理装置および情報処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020048265A1 (zh) * 2018-09-06 2020-03-12 北京市商汤科技开发有限公司 多级目标分类及交通标志检测方法和装置、设备、介质
CN110879950A (zh) * 2018-09-06 2020-03-13 北京市商汤科技开发有限公司 多级目标分类及交通标志检测方法和装置、设备、介质
CN110991465A (zh) * 2019-11-15 2020-04-10 泰康保险集团股份有限公司 一种物体识别方法、装置、计算设备及存储介质
CN111783812A (zh) * 2019-11-18 2020-10-16 北京沃东天骏信息技术有限公司 违禁图像识别方法、装置和计算机可读存储介质
CN111104988A (zh) * 2019-12-28 2020-05-05 Oppo广东移动通信有限公司 图像识别方法及相关装置
CN111291819A (zh) * 2020-02-19 2020-06-16 腾讯科技(深圳)有限公司 图像识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113516088A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN110751134B (zh) 目标检测方法、装置、存储介质及计算机设备
CN111950424B (zh) 一种视频数据处理方法、装置、计算机及可读存储介质
KR101896357B1 (ko) 객체를 검출하는 방법, 디바이스 및 프로그램
CN110706261A (zh) 车辆违章检测方法、装置、计算机设备和存储介质
KR101887637B1 (ko) 로봇 시스템
CN110941594A (zh) 一种视频文件的拆分方法、装置、电子设备及存储介质
CN112183166A (zh) 确定训练样本的方法、装置和电子设备
US20230215125A1 (en) Data identification method and apparatus
CN111199050B (zh) 一种用于对病历进行自动脱敏的系统及应用
CN111144372A (zh) 车辆检测方法、装置、计算机设备和存储介质
KR20200054367A (ko) 객체 검출 장치 및 그 방법
CN111476275A (zh) 基于图片识别的目标检测方法、服务器及存储介质
CN114663871A (zh) 图像识别方法、训练方法、装置、系统及存储介质
CN112288701A (zh) 一种智慧交通图像检测方法
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法
US11256950B2 (en) Image feature amount output device, image recognition device, the image feature amount output program, and image recognition program
CN117475253A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN111291716B (zh) 精子细胞识别方法、装置、计算机设备和存储介质
CN113516088B (zh) 物体识别方法、装置及计算机可读存储介质
CN117275086A (zh) 手势识别方法、装置、计算机设备、存储介质
CN111539390A (zh) 一种基于Yolov3的小目标图像识别方法、设备和系统
CN113221929A (zh) 一种图像处理方法以及相关设备
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
CN109698900B (zh) 一种数据处理方法、装置及监控系统
CN114582012A (zh) 一种骨架人体行为识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant