CN113516088B - 物体识别方法、装置及计算机可读存储介质 - Google Patents
物体识别方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113516088B CN113516088B CN202110834898.2A CN202110834898A CN113516088B CN 113516088 B CN113516088 B CN 113516088B CN 202110834898 A CN202110834898 A CN 202110834898A CN 113516088 B CN113516088 B CN 113516088B
- Authority
- CN
- China
- Prior art keywords
- image
- target
- target object
- identified
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000000605 extraction Methods 0.000 claims description 51
- 230000004927 fusion Effects 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 17
- 238000007499 fusion processing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 239000003795 chemical substances by application Substances 0.000 description 20
- 241000282472 Canis lupus familiaris Species 0.000 description 12
- 238000001514 detection method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种物体识别方法、装置及计算机可读存储介质,所述物体识别方法包括:获取包含目标物体的待识别图像;对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息。本发明能够识别物体的具体类别。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种物体识别方法、装置及计算机可读存储介质。
背景技术
随着互联网+产业与移动端技术的发展,软件产品的研发对用户体验提出了更高的要求,就物体识别领域而言,对物体进行粗分类,识别物体所属的大类,已无法支撑当今的智能应用场景。例如,对于宠物识别而言,识别猫、狗等宠物大类的能力已无法满足应用场景对于用户体验的要求,交互场景下需要的是更细致的分类结果,比如输出柯基犬、波斯猫等具体类别。因此,物体识别算法应具备更细粒度的识别能力,满足更细腻的用户交互需求,现有的物体识别方法多是利用检测技术与识别技术对物体进行粗分类,只能识别出物体所属的大类,物体识别的分类太过宽泛,不能识别物体所属的具体类别。
发明内容
本发明的主要目的在于提供一种物体识别方法、装置及计算机可读存储介质,旨在识别物体所属的具体类别。
为实现上述目的,本发明提供一种物体识别方法,所述物体识别方法包括:
获取包含目标物体的待识别图像;
对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;
根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息。
在一实施例中,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括:
在所述目标图像上提取多个候选区域,并对提取的多个所述候选区域进行过滤以去除冗余候选区域;
获取过滤后的各个所述候选区域包含所述目标物体的第一概率;
根据所述第一概率确定预设数量的目标候选区域,其中,所述目标候选区域包含所述目标物体的第一概率大于除所述目标候选区域外其他候选区域包含所述目标物体的第一概率;
对各个所述目标候选区域进行特征提取,并根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息。
在一实施例中,所述根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息的步骤包括:
将提取的各个所述目标候选区域的特征与所述目标图像的特征进行拼接得到所述目标物体的目标特征;
根据所述目标特征确定所述目标物体属于所述第一类别信息下各个子类别信息的第二概率;
将第二概率最大的子类别信息确定为所述目标物体的第二类别信息。
在一实施例中,所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像的步骤包括:
获取所述待识别图像的中心位置;
根据所述中心位置、所述位置信息以及所述第一类别信息在所述待识别图像中确定所述目标物体的目标图像。
在一实施例中,所述待识别图像包括多个所述目标物体,所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像的步骤包括:
根据各个所述目标物体的第一类别信息以及位置信息对所述待识别图像进行分割处理得到各个所述目标物体的目标图像;
其中,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括:
将分割处理后的各个所述目标图像分配至各个所述目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个所述目标图像的特征确定各个所述目标物体的第二类别信息。
在一实施例中,所述根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息的步骤包括:
对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征;
根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。
在一实施例中,所述获取包含目标物体的待识别图像的步骤包括:
获取包含目标物体的原始图像;
对所述原始图像进行正确性校验,并将通过校验后的所述原始图像转换为RGB图像;
对所述RGB图像进行归一化处理得到包含目标物体的待识别图像。
此外,为实现上述目的,本发明还提供一种物体识别装置,所述物体识别装置包括:
获取模块,用于获取包含目标物体的待识别图像;
第一特征提取模块,用于对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;
确定模块,用于根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
第二特征提取模块,用于对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息。
此外,为实现上述目的,本发明还提供一种物体识别装置,所述物体识别装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的物体识别程序,所述物体识别程序被所述处理器执行时实现上述任一项所述的物体识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有物体识别程序,所述物体识别程序被处理器执行时实现上述任一项所述的物体识别方法的步骤。
本发明提出了一种物体识别方法、装置及计算机可读存储介质,物体识别装置通过获取包含目标物体的待识别图像,对待识别图像进行特征提取,并根据提取的待识别图像的特征确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息,根据第一类别信息以及位置信息确定目标物体的目标图像,对目标图像进行特征提取,并根据提取的目标图像的特征确定目标物体的第二类别信息,其中,第二类别信息为第一类别信息的子类别信息。本方案通过两次异步特征提取的方式,在识别物体大类的情况下进一步特征提取得到物体的具体类别,从而实现对物体具体类别的准确识别。
附图说明
图1是本发明实施例方案涉及的物体识别装置的硬件架构示意图;
图2是本发明物体识别方法的第一实施例的流程示意图;
图3是本发明物体识别方法的第二实施例的流程示意图;
图4是本发明物体识别方法的第三实施例的流程示意图;
图5是本发明物体识别方法的第四实施例的流程示意图;
图6是本发明实施例方案涉及的物体识别装置的模块结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
作为一种实现方案,参照图1,图1是本发明实施例方案涉及的物体识别装置的硬件架构示意图,如图1所示,该物体识别装置可以包括处理器101,例如CPU,存储器102,通信总线103,其中,通信总线103用于实现这些模块之间的连接通信。
存储器102可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。如图1所示,作为一种计算机可读存储介质的存储器102中可以包括物体识别程序;而处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
获取包含目标物体的待识别图像;
对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;
根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息。
在一实施例中,处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
在所述目标图像上提取多个候选区域,并对提取的多个所述候选区域进行过滤以去除冗余候选区域;
获取过滤后的各个所述候选区域包含所述目标物体的第一概率;
根据所述第一概率确定预设数量的目标候选区域,其中,所述目标候选区域包含所述目标物体的第一概率大于除所述目标候选区域外其他候选区域包含所述目标物体的第一概率;
对各个所述目标候选区域进行特征提取,并根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息。
在一实施例中,处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
将提取的各个所述目标候选区域的特征与所述目标图像的特征进行拼接得到所述目标物体的目标特征;
根据所述目标特征确定所述目标物体属于所述第一类别信息下各个子类别信息的第二概率;
将第二概率最大的子类别信息确定为所述目标物体的第二类别信息。
在一实施例中,处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
获取所述待识别图像的中心位置;
根据所述中心位置、所述位置信息以及所述第一类别信息在所述待识别图像中确定所述目标物体的目标图像。
在一实施例中,处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
根据各个所述目标物体的第一类别信息以及位置信息对所述待识别图像进行分割处理得到各个所述目标物体的目标图像;
其中,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括:
将分割处理后的各个所述目标图像分配至各个所述目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个所述目标图像的特征确定各个所述目标物体的第二类别信息。
在一实施例中,处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征;
根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。
在一实施例中,处理器101可以用于调用存储器102中存储的物体识别程序,并执行以下操作:
获取包含目标物体的原始图像;
对所述原始图像进行正确性校验,并将通过校验后的所述原始图像转换为RGB图像;
对所述RGB图像进行归一化处理得到包含目标物体的待识别图像。
参照图2,图2是本发明物体识别方法的第一实施例的流程示意图,所述物体识别方法包括:
步骤S10,获取包含目标物体的待识别图像;
在本实施例中,物体识别方法的执行主体是物体识别装置,其中,物体识别装置是指可以检测物体类别的设备,物体识别装置可以是具有物体识别功能的终端设备,例如计算机、平板电脑或者手机等,在其他实施例中,物体识别装置也可以根据实际情况确定,本实施例对此不作限定。
在本实施例中,物体识别装置获取包含目标物体的待识别图像,待识别图像可选为RGB图像,物体识别装置可以通过自带的摄像模块拍摄包含目标物体的图像,物体识别装置也可以通过与其它摄像设备建立通信连接,接收其它摄像设备拍摄到的包含目标物体的图像,物体识别装置可以将获取到的图像转换为RGB图像得到待识别图像,需要说明的是,物体识别装置也可以直接接收经第三方处理设备处理后的RGB图像得到待识别图像。
在本实施例中,待识别图像包含目标物体,目标物体是指物体识别装置需要识别的对象,目标物体可以是动物,例如,目标物体可以是猫、狗或者鸟等,在其他实施例中,目标物体可以根据实际情况确定,本实施例对此不作限定。
可选地,物体识别装置可以通过摄像模块对目标物体进行拍摄或者接收摄像设备拍摄的包含目标物体的图像得到包含目标物体的原始图像,其中,原始图像是指物体识别装置拍摄的未经任何图像处理操作的图像,物体识别装置获取到原始图像后,对原始图像进行正确性校验,物体识别装置将通过校验后的原始图像转换为RGB图像,然后对RGB图像进行归一化处理得到待识别图像,其中,正确性校验是指利用常用图像处理工具(如Pillow,opencv等工具)打开原始图像,若原始图像能正常打开,则原始图像的正确性校验通过,反之,原始图像的正确性校验不通过,在原始图像的正确性不通过时,返回错误信息。
步骤S20,对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;
具体地,物体识别装置获取到目标物体的待识别图像后,将待识别图像输入到物体检测模块,通过物体检测模块对待识别图像进行特征提取,根据提取的待识别图像的特征确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息。其中,目标物体的第一类别信息是指目标物体所属的大类,例如,若待识别图像中的目标物体为柯基犬,其所属的大类为狗,则待识别图像经过物体检测模块特征提取后,可以输出目标物体的第一类别信息为狗类;目标物体在待识别图像中的位置信息是指目标物体在待识别图像中所处的位置坐标,待识别图像经过物体检测模块特征提取后,可以输出目标物体在待识别图像中的位置坐标。需要说明的是,物体检测模块可以根据实际需要选取合适的网络模型搭建,本实施例对此不作限定。
步骤S30,根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
具体地,物体识别装置得到目标物体的第一类别信息以及目标物体在待识别图像中的位置信息后,获取待识别图像的中心位置,根据待识别图像的中心位置、目标物体的第一类别信息以及目标物体的位置信息对待识别图像进行分割处理得到目标物体的目标图像,其中,目标图像是指待识别图像的局部区域的图像,目标图像包含目标物体,且目标图像的面积小于或等于待识别图像的面积。
步骤S40,对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息。
具体地,物体识别装置得到目标图像后,将目标图像输入物体细分类模块,通过物体细分类模块对目标图像进行特征提取,根据提取的目标图像的特征确定目标物体的第二类别信息,其中,目标物体的第二类别信息是指目标物体的第一类别信息下的子类别信息,也即第二类别信息是指目标物体的具体类别信息。例如,若待识别图像中的目标物体为柯基犬,目标物体的第一类别信息为狗,目标物体的第二类别信息为狗的具体类别:柯基犬,物体识别装置将目标物体的目标图像输入物体细分类模块后,可以输出目标物体的第二类别信息为柯基犬。物体细分类模块可以根据实际情况选取合适的网络模型搭建,本实施例对此不作限定。
需要说明的是,目标物体的第一类别信息下包括多个子类别信息,例如,第一类别信息为狗,则第一类别信息下的子类别信息可以包括柯基犬、哈士奇、泰迪、柴犬、金毛等狗的具体类别。
进一步地,物体识别装置得到目标物体的第二类别信息后,可以将第二类别信息映射到待识别图像并输出显示。
本实施例提供的技术方案中,物体识别装置通过获取包含目标物体的待识别图像,先对待识别图像进行特征提取,并根据提取的待识别图像的特征确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息,根据第一类别信息以及位置信息确定目标物体的目标图像,然后对目标图像进行特征提取,并根据提取的目标图像的特征确定目标物体的第二类别信息,其中,第二类别信息为第一类别信息的子类别信息。本方案通过两次异步特征提取的方式,在识别物体大类的情况下进一步特征提取得到物体的具体类别,从而实现对物体具体类别的准确识别。
参照图3,图3是本发明物体识别方法的第二实施例的流程示意图,基于第一实施例,上述S40的步骤包括:
步骤S41,在所述目标图像上提取多个候选区域,并对提取的多个所述候选区域进行过滤以去除冗余候选区域;
在本实施例中,物体识别装置得到目标物体的目标图像后,将目标图像输入物体细分类模块进行特征提取,其中,物体细分类模块可以采用NTS-Net(Navigator-Teacher-Scrutinizer Network)作为细粒度分类引擎。NTS网络架构主要由Navigator agent,Teacher agent和Scrutinizer agent三部分组成,目标图像输入物体细分类模块后,通过NTS网络架构的Navigator agent在目标图像上提取多个候选区域,并对提取的候选区域进行过滤以去除冗余候选区域,其中,候选区域是指在目标图像上框选的区域,每个候选区域的面积小于目标图像的面积。
具体地,Navigator agent通过改进的anchor机制提取多个候选区域,并通过NMS(non-maximum suppression)对冗余的候选区域进行过滤以去除冗余候选区域得到一组过滤后的候选区域:
{R′1,R′2,...,R′A}
其中,R’A表示第A个候选区域。需要说明的是,Navigator agent的anchor机制提取的候选区域共有{48,96,192}三种尺寸以及{2:3,1:1,3:2}三种比例。
步骤S42,获取过滤后的各个所述候选区域包含所述目标物体的第一概率;
在本实施例中,物体细分类检测模块的Navigator agent得到过滤后的候选区域后,获取各个候选区域包含目标物体的第一概率I(RA),其中,第一概率是指各个候选区域包含目标物体的可能性,第一概率用于判断候选区域是否包含有目标物体以及包含多少目标物体。
具体地,物体细分类模块的Navigator agent获取各个候选区域包含目标物体的信息量,根据信息量确定各个候选区域包含目标物体的概率。
步骤S43,根据所述第一概率确定预设数量的目标候选区域,其中,所述目标候选区域包含所述目标物体的第一概率大于除所述目标候选区域外其他候选区域包含所述目标物体的第一概率;
在本实施例中,物体细分类模块的Navigator agent得到各个候选区域包含目标物体的第一概率后,根据第一概率确定预设数量的目标候选区域,其中,预设数量可以根据实际需要设定,本实施例对此不作限定。
具体地,物体细分类模块的Navigator agent得到各个候选区域包含目标物体的第一概率后,对各个候选区域包含目标物体的第一概率进行排序:
I(R1)≥I(R2)≥...≥I(RA)
其中,A是候选区域的数量,I(RA)为第A个候选区域包含目标物体的第一概率。将第一概率排在前面的预设数量的候选区域确定为目标候选区域,即目标候选区域包含目标物体的第一概率大于除目标候选区域外其他候选区域包含目标物体的第一概率。
步骤S44,对各个所述目标候选区域进行特征提取,并根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息。
在本实施例中,物体细分类模块的Navigator agent得到目标候选区域后,对各个目标候选区域进行特征提取,物体细分类模块的Navigator agent将提取的目标候选区域的特征输入至物体细分类模块的Scrutinizer agent,Scrutinizer agent根据接收到的目标候选区域的特征确定目标对物体的第二类别信息。
具体地,物体细分类模块的Scrutinizer agent将提取的各个目标候选区域的特征与目标图像的特征进行拼接得到目标物体的目标特征,根据目标特征确定目标物体属于第一类别信息下各个子类别信息的第二概率,将第二概率最大的子类别信息确定为目标物体的第二类别信息。
需要说明的是,物体细分类模块的Teacher agent可以接收物体细分类模块的Navigator agent提取的目标候选区域的特征,根据目标候选区域的特征对物体细分类模块的Navigator agent进行训练。具体地,根据目标候选区域的特征计算每个目标候选区域包含目标物体的置信度,根据置信度判断物体细分类模块的Navigator agent是否收敛,若收敛,对目标候选区域进行特征提取并将提取的特征发送至物体细分类模块的Scrutinizer agent,若不收敛,将判断结果反馈至物体细分类模块的Navigator agent,直到其提取包含目标物体更多信息量的候选区域。
本实施例提供的技术方案中,通过在目标图像上提取多个候选区域,并对提取的多个候选区域进行过滤以去除冗余候选区域,获取过滤后的各个候选区域包含目标物体的第一概率,根据第一概率确定预设数量的目标候选区域,对各个目标候选区域进行特征提取,并根据提取的各个目标候选区域的特征确定目标物体的第二类别信息。本方案通过对目标图像的目标候选区域进行细分类的特征提取,可以准确确定目标物体的具体类别。
参照图4,图4是本发明物体识别方法的第三实施例的流程示意图,基于第一实施例,上述S30的步骤包括:
步骤S31,根据各个所述目标物体的第一类别信息以及位置信息对所述待识别图像进行分割处理得到各个所述目标物体的目标图像;
其中,上述S40的步骤包括:
步骤S45,将分割处理后的各个所述目标图像分配至各个所述目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个所述目标图像的特征确定各个所述目标物体的第二类别信息。
在本实施例中,若待识别图像中包括多个目标物体,物体识别装置在对待识别图像进行特征提取,根据提取的待识别图像的特征确定各个目标物体的第一类别信息以及各个目标物体在待识别图像中的位置信息后,根据各个目标物体的第一类别信息以及位置信息对待识别图像进行分割处理得到各个目标物体的目标图像,对于单个目标物体的目标图像的确定方式与待识别图像中只有一个目标物体的目标图像的确定方式相同,具体可参照实施例一的内容,在此不再赘述。
进一步地,物体识别装置将分割处理后的各个目标图像分配至各个目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个目标图像的特征确定各个目标物体的第二类别信息。其中,物体识别装置可以包括多个物体细分类模块,每一个第一类别信息可以对应有一个物体细分类模块,用于识别该第一类别信息下的子类别信息。对于单个目标物体,通过该目标物体的第一类别信息对应的物体细分类模块进行特征提取确定该目标物体的第二类别信息的过程,具体可参考实施例一与实施例二的内容,在此不再赘述。
进一步地,物体识别装置得到各个目标物体的第二类别信息后,将各个目标物体的第二类别信息进行汇总以及整合,物体识别装置可以将各个目标物体的第二类别信息映射到待识别图像并输出显示。
本实施例提供的技术方案中,在待识别图像中包括多个目标物体时,物体识别装置根据各个目标物体的第一类别信息以及位置信息对待识别图像进行分割处理得到各个目标物体的目标图像,将分割处理后的各个目标图像分配至各个目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个目标图像的特征确定各个目标物体的第二类别信息。本方案通过分割和分流处理使物体识别装置具备对单张待识别图像存在多个目标物体的输入场景进行识别的能力。
参照图5,图5是本发明物体识别方法的第四实施例的流程示意图,基于第一实施例,上述S20的步骤包括:
步骤S21,对所述待识别图像进行特征提取,并对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征;
在本实施例中,物体识别装置获取到待识别图像后,将待识别图像输入物体检测模块进行特征提取得到待识别图像的特征,其中,待识别图像的特征为多尺度的特征,物体检测模块可以基于EfficientDet网络搭建,EfficientDet作为专门的物体检测网络,其网络架构由特征提取网络EfficientDet backbone、特征融合网络BiFPN Layer与两个预测子网络(类别预测子网络与box预测子网络)组成。
在本实施例中,特征提取网络EfficientDet backbone作为Efficientdet的基础网络,其主要作用是提取输入图像的特征。EfficientDet采用EfficientNet作为其特征提取网络,在学习效果上取得了前所未有的效果。在深度学习领域,普遍的观点是海量数据应由大规模网络进行适配以取得更好的精度,因此当前许多工作致力于扩大基础网络的规模。EfficientNet同样遵循此方法,不同的是,其对网络进行缩放的方式是采用统一对深度、宽度、输入图像大小进行缩放。由于深度、宽度、输入图像大小在缩放过程中存在一定的制约关系,因此等比例缩放的方式相对于其他方式会有最优效果。
进一步地,物体识别装置通过特征提取网络EfficientDet backbone提取到待识别图像不同尺度的特征后,采用特征融合网络BiFPN Layer对提取的待识别图像的不同尺度的特征进行融合处理得到待识别图像的融合特征。其中,待识别图像的融合特征也是多尺度的特征。
在本实施例中,EfficientDet网络采用双向特征金字塔网络(bidirectionalfeature pyramid networks,BiFPN)作为特征融合网络,通过给定一组多尺度特征:
其中为第li层的特征,特征融合的目的是找到一个映射变换,将多尺度特征变为融合后的特征:
FPN(feature pyramid networks)可以将3-7层的特征作为融合网络的输入,自上而下聚合多尺度特征:
其中,Conv表示一次卷积操作,Resize表示一次采样操作。由于自上而下对特征进行聚合,因此FPN存在单向信息流的限制,为解决该问题,PANet(Path AggregationNetwork)增加了自下而上的特征聚合通路,而NAS-FPN(Neural Architecture Searchfeature pyramid networks)更进一步提出了跨尺度特征融合方式。BiFPN结合了PANet与NAS-FPN的优点,将双向特征融合与跨尺度特征融合结合在一起,既可以灵活进行特征融合,又减轻了网络规模。此外,BiFPN还考虑到不同大小的输入对输出的影响是不同的,因此加入了加权特征融合方法Fast normalized fusion:
其中wi为可学习权重,ε为一个小量,Ii为不同分辨率的输入。BiFPN结合了双向跨尺度与加权特征融合,最终输出计算方式如下(以第6层特征为例):
其中P6 td为中间特征。
步骤S22,根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。
在本实施例中,物体识别装置通过特征融合网络BiFPN Layer对提取的待识别图像的特征进行融合处理得到待识别图像的融合特征后,通过预测子网络根据融合特征预测目标物体的第一类别信息以及目标物体在待识别图像中的位置信息。其中,预测子网络包括类别预测子网络与box预测子网络,类别预测子网络采用softmax函数对待识别图像的特征进行分类得到目标物体的第一类别信息,box预测子网络通过回归的方式输出目标物体在待识别图像中的坐标值。
本实施例提供的技术方案中,通过对待识别图像进行特征提取,并对提取的待识别图像的特征进行融合处理得到待识别图像的融合特征,根据融合特征确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息。本方案对待识别图像进行特征提取可以准确确定目标物体的第一类别信息以及目标物体在待识别图像中的位置信息。
参照图6,本发明还提供了一种物体识别装置,所述物体识别装置包括:
获取模块100,用于获取包含目标物体的待识别图像;
第一特征提取模块200,用于对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;
确定模块300,用于根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
第二特征提取模块400,用于对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息。
在一实施例中,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息方面,所述第二特征提取模块400具体应用于:
在所述目标图像上提取多个候选区域,并对提取的多个所述候选区域进行过滤以去除冗余候选区域;
获取过滤后的各个所述候选区域包含所述目标物体的第一概率;
根据所述第一概率确定预设数量的目标候选区域,其中,所述目标候选区域包含所述目标物体的第一概率大于除所述目标候选区域外其他候选区域包含所述目标物体的第一概率;
对各个所述目标候选区域进行特征提取,并根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息。
在一实施例中,所述根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息方面,所述第二特征提取模块400具体应用于:
将提取的各个所述目标候选区域的特征与所述目标图像的特征进行拼接得到所述目标物体的目标特征;
根据所述目标特征确定所述目标物体属于所述第一类别信息下各个子类别信息的第二概率;
将第二概率最大的子类别信息确定为所述目标物体的第二类别信息。
在一实施例中,所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像方面,所述确定模块300具体应用于:
获取所述待识别图像的中心位置;
根据所述中心位置、所述位置信息以及所述第一类别信息在所述待识别图像中确定所述目标物体的目标图像。
在一实施例中,所述待识别图像包括多个所述目标物体,所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像方面,所述确定模块300具体应用于:
根据各个所述目标物体的第一类别信息以及位置信息对所述待识别图像进行分割处理得到各个所述目标物体的目标图像;
其中,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括:
将分割处理后的各个所述目标图像分配至各个所述目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个所述目标图像的特征确定各个所述目标物体的第二类别信息。
在一实施例中,所述根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息方面,所述第一特征提取模块200具体应用于:
对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征;
根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。
在一实施例中,所述获取包含目标物体的待识别图像方面,所述获取模块100具体应用于:
获取包含目标物体的原始图像;
对所述原始图像进行正确性校验,并将通过校验后的所述原始图像转换为RGB图像;
对所述RGB图像进行归一化处理得到包含目标物体的待识别图像。
基于上述实施例,本发明还提供了一种物体识别装置,上述物体识别装置可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的物体识别程序,上述处理器执行上述物体识别程序时,实现如上述任一实施例所述的物体识别方法的步骤。
基于上述实施例,本发明还提供一种计算机可读存储介质,其上存储有物体识别程序,上述物体识别程序被处理器执行时实现如上述任一实施例所述的物体识别方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是智能电视、手机、计算机等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种物体识别方法,其特征在于,所述物体识别方法包括:
获取包含目标物体的待识别图像;
对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息,其中,所述待识别图像的特征为多尺度的特征;
根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息;
所述根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息的步骤包括:
对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征,其中,通过特征提取网络提取所述待识别图像的特征,所述特征提取网络为EfficientDetbackbone,通过所述特征提取网络提取到所述待识别图像不同尺度的特征后,采用特征融合网络BiFPN Layer对提取的所述待识别图像的不同尺度的特征进行融合处理得到待识别图像的融合特征,所述待识别图像的融合特征为多尺度的特征;
根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。
2.如权利要求1所述的物体识别方法,其特征在于,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括:
在所述目标图像上提取多个候选区域,并对提取的多个所述候选区域进行过滤以去除冗余候选区域;
获取过滤后的各个所述候选区域包含所述目标物体的第一概率;
根据所述第一概率确定预设数量的目标候选区域,其中,所述目标候选区域包含所述目标物体的第一概率大于除所述目标候选区域外其他候选区域包含所述目标物体的第一概率;
对各个所述目标候选区域进行特征提取,并根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息。
3.如权利要求2所述的物体识别方法,其特征在于,所述根据提取的各个所述目标候选区域的特征确定所述目标物体的第二类别信息的步骤包括:
将提取的各个所述目标候选区域的特征与所述目标图像的特征进行拼接得到所述目标物体的目标特征;
根据所述目标特征确定所述目标物体属于所述第一类别信息下各个子类别信息的第二概率;
将第二概率最大的子类别信息确定为所述目标物体的第二类别信息。
4.如权利要求1所述的物体识别方法,其特征在于,所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像的步骤包括:
获取所述待识别图像的中心位置;
根据所述中心位置、所述位置信息以及所述第一类别信息在所述待识别图像中确定所述目标物体的目标图像。
5.如权利要求1所述的物体识别方法,其特征在于,所述待识别图像包括多个所述目标物体,所述根据所述第一类别信息以及位置信息确定所述目标物体的目标图像的步骤包括:
根据各个所述目标物体的第一类别信息以及位置信息对所述待识别图像进行分割处理得到各个所述目标物体的目标图像;
其中,所述对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息的步骤包括:
将分割处理后的各个所述目标图像分配至各个所述目标物体的第一类别信息对应的识别网络进行特征提取,根据提取的各个所述目标图像的特征确定各个所述目标物体的第二类别信息。
6.如权利要求1所述的物体识别方法,其特征在于,所述获取包含目标物体的待识别图像的步骤包括:
获取包含目标物体的原始图像;
对所述原始图像进行正确性校验,并将通过校验后的所述原始图像转换为RGB图像;
对所述RGB图像进行归一化处理得到包含目标物体的待识别图像。
7.一种物体识别装置,其特征在于,所述物体识别装置包括:
获取模块,用于获取包含目标物体的待识别图像;
第一特征提取模块,用于对所述待识别图像进行特征提取,并根据提取的所述待识别图像的特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息;
确定模块,用于根据所述第一类别信息以及位置信息确定所述目标物体的目标图像;
第二特征提取模块,用于对所述目标图像进行特征提取,并根据提取的所述目标图像的特征确定所述目标物体的第二类别信息,其中,所述第二类别信息为所述第一类别信息的子类别信息;
所述第一特征提取模块,还用于对提取的所述待识别图像的特征进行融合处理得到所述待识别图像的融合特征,其中,通过特征提取网络提取所述待识别图像的特征,所述特征提取网络为EfficientDet backbone,通过所述特征提取网络提取到所述待识别图像不同尺度的特征后,采用特征融合网络BiFPN Layer对提取的所述待识别图像的不同尺度的特征进行融合处理得到待识别图像的融合特征,所述待识别图像的融合特征为多尺度的特征;
根据所述融合特征确定所述目标物体的第一类别信息以及所述目标物体在所述待识别图像中的位置信息。
8.一种物体识别装置,其特征在于,所述物体识别装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的物体识别程序,所述物体识别程序被所述处理器执行时实现如权利要求1-6中任一项所述的物体识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有物体识别程序,所述物体识别程序被处理器执行时实现如权利要求1-6中任一项所述的物体识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110834898.2A CN113516088B (zh) | 2021-07-22 | 2021-07-22 | 物体识别方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110834898.2A CN113516088B (zh) | 2021-07-22 | 2021-07-22 | 物体识别方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113516088A CN113516088A (zh) | 2021-10-19 |
CN113516088B true CN113516088B (zh) | 2024-02-27 |
Family
ID=78067718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110834898.2A Active CN113516088B (zh) | 2021-07-22 | 2021-07-22 | 物体识别方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113516088B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020048265A1 (zh) * | 2018-09-06 | 2020-03-12 | 北京市商汤科技开发有限公司 | 多级目标分类及交通标志检测方法和装置、设备、介质 |
CN110991465A (zh) * | 2019-11-15 | 2020-04-10 | 泰康保险集团股份有限公司 | 一种物体识别方法、装置、计算设备及存储介质 |
CN111104988A (zh) * | 2019-12-28 | 2020-05-05 | Oppo广东移动通信有限公司 | 图像识别方法及相关装置 |
CN111291819A (zh) * | 2020-02-19 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN111783812A (zh) * | 2019-11-18 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 违禁图像识别方法、装置和计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014106732A (ja) * | 2012-11-27 | 2014-06-09 | Sony Computer Entertainment Inc | 情報処理装置および情報処理方法 |
-
2021
- 2021-07-22 CN CN202110834898.2A patent/CN113516088B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020048265A1 (zh) * | 2018-09-06 | 2020-03-12 | 北京市商汤科技开发有限公司 | 多级目标分类及交通标志检测方法和装置、设备、介质 |
CN110879950A (zh) * | 2018-09-06 | 2020-03-13 | 北京市商汤科技开发有限公司 | 多级目标分类及交通标志检测方法和装置、设备、介质 |
CN110991465A (zh) * | 2019-11-15 | 2020-04-10 | 泰康保险集团股份有限公司 | 一种物体识别方法、装置、计算设备及存储介质 |
CN111783812A (zh) * | 2019-11-18 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 违禁图像识别方法、装置和计算机可读存储介质 |
CN111104988A (zh) * | 2019-12-28 | 2020-05-05 | Oppo广东移动通信有限公司 | 图像识别方法及相关装置 |
CN111291819A (zh) * | 2020-02-19 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113516088A (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751134B (zh) | 目标检测方法、装置、存储介质及计算机设备 | |
CN111950424B (zh) | 一种视频数据处理方法、装置、计算机及可读存储介质 | |
KR101896357B1 (ko) | 객체를 검출하는 방법, 디바이스 및 프로그램 | |
CN110706261A (zh) | 车辆违章检测方法、装置、计算机设备和存储介质 | |
KR101887637B1 (ko) | 로봇 시스템 | |
CN110941594A (zh) | 一种视频文件的拆分方法、装置、电子设备及存储介质 | |
CN112183166A (zh) | 确定训练样本的方法、装置和电子设备 | |
US20230215125A1 (en) | Data identification method and apparatus | |
CN111199050B (zh) | 一种用于对病历进行自动脱敏的系统及应用 | |
CN111144372A (zh) | 车辆检测方法、装置、计算机设备和存储介质 | |
KR20200054367A (ko) | 객체 검출 장치 및 그 방법 | |
CN111476275A (zh) | 基于图片识别的目标检测方法、服务器及存储介质 | |
CN114663871A (zh) | 图像识别方法、训练方法、装置、系统及存储介质 | |
CN112288701A (zh) | 一种智慧交通图像检测方法 | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
US11256950B2 (en) | Image feature amount output device, image recognition device, the image feature amount output program, and image recognition program | |
CN117475253A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN111291716B (zh) | 精子细胞识别方法、装置、计算机设备和存储介质 | |
CN113516088B (zh) | 物体识别方法、装置及计算机可读存储介质 | |
CN117275086A (zh) | 手势识别方法、装置、计算机设备、存储介质 | |
CN111539390A (zh) | 一种基于Yolov3的小目标图像识别方法、设备和系统 | |
CN113221929A (zh) | 一种图像处理方法以及相关设备 | |
EP4332910A1 (en) | Behavior detection method, electronic device, and computer readable storage medium | |
CN109698900B (zh) | 一种数据处理方法、装置及监控系统 | |
CN114582012A (zh) | 一种骨架人体行为识别方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |