CN114445710A

CN114445710A - 图像识别方法、装置、电子设备以及存储介质

Info

Publication number: CN114445710A
Application number: CN202210110965.0A
Authority: CN
Inventors: 何悦; 杨喜鹏; 谭啸; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-06

Abstract

本公开提供了一种图像识别方法、装置、电子设备及存储介质，涉及人工智能技术领域，具体涉及计算机视觉和深度学习技术，具体可用于智慧城市和智能云场景下，以至少解决相关技术中对于单一场景中目标对象的识别效果较差，从而导致误检率较高的技术问题。具体实现方案为：获取目标场景的至少一个待识别图像；对至少一个待识别图像进行特征提取，生成每个待识别图像对应的目标特征；利用第一预测方式和第二预测方式对目标特征进行预测，基于预测结果，确定目标场景是否存在目标对象，其中，第一预测方式的预测范围大于第二预测方式的预测范围。

Description

图像识别方法、装置、电子设备以及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉和深度学习技术，具体可用于智慧城市和智能云场景下，尤其涉及一种图像识别方法、装置、电子设备以及存储介质。

背景技术

目前，场景识别是计算机视觉的重要课题之一，并广泛应用于许多领域，主要包括大型数据库的图像信息检索、机器人的移动定位与环境交互、安防监控领域的事件检测等。但是，由于单一场景的类内差异较大但是类间差异较小，因此，采用目前对单一场景中对于目标对象识别效果较差。

发明内容

本公开提供了一种图像识别方法、装置、电子设备以及存储介质，以至少解决相关技术中对于单一场景中目标对象的识别效果较差，从而导致误检率较高的技术问题。

根据本公开的一方面，提供了一种图像识别方法，包括：获取目标场景的至少一个待识别图像；对至少一个待识别图像进行特征提取，生成每个待识别图像对应的目标特征；利用第一预测方式和第二预测方式对目标特征进行预测，基于预测结果，确定目标场景是否存在目标对象，其中，第一预测方式的预测范围大于第二预测方式的预测范围。

根据本公开的又一方面，提供了一种图像识别装置，包括：获取模块，用于获取目标场景的至少一个待识别图像；提取模块，用于对至少一个待识别图像进行特征提取，生成每个待识别图像对应的目标特征；预测模块，用于利用第一预测方式和第二预测方式对目标特征进行预测，基于预测结果，确定目标场景是否存在目标对象，其中，第一预测方式的预测范围大于第二预测方式的预测范围。

根据本公开的又一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提出的图像识别方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提出的图像识别方法。

根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行本公开提出的图像识别方法。

在本公开中，首先获取目标场景的至少一个待识别图像；然后对至少一个待识别图像进行特征提取，生成每个待识别图像对应的目标特征；最后利用第一预测方式和第二预测方式对目标特征进行预测，基于预测结果，确定目标场景是否存在目标对象，其中，第一预测方式的预测范围大于第二预测方式的预测范围。实现了提高对待识别图像中目标对象的预测准确度。容易注意到的是，结合两种预测方式对待识别图像的目标特征进行预测，可以进一步的提高预测的准确度，降低误检的情况，进而解决了相关技术中对于单一场景中对于目标对象的识别效果较差，从而导致误检率较高的技术问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种用于实现图像识别方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本公开实施例的一种图像识别方法的流程图；

图3是根据本公开实施例的一种对目标特征进行预测的示意图；

图4是根据本公开实施例的一种图像识别装置的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

据数据统计显示，全国每年约发生2000起电动车火灾。，各地就连续发生多起致人伤亡的电动车火灾，给人们生命财产安全带来严重威胁，电动车安全管理形势严峻。由电动车"上楼入户"引发的电梯、楼道火灾、爆炸等安全事故频频发生，造成人员伤亡等重大损失。基于电梯内监控设备，智能检测与识别各类型的电动车，当检测到电动车进入电梯，摄像头可直接进行告警(声音/闪光)，并自动将报警信息、现场图像、视频等数据上传至云平台，管理人员可及时接收信息、查看现场情况，进行及时处理。彻底杜绝电动车进入电梯，并方便物业对小区进行管理，极大地减少电动车上楼导致的火灾事故。本公开可以实现上述智能检测与识别电动车的功能。

目前，提高目标检测方法主要有以下几种：

方法1.两阶段的目标检测方法，通过对正负样本的不同采样比例，从而让网络学习一定比例的正负样本，避免失去平衡。

方法2.加深backbone(主干网络)的网络和图片的输入大小，从而能学习更多有用的语义信息，减少目标的错误检测。

方法3.困难样本挖掘等相关算法和技术，增加困难样本的学习，从而减少目标的错误检测。

方法4.增强损失，在网络的学习过程中能有针对的性贴合预测目标和加权。

相关技术中都存在一些问题，分别如下：方法1和方法2中两阶段的网络比较慢，在对实时性要求比较高的场景中很难应用。方法3中难以挖掘样本，不是所有网络都有明显效果，比如对当前应用比较广泛的YOLOV3(深度学习框架)网络，并没有实际效果，没有明显收益；也不能很好对电动车进行检测。方法4是根据应用的需求设计能更适合的loss，但是不能做到完全通用。上述的方法，不能完全适用于电梯场景中的电梯电动车检测任务，该任务对误检极度敏感。

根据本公开实施例，提供了一种图像识别方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。图1示出了一种用于实现图像识别方法的计算机终端(或移动设备)的硬件结构框图。

如图1所示，计算机终端100包括计算单元101，其可以根据存储在只读存储器(ROM)102中的计算机程序或者从存储单元108加载到随机访问存储器(RAM)103中的计算机程序，来执行各种适当的动作和处理。在RAM 103中，还可存储计算机终端100操作所需的各种程序和数据。计算单元101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。

计算机终端100中的多个部件连接至I/O接口105，包括：输入单元106，例如键盘、鼠标等；输出单元107，例如各种类型的显示器、扬声器等；存储单元108，例如磁盘、光盘等；以及通信单元109，例如网卡、调制解调器、无线通信收发机等。通信单元109允许计算机终端100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元101执行本文所描述的图像识别方法。例如，在一些实施例中，图像识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 102和/或通信单元109而被载入和/或安装到计算机终端100上。当计算机程序加载到RAM 103并由计算单元101执行时，可以执行本文描述的图像识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像识别方法。

本文中描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

此处需要说明的是，在一些可选实施例中，上述图1所示的电子设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述电子设备中的部件的类型。

在上述运行环境下，本公开提供了如图2所示的图像识别方法，该方法可以由图1所示的计算机终端或者类似的电子设备执行。图2是根据本公开实施例提供的一种图像识别方法流程图。如图2所示，该方法可以包括如下步骤：

步骤S202，获取目标场景的至少一个待识别图像。

上述的目标场景可以是电梯场景、室内场景、车间场景、停车场场景等多种类型的场景。

上述的至少一个待识别图像可以是目标场景的图像，通过获取目标场景的至少一个待识别图像可以检测目标场景是否存在危险情况。示例性的，由于电动车在电梯内易发生爆炸的情况，因此，可以通过获取多个待识别图像来检测电梯内是否存在电动车，以便在电梯内存在电动车的情况下，及时的提醒乘坐电梯的用户该行为危险。

在一种可选的实施例中，可以间隔预设时间获取目标场景的一张待识别图像，在获取到预设数量的待识别图像时，可以进行下一步的特征提取。

在另一种可选的实施例中，可以在获取到一张待识别图像，就对获取到的待识别图像进行一次特征提取的步骤。

步骤S204，对至少一个待识别图像进行特征提取，生成每个待识别图像对应的目标特征。

在一种可选的实施例中，可以对至少一个待识别图像进行不同程度的特征提取，生成每个待识别图像对应的目标特征，可以先对待识别图像进行浅层语义的特征提取，得到第一特征，在对待识别图像进行深层语义的特征提取，得到第二特征，从而增加待预测的目标特征的数量，进而提高预测的精度。

在另一种可选的实施例中，还可以对每个待识别图像进行多次的特征提取，对于每个待识别图像可以生成多张特征图，从而增加目标特征的数量，进而提高预测的精度。

在又一种可选的实施例中，在对至少一个待识别图像进行特征提取的过程中，可以利用dilation convolution(空洞卷积)的Backbone进行特征提取，例如，resnet(残差网络)、resnext(升级版的残差网络)。

步骤S206，利用第一预测方式和第二预测方式对目标特征进行预测，基于预测结果，确定目标场景是否存在目标对象。

其中，第一预测方式的预测范围大于第二预测方式的预测范围。

在一种可选的实施例中，可以使用FPN(feature pyramid network，特征图金字塔网络)采用第一预测方式和第二预测方式对目标特征进行全局和局部的预测，得到待识别图像在全局和局部的置信度。通过该置信度，可以判断待识别图像中是否存在目标对象。进一步地，可以确定目标场景是否存在目标对象。

示例性的，可以获取电梯场景的待识别图像，对待识别图像进行特征提取，得到目标特征，可以利用第一预测方式对目标特征进行局部预测，得到待识别图像中包含的初始对象对应的类别，具体的，可以通过该初始对象在每个类别的置信度来确定该初始对象是否为目标对象，可以确定初始对象为摩托车的置信度、电动车的置信度、自行车的置信度，其中，目标对象可以为电动车，当电动车的置信度的数值最高时，可以确定初始对象为目标对象，此时，可以确定电梯场景中存在电动车，即，电梯可能存在危险，可以发送报警提示来提醒用户该行为危险。

进一步地，为了提高识别的精确度，可以利用第二预测方式对目标特征进行全局预测，得到待识别图像中包含有摩托车的置信度、包含有电动车的置信度、包含有自行车的置信度，当电动车的置信度为最高置信度，则可以确定目标场景中存在电动车，在利用第一预测方式和第二预测方式都预测到目标场景中存在电动车时，才可以发出报警提示，以便提示用户该行为危险，进而可以减少误报的情况。

需要说明的是，由于电梯场景中一般仅可容纳一个电动车，因此，可以依赖对全局的特征对类别进行判断，进而提高电梯检测场景中的准确率。

上述的目标场景中可以为容纳一个目标对象的场景。由于目标场景中只能容纳下一个目标对象，因此，采用全局预测和局部预测的方式可以有效的提高预测的准确率。不会由于全局预测中出现其他的对象而导致预测的准确度较低。

通过上述步骤，首先获取目标场景的至少一个待识别图像；然后对至少一个待识别图像进行特征提取，生成每个待识别图像对应的目标特征；最后利用第一预测方式和第二预测方式对目标特征进行预测，基于预测结果，确定目标场景是否存在目标对象，其中，第一预测方式的预测范围大于第二预测方式的预测范围。实现了提高对待识别图像中目标对象的预测准确度。容易注意到的是，结合两种预测方式对待识别图像的目标特征进行预测，可以进一步的提高预测的准确度，降低误检的情况，进而解决了相关技术中对于单一场景中对于目标对象的识别效果较差，从而导致误检率较高的技术问题。

可选地，目标特征至少包括第一特征和第二特征，第一特征的特征分辨率小于第二特征的特征分辨率，对至少一个待识别图像进行特征提取，生成每个待识别图像对应的目标特征，包括：对至少一个待识别图像进行浅层语义提取，生成第一特征；对至少一个待识别图像进行深层语义提取，生成第二特征。

上述的浅层语义可以是图像中的浅层结构，例如，像素、角点、斑点等。上述的深层语义可以是对图像内容的分析，例如，人脸、车辆等。

在一种可选的实施例中，通过对至少一个待识别图像进行浅层语义和深层语义的提取，可以增加与该至少一个待识别图像的特征数量，通过提高待预测的目标特征的数量，可以提高预测的精确度。另外，由于利用FPN进行预测会存在上采样和下采样的预测过程，因此，对于不同分辨率的特征也会预测更加的准确。

可选地，基利用第一预测方式和第二预测方式对目标特征进行预测，生成第一预测结果，基于预测结果，确定目标场景是否存在目标对象，包括：利用第一预测方式对目标特征进行全局预测，生成每个待识别图像的第一置信度，其中，第一置信度用于表征每个待识别图像中存在目标对象的概率；利用第二预测方式对目标特征进行局部预测，生成初始对象的第二置信度，其中，第二置信度用于表征初始对象为目标对象的概率；基于第一置信度和第二置信度，确定目标场景是否存在目标对象。

上述的第一预测方式可以为全局预测的方式；上述的第二预测方式可以为局部的预测方式。

在一种可选的实施例中，可以先利用第二预测方式对目标特征中与初始对象相关的特征进行预测，根据初始对象为目标对象的置信度来确定初始对象是否为目标对象，具体的，若初始对象为目标对象的置信度大于某一数值，则说明初始对象为目标对象，此时，可以确定目标场景中存在有目标对象。

进一步地，由于目标场景中一般只能容纳一个目标对象，因此，可以利用第一预测方式对目标特征进行全局预测，作为辅助预测的方式，若生成的每个待识别图像的第一置信度大于某一数值，则说明该待识别图像中存在目标对象的概率较大，此时，可以结合第二预测方式的预测结果来确定目标场景是否真实存在目标对象，由于目标场景中大多只可容纳一个对象，因此，通过存在的初始对象的置信度和全局的置信度来判断目标场景是否存在目标对象，可以提高预测的准确度。

如图3所示为对目标特征进行预测的示意图，其中，前两层的第二预测结果可以是对目标特征对应的特征图进行局部预测的第二预测结果，最后一层的预测结果可以是对目标特征进行全局预测的第一预测结果。

可选地，基于第一置信度和第二置信度，确定目标场景是否存在目标对象，包括：在第一置信度大于第一预设置信度，且第二置信度大于第二预设置信度，确定目标场景中存在目标对象。

上述的第一预设置信度和第二预设置信度可以自行设置。

在一种可选的实施例中，由于对目标特征进行全局预测可能会受到其他特征的影响，因此，可以将全局预测对应的第一预设置信度设置的数值较小，避免由于全局预测中其他特征影响导致整体的置信度较低从而导致出现误检的情况。

在另一种可选的实施例中，可以在第一置信度小于或等于第一预设置信度，且第二置信度小于或等于第二预设置信度的情况下，确定目标场景中不存在目标对象。

进一步地，可以在第一置信度大于第一预设置信度，且第二置信度小于或等于第二预设置信度；或者第一置信度小于或等于第一预设置信度，且第二置信度小于或等于第二预设置信度的情况下，重新获取目标场景的至少一个待识别图像，并对至少一个待识别图像对应的目标特征继续进行预测，直至得到目标场景存在目标对象或者目标场景不存在目标对象的结果，从而得到更加准确的预测结果。

可选地，利用第二预测方式对目标特征进行局部预测，生成初始对象的第二置信度，包括：利用第二预测方式对目标特征进行局部预测，生成初始对象对应的至少一个初始框，其中，至少一个初始框中的每个初始框都对应一个置信度；对至少一个初始框进行合并处理，生成与初始对象对应的目标框；确定目标框对应的置信度为第一置信度。

上述的至少一个初始框可以是检测目标特征中初始对象的特征对应的框，在图像上显示可以是用于标注待识别图像中初始对象的框。

在一种可选的实施例中，在预测目标特征的过程中，可能通过多个初始框对目标场景中存在的初始对象进行标注，但是有一些初始框可能无法将初始对象完全标注在框内，可能会导致出现误检的情况。因此，在生成多个初始框之后可以将多个初始框进行合并处理，得到一个目标框，并确定目标框对应的置信度为第一置信度，从而提高预测的准确度。

在另一种可选的实施例中，在对初始框进行合并初始的过程中，可以对每个初始框对应的置信度进行排序，确定置信度最高的初始框为目标框，并确定该初始框的置信度为目标框的第一置信度。

在又一种可选的实施例中，可以将所有初始框的置信度进行平均，得到第一置信度。

可选地，对至少一个初始框进行合并处理，生成与初始对象对应的目标框，包括：基于至少一个初始框中每个初始框的坐标位置，对至少一个初始框进行合并处理，生成与初始对象对应的目标框。

在一种可选的实施例中，可以根据至少一个初始框中每个初始框的坐标位置，将至少一个初始框中重叠的框或者位置相差较小的框进行处理，生成与初始对象对应的目标框。以便能够将相似的框都进行合并，避免多个框造成误检。

在另一种可选的实施例中，可以通过类别间的nms(Non-Maximum Suppression，最大值抑制)过滤同一个初始对象上多个初始框的误检，以得到目标框。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例的方法。

在本公开中还提供了一种···装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本公开其中一实施例的一种图像识别装置的结构框图，如图4所示，一种图像识别装置400包括：

获取模块402，用于获取目标场景的至少一个待识别图像；

提取模块404，用于对至少一个待识别图像进行特征提取，生成每个待识别图像对应的目标特征；

预测模块406，用于利用第一预测方式和第二预测方式对目标特征进行预测，基于预测结果，确定目标场景是否存在目标对象，其中，第一预测方式的预测范围大于第二预测方式的预测范围。

可选地，目标特征至少包括第一特征和第二特征，第一特征的特征分辨率小于第二特征的特征分辨率，提取模块，包括：浅层语义提取单元，对至少一个待识别图像进行浅层语义提取，生成第一特征；深层语义提取单元，对至少一个待识别图像进行深层语义提取，生成第二特征。

可选地，预测模块，包括：全局预测单元，用于利用第一预测方式对目标特征进行全局预测，生成每个待识别图像的第一置信度，其中，第一置信度用于表征每个待识别图像中存在目标对象的概率；局部预测单元，用于利用第二预测方式对目标特征进行局部预测，生成初始对象的第二置信度，其中，第二置信度用于表征初始对象为目标对象的概率；确定单元，用于基于第一置信度和第二置信度，确定目标场景是否存在目标对象。

可选地，确定单元还用于在第一置信度大于第一预设置信度，且第二置信度大于第二预设置信度，确定目标场景中存在目标对象。

可选地，局部预测单元，包括：生成子单元，用于利用第二预测方式对目标特征进行局部预测，生成初始对象对应的至少一个初始框，其中，至少一个初始框中的每个初始框都对应一个置信度；合并子单元，用于对至少一个初始框进行合并处理，生成与初始对象对应的目标框；确定子单元，用于确定目标框对应的置信度为第一置信度。

可选地，合并子单元还用于基于至少一个初始框中每个初始框的坐标位置，对至少一个初始框进行合并处理，生成与初始对象对应的目标框。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

根据本公开的实施例，本公开还提供了一种电子设备，包括存储器和至少一个处理器，该存储器中存储有计算机指令，该处理器被设置为运行计算机指令以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本公开中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取目标场景的至少一个待识别图像；

S2，对至少一个待识别图像进行特征提取，生成每个待识别图像对应的目标特征；

S3，利用第一预测方式和第二预测方式对目标特征进行预测，基于预测结果，确定目标场景是否存在目标对象，其中，第一预测方式的预测范围大于第二预测方式的预测范围。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质中存储有计算机指令，其中，该计算机指令被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取目标场景的至少一个待识别图像；

可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的实施例，本公开还提供了一种计算机程序产品。用于实施本公开的音频处理方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本公开所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本公开的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本公开的保护范围。

Claims

1.一种图像识别方法，包括：

获取目标场景的至少一个待识别图像；

对所述至少一个待识别图像进行特征提取，生成每个待识别图像对应的目标特征；

利用第一预测方式和第二预测方式对所述目标特征进行预测，基于预测结果，确定所述目标场景是否存在目标对象，其中，所述第一预测方式的预测范围大于所述第二预测方式的预测范围。

2.根据权利要求1所述的方法，其中，所述目标特征至少包括第一特征和第二特征，所述第一特征的特征分辨率小于所述第二特征的特征分辨率，对所述至少一个待识别图像进行特征提取，生成每个待识别图像对应的目标特征，包括：

对所述至少一个待识别图像进行浅层语义提取，生成所述第一特征；

对所述至少一个待识别图像进行深层语义提取，生成所述第二特征。

3.根据权利要求2所述的方法，其中，利用第一预测方式和第二预测方式对所述目标特征进行预测，基于预测结果确定所述目标场景是否存在目标对象，包括：

利用所述第一预测方式对所述目标特征进行全局预测，生成每个待识别图像的第一置信度，其中，所述第一置信度用于表征所述每个待识别图像中存在所述目标对象的概率；

利用所述第二预测方式对所述目标特征进行局部预测，生成初始对象的第二置信度，其中，所述第二置信度用于表征所述初始对象为所述目标对象的概率；

基于所述第一置信度和所述第二置信度，确定所述目标场景是否存在目标对象。

4.根据权利要求3所述的方法，其中，基于所述第一置信度和所述第二置信度，确定所述目标场景是否存在目标对象，包括：

在所述第一置信度大于第一预设置信度，且所述第二置信度大于第二预设置信度，确定所述目标场景中存在所述目标对象。

5.根据权利要求4所述的方法，其中，利用所述第二预测方式对所述目标特征进行局部预测，生成初始对象的第二置信度，包括：

利用所述第二预测方式对所述目标特征进行局部预测，生成所述初始对象对应的至少一个初始框，其中，所述至少一个初始框中的每个初始框都对应一个置信度；

对所述至少一个初始框进行合并处理，生成与所述初始对象对应的目标框；

确定所述目标框对应的置信度为所述第一置信度。

6.根据权利要求5所述的方法，其中，对所述至少一个初始框进行合并处理，生成与所述初始对象对应的目标框，包括：

基于所述至少一个初始框中每个初始框的坐标位置，对所述至少一个初始框进行合并处理，生成与所述初始对象对应的目标框。

7.一种图像识别装置，包括：

获取模块，用于获取目标场景的至少一个待识别图像；

提取模块，用于对所述至少一个待识别图像进行特征提取，生成每个待识别图像对应的目标特征；

预测模块，用于利用第一预测方式和第二预测方式对所述目标特征进行预测，基于预测结果，确定所述目标场景是否存在目标对象，其中，所述第一预测方式的预测范围大于所述第二预测方式的预测范围。

8.根据权利要求1所述的装置，其中，所述目标特征至少包括第一特征和第二特征，所述第一特征的特征分辨率小于所述第二特征的特征分辨率，提取模块，包括：

浅层语义提取单元，对所述至少一个待识别图像进行浅层语义提取，生成所述第一特征；

深层语义提取单元，对所述至少一个待识别图像进行深层语义提取，生成所述第二特征。

9.根据权利要求8所述的装置，其中，预测模块，包括：

全局预测单元，用于利用所述第一预测方式对所述目标特征进行全局预测，生成每个待识别图像的第一置信度，其中，所述第一置信度用于表征所述每个待识别图像中存在所述目标对象的概率；

局部预测单元，用于利用所述第二预测方式对所述目标特征进行局部预测，生成初始对象的第二置信度，其中，所述第二置信度用于表征所述初始对象为所述目标对象的概率；

确定单元，用于基于所述第一置信度和所述第二置信度，确定所述目标场景是否存在目标对象。

10.根据权利要求9所述的装置，其中，确定单元还用于在所述第一置信度大于第一预设置信度，且所述第二置信度大于第二预设置信度，确定所述目标场景中存在所述目标对象。

11.根据权利要求10所述的装置，其中，局部预测单元，包括：

生成子单元，用于利用所述第二预测方式对所述目标特征进行局部预测，生成所述初始对象对应的至少一个初始框，其中，所述至少一个初始框中的每个初始框都对应一个置信度；

合并子单元，用于对所述至少一个初始框进行合并处理，生成与所述初始对象对应的目标框；

确定子单元，用于确定所述目标框对应的置信度为所述第一置信度。

12.根据权利要求11所述的装置，其中，合并子单元还用于基于所述至少一个初始框中每个初始框的坐标位置，对所述至少一个初始框进行合并处理，生成与所述初始对象对应的目标框。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。