CN113128522B

CN113128522B - 目标识别方法、装置、计算机设备和存储介质

Info

Publication number: CN113128522B
Application number: CN202110513268.5A
Authority: CN
Inventors: 唐哲; 王忱
Original assignee: Sichuan Yuncong Tianfu Artificial Intelligence Technology Co ltd
Current assignee: Sichuan Yuncong Tianfu Artificial Intelligence Technology Co ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2024-04-05
Anticipated expiration: 2041-05-11
Also published as: CN113128522A

Abstract

本发明属于图像处理技术领域，具体提供一种目标识别方法、装置、计算机设备和存储介质，旨在解决通用物体和场景图像识别不够准确的问题。为此目的，本发明的方法包括：获取第一待识别图像；对述第一待识别图像进行前处理，得到第二待识别图像；通过训练好的、依次由RepVGG网络、SEnet网络、FPN网络、分类器和归一化函数组成的目标识别模型对第二待识别图像进行目标识别，得到第二待识别图像中目标类别属于样本类别的目标类别预测概率；根据目标类别预测概率和类别概率阈值，按照目标类别输出要求，得到目标类别识别结果。通过本发明，可以有效地利用各神经网络的功能特点，提取更高质量的特征图，从而提高通用物体和自然场景识别的鲁棒性和准确率。

Description

目标识别方法、装置、计算机设备和存储介质

技术领域

本发明属于图像处理技术领域，具体提供一种目标识别方法、装置、计算机设备和存储介质。

背景技术

在互联网的影响下，人们对图像识别的需求越来越大，例如各大网站、APP等每天都会有大量的下载或上传的海量图像数据，图像数据也逐渐成为我们获取信息的主要途径之一。在大量的图像数据中，通用物体和场景的图像占据较大比例，因此，能够快速、准确地识别通用物体和场景成为一个亟待解决的需求。

在开放的场景中，通用物体和场景所涵盖的范围十分广泛，对于一张随机图像，图像中包含的目标类别、目标对象个数往往都是不确定的，并且图像的清晰度、背景画面、光照亮度等也不相同。因此，人们希望计算机能够鲁棒地处理任意图像中的信息，更准确地识别图像中的内容，并通过标签来描述图像中的目标对象。

相应地，本领域需要一种新的方案来解决上述问题。

发明内容

为了解决现有技术中的上述问题，即为了进一步提高图像处理中，通用物体和自然场景识别的鲁棒性和准确率。在第一方面，本发明提出了一种目标识别方法，所述方法包括：

获取待识别图像；

通过训练好的目标识别模型对所述待识别图像进行目标识别，得到所述待识别图像中目标类别属于样本类别的目标类别预测概率；

其中，所述目标识别模型由多个功能单元按照特定顺序组成，所述功能单元依次为特征提取网络、特征加权网络、特征融合网络、分类器和归一化函数，

所述特征提取网络为所述RepVGG网络，

所述特征加权网络为所述SEnet网络，

所述特征融合网络为所述FPN网络，

其中，所述特征提取网络为第一级输入网络。

在上述目标识别方法的一个实施方式中，“通过训练好的目标识别模型对所述待识别图像进行目标识别，得到所述待识别图像中目标类别属于样本类别的目标类别预测概率”的步骤具体包括：

RepVGG网络接收所述待识别图像并提取所述待识别图像的图像特征，得到第一特征图；

将所述第一特征图输入SEnet网络，所述SEnet网络利用Attention机制对所述第一特征图的通道维度进行加权，得到第二特征图；

将所述第二特征图输入FPN网络，所述FPN网络对所述第二特征图中的浅层特征和深层特征进行特征融合，得到第三特征图；

将所述第三特征图输入所述分类器，得到目标识别中间结果；

通过所述归一化函数将所述目标识别中间结果映射到0到1之间，得到所述目标类别预测概率；

其中，所述样本类别为用于训练所述目标识别模型的全部已知目标类别的集合。

在上述目标识别方法的一个实施方式中，所述目标识别模型训练所用的损失函数为Asymmetric Loss函数。

在上述目标识别方法的一个实施方式中，所述方法还包括：

当所述目标类别预测概率大于或等于类别概率阈值时，判定所述目标类别为所述样本类别中的类别，得到第一目标类别识别结果，所述第一目标类别识别结果为一个或多个，否则，判定所述目标类别为未知类别；

输出全部所述第一目标类别识别结果；并且/或者

检查所述第一目标类别识别结果中是否存在用户指定的样本类别，输出其中属于所述用户指定样本类别的所述第一目标类别识别结果，其中所述用户指定样本类别为1个或多个；并且/或者

输出所述目标类别预测概率中概率值大的、排序前N的目标类别，其中N为1个或多个。

在上述目标识别方法的一个实施方式中，“获取待识别图像”的具体步骤包括：

获取第一待识别图像；

将所述第一待识别图像的尺寸转换为统一设定的尺寸，得到第一中间图像；

将所述第一中间图像的图像格式转换为RGB格式，得到第二中间图像；

将所述第二中间图像的像素值进行归一化处理，得到第二待识别图像，所述第二待识别图像即为所述待处理图像。

在第二方面，本发明提出了一种目标识别装置，所述装置包括：

图像获取模块：获取第一待识别图像；

图像前处理模块：对所述第一待识别图像进行前处理，得到第二待识别图像；

图像识别模块：通过训练好的目标识别模型对所述第二待识别图像进行目标识别，得到所述第二待识别图像中目标类别属于样本类别的目标类别预测概率；

所述特征提取网络为所述RepVGG网络，

所述特征加权网络为所述SEnet网络，

所述特征融合网络为所述FPN网络，

其中，所述特征提取网络为第一级输入网络。

在上述目标识别装置的一个实施方式中，所述图像识别模块被配置成执行以下操作：

RepVGG网络接收所述第二待识别图像并提取所述第二待识别图像的图像特征，得到第一特征图；

在上述目标识别装置的一个实施方式中，所述目标识别装置还包括目标类别判别输出模块，所述目标类别判别输出模块被配置成执行以下操作：

所述目标类别判别输出模块输出全部所述第一目标类别识别结果；并且/或者

所述目标类别判别输出模块检查所述第一目标类别识别结果中是否存在用户指定的样本类别，输出其中属于所述用户指定样本类别的所述第一目标类别识别结果，其中所述用户指定样本类别为1个或多个；并且/或者

所述目标类别判别输出模块输出所述目标类别预测概率中概率值大的、排序前N的目标类别，其中N为1个或多个。

在第三方面，本发明提出了一种计算机设备，所述设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行上述任一项方案所述的目标识别方法。

在第四方面，本发明提出了一种存储介质，所述存储介质适于存储多条程序代码，所述程序代码适于由处理器加载并运行以执行上述任一项方案所述的目标识别方法。

本领域技术人员能够理解的是，根据本发明的目标识别的技术方案，首先通过RepVGG网络快速获取表征力高的第一特征图；然后应用SEnet网络，通过Attention机制增加分类效果好的通道的权重，得到第二特征图；再应用FPN网络融合浅层特征和深层特征，得到包含信息更为丰富、特征图效果更好的第三特征图；用第三特征图进行分类，并将分类结果进行归一化处理得到第二待识别图像中目标类别属于样本类别的目标类别预测概率。应用本发明的方法，即采用本发明的上述网络组合架构，可以有效提升特征图的质量，从而提高通用物体和自然场景识别的鲁棒性和准确率。

附图说明

下面参照附图来描述本发明的具体实施方式，附图中：

图1是本发明的实施例的主要步骤流程图。

图2是本发明的实施例的目标识别模型的结构示意图。

图3是本发明的目标识别模型的工作流程图。

图4是本发明的一个实施例的目标识别装置的结构框图。

图5是本发明的一个实施例的目标类别描述示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先参阅图1，图1是本发明的实施例的主要步骤流程图，如图1所示，本发明的目标识别方法包括：

步骤S101：获取第一待识别图像；

步骤S102：对述第一待识别图像进行前处理，得到第二待识别图像；

步骤S103：通过训练好的目标识别模型2对第二待识别图像进行目标识别，得到第二待识别图像中目标类别属于样本类别的目标类别预测概率；

步骤S104：根据目标类别预测概率和类别概率阈值，按照目标类别输出要求，得到目标类别识别结果。

在步骤S101中，待识别图像的来源可以是互联网、监控视频中截取的图像、用户自己拍摄的照片或是其他渠道。为了与输入到目标识别模型2中的图像进行区别，在本实施例中，将步骤S101中获取的原始图像称为第一待识别图像。由于第一待识别图像的来源不同，使得第一待识别图像的存储格式、尺寸大小往往存在差异。因此，为了满足目标识别模型2输入的要求，如步骤S102所示，需要将第一待识别图像进行前处理，得到格式统一的第二待识别图像。前处理的方法包括：图像尺寸转换、图像格式转换为RGB格式和像素值归一化处理。

具体地，在步骤S102中，作为示例，目标识别模型2的输入要求图像分辨率为224*224。因此，首先通过比例缩放、裁剪、填充等方法，将第一待识别图像的尺寸转换成分辨率为224*224的第一中间图像。在本实施例中，目标识别模型2输入的通道数为3，优选地，需要将第一中间图像的格式转换成RGB格式，得到第二中间图像。为了加快目标识别模型2训练过程，将第二中间图像的每个像素的R、G、B的值进行归一化处理，得到第二待识别图像，也就是目标识别模型2输入所需要的待识别图像。作为示例，归一化的方法可采用OpenCV中的NORM_L1方式或是其他方式，本领域技术人员可根据图像的特点选择合适的方法实现。

然后在步骤S103中，将步骤S102得到的第二待识别图像，输入到如图2所示的目标识别模型2得到待识别图像中目标类别属于样本类别的目标类别预测概率，具体过程将在下文中结合图3详细描述。

接下来在步骤S104中，根据目标类别预测概率和类别概率阈值，按照目标类别输出要求，得到目标类别识别结果。具体地，将步骤S103输出的全部目标的类别预测概率与类别概率阈值进行比较，当目标类别预测概率大于或等于类别概率阈值时，则可判定待识别图像中存在样本类别中的类别，得到第一目标类别识别结果，否则，判定步骤S103输出的不包含样本类别中的类别，第二待识别图像中的目标为未知目标类别。如果步骤S103的结果中存在多个大于或等于类别概率阈值的目标类别预测概率时，则说明待识别图像中存在多个样本类别中的类别，因此第一目标类别识别结果为一个或多个。

在一个实施中，用户需要查看图像中全部目标类别，则可将输出配置为输出全部第一目标类别识别结果。

在另一个实施中，用户需要查看监控录像中，某一区域是否有人进入，则可将输出设置为类别名称为人的目标类别，此时，系统得到全部第一目标类别识别结果后，将继续检查其中的是否存在目标类别为人的识别结果，如果有则可通过屏幕显示、语音提示或是其他形式输出提示信息。并且，用户也可以同时设置多个需要查看的目标类别，如将输出的目标类别设置为人和/或电动车。

在另一个实施中，可将输出设置为topN的规则，即输出目标类别预测概率中概率值按由大到小排序，排序为前N的目标类别。此外，还可同时设置多种组合的目标类别，作为示例，可设置为监控屏幕实时显示全部第一目标类别识别结果，并且当第一目标类别识别结果中有类别名称为人的目标时系统报警。

此外，可根据用户需要对输出的目标类别进行描述，目标类别描述的内容包括但不限于目标类别名称、目标类别预测概率。

继续参阅图2，图2是本发明的实施例的目标识别模型的结构示意图。如图2所示，目标识别模型2由多个功能单元按照特定顺序组合而成，其功能单元依次为：特征提取网络21、特征加权网络22、特征融合网络23、分类器24和归一化函数25，其中特征提取网络21为第一级输入网络，输入的图像为第二待识别图像。

接下来阅读图3，并结合图2说明目标识别模型2的具体组成和图像识别的流程。图3是本发明的目标识别模型的工作流程图，具体包括下列步骤：

步骤S301：RepVGG网络接收第二待识别图像并提取第二待识别图像的图像特征，得到第一特征图；

步骤S302：将第一特征图输入SEnet网络，SEnet网络利用Attention机制对第一特征图的通道维度进行加权，得到第二特征图；

步骤S303：将第二特征图输入FPN网络，FPN网络对第二特征图中的浅层特征和深层特征进行特征融合，得到第三特征图；

步骤S304：将第三特征图输入分类器，得到目标识别中间结果；

步骤S305：通过归一化函数将目标识别中间结果映射到0到1之间，得到目标类别预测概率。

在步骤S301中，优选地，特征提取网络21选用RepVGG网络。RepVGG网络是VGG式模型的改进模型，它通过卷积层与BN相融合、3x3卷积和1x1卷积融合、Identity分支等效特殊权重卷积层等方法，提升了模型的泛化性和表征能力，同时简化了网络结构，加快了推理速度。RepVGG网络通过卷积对第二待识别图像进行特征提取，得到的第一特征图。

在步骤S302中，优选地，特征加权网22选用SEnet网络。SEnet网络通过Squeeze操作，得到第一特征图的通道级全局特征；然后对全局特征进行Excitation操作，学习各个通道间的关系，得到不同通道的权重；最后通过Reweight操作用Excitation操作输出的各个通道的权重乘以原来的特征图得到第二特征图，完成在通道维度上的对第一特征图的重新标定。也就是说，SEnet网络在通道维度上通过Attention机制，通过学习的方式可以自动获取到每个特征通道的重要程度，并将特征图中好的通道的权重加大，不好的通道权重减小，从而进一步改善了特征图的效果，提高了目标识别的准确率。

在步骤S303中，优选地，特征融合网络23选用FPN网络。由于特征图中的浅层特征和深层特征分别包含着不同的信息，FPN网络将第二特征图中的浅层特征和深层特征进行融合，得到第三特征图。使用综合了多种不同信息第三特征图进行分类，将会进一步提高分类的准确率。

在步骤S304中，作为示例，可选择全连接层作为分类器24的实现方案。当然，本领域技术人员可根据实际情况选择其他合适的方法实现。

在步骤S305中，作为示例，可选择sigmoid函数为归一化函数25。sigmoid函数如下所示：

其中，S为sigmoid函数；x为分类器24输出的目标类别属于样本类别的可能性的值。

通过sigmoid函数，将分类器24的输出值转换到0～1之间，得到第二待识别图像中目标类别属于样本类别的目标类别预测概率。

在使用目标识别模型2之前，需要选择样本图像，通过损失函数对该模型进行训练。

在本实施例中，样本图像使用开源数据集Open Images图像集中的图像，OpenImages图像集中的样本图像，已经对目标类别进行了标注，都有各自的类别标签。使用者可根据场景不同，选择所需要类别的样本图像对目标识别模型2进行训练。

需要说明的是，在使用目标识别模型2时，只有训练过的样本类别才能得到对应的预测概率；如果是未训练的目标类别，目标识别模型2的输出将不包含该目标类别的信息。

在本实施例中，优选地，损失函数选择Asymmetric Loss函数。Asymmetric Loss函数如下所示：

p_m＝max(p-m,0)

其中，ASL为Asymmetric Loss函数，L₊为正样本损失值，L_-为负样本损失值，p为样本图像目标识别模型2训练过程中模型输出的目标类别属于样本类别的概率，m设定模型训练满意度值，γ+为正样本贡献指数，γ-为负样本贡献指数。并且m、γ+和γ-均为预先设定的常数，数值的大小相关技术人员可根据目标识别期望的准确率、正负样本数量等情况进行设置。作为示例，可设置为m＝0.8、γ+＝1和γ-＝4。

根据Asymmetric Loss的公式计算出损失值，该损失值反向传播后更新模型的网络参数。经过多个样本图像、每个样本多次迭代训练，直到模型收敛，得到训练好的目标识别模型2。作为示例，可将收敛条件设置为目标样本类别预测概率的变化率超过千分之五。之所以选择Asymmetric Loss函数作为损失函数，是因为该函数在多样本训练中不仅具备正负样本平衡的作用，还可以起到减少负样本损失贡献的效果。

下面参阅图5，图5是本发明的一个实施例的目标类别描述示意图。需要说明的是，一个图像中的目标可能会使目标识别模型2输出多个目标类别，目标类别的名称和数量由用于训练的样本类别决定。如图5所示，标狗识别后的目标类别的名称包括Dog、GoldenRetriever、Pet等。

进一步，本发明还提供了一种目标识别装置。如图4所示，本发明的目标识别装置4主要包括图像获取模块41、图像前处理模块42、图像识别模块43和目标类别判别输出模块44。图像获取模块41被配置成执行步骤S101中的操作。图像前处理模块42被配置成执行步骤S102中的操作。图像识别模块43包含如图2所示的目标识别模型2，并被配置成执行步骤S102和图3所示的操作。目标类别判别输出模块44被配置成执行步骤S104中的操作。

进一步，本发明还提供了一种计算机设备。在根据本发明的一个计算机设备包括处理器和存储装置，存储装置可以被配置成存储并执行上述方法实施例的目标识别方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的目标识别方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该目标识别设备可以是包括各种电子设备形成的控制装置设备。

进一步，本发明还提供了一种存储介质。根据本发明的存储介质可以被配置成存储执行上述方法实施例的目标识别方法的程序，该程序可以由处理器加载并运行来实现上述目标识别方法的方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该存储介质可以是包括各种电子设备形成的存储装置设备，可选地，本发明实施例中存储介质是非暂时性的计算机可读存储介质。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等序数词仅用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。应该理解这样使用的数据在适当的情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

需要说明的是，在本申请的描述中，术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种目标识别方法，其特征在于，所述方法包括：

获取待识别图像；

基于所述目标类别预测概率，获取目标类别识别结果；

所述特征提取网络为RepVGG网络，

所述特征加权网络为SEnet网络，

所述特征融合网络为FPN网络，

其中，所述特征提取网络为第一级输入网络；

“通过训练好的目标识别模型对所述待识别图像进行目标识别，得到所述待识别图像中目标类别属于样本类别的目标类别预测概率”的步骤具体包括：

所述RepVGG网络接收所述待识别图像并提取所述待识别图像的图像特征，得到第一特征图；

将所述第一特征图输入所述SEnet网络，所述SEnet网络利用Attention机制对所述第一特征图的通道维度进行加权，得到第二特征图；

将所述第二特征图输入所述FPN网络，所述FPN网络对所述第二特征图中的浅层特征和深层特征进行特征融合，得到第三特征图；

2.根据权利要求1所述的目标识别方法，其特征在于，所述目标识别模型训练所用的损失函数为Asymmetric Loss函数。

3.根据权利要求1所述的目标识别方法，其特征在于，“基于所述目标类别预测概率，获取目标类别识别结果”的步骤具体包括：

输出全部所述第一目标类别识别结果；并且/或者

检查所述第一目标类别识别结果中是否存在用户指定样本类别，输出其中属于所述用户指定样本类别的所述第一目标类别识别结果，其中所述用户指定样本类别为1个或多个；并且/或者

4.根据权利要求1所述的目标识别方法，其特征在于，“获取待识别图像”的具体步骤包括：

获取第一待识别图像；

将所述第二中间图像的像素值进行归一化处理，得到第二待识别图像，所述第二待识别图像即为所述待识别图像。

5.一种目标识别装置，其特征在于，所述装置包括：

图像获取模块：获取第一待识别图像；

目标类别判别输出模块：基于所述目标类别预测概率，获取目标类别识别结果；

所述特征提取网络为RepVGG网络，

所述特征加权网络为SEnet网络，

所述特征融合网络为FPN网络，

其中，所述特征提取网络为第一级输入网络；

所述图像识别模块被配置成执行以下操作：

所述RepVGG网络接收所述第二待识别图像并提取所述第二待识别图像的图像特征，得到第一特征图；

6.根据权利要求5所述的目标识别装置，其特征在于，所述目标类别判别输出模块被配置成执行以下操作：

所述目标类别判别输出模块检查所述第一目标类别识别结果中是否存在用户指定样本类别，输出其中属于所述用户指定样本类别的所述第一目标类别识别结果，其中所述用户指定样本类别为1个或多个；并且/或者

7.一种计算机设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至4中任一项所述的目标识别方法。

8.一种存储介质，所述存储介质适于存储多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至4中任一项所述的目标识别方法。