CN112633246A

CN112633246A - 开放场景中多场景识别方法、系统、设备及存储介质

Info

Publication number: CN112633246A
Application number: CN202011644695.9A
Authority: CN
Inventors: 杨凯; 罗超; 胡泓; 李巍
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-09

Abstract

本发明公开了开放场景中多场景识别方法、系统、设备及存储介质，其中开放场景中多场景识别模型生成方法包括：在残差网络中的conv3_x层、conv4_x层和conv5_x层中的至少一层后插入一ECA层后得到一初始模型；对开放场景中的若干样本图片进行标注，以得到对应的多场景类别标签；以所述若干样本图片作为输入，以对应的所述场景类别标签作为输出，训练所述初始模型得到开放场景中多场景识别模型。该模型属于分类模型，利用深度学习框架和通道注意机制，以实现开放场景中多场景识别的目的。

Description

开放场景中多场景识别方法、系统、设备及存储介质

技术领域

本发明涉及图像识别领域，尤其涉及一种开放场景中多场景识别方法、系统、设备及存储介质。

背景技术

随着信息时代的到来，人们在出行旅游过程中，都会随手拍摄许多照片并上传至网络平台进行分享。以一些OTA(在线旅游)平台的图库为例，每天都会新增大量由用户或者商家上传的图片，图库中累计了海量的图片。由于无法通过人工进行审核和标注，这些图片杂乱无章，难以利用，通常依赖自动识别及分类机制来对图片内容进行识别并打上相应标签，如场景类别的识别等。

在现有技术中，对特定某一类场景中图片进行分类和识别的方法有很多，但在包括很多种场景的开放场景中识别出包含特定场景的内容图片的方法识别的准确率不高。

发明内容

本发明要解决的技术问题是为了克服现有技术中在开放场景中识别出包含特定场景的内容图片的方法识别的准确率不高的缺陷，提供一种开放场景中多场景识别方法、系统、设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供一种开放场景中多场景识别模型生成方法，所述开放场景中多场景识别模型生成方法包括：

在残差网络中的conv3_x(一种卷积层)层、conv4_x(一种卷积层)层和conv5_x(一种卷积层)层中的至少一层后插入一ECA(通道注意机制)层后得到一初始模型；

对开放场景中的若干样本图片进行标注，以得到对应的多场景类别标签；

以所述若干样本图片作为输入，以对应的所述场景类别标签作为输出，训练所述初始模型得到开放场景中多场景识别模型。

优选地，所述在残差网络中的conv3_x层、conv4_x层和conv5_x层中的至少一层后插入一ECA层后得到一初始模型包括：

分别在所述残差网络中的所述conv3_x层、conv4_x层和conv5_x层后均插入一ECA层后得到所述初始模型；

和/或，

多场景类别标签包括建筑类标签和其他类标签，所述建筑类标签包括中式建筑标签、东西式建筑标签、现代建筑标签、公园乐园标签、遗迹古址标签中的至少一种。

优选地，所述训练所述初始模型得到开放场景中多场景识别模型，包括：

设置加权交叉熵函数作为主损失函数；

设置Ring loss作为辅助损失函数；

利用所述主损失函数和所述辅助损失函数训练所述初始模型得到所述开放场景中多场景识别模型。

优选地，所述利用所述主损失函数和所述主损失函数训练所述初始模型得到开放场景中多场景识别模型，包括：

设置所述主损失函数和所述辅助损失函数的加权和为最终的损失函数；

利用所述最终的损失函数训练所述初始模型得到开放场景中多场景识别模型。

优选地，所述利用所述主损失函数和所述辅助损失函数训练所述初始模型得到开放场景中多场景识别模型之前还包括：

采用动量的随机梯度下降法和反向传播算法优化所述初始模型。

本发明还提供一种开放场景中多场景识别方法，所述开放场景中多场景识别方法包括：

获取开放场景中的待识别场景的目标图片；

将所述目标图片输入至开放场景中多场景识别模型进行分类，以得到多场景中对应的场景类别识别的结果；

所述开放场景中多场景识别模型使用如上所述的开放场景中多场景识别模型的生成方法生成。

本发明还提供一种开放场景中多场景识别模型生成系统，所述开放场景中多场景识别模型生成系统包括模型建立模块、标注模块和训练模块；

所述模型建立模块用于在残差网络中的conv3_x层、conv4_x层和conv5_x层中的至少一层后插入一ECA层后得到一初始模型；

所述标注模块用于对开放场景中的若干样本图片进行标注，以得到对应的多场景类别标签；

所述训练模块用于以所述若干样本图片作为输入，以对应的所述场景类别标签作为输出，训练所述初始模型得到开放场景中多场景识别模型。

优选地，所述模型建立模块用于分别在所述残差网络中的所述conv3_x层、conv4_x层和conv5_x层后均插入一ECA层后得到所述初始模型；

和/或，

优选地，所述训练模块包括设置单元和训练单元；

所述设置单元用于设置加权交叉熵函数作为主损失函数，以及设置Ring loss作为辅助损失函数；

所述训练单元用于利用所述主损失函数和所述辅助损失函数训练所述初始模型得到所述开放场景中多场景识别模型。

优选地，所述训练单元用于设置所述主损失函数和所述辅助损失函数的加权和为最终的损失函数；

所述训练单元还用于利用所述最终的损失函数训练所述初始模型得到开放场景中多场景识别模型。

优选地，所述训练模块包括还包括优化单元；

所述优化单元用于采用动量的随机梯度下降法和反向传播算法优化所述初始模型。

本发明还提供一种开放场景中多场景识别系统，所述开放场景中多场景识别系统包括获取模块、分类模块；

所述获取模块用于获取开放场景中的待识别场景的目标图片；

所述分类模块用于将所述目标图片输入至开放场景中多场景识别模型进行分类，以得到多场景中对应的场景类别识别的结果；

所述开放场景中多场景识别模型使用如上所述的开放场景中多场景识别模型的生成系统生成。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述的开放场景中多场景识别模型生成方法或如上述的开放场景中多场景识别方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的开放场景中多场景识别模型生成方法或如上所述的开放场景中多场景识别方法的步骤。

本发明的积极进步效果在于：

本发明通过在残差网络中的conv3_x层、conv4_x层和conv5_x层中的至少一层后插入一ECA层后得到一初始模型；对开放场景中的若干样本图片进行标注，以得到对应的多场景类别标签；以所述若干样本图片作为输入，以对应的所述场景类别标签作为输出，训练所述初始模型得到开放场景中多场景识别模型。该模型属于分类模型，利用深度学习框架和通道注意机制，以实现开放场景中多场景识别的目的。

附图说明

图1为本发明的实施例1的开放场景中多场景识别模型生成方法的流程示意图。

图2为本发明的实施例1的开放场景中多场景识别模型生成方法的初始模型的结构示意图。

图2-1为本发明的实施例1的开放场景中多场景识别模型生成方法的ECA层的结构示意图。

图3为本发明的实施例2的开放场景中多场景识别方法的流程示意图。

图4为本发明的实施例3的开放场景中多场景识别模型生成系统的模块示意图。

图5为本发明的实施例3的开放场景中多场景识别模型生成系统的训练模块33的模块示意图。

图6为本发明的实施例4的开放场景中多场景识别系统的模块示意图。

图7为本发明实施例5的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种开放场景中多场景识别模型生成方法，本实施例基于残差网络实现，残差网络中的卷积层通常包括conv1层、conv2_x层、conv3_x层、conv4_x层、conv5_x层，如图1所示，开放场景中多场景识别模型生成方法包括：

步骤11、在残差网络中的conv3_x层、conv4_x层和conv5_x层中的至少一层后插入一ECA(通道注意机制)层后得到一初始模型。

本实施例选用的残差网络为wide resnet50分类模型。将wide resnet50原始模型的输入图片尺寸的参数设置为224×224，图片尺寸的参数也可以根据具体的使用场景设置为其他合适尺寸。

如图2所示，分别在残差网络中的conv3_x层、conv4_x层和conv5_x层后均插入一ECA层形成本实施例的初始模型，每个插入的ECA层分别对其前面的conv3_x层、conv4_x层、conv5_x层输出的特征图进行调整。

如图2-1所示，ECA层包括全局池化(GAP)、一维卷积(Conv1D)、元素相乘(element-wise)三部分的处理过程。

以conv3_x与conv3_x后的ECA层处理为例，标记conv3_x层输出为Fin，Fin又作为conv3_x后插入的ECA的输入特征图，记Fin的尺寸为[C,H,W]。其中C为通道数，H为输入特征图的高，W为输入特征图的宽。首先将Fin进行全局池化(GAP)得到1×1×C的聚合特征，再经过一维卷积(Conv1D)得到1×1×C的通道权重，卷积核Conv1D大小k根据输入特征图Fin的通道数C确定，利用公式(1)计算得到。最后通道权重与Fin再进行element-wise(元素相乘)乘法运算得到调整后的特征图Fout，Fout作为conv4_x的输入进行后续的处理。

计算公式如下所示：

其中γ和b为映射函数参数，本实例中取γ＝2和b＝1，odd表示取最近的奇数，其中σ表示sigmoid函数,AvgPool表示均值池化操作。

调整后，包含重要信息的通道获得更大的权重，包含无关信息的通道分配更小的权重，加速模型收敛。

步骤12、对开放场景中的若干样本图片进行标注，以得到对应的多场景类别标签。

本实施例的多场景环境为建筑类，多场景类别标签包括建筑类标签和其他类标签，其他类标签即为不属于建筑类标签以外的其他类标签，比如大量无法定义所属场景的图片、图画、卡通图片、海报等标签。

建筑类标签包括中式建筑标签、西式建筑标签、现代建筑标签、公园乐园标签、遗迹古址标签中的至少一种。则对应的，wide resnet50原始模型的全连接层输出节点数设置为N+1，即N个建筑人文场景标签和1个“其他”。本实施例中的N个建筑类标签为5，即全连接层输出节点数设置为6。

步骤13、以若干样本图片作为输入，以对应的场景类别标签作为输出，训练初始模型得到开放场景中多场景识别模型。

采用多种方式收集若干样本图片，分别收集N个建筑类图片数据以及“其他”类图片数据，图片数据可以利用爬虫技术收集，或者历史积累的相关数据、人工补充标注的数据等。

步骤13包括：

步骤131、设置加权交叉熵函数作为主损失函数；

步骤132、设置Ring loss作为辅助损失函数；

步骤133、利用主损失函数和辅助损失函数训练初始模型得到开放场景中多场景识别模型。

步骤133包括：

步骤1331、设置主损失函数和辅助损失函数的加权和为最终的损失函数；

步骤1332、利用最终的损失函数训练初始模型得到开放场景中多场景识别模型。

使用加权的交叉熵损失作为主损失函数、Ring loss作为辅助损失函数，来优化模型参数。记模型输出Y＝{y₁,y₂,…,y_N+1}，权重＝{w₁,w₂,…,w_N+1}，取值基于训练集中各类样本数的比例，则N(本实施例中为5)个建筑人文标签及“其他”之间的交叉熵损失表示为loss_ce：

其中label表示图片的正式标签序号，取值范围为[1,N+1]的整数。

记目标模长为R，以第一轮迭代后的特征向量模长的均值初始化R，Ring loss表示为loss_rl：

最终的损失loss_total为两种损失函数的加权和：

loss_total＝loss_ce+λloss_rl

其中λ为权重因子，设置为常规值，即取值为0.01。

采用动量的随机梯度下降法和反向传播算法优化初始模型。

动量因子设置为常规值，momentum＝0.9。

基于在公开场景分类数据集place365(标准数据集)上训练的开源模型的部分训练参数进行迁移学习，加载除原始深度学习模型网络中的全连接层及新添加的ECA层以外的预训练权重的参数至建立的初始模型。然后再训练加载参数后的初始模型，以训练3个ECA层及初始模型最后的全连接层中的权重参数，设置初始学习率为0.01；微调初始模型的conv4_x层和conv5_x层中的预训练权重参数，其初始学习率设为0.001；冻结其他层中的参数，不做更新。训练过程中，设置每迭代5轮，将参数学习率的大小减半，加速模型收敛。

训练完成后，利用待测试图库中的图片数据进行测试，以抽验识别结果，评估开放场景中多场景识别模型的准确率及召回率，根据错误分类的图片补充为相应的正负样本，以及剔除不典型样本，计算根据训练集中各类别样本数的比例，更新交叉熵的权重，重新训练模型。重复多轮数据迭代，直到识别模型的准确率满足生产需求，得到最终的开放场景中多场景识别模型。

该模型属于分类模型，利用深度学习框架和通道注意机制，实现开放场景的图片中按照不同场景进行分类的目的，本实施例可以实现开放场景中的几种建筑类场景的图片的准确识别。

实施例2

本实施例提供一种开放场景中多场景识别方法，如图3所示，开放场景中多场景识别方法包括：

步骤21、获取开放场景中的待识别场景的目标图片；

步骤22、将目标图片输入至开放场景中多场景识别模型进行分类，以得到多场景中对应的场景类别识别的结果。

开放场景中多场景识别模型使用实施例1中的开放场景中多场景识别模型的生成方法生成。

本实施例可以利用开放场景中多场景识别模型的识别结果，实现图库中海量开放场景图片中的多场景中对应的场景类别的准确识别。

为便于后续基于建筑人文识别结果的进一步开发利用，基于Pytorch(是一个开源的Python(一种计算机程序设计语言)机器学习库)的TorchServe(PyTorch模型服务框架，用于大规模部署经过训练的模型)模型服务器，打包并部署最终的建筑人文场景识别模型，结合Gunicorn(一种服务器)与Flask(使用Python编写的轻量级Web(全球局域网)应用程序框架)框架开发服务接口，处理待测图库中的海量无标签图片。

实施例3

本实施例提供一种开放场景中多场景识别模型生成系统，如图4所示，开放场景中多场景识别模型生成系统包括模型建立模块31、标注模块32和训练模块33。

模型建立模块31用于在残差网络中的conv3_x层、conv4_x层和conv5_x层中的至少一层后插入一ECA层后得到一初始模型；更具体地，模型建立模块31用于分别在残差网络中的conv3_x层、conv4_x层和conv5_x层后均插入一ECA层后得到初始模型。

标注模块32用于对开放场景中的若干样本图片进行标注，以得到对应的多场景类别标签。

训练模块33用于以若干样本图片作为输入，以对应的场景类别标签作为输出，训练初始模型得到开放场景中多场景识别模型。

如图5所示，训练模块33包括设置单元331、训练单元332和优化单元333；

设置单元331用于设置加权交叉熵函数作为主损失函数，以及设置Ring loss作为辅助损失函数；

训练单元332用于利用主损失函数和辅助损失函数训练初始模型得到开放场景中多场景识别模型。

训练单元332用于设置主损失函数和辅助损失函数的加权和为最终的损失函数；

训练单元332还用于利用最终的损失函数训练初始模型得到开放场景中多场景识别模型。

优化单元333用于采用动量的随机梯度下降法和反向传播算法优化初始模型。

实施例4

本实施例提供一种开放场景中多场景识别系统，如图6所示，开放场景中多场景识别系统包括获取模块41、分类模块42；

获取模块41用于获取开放场景中的待识别场景的目标图片；

分类模块42用于将目标图片输入至开放场景中多场景识别模型进行分类，以得到多场景中对应的场景类别识别的结果；

开放场景中多场景识别模型使用如上的开放场景中多场景识别模型的生成系统生成。

实施例5

图7为本发明实施例5提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现实施例1的开放场景中多场景识别模型的生成方法或实施例2的开放场景中多场景识别方法。图7显示的电子设备70仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备70可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备70的组件可以包括但不限于：上述至少一个处理器71、上述至少一个存储器72、连接不同系统组件(包括存储器72和处理器71)的总线73。

总线73包括数据总线、地址总线和控制总线。

存储器72可以包括易失性存储器，例如随机存取存储器(RAM)721和/或高速缓存存储器722，还可以进一步包括只读存储器(ROM)723。

存储器72还可以包括具有一组(至少一个)程序模块724的程序/实用工具725，这样的程序模块724包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器71通过运行存储在存储器72中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1所提供的开放场景中多场景识别模型的生成方法或实施例2所提供的开放场景中多场景识别方法。

电子设备70也可以与一个或多个外部设备74(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口75进行。并且，模型生成的设备70还可以通过网络适配器76与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器76通过总线73与模型生成的设备70的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备70使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例6

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例1所提供的开放场景中多场景识别模型的生成方法或实施例2所提供的开放场景中多场景识别方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例1的开放场景中多场景识别模型的生成方法或实施例2的的开放场景中多场景识别方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种开放场景中多场景识别模型生成方法，其特征在于，所述开放场景中多场景识别模型生成方法包括：

在残差网络中的conv3_x层、conv4_x层和conv5_x层中的至少一层后插入一ECA层后得到一初始模型；

2.如权利要求1所述的开放场景中多场景识别模型生成方法，其特征在于，所述在残差网络中的conv3_x层、conv4_x层和conv5_x层中的至少一层后插入一ECA层后得到一初始模型包括：

和/或，

3.如权利要求1所述的开放场景中多场景识别模型生成方法，其特征在于，所述训练所述初始模型得到开放场景中多场景识别模型，包括：

设置加权交叉熵函数作为主损失函数；

设置Ring loss作为辅助损失函数；

4.如权利要求3所述的开放场景中多场景识别模型生成方法，其特征在于，所述利用所述主损失函数和所述主损失函数训练所述初始模型得到开放场景中多场景识别模型，包括：

5.如权利要求3所述的开放场景中多场景识别模型生成方法，其特征在于，所述利用所述主损失函数和所述辅助损失函数训练所述初始模型得到开放场景中多场景识别模型之前还包括：

6.一种开放场景中多场景识别方法，其特征在于，所述开放场景中多场景识别方法包括：

获取开放场景中的待识别场景的目标图片；

所述开放场景中多场景识别模型使用如权利要求1至5任一项所述的开放场景中多场景识别模型的生成方法生成。

7.一种开放场景中多场景识别模型生成系统，其特征在于，所述开放场景中多场景识别模型生成系统包括模型建立模块、标注模块和训练模块；

8.如权利要求7所述的开放场景中多场景识别模型生成系统，其特征在于，所述模型建立模块用于分别在所述残差网络中的所述conv3_x层、conv4_x层和conv5_x层后均插入一ECA层后得到所述初始模型；

和/或，

9.如权利要求7所述的开放场景中多场景识别模型生成系统，其特征在于，所述训练模块包括设置单元和训练单元；

10.如权利要求9所述的开放场景中多场景识别模型生成系统，其特征在于，所述训练单元用于设置所述主损失函数和所述辅助损失函数的加权和为最终的损失函数；

11.如权利要求9所述的开放场景中多场景识别模型生成系统，其特征在于，所述训练模块包括还包括优化单元；

12.一种开放场景中多场景识别系统，其特征在于，所述开放场景中多场景识别系统包括获取模块、分类模块；

所述开放场景中多场景识别模型使用如权利要求7至11任一项所述的开放场景中多场景识别模型的生成系统生成。

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的开放场景中多场景识别模型生成方法或如权利要求6所述的开放场景中多场景识别方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的开放场景中多场景识别模型生成方法或如权利要求6所述的开放场景中多场景识别方法的步骤。