CN115761390A

CN115761390A - 图像场景识别方法及装置

Info

Publication number: CN115761390A
Application number: CN202111026055.6A
Authority: CN
Inventors: 饶聪; 王欣博; 申子宜
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2023-03-07
Also published as: WO2023029665A1

Abstract

本申请提供图像场景识别方法及装置，其中图像场景识别方法包括：获取待识别图像，将待识别图像输入目标视觉元素检测模型，获得待识别图像包括的至少一个目标视觉元素，将至少一个目标视觉元素输入场景识别模型，获得待识别图像对应的场景类别。如此，采用自底向上的场景识别方法，基于微观的视觉元素，推理出各个微观的视觉元素可能共存的宏观场景类别，从而实现场景识别，大大提供了识别图像场景时的识别精度和准确度。

Description

图像场景识别方法及装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种图像场景识别方法。本申请同时涉及一种图像场景识别装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着计算机技术和互联网技术的快速发展，图像作为传播媒介越来越受到人们的喜爱，人们工作和生活中许多方面都会涉及到图像理解，而图像理解的首要任务是进行场景识别。场景识别是一种用计算机实现人的视觉功能的技术，它的目的是使计算机能够对图像进行处理，自动识别图像中的场景。随着深度学习的发展，使用训练好的图像识别模型来解决场景识别问题己越来越普遍。

现有技术中，传统的场景识别通常采用自顶向下的识别方法，通过分类器自动学习图像中的宏观全局特征，从而实现场景识别的功能，如目前场景识别的方法中，往往是使用卷积神经网络同时学习图像中全局特征提取和场景分类，从而使得卷积神经网络可以对输入的图像进行分析，输出图像的场景类别，即端到端的场景识别方法。

然而，上述端到端的场景识别方法，输入为需要进行场景识别的图像，直接输出识别得到的场景，在对图像进行场景识别时仅关注图像的全局宏观特征，导致识别图像场景时识别精度和准确度有限。

发明内容

有鉴于此，本申请实施例提供了一种图像场景识别方法。本申请同时涉及一种图像场景识别装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的图像场景识别时识别精度和准确度较低的技术问题。

根据本申请实施例的第一方面，提供了一种图像场景识别方法，包括：

获取待识别图像；

将待识别图像输入目标视觉元素检测模型，获得待识别图像包括的至少一个目标视觉元素；

将至少一个目标视觉元素输入场景识别模型，获得待识别图像对应的场景类别。

根据本申请实施例的第二方面，提供了一种图像场景识别装置，包括：

获取模块，被配置为获取待识别图像；

第一输入模块，被配置为将待识别图像输入目标视觉元素检测模型，获得待识别图像包括的至少一个目标视觉元素；

第二输入模块，被配置为将至少一个目标视觉元素输入场景识别模型，获得待识别图像对应的场景类别。

根据本申请实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令：

获取待识别图像；

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现任意图像场景识别方法的步骤。

本申请提供的图像场景识别方法，可以先获取待识别图像，然后将待识别图像输入目标视觉元素检测模型中，获得待识别图像包括的至少一个目标视觉元素，之后再将至少一个目标视觉元素输入场景识别模型，获得待识别图像对应的场景类别。这种情况下，可以先对待识别图像进行识别，得到待识别图像中微观的视觉元素，然后将该微观的视觉元素输入场景识别模型，通过场景识别模型推理各个微观的视觉元素可能共存的宏观场景类别，从而识别得到待识别图像的场景类别。如此，并不是自顶向下，基于图像进行整体的全局宏观特征提取和分析，而是采用自底向上的场景识别方法，基于微观的视觉元素，推理出各个微观的视觉元素可能共存的宏观场景类别，从而实现场景识别，大大提高了识别图像场景时的识别精度和准确度。

附图说明

图1是本申请一实施例提供的一种图像场景识别方法的流程图；

图2是本申请一实施例提供的一种图像场景识别过程的示意图；

图3是本申请一实施例提供的一种场景识别结果的展示示意图；

图4是本申请一实施例提供的一种图像场景识别过程的处理流程图；

图5是本申请一实施例提供的一种图像场景识别装置的结构示意图；

图6是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

图像：是人对视觉感知的物质再现，图像可以为自然拍摄的图像，由光学设备获取，如照相机、镜子、望远镜及显微镜等；也可以为人工绘制的图像，如手工绘画图像等。图像可以记录、保存在纸质媒介、胶片等等对光信号敏感的介质上。通过专业设计的影像，可以发展成人与人沟通的视觉语言，也可以了解世界美术中大量的平面绘画、立体雕塑与建筑。图像可以包括静态图像或动态视频中的单帧图像。

场景识别：是一种用计算机实现人的视觉功能的技术，它的目的是使计算机能够对图像进行处理，自动识别图像中的场景。也即，识别图像中所呈现的宏观场景类别，其类别可以根据业务需求进行具体的定义。

视觉元素：视觉元素是指构成视觉对象的基本单元，是人类接受与传达信息的工具与媒介，是视觉传达语言的单词与符号，因而人们可以从视觉元素来认识和研究大自然和人类社会不同时空的变化和事物静态与动态的所有信息。视觉元素由信息要素和形式要素构成，信息要素由图形、文字、形状、形体等内容组成；形式要素由点、线、面、色彩、空间等内容组成，形式要素为在画面上的组织、排列包括方向、位置、空间、重心等要素的安排，目的是通过确定各种视觉要素来构成元素之间的关系和秩序，以此来构建图像画面的视觉效果。一个图像的大部分信息来自于视觉元素，视觉沟通只需要少量的视觉元素就能提供大量的信息，如，视觉元素可以为图像中的人体、物体、文本、事件、动作等。

在本申请中，提供了一种图像场景识别方法，本申请同时涉及一种图像场景识别装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例提供的一种图像场景识别方法的流程图，具体包括以下步骤：

步骤102：获取待识别图像。

需要说明的是，待识别图像可以是指等待进行场景识别的图像，该待识别图像可以为静态图像，也可以为动态视频中的单帧图像，若为动态视频中的单帧图像，则在获取待识别图像时，可以根据场景识别需求，截取动态视频中的视频帧作为待识别图像。

实际应用中，获取待识别图像时，可以从其他设备获取，即接收其他设备传输的待识别图像；也可以从计算机本地获取，也即计算机本地预先存储有许多图像，从本地存储的图像中获取待识别图像。

步骤104：将待识别图像输入目标视觉元素检测模型，获得待识别图像包括的至少一个目标视觉元素。

具体的，目标视觉元素检测模型是预先从网络上获取到的、基于海量的开源数据预训练得到的视觉元素检测模型，该目标视觉元素检测模型可以识别一个图像中通用的视觉元素，即通过目标视觉元素检测模型可以得到待识别图像中包括的微观的视觉元素。目标视觉元素即是指目标视觉元素检测模型识别出的、待识别图像包括的视觉元素，如人体、物体、文本、事件、行为等等。

本实施例一个可选的实施方式中，目标视觉元素检测模型输出的视觉元素中可能会包括有关联的视觉元素，因而还可以对目标视觉元素检测模型输出的视觉元素进行聚类，得到待识别图像包括的目标视觉元素。也即，将待识别图像输入目标视觉元素检测模型，获得待识别图像包括的至少一个目标视觉元素，具体实现过程可以如下：

将待识别图像输入目标视觉元素检测模型，获得目标视觉元素检测模型输出的至少一个视觉元素；

对输出的至少一个视觉元素进行语义分析，确定输出的至少一个视觉元素中相关的视觉元素；

将相关的视觉元素进行聚类，得到至少一个目标视觉元素。

需要说明的是，可以将待识别图像输入目标视觉元素检测模型中，目标视觉元素检测模型是基于海量的开源数据训练得到的，该目标视觉元素检测模型能够对图像中的特征进行提取和分析，从而识别出输入的待识别图像中包括的视觉元素，因而将待识别图像输入目标视觉元素检测模型中，目标视觉元素检测模型可以输出识别到的至少一个视觉元素。

另外，由于目标视觉元素检测模型输出的视觉元素，是对图像各细节区域进行分析识别得到，因而目标视觉元素检测模型输出的视觉元素的总量可能较为庞大，且较为分散。而实际应用中，有些视觉元素之间是存在关联关系的，这些视觉元素可以组合为一个视觉元素，如人体的各个部分可以组成人，因而本申请实施例中可以对目标视觉元素检测模型输出的至少一个视觉元素进行语义分析，确定哪些视觉元素之间存在关联关系，从而将存在关联关系的视觉元素聚合到一起，合并为一个目标视觉元素，对于不存在关联关系的视觉元素，直接将其作为目标视觉元素。

示例的，假设目标视觉元素检测模型输出的视觉元素为：帽子、头、紫色上衣、手臂、黑色短裤、腿、运动鞋、山、水、枝干、叶子、花瓣、花径。对上述视觉元素进行语义分析，可以确定帽子、头、紫色上衣、手臂、黑色短裤、腿、运动鞋均是人体相关的视觉元素，即帽子、头、紫色上衣、手臂、黑色短裤、腿、运动鞋之间存在关联关系，可以将其合并为人体；枝干、叶子是树木相关的视觉元素，即枝干、叶子之间存在关联关系，可以将其合并为树木；花瓣、花径是花相关的视觉元素，即花瓣、花径之间存在关联关系，可以将其合并为花。对于山、水来说，不存在关联的视觉元素，因而可以将山、水单独作为目标视觉元素，此时可以得到待识别图像包括的目标视觉元素为人体、山、水、树木和花。

本申请实施例中可以先将待识别图像输入目标视觉元素检测模型中，获得目标视觉元素检测模型输出的至少一个视觉元素，然后对输出的至少一个视觉元素进行语义分析，从而将目标视觉元素检测模型输出的至少一个视觉元素中相关的视觉元素聚合到一起，得到待识别图像包括的目标视觉元素。如此，可以将大量分散的视觉元素进行聚类划分，减少后续需要识别的视觉元素的数量，从而节省存储空间和后续的计算资源。

本实施例一个可选的实施方式中，网络上可能会存在许多预训练好的视觉元素检测模型，因而可以从多个预训练好的视觉元素检测模型中，选出高精度、高召回率的视觉元素检测模型，用于待识别图像的视觉元素的识别，也即将待识别图像输入目标视觉元素检测模型，获得待识别图像包括的至少一个目标视觉元素之前，还可以包括：

获取至少一个视觉元素检测模型，并获取图像测试集；

根据图像测试集，计算至少一个视觉元素检测模型中各个视觉元素检测模型的识别准确度和/或召回率；

根据识别准确度和/或召回率，从至少一个视觉元素检测模型中筛选出目标视觉元素检测模型。

需要说明的是，视觉元素检测模型可以是指从网络上获取到的、基于海量开源数据进行预训练的、能够对图像进行识别分析的模型。或者，视觉元素检测模型也可以是指基于网络上海量的开源数据，自主进行预训练得到的，能够对图像进行识别分析的模型；也即，视觉元素检测模型不一定必须来源于网络，也可以自主预训练得到，但是由于实践当中获取海量含标注的数据的成本通常比模型高很多，因而进行预训练的数据可以来源于网络。

另外，图像测试集可以是指用于测试至少一个视觉元素检测模型的识别准确度和/或召回率的图像集合。

其中，识别准确度可以是指视觉元素检测模型的识别结果中识别正确的视觉元素所占的比例，用于确定视觉元素检测模型的识别结果中有多少是识别正确的；召回率可以是指输入视觉元素检测模型中用于测试的图像中包括的各个视觉元素中，被视觉元素检测模型识别出来的视觉元素所占的比例，用于确定图像中有多少视觉元素能够被视觉元素检测模型识别出来。

实际应用中，从网络上获取到至少一个视觉元素检测模型后，可以同时从网络上或者从本地获取图像测试集，然后根据图像测试集中包括的各个测试图像，测试获取到的各个视觉元素检测模型的识别准确度和/或召回率，然后从各个视觉元素检测模型中筛选出，识别准确度和/或召回率较高的作为目标视觉元素检测模型，用于后续图像中视觉元素的识别。

本实施例一个可选的实施方式中，可以基于视觉元素检测模型输出的结果，与图像测试集中测试图像携带的标签，计算视觉元素检测模型的识别准确度和/或召回率，也即图像测试集可以包括至少一个测试图像，每个测试图像携带有视觉元素标签；此时根据图像测试集，计算至少一个视觉元素检测模型中各个视觉元素检测模型的识别准确度和/或召回率，具体实现过程可以如下：

针对图像测试集中的每个测试图像，将测试图像输入参考视觉检测模型，获得参考视觉检测模型输出的预测视觉元素，参考视觉检测模型为至少一个视觉元素检测模型中的任一个；

根据图像测试集中各个测试图像的视觉元素标签和对应的预测视觉元素，计算参考视觉检测模型的识别准确度和/或召回率。

需要说明的是，测试图像携带的视觉元素标签为测试图像中包括的各个视觉元素，即测试图像中真实包括的视觉元素。将测试图像输入参考视觉检测模型中，可以获得参考视觉检测模型输出的预测视觉元素，该预设视觉元素即是参考视觉检测模型对输入的测试图像的预测结果。

实际应用中，将该预测视觉元素和测试图像携带的视觉元素标签进行对比，即可确定出预测视觉元素中有几个视觉元素是预测正确的，从而计算出该参考视觉检测模型针对输入的测试图像的识别准确度。另外，将该预测视觉元素和测试图像携带的视觉元素标签进行对比，还可以确定出预测视觉元素中包括有哪些视觉元素标签中的视觉元素，即视觉元素标签中有哪些视觉元素被参考视觉检测模型正确识别出来，从而计算出该参考视觉检测模型针对输入的测试图像的召回率。

另外，针对图像测试集中各个测试图像均可以按照上述方法，得到参考视觉检测模型的识别准确度和/或召回率，此时可以将各个测试图像的识别准确度和/或召回率的平均值作为参考视觉检测模型最终的识别准确度和/或召回率。

本申请实施例中可以通过图像测试集，测试获取到的各个视觉元素检测模型的识别准确度和/或召回率，从而根据识别准确度和/或召回率，从各个视觉元素检测模型中筛选出识别准确度和/或召回率较高的目标视觉元素检测模型，使得筛选出的目标视觉元素检测模型能够以高精度和/或高召回率检测出待识别图像中微观的视觉元素，从而提高待识别图像的场景识别的精度和准确度。

步骤106：将至少一个目标视觉元素输入场景识别模型，获得待识别图像对应的场景类别。

需要说明的是，至少一个目标视觉元素是目标视觉元素检测模型对待识别图像进行识别分析得到的，因而该至少一个目标视觉元素可以代表待识别图像中的图像信息，此时可以仅将识别得到的至少一个目标视觉元素输入场景识别模型中。

另外，由于不同的视觉元素出现的场景是有规律的，因而场景识别模型可以对接收到的各个目标视觉元素进行推理分析，识别出待识别图像对应的场景类别，如人体、办公桌、椅子、电脑等视觉元素可能会出现在办公室场景中，树林、水、山、花等视觉元素可能会出现在自然风景的场景中。

本申请实施例中，场景识别模型只需要识别待识别图像的目标视觉元素，而不需要识别整个待识别图像，由于目标视觉元素相较于整个待识别图像来说，数据量大大减小，因而可以节省所需的存储空间，且场景识别模型需要识别的数据量也大大减少，从而大大提高了场景识别的效率。另外，通过待识别图像的局部的视觉元素，可以推理出待识别图像的宏观场景类别，从而大大提高场景识别的准确率和精度大大提升。

实际应用中，还可以提供不同形式的识别结果供上层应用使用，例如函数接口、文件输出、数据库持久化等合理的方式。

本实施例一个可选的实施方式中，由于待识别图像包括的目标视觉元素的数量往往较大，可能数以万计，因而可以先对待识别图像包括的至少一个目标视觉元素进行编码，再将编码向量输入场景识别模型中，进行场景识别，也即将至少一个目标视觉元素输入场景识别模型，获得待识别图像对应的场景类别，具体实现过程可以如下：

采用预设编码方式，对至少一个目标视觉元素进行编码，获得至少一个目标视觉元素的编码向量；

将至少一个目标视觉元素的编码向量输入场景识别模型，获得待识别图像对应的场景类别。

实际应用中，预设编码方式可以是指预先设置的编码方式，预设编码方式可以为稀疏向量编码方式，如one-het编码，当然，实际应用中还可以采用其他编码方式对至少一个目标视觉元素进行编码，本申请实施例对此不进行限制。

需要说明的是，可以先采用预设编码方式，对至少一个目标视觉元素进行编码，获得至少一个目标视觉元素的编码向量，将数量庞大的目标视觉元素编码为编码向量，从而无需存储庞大的文本数据，节约数据存储空间，且可以加速场景识别模型的识别过程，提高识别效率。

本实施例一个可选的实施方式中，目标视觉元素可以携带有对应的元素概率，因而可以根据目标视觉元素对应的元素概率，设置编码向量中每个编码位置处的编码数值，实现对至少一个目标视觉元素进行编码，也即采用预设编码方式，对至少一个目标视觉元素进行编码，获得至少一个目标视觉元素的编码向量，具体实现过程可以如下：

根据预设视觉元素的元素个数，确定编码向量的向量长度；

根据至少一个目标视觉元素以及对应的元素概率，确定向量长度的编码向量中各个编码位置的编码数值，得到至少一个目标视觉元素的编码向量。

具体的，预设视觉元素可以是指预先设置的、不同图像中可能包括的通用视觉元素，该预设视觉元素需要包括各类图像中可能出现的各个视觉元素。实际应用中，可以将预设视觉元素的元素个数确定为编码向量的向量长度，即预先设置了多少个视觉元素，编码向量的长度就为多少位。

示例的，假设预设视觉元素为山、水、树木、花、丛林、湖泊、云、天空、海滩、人体、建筑物、动物、小吃、饮料、餐具、桌子、椅子、窗户、门、电脑等，由于预设视觉元素为20个，因而对至少一个目标视觉元素进行编码，得到的编码向量的向量长度为20位。

本实施例一个可选的实施方式中，可以直接将目标视觉元素对应的元素概率作为相应编码位置处的编码数值，也即根据至少一个目标视觉元素以及对应的元素概率，确定向量长度的编码向量中各个编码位置的编码数值，具体实现过程可以如下：

针对向量长度的编码向量中的每个编码位置，确定编码位置对应的参考视觉元素；

在至少一个目标视觉元素中包括参考视觉元素的情况下，将至少一个目标视觉元素中参考视觉元素对应的元素概率作为编码位置的编码数值；

在至少一个目标视觉元素中不包括参考视觉元素的情况下，将编码位置的编码数值置为预设数值。

需要说明的是，编码向量的向量长度是根据预设视觉元素的元素个数确定的，因而编码向量中每个编码位置均可以对应一个预设视觉元素，即参考视觉元素。在确定编码向量中各个编码位置处的编码数值时，可以先确定编码位置对应的参考视觉元素，然后确定待识别图像的至少一个目标视觉元素中是否包括该参考视觉元素，若包括，则说明待识别图像中存在该视觉元素，此时可以将该参考视觉元素的元素概率作为编码位置的编码数值，若不包括，则说明待识别图像中不包括该视觉元素，此时可以将编码位置的编码数值置为预设数值。其中，预设数值可以是预先设置的数值，用于表示待识别图像中不存在相应的视觉元素，如预设数值可以为0。

实际应用中，视觉元素编码向量的向量长度通常以万为单位，而待识别图像中检测出的目标视觉元素通常只有几个到几十个，也即对目标视觉元素进行编码获得的编码向量中为预设数值的编码位置占绝大部分，因而还可以将该编码向量中非预设数值的编码位置以稀疏形式表达，可以将其改写为编码位置和编码数值配对的集合。如此，由于上述稀疏编码的方式，无需存储编码向量中为预设数值的编码位置，进而可以节省大量的存储空间，同时提高识别算法的计算效率，降低时间和空间的复杂度。

沿用上例，假设识别得到的待识别图像的目标视觉元素为：(人体、0.95)，(山、0.87)，(水、0.68)，(树木、0.91)，(花、0.34)，(建筑物、0.89)，(云、0.96)和(天空、0.85)，编码向量的向量长度为20位。针对编码向量中的第1个编码位置，该编码位置对应的参考视觉元素为山，由于目标视觉元素中包括山，因而编码向量中第1个编码位置处的编码数值为0.87；针对编码向量中的第2个编码位置，该编码位置对应的参考视觉元素为水，由于目标视觉元素中包括水，因而编码向量中第2个编码位置处的编码数值为0.68，依次类推；针对编码向量中的第20个编码位置，该编码位置对应的参考视觉元素为电脑，由于目标视觉元素中不包括电脑，因而编码向量中第20个编码位置处的编码数值为0。同理，对于其他不存在的视觉元素，其在编码向量中对应的编码位置的编码数值也为0。由此，得到至少一个目标视觉元素的编码向量为[0.87，0.68，0.91，0.34，0，0，0.96，0.85，0，0.95，0.89，0，0，0，0，0，0，0，0，0]。

更进一步，将该编码向量中的非零元素以稀疏形式表达，可以将其改写为编码位置和编码数值配对的集合：{(1,0.87),(2,0.68),(3,0.91),(4,0.34),(7,0.96),(8,0.85),(10,0.95),(11,0.89)}，上述稀疏编码的方式，无需存储编码向量中为0的编码数值，进而可以节省大量的存储空间，同时提高识别算法的计算效率，降低时间和空间复杂度。

本说明书实施例中可以根据预设视觉元素的元素个数，确定编码向量的向量长度，并根据目标视觉元素对应的元素概率，设置编码向量中各个编码位置的编码数值，得到编码完成的编码向量，编码方式简洁，提高了编码效率，从而可以提高待识别图像的场景识别效率。

本实施例一个可选的实施方式中，上述涉及到的场景识别模型可以通过如下方法训练得到：

获取样本图像集，样本图像集包括至少两个不同场景类别的样本图像，每个样本图像携带对应的场景类别标签；

针对样本图像集包括的每个样本图像，将该样本图像输入目标视觉元素检测模型，获得该样本图像包括的至少一个样本视觉元素；将该至少一个样本视觉元素输入初始识别模型，获得初始识别模型输出的预测场景类别；并基于该预测场景类别和该样本图像携带的场景类别标签，计算该样本图像对应的损失值；

确定样本图像集包括的各个样本图像对应的损失值的平均损失值，基于平均损失值调整初始识别模型的模型参数，并返回执行获取样本图像集的操作步骤，直至达到训练停止条件，获得训练完成的场景识别模型。

具体的，样本图像集可以是指用于训练初始识别模型、得到可以实现场景识别的场景识别模型的图像集合，该样本图像集可以包括大量的不同场景类别的样本图像，每个样本图像需要携带有样本标签，该样本标签即为样本图像对应的场景类别标签。其中，该场景类别标签可以是指样本图像真实的场景类别，该场景类别标签可以为人工标注，由于一个图像可能不止对应一个场景类别，因而场景类别标签可以包括至少一个场景类别。另外，预测场景类别是指初始识别模型基于输入的至少一个样本视觉元素，预测得到的样本图像对应的场景类别，该预测场景类别也可以包括至少一个场景类别。

其次，初始识别模型可以是指还未训练的模型，实际应用中，可以选择机器学习领域经典的判别式模型(Discriminative Model)或生成式模型(Generative Model)，然后根据样本图像对选择的初始识别模型进行训练，可以得到能够识别图像场景的场景识别模型。

另外，在选定初始识别模型后，对选择的初始识别模型进行训练时，还可以采用集成学习(Ensemble Learning)的方式，来提升场景识别的精度。具体实现时，若训练样本过小，则可能会导致训练得到的场景识别模型过拟合，因而为了避免过拟合现象，可以随机采样得到样本图像集，对初始模型进行训练，或者，可以针对初始识别模型，训练得到多个场景识别模型，然后对训练得到的多个场景识别模型中的参数进行平均处理，得到最终的场景识别模型，减小过拟合的现象。

实际应用中，可以基于样本图像集中各个样本图像的预测场景类别与场景类别标签计算交叉熵损失函数，生成各个样本图像的损失值，然后基于样本图像集的平均损失值的梯度反向传播，迭代调整初始识别模型的参数，直至达到训练停止条件，可以获得训练完成的场景识别模型。其中，场景类别标签是指真实想要初始识别模型输出的结果，也即场景类别标签为真实结果，而将至少一个样本视觉元素输入初始识别模型，输出的预测场景类别就是预测结果，在样本图像集包括的各个样本图像的预测结果和真实结果之间的平均差值足够小时，说明大量样本图像的预测结果足够接近真实结果，此时初始识别模型训练完成，得到场景识别模型。

本说明书中通过计算损失值，可以直观的示出模型的预测结果与真实结果之间的差异，再对初始识别模型进行针对性训练，调整参数，可以有效提高模型训练的速率及模型训练的效果。

本实施例一个可选的实施方式中，达到训练停止条件，可以包括：

判断平均损失值是否小于预设阈值；

若否，则确定未达到训练停止条件；

若是，则确定达到训练停止条件。

其中，预设阈值为损失值的临界值，在平均损失值大于或等于预设阈值的情况下，说明样本图像集中各个样本图像的预测结果与真实结果之间仍存在一定偏差，仍需调整初始识别模型的参数；在平均损失值小于预设阈值的情况下，说明样本图像集中各个样本图像的预测结果与真实结果的接近程度已经足够，可以停止训练。预设阈值的数值可以根据实际情况确定，本说明书对此不做限制。

本说明书中可以根据样本图像集包括的各个样本图像的平均损失值判断初始识别模型的具体训练情况，并在训练未合格的情况下根据平均损失值反向调整初始识别模型的参数，以提高该初始识别模型的分析能力，训练速率高，且训练效果好。

本实施例一个可选的实施方式中，由于样本图像包括的样本视觉元素的数量也可能较大，可能数以万计，因而也可以先对样本图像包括的至少一个样本视觉元素进行编码，再将样本编码向量输入初始识别模型中，进行模型训练，也即将至少一个样本视觉元素输入初始识别模型，获得初始识别模型输出的预测场景类别，具体实现过程可以如下：

采用预设编码方式，对至少一个样本视觉元素进行编码，获得至少一个样本视觉元素的样本编码向量；

将样本编码向量输入初始识别模型，获得初始识别模型输出的预测场景类别。

实际应用中，在训练阶段，对至少一个样本视觉元素进行编码的编码方式，以及应用阶段，对至少一个目标视觉元素进行编码的编码方式应该相同，从而保证训练完成的场景识别模型，在应用阶段可以准确分析输入的编码向量，识别出对应的场景类型。

需要说明的是，训练阶段对至少一个样本视觉元素进行编码的具体实现方式与上述应用阶段对至少一个目标视觉元素进行编码的具体实现方式相类似，本申请在此不再进行赘述。

示例的，图2是本申请一实施例提供的一种图像场景识别过程的示意图，如图2所示，先获取样本图像集，然后将样本图像集中各个样本图像输入目标视觉元素检测模型进行视觉元素检测，得到样本图像集中各个样本图像包括的样本视觉元素，然后将得到的样本图像集中各个样本图像包括的样本视觉元素输入初始识别模型中进行模型训练，得到训练完成的场景识别模型，至此模型训练过程完成。之后，可以获取待识别图像，并将待识别图像输入目标视觉元素检测模型进行视觉元素检测，得到待识别图像包括的目标视觉元素，然后将得到的待识别图像包括的目标视觉元素输入场景识别模型，获得待识别图像对应的场景类别，至此完成待识别图像的场景识别。

需要说明的是，对于传统端到端的场景识别方法，模型的输入为待识别的图像，输出为识别得到的场景类别，也即模型需要同时学习宏观的全局特征提取和场景分类的方法，只有依靠大量的训练样本才能支持模型训练。也就是说，传统端到端的场景识别方法，在模型训练时，需要依赖大量的训练样本(即已经知道场景类别的图像)，得到一个符合识别要求的模型通常需要调整大量的训练策略和参数，模型的训练过程较为复杂和困难，训练过程需要耗费大量的时间、资金和软/硬件的成本，对执行设备的要求较高。

因而，本申请实施例中可以先通过获取到的目标视觉元素检测模型，检测待识别图像的视觉元素，场景识别模型只需通过图像中的人体、物体、文本、事件、动作等微观的视觉元素，推理这些视觉元素可能共存的场景类别，从而识别出图像对应的场景类别。如此，通过使用海量数据预训练的目标视觉元素检测模型来检测场景类别中微观的视觉元素，后续只需使场景识别模型学习微观的视觉元素之间的关系，推理出共存的场景类别，即刻达到场景识别的目的。

也就是说，本申请实施例中场景识别模型的训练过程和应用过程均集中在分类任务上，无需同时学习宏观的全局特征提取和场景分类的方法，因而大幅减少了训练场景识别模型时，对场景图像训练样本的依赖，从而提高训练速度，简化训练难度，且可以达到更好的识别精度，使得场景识别模型的训练过程中以及场景识别过程可以在资源受限的边缘设备(例如普通台式机、平板电脑或手机等)上运行，也可以在资源丰富的云端设备(例如计算集群、服务器或工作站等)上运行，降低对设备性能的要求。

需要说明的是，在输出识别结果时，可以单独输出场景类别，或者同时输出识别到的目标视觉元素和场景类别。

示例的，图3是本申请一实施例提供的一种场景识别结果的展示示意图，如图3所示，展示场景识别结果时，可以在上方展示待识别图像，然后在待识别图像的下方右侧展示识别得到的至少一个目标视觉元素(如视觉元素1-视觉元素10)，并在待识别图像的下方左侧展示识别得到的待识别图像对应的至少一个场景类别(如场景类别1、场景类别2、场景类别3)。

本申请提供的图像场景识别方法，可以先获取待识别图像，然后将待识别图像输入目标视觉元素检测模型中，获得待识别图像包括的至少一个目标视觉元素，之后再将至少一个目标视觉元素输入场景识别模型，获得待识别图像对应的场景类别。这种情况下，可以先对待识别图像进行识别，得到待识别图像中微观的视觉元素，然后将该微观的视觉元素输入场景识别模型，通过场景识别模型推理各个微观的视觉元素可能共存的宏观场景类别，从而识别得到待识别图像的场景类别。如此，并不是自顶向下，基于图像进行整体的全局宏观特征提取和分析，而是采用自底向上的场景识别方法，基于微观的视觉元素，推理出各个微观的视觉元素可能共存的宏观场景类别，从而实现场景识别，大大提供了识别图像场景时的识别精度和准确度。

图4示出了本申请一实施例提供的一种图像场景识别过程的处理流程图，具体包括以下步骤：

步骤402：获取至少一个视觉元素检测模型，并获取图像测试集，图像测试集包括至少一个测试图像，测试图像携带视觉元素标签。

步骤404：针对图像测试集中的每个测试图像，将测试图像输入参考视觉检测模型，获得参考视觉检测模型输出的预测视觉元素，参考视觉检测模型为至少一个视觉元素检测模型中的任一个。

步骤406：根据图像测试集中各个测试图像的视觉元素标签和对应的预测视觉元素，计算参考视觉检测模型的识别准确度和/或召回率，并根据至少一个视觉元素检测模型中各个视觉元素检测模型的识别准确度和/或召回率，从至少一个视觉元素检测模型中筛选出目标视觉元素检测模型。

步骤408：获取样本图像集，样本图像集包括至少两个不同场景类别的样本图像，每个样本图像携带对应的场景类别标签。

步骤410：针对样本图像集包括的每个样本图像，将该样本图像输入目标视觉元素检测模型，获得该样本图像包括的至少一个样本视觉元素，并采用预设编码方式，对该至少一个样本视觉元素进行编码，获得该至少一个样本视觉元素的样本编码向量，将该样本编码向量输入初始识别模型，获得初始识别模型输出的预测场景类别，并基于该预测场景类别和该样本图像携带的场景类别标签，计算该样本图像对应的损失值。

根据预设视觉元素的元素个数，确定编码向量的向量长度；

步骤412：确定样本图像集包括的各个样本图像对应的损失值的平均损失值，基于平均损失值调整初始识别模型的模型参数，并返回执行步骤408的操作步骤，直至达到训练停止条件，获得训练完成的场景识别模型。

步骤414：获取待识别图像，将待识别图像输入目标视觉元素检测模型，获得目标视觉元素检测模型输出的至少一个视觉元素。

步骤416：对输出的至少一个视觉元素进行语义分析，确定输出的至少一个视觉元素中相关的视觉元素，将相关的视觉元素进行聚类，得到至少一个目标视觉元素。

步骤418：采用预设编码方式，对至少一个目标视觉元素进行编码，获得至少一个目标视觉元素的编码向量，将至少一个目标视觉元素的编码向量输入场景识别模型，获得待识别图像对应的场景类别。

本申请提供的图像场景识别方法，可以先对待识别图像进行识别，得到待识别图像中微观的视觉元素，然后将该微观的视觉元素输入场景识别模型，通过场景识别模型推理各个微观的视觉元素可能共存的宏观场景类别，从而识别得到待识别图像的场景类别。如此，并不是自顶向下，基于图像进行整体的全局宏观特征提取和分析，而是采用自底向上的场景识别方法，基于微观的视觉元素，推理出各个微观的视觉元素可能共存的宏观场景类别，从而实现场景识别，大大提供了识别图像场景时的识别精度和准确度。

与上述方法实施例相对应，本申请还提供了图像场景识别装置实施例，图5示出了本申请一实施例提供的一种图像场景识别装置的结构示意图。如图5所示，该装置包括：

获取模块502，被配置为获取待识别图像；

第一输入模块504，被配置为将待识别图像输入目标视觉元素检测模型，获得待识别图像包括的至少一个目标视觉元素；

第二输入模块506，被配置为将至少一个目标视觉元素输入场景识别模型，获得待识别图像对应的场景类别。

可选地，第一输入模块504进一步被配置为：

将相关的视觉元素进行聚类，得到至少一个目标视觉元素。

可选地，第二输入模块506进一步被配置为：

可选地，目标视觉元素携带元素概率；第二输入模块506进一步被配置为：

根据预设视觉元素的元素个数，确定编码向量的向量长度；

可选地，第二输入模块506进一步被配置为：

可选地，图像场景识别装置还包括计算模块，被配置为：

获取至少一个视觉元素检测模型，并获取图像测试集；

可选地，图像测试集包括至少一个测试图像，测试图像携带视觉元素标签；计算模块进一步被配置为：

可选地，图像场景识别装置还包括训练模块，被配置为：

可选地，训练模块进一步被配置为：

本申请提供的图像场景识别装置，可以先对待识别图像进行识别，得到待识别图像中微观的视觉元素，然后将该微观的视觉元素输入场景识别模型，通过场景识别模型推理各个微观的视觉元素可能共存的宏观场景类别，从而识别得到待识别图像的场景类别。如此，并不是自顶向下，基于图像进行整体的全局宏观特征提取和分析，而是采用自底向上的场景识别方法，基于微观的视觉元素，推理出各个微观的视觉元素可能共存的宏观场景类别，从而实现场景识别，大大提供了识别图像场景时的识别精度和准确度。

上述为本实施例的一种图像场景识别装置的示意性方案。需要说明的是，该图像场景识别装置的技术方案与上述的图像场景识别方法的技术方案属于同一构思，图像场景识别装置的技术方案未详细描述的细节内容，均可以参见上述图像场景识别方法的技术方案的描述。

图6示出了根据本申请一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令：

获取待识别图像；

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的图像场景识别方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述图像场景识别方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时以用于实现任意图像场景识别方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像场景识别方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像场景识别方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

计算机指令包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像场景识别方法，其特征在于，包括：

获取待识别图像；

将所述待识别图像输入目标视觉元素检测模型，获得所述待识别图像包括的至少一个目标视觉元素；

将所述至少一个目标视觉元素输入场景识别模型，获得所述待识别图像对应的场景类别。

2.根据权利要求1所述的图像场景识别方法，其特征在于，所述将所述待识别图像输入目标视觉元素检测模型，获得所述待识别图像包括的至少一个目标视觉元素，包括：

将所述待识别图像输入所述目标视觉元素检测模型，获得所述目标视觉元素检测模型输出的至少一个视觉元素；

对所述输出的至少一个视觉元素进行语义分析，确定所述输出的至少一个视觉元素中相关的视觉元素；

将所述相关的视觉元素进行聚类，得到所述至少一个目标视觉元素。

3.根据权利要求1所述的图像场景识别方法，其特征在于，所述将所述至少一个目标视觉元素输入场景识别模型，获得所述待识别图像对应的场景类别，包括：

采用预设编码方式，对所述至少一个目标视觉元素进行编码，获得所述至少一个目标视觉元素的编码向量；

将所述至少一个目标视觉元素的编码向量输入所述场景识别模型，获得所述待识别图像对应的场景类别。

4.根据权利要求3所述的图像场景识别方法，其特征在于，所述目标视觉元素携带元素概率；所述采用预设编码方式，对所述至少一个目标视觉元素进行编码，获得所述至少一个目标视觉元素的编码向量，包括：

根据预设视觉元素的元素个数，确定编码向量的向量长度；

根据所述至少一个目标视觉元素以及对应的元素概率，确定所述向量长度的编码向量中各个编码位置的编码数值，得到所述至少一个目标视觉元素的编码向量。

5.根据权利要求4所述的图像场景识别方法，其特征在于，所述根据所述至少一个目标视觉元素以及对应的元素概率，确定所述向量长度的编码向量中各个编码位置的编码数值，包括：

针对所述向量长度的编码向量中的每个编码位置，确定所述编码位置对应的参考视觉元素；

在所述至少一个目标视觉元素中包括所述参考视觉元素的情况下，将所述至少一个目标视觉元素中所述参考视觉元素对应的元素概率作为所述编码位置的编码数值；

在所述至少一个目标视觉元素中不包括所述参考视觉元素的情况下，将所述编码位置的编码数值置为预设数值。

6.根据权利要求1-5任一项所述的图像场景识别方法，其特征在于，所述将所述待识别图像输入目标视觉元素检测模型，获得所述待识别图像包括的至少一个目标视觉元素之前，还包括：

获取至少一个视觉元素检测模型，并获取图像测试集；

根据所述图像测试集，计算所述至少一个视觉元素检测模型中各个所述视觉元素检测模型的识别准确度和/或召回率；

根据所述识别准确度和/或召回率，从所述至少一个视觉元素检测模型中筛选出所述目标视觉元素检测模型。

7.根据权利要求6所述的图像场景识别方法，其特征在于，所述图像测试集包括至少一个测试图像，所述测试图像携带视觉元素标签；

根据所述图像测试集，计算所述至少一个视觉元素检测模型中各个所述视觉元素检测模型的识别准确度和/或召回率，包括：

针对所述图像测试集中的每个测试图像，将所述测试图像输入参考视觉检测模型，获得所述参考视觉检测模型输出的预测视觉元素，所述参考视觉检测模型为所述至少一个视觉元素检测模型中的任一个；

根据所述图像测试集中各个测试图像的视觉元素标签和对应的预测视觉元素，计算所述参考视觉检测模型的识别准确度和/或召回率。

8.根据权利要求1-5任一项所述的图像场景识别方法，其特征在于，所述场景识别模型通过如下方法训练得到：

获取样本图像集，所述样本图像集包括至少两个不同场景类别的样本图像，每个所述样本图像携带对应的场景类别标签；

针对所述样本图像集包括的每个样本图像，将所述样本图像输入所述目标视觉元素检测模型，获得所述样本图像包括的至少一个样本视觉元素；将所述至少一个样本视觉元素输入初始识别模型，获得所述初始识别模型输出的预测场景类别；并基于所述预测场景类别和所述样本图像携带的场景类别标签，计算所述样本图像对应的损失值；

确定所述样本图像集包括的各个样本图像对应的损失值的平均损失值，基于所述平均损失值调整所述初始识别模型的模型参数，并返回执行所述获取样本图像集的操作步骤，直至达到训练停止条件，获得训练完成的场景识别模型。

9.根据权利要求8所述的图像场景识别方法，其特征在于，所述将所述至少一个样本视觉元素输入初始识别模型，获得所述初始识别模型输出的预测场景类别，包括：

采用预设编码方式，对所述至少一个样本视觉元素进行编码，获得所述至少一个样本视觉元素的样本编码向量；

将所述样本编码向量输入所述初始识别模型，获得所述初始识别模型输出的预测场景类别。

10.一种图像场景识别装置，其特征在于，包括：

获取模块，被配置为获取待识别图像；

第一输入模块，被配置为将所述待识别图像输入目标视觉元素检测模型，获得所述待识别图像包括的至少一个目标视觉元素；

第二输入模块，被配置为将所述至少一个目标视觉元素输入场景识别模型，获得所述待识别图像对应的场景类别。

11.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现下述方法：

获取待识别图像；

12.一种计算机可读存储介质，其特征在于，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述图像场景识别方法的步骤。