CN113723159A

CN113723159A - 场景识别模型训练方法、场景识别方法及模型训练装置

Info

Publication number: CN113723159A
Application number: CN202110222817.3A
Authority: CN
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-11-30

Abstract

本发明实施例公开了一种场景识别模型训练方法、场景识别方法及模型训练装置，该场景识别模型训练方法通过对所述全局场景特征进行注意力提取得到局部特征，利用局部特征得到局部预测损失，利用全局场景特征与局部特征合并得到融合特征，利用融合特征得到融合预测损失，再根据局部预测损失和融合预测损失得到总预测损失值来进行场景识别模型的参数修正，由于该实施例中通过训练图像的场景类别标签分别进行局部预测损失值和融合预测损失值的计算，从而无须对训练图像的局部特征进行标注，可以降低人工标注的投入，降低模型训练的复杂程度，可广泛应用于图像识别技术领域。

Description

场景识别模型训练方法、场景识别方法及模型训练装置

技术领域

本发明涉及图像识别技术领域，特别是涉及一种场景识别模型训练方法、场景识别方法及模型训练装置。

背景技术

场景识别是计算机视觉技术的热点问题，通过场景识别能够得到图像中的场景信息。场景识别具有丰富的应用领域，例如自动监视、人机交互、视频索引、图像索引等。场景识别难度比通用物体识别大，造成这一难题的原因是场景特征经常在场景识别的背景环境中。而常规的场景识别方法一般都是集中在特定物体或者部位上提取特征，这种方式在训练场景识别模型时需要对样本中的物体进行大量的标注，训练的复杂程度较高。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种场景识别模型训练方法、场景识别方法及模型训练装置，能够降低模型训练的复杂程度。

一方面，本发明实施例提供了一种场景识别模型训练方法，包括以下步骤：

获取训练图像以及所述训练图像的场景类别标签；

将所述训练图像输入至场景识别模型得到第一场景分类结果以及目标场景分类结果；

根据所述第一场景分类结果以及所述场景类别标签得到局部预测损失值，根据所述目标场景分类结果以及所述场景类别标签得到融合预测损失值，根据所述局部预测损失值以及所述融合预测损失值得到总预测损失值；

根据所述总预测损失值对所述场景识别模型的参数进行修正；

其中，所述将所述训练图像输入至场景识别模型得到第一场景分类结果以及目标场景分类结果，包括：

通过所述场景识别模型提取所述训练图像的全局场景特征，对所述全局场景特征进行注意力提取，得到局部特征，对所述局部特征进行场景类别预测得到第一场景分类结果；将所述全局场景特征和所述局部特征合并，得到融合特征，对所述融合特征进行场景类别预测得到目标场景分类结果。

另一方面，本发明实施例还提供了一种场景识别方法，包括以下步骤：

获取待识别图像；

将所述待识别图像输入至场景识别模型，得到目标场景分类结果；

其中，所述场景识别模型通过上述场景识别模型训练方法训练得到。

另一方面，本发明实施例还提供了一种场景识别模型训练装置，包括：

样本获取单元，用于获取训练图像以及所述训练图像的场景类别标签；

识别单元，用于将所述训练图像输入至场景识别模型，通过所述场景识别模型提取所述训练图像的全局场景特征，对所述全局场景特征进行注意力提取，得到局部特征，对所述局部特征进行场景类别预测得到第一场景分类结果；将所述全局场景特征和所述局部特征合并，得到融合特征，对所述融合特征进行场景类别预测得到目标场景分类结果；

损失值计算单元，用于根据所述第一场景分类结果以及所述场景类别标签得到局部预测损失值，根据所述目标场景分类结果以及所述场景类别标签得到融合预测损失值，根据所述局部预测损失值以及所述融合预测损失值得到总预测损失值；

参数修正单元，用于根据所述总预测损失值对所述场景识别模型的参数进行修正。

另一方面，本发明实施例还提供了一种场景识别装置，包括：

图像获取单元，用于获取待识别图像；

图像识别单元，用于将所述待识别图像输入至场景识别模型，得到目标场景分类结果；

另一方面，本发明实施例还提供了一种电子设备，包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的场景识别模型训练方法或者场景识别方法。

另一方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现上述的场景识别模型训练方法或者场景识别方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行实现上述的场景识别模型训练方法或者场景识别方法。

本发明实施例至少包括以下有益效果：本发明实施例通过对所述全局场景特征进行注意力提取得到局部特征，利用局部特征得到局部预测损失，利用全局场景特征与局部特征合并得到融合特征，利用融合特征得到融合预测损失，再根据局部预测损失和融合预测损失得到总预测损失值来进行场景识别模型的参数修正，由于该实施例中通过训练图像的场景类别标签分别进行局部预测损失值和融合预测损失值的计算，从而无须对训练图像的局部特征进行标注，可以降低人工标注的投入，降低模型训练的复杂程度。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明实施例提供的相关技术中显著区域提取的简要流程图；

图2是本发明实施例提供的数据处理系统的一个可选的架构示意图；

图3是本发明实施例提供的场景识别模型训练方法的流程图；

图4是本发明实施例提供的场景识别模型的其中一种结构示意图；

图5是本发明实施例提供的深度残差网络101层的一种模型结构示意图；

图6是本发明实施例提供的对全局场景特征进行注意力提取，得到局部特征的具体步骤流程图；

图7是本发明实施例提供的从训练图像中提取与每个候选点对应的原图像框的具体步骤流程图；

图8是本发明实施例提供的获取候选点与对应的放大区域的过程示意图；

图9是本发明实施例提供的从原图像框中筛选出目标图像框的具体步骤流程图；

图10是本发明实施例提供的获取目标图像框对应的向量，得到第二特征向量的具体步骤流程图；

图11是本发明实施例提供的获取目标图像框对应的向量，得到第二特征向量的另一种具体步骤流程图；

图12是本发明实施例提供的将全局场景特征和局部特征合并，得到融合特征的具体步骤流程图；

图13是本发明实施例提供的场景识别模型训练方法的完整流程示意图；

图14是本发明实施例提供的场景识别模型训练方法的另一种完整流程示意图；

图15是本发明实施例提供的场景识别方法的流程图；

图16是本发明实施例提供的场景识别方法的处理示意图；

图17是本发明实施例提供的场景识别方法中个性化推荐的流程图；

图18是本发明实施例提供的场景识别方法应用于场景识别的示意图；

图19是本发明实施例提供的场景识别方法应用于个性化推荐的示意图；

图20是本发明实施例提供的场景识别模型训练装置的结构示意图；

图21是本发明实施例提供的场景识别装置的结构示意图；

图22是本发明实施例提供的终端装置相关的手机的部分结构的框图；

图23是本发明实施例提供的服务器的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

应了解，在本发明实施例的描述中，多个(或多项)的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释：

场景识别：场景识别的目标是判断图像中场景的不同类型，与图像分类不同，图像分类是对图像内的物体进行分类，其目标是对图像中占据主要区域的局部物体进行分类。而图像场景识别需要全局考虑图像中多个物体类别，而不是简单地依据局部物体的类别进行判断。例如，为了判断一幅图像所属场景是否为“沙滩”，需要分析判断图像中是否同时存在“沙子”、“大海”、“蓝天”等多个类别的物体，反之，如果简单地根据图像中是否存在类别为“沙子”的局部物体，将无法正确地区分“沙滩”和“沙漠”两种不同的场景类别。

视频理解作为场景识别的其中一种应用，其首要任务是对视频内剧情发生的场景进行识别，场景识别难度比通用物体识别大，造成这一难题的原因是场景特征经常在场景识别的背景环境中。而常规的场景识别方法一般都是集中在特定物体或者部位上提取特征，容易导致场景识别对目标场景中的前景过拟合，即场景识别模型记住了某些场景里的前景(如前景人物的穿着)，而不是识别出包围着前景背景环境的特征。而背景环境特征有多种情况出现，一种是环境关键物都集中在一处，另一种是环境关键物多处分布的情况，例如教室自习室有自习桌椅，图书馆自习室有自习桌椅+有多排书架，教室自习室的背景是集中于一处的桌椅，图书馆自习室的背景是多处分布的书架，因此，若忽略了背景环境的特征，则会使得场景识别的准确率下降。

在相关技术中，可以基于多尺度显著区域特征学习的方式进行场景识别，参照图1,图1为相关技术中显著区域提取的简要流程图，具体地，先对场景进行物体检测，从物体检测结果中获取带有物体的一个或者多个区域，结合潜在物体密度，进而对检测到物体的区域采取不同大小的尺度截图，得到最优尺度下的显著区域，最后根据获取到的显著区域进行模型训练。

然而，在上述相关技术中，不管是训练过程还是识别过程，都需要先建立目标检测定位模型，然后再建立场景识别模型，即整个模型属于二阶段模型，使得模型的结构变得复杂；并且，在训练目标检测定位模型时需要对样本中的物体进行大量的标注，训练的复杂程度较高；另外，并非所有的场景都会有检测目标，例如海边、大片森林等，此时通过上述相关技术进行场景识别的准确率不高。

基于此，本发明实施例提供了一种场景识别模型训练方法、场景识别方法及模型训练装置，能够降低模型训练的复杂程度，并且有利于提高识别的准确率。

本发明实施例所提供的场景识别模型训练方法和场景识别方法均可以应用于人工智能(Artificial Intelligence，AI)之中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

下面说明实现本发明实施例的电子设备的示例性应用，本发明实施例提供的电子设备可以实施为智能手机、平板电脑、笔记本电脑、智能穿戴设备等各种类型的用户终端，也可以实施为服务器，这里的服务器为运行音频数据处理功能、语音识别功能、文字识别功能中的一种或者多种应用的后台服务器。下面，将说明电子设备实施为服务器时的示例性应用。

参照图2，为本发明实施例提供的数据处理系统200的一个可选的架构示意图，为实现支撑一个示例性应用，终端(示例性示出了终端210和终端220)通过网络230连接服务器240，网络230可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。可以理解的是，在其他实施例中，终端的数量并不限于两个，图2中的终端数量仅用作示意性的说明。

本发明实施例提供的场景识别模型训练装置可以实施为硬件或者软硬件结合的方式，下面以场景识别模型训练装置实施为服务器240说明本发明实施例提供的场景识别模型训练方法的各种示例性实施。

其中，服务器240可以是移动电话、计算机、数字广播终端、信息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等终端对应的后台服务器，例如可以为安装有相应客户端的终端对应的后台服务器，根据服务器240的结构，可以预见装置实施为终端时的示例性结构，因此这里所描述的结构不应视为限制，例如可以省略下文所描述的部分组件，或者，增设下文所未记载的组件以适应某些应用的特殊需求。

基于图2所示的数据处理系统200，参照图3，本发明实施例提供了一种场景识别模型训练方法，以该方法应用于服务器240中为例进行说明，其中，该方法包括但不限于以下步骤301至步骤304。

步骤301：获取训练图像以及训练图像的场景类别标签；

其中，训练图像是用于进行场景识别模型训练的图像，训练图像可以从网络上获取，也可以在本地直接输入。具体地，训练图像可以从候选图像集合中依据一定的规则筛选得到，例如候选图像集合中可以有10万张图像，可以进行随机采样，即随机从候选图像集合中选取图像作为训练样本图像，也可以是加权随机采样，基于候选样本图像集合中的图像的采样权重进行采样，采样权重越大，则作为训练样本图像的概率越大。

场景类别标签即训练图像所属的场景类别，用于在模型训练的过程中作为参考进行损失值的计算，举例来说，图像A的场景类别标签为餐厅，图像B的场景类别标签为图书馆等等。

步骤302：将训练图像输入至场景识别模型得到第一场景分类结果以及目标场景分类结果。

具体地，将训练图像输入至场景识别模型后，通过场景识别模型提取训练图像的全局场景特征，对全局场景特征进行注意力提取，得到局部特征，对局部特征进行场景类别预测得到第一场景分类结果；将全局场景特征和局部特征合并，得到融合特征，对融合特征进行场景类别预测得到目标场景分类结果。

其中，全局场景特征用于表征图像场景特点的信息，可以表达整幅图像场景的特征，即可用来描述场景的整体特征。而局部特征为图像特征的局部表达，反映图像上具有的局部特殊性。在本发明实施例中，通过对全局场景特征进行注意力提取，得到局部特征，其中，注意力提取可以通过注意力网络实现，通过注意力提取局部特征，可以挖掘到背景的显著性特征，避免在场景识别过程中忽略了局部特征而降低识别的准确性。而在相关的场景识别方案中，局部特征一般是检测特定物体或者部位后提取得到，然而并非所有的场景都会有相应的检测目标，例如海边、大片森林等，因此，本发明实施例通过对全局场景特征进行注意力提取得到局部特征，不单单针对场景中的特定物体或者部位，相比较于检测特定物体或者部位提取局部特征的方式，在场景识别中适用性更加广泛，能够避免图像的局部部位识别不到的问题。

需要补充说明的是，对局部特征进行场景类别预测得到的第一场景分类结果，与局部特征对应的物体分类结果并不一样，第一场景分类结果针对的是场景的类别，例如餐厅、图书馆等，而相关技术中，局部特征则是用于得到物体分类结果，例如人、动物等。

其中，由于融合特征是通过全局场景特征和局部特征合并得到的，可以同时考虑图像的全局场景特征以及局部特征，使得融合特征能够更加全面地表征图像场景，从而使得场景识别的结果更加准确。

步骤303：根据第一场景分类结果以及场景类别标签得到局部预测损失值，根据目标场景分类结果以及场景类别标签得到融合预测损失值，根据局部预测损失值以及融合预测损失值得到总预测损失值。

其中，损失值可以根据损失函数(loss function)得到，损失函数(lossfunction)是用于表示事件的“风险”或“损失”的函数。在一个实施例中，可以采用交叉熵损失函数计算上述局部预测损失值或者融合预测损失值，具体地，计算公式如下：

L＝-[ylogy’+(1-y)log(1-y’)]

其中，L代表损失值，y代表场景类别标签，y’代表第一场景分类结果或者目标场景分类结果。得到局部预测损失值和融合预测损失值后，可以将局部预测损失值和融合预测损失值求和，得到总预测损失值。在一个实施例中，局部损失值可以是多个，则总预测损失值可以是多个局部预测损失值以及融合预测损失值之和。

步骤304：根据总预测损失值对场景识别模型的参数进行修正。

在引入局部特征进行模型训练的相关技术中，一般是先把局部特征提取的模型训练好，再进行识别模型的训练，即局部特征的提取损失值与识别的损失值是单独进行优化的，训练得到的模型为二阶段的模型，训练复杂度高，并且，这种方式需要对训练图像的局部特征进行标注才能计算出局部特征的提取损失值，使得人工标注的投入加大。

而在本发明实施例中，通过场景类别标签计算局部预测损失值，一方面使得对全局场景特征的注意力提取可以定位到与图像场景相关联的区域，另一方面，局部预测损失值和融合预测损失值均是基于场景类别标签得到的，因此，本发明实施例提供的场景识别模型训练方法，仅需要对训练图像进行全局的场景类别标签的标注，无须对局部特征进行标注，可以降低人工标注的投入，降低模型训练的复杂程度。

在此基础上，利用局部预测损失值和融合预测损失值得到总预测损失值，利用总预测损失值进行场景识别模型的训练，既有利于避免在场景识别过程中忽略了局部特征的问题，提高场景识别的准确性，也可以使得训练得到的场景识别模型为一阶段的端到端模型，简化模型结构，降低模型训练的复杂程度。

在一个实施例中，在训练场景识别模型时，还可以通过场景识别模型对全局场景特征进行场景类别预测得到第二场景分类结果，根据第二场景分类结果以及场景类别标签得到全局预测损失值。基于此，上述步骤304中，根据总预测损失值对场景识别模型的参数进行修正，具体可以为根据局部预测损失值、融合预测损失值以及全局预测损失值得到总预测损失值。由于引入了全局预测损失值作为计算总预测损失值的依据之一，使得全局场景特征的提取更加准确，有利于提升场景识别模型训练的效率。其中，全局预测损失值同样可以利用上述交叉熵损失函数的计算公式得到。并且，由于全局预测损失值同样基于场景类别标签得到，因而不会对模型训练的复杂程度产生影响。

其中，根据局部预测损失值、融合预测损失值以及全局预测损失值得到总预测损失值，具体可以采用求和的方式，例如，loss代表总预测损失值，loss_cr代表全局预测损失值，loss_locate代表局部预测损失值，loss_all代表融合预测损失值，则：

loss＝loss_cr+loss_locate+loss_all

在此基础上，可以分别引入全局预测损失值、局部预测损失值以及融合预测损失值各自的权值。则：

loss＝a*loss_cr+b*loss_locate+c*loss_all

其中，a、b、c可以根据实际需求设定，本发明实施例不做限定，通过采用加权的方式计算总预测损失值，使得总预测损失值更加合理化，有利于提升场景识别模型的训练效果。

参照图4，图4为本发明实施例提供的场景识别模型的其中一种结构示意图，其中，该场景识别模型包括基础识别网络410、注意力提取模块420、局部预测模块430和融合预测模块440，基础识别网络410包括特征提取模块411和全局预测模块412。

在一个实施例中，基础识别网络410可以为深度神经网络，特征提取模块411可以采用ImageNet数据集上预先训练的ResNet101(深度残差网络101层)的参数，深度残差网络101层的一种模型结构如图5所示，深度残差网络101层可以为一个三层的残差模块，用于降低参数的数目。3x3代表卷积核的尺寸，64代表通道数。圆圈内一个加号代表相加，即恒等映射。ReLU(Rectified Linear Unit。线性整流函数)表示利用激活函数进行激活。256-d代表输入为256维。参照表1，表1为其中一个实施例中ResNet101的结构表，其中，x3、x4以及x23分别表示有3个模块、4个模块以及23个模块。卷ResNet101包括多个连续的卷积层，卷积层有5种，Conv5_x为第5层卷积层。

表1

其中，池化可以理解为压缩，是对不同位置的特征进行聚合统计，例如，计算图像一个区域上的某个特定特征的平均值作为该区域的一个值，如此，可降低维度，同时改善结果，不容易过拟合，这种聚合的操作称为池化。池化包括平均池化和做大池化，上述将区域上的某个特定特征的平均值，作为该区域的一个值，称为平均池化，将区域上的某个特定特征的最大值作为该区域的一个值，称为最大池化。

全局预测模块412可以包括Max pool(最大池化)层和Full connetction(FC，全连接)层，参照表2，表2为其中一个实施例中全局预测模块的结构表，Pool_cr和Fc_cr可以采用方差为0.01，均值为0的高斯分布进行初始化，特征提取模块中Conv5输出训练图像的全局场景的深度特征，得到输出全局场景特征所对应的第一特征向量，经过Pool_cr层进行池化处理，再经过Fc_cr层得到预测的N个场景类别的概率分布，最终得到第二场景分类结果。其中，Pool_cr层的输出大小可以为1x2048，Fc_cr层的输出大小可以为1xN，而根据预测的N个场景类别的概率分布最终得到第二场景分类结果，可以采用softmax线性回归函数实现。

表2

层的名称	输出大小	层
			Pool_cr	1x2048	最大池化
Fc_cr	1xN	全连接

在一个实施例中，除了根据总预测损失值对场景识别模型的参数进行修正以外，还可以根据全局预测损失值单独对上述深度神经网络的参数进行修正。其中，通过深度神经网络得到的第二场景分类结果可以使得全局场景特征的提取更加准确，有利于提升场景识别模型训练的效率。因此，通过单独对深度神经网络的参数进行修正，可以使得全局场景特征的提取准确率进一步提高，使得后续场景识别模型的整体训练效率进一步提高。示例性地，可以采用基于SGD(Stochastic Gradient Descent)的梯度下降法对深度神经网络的卷积模板参数w和偏置参数b进行修正。

参照表3，表3为其中一个实施例中注意力提取模块420的结构表，其中，Conv5输出训练图像的全局场景的深度特征作为Down1_y层的输入，Down1_y层的作用为对Conv5的输出进行空间压缩，Down1_y层的输出作为Propost2_y层的输入，Down1_y层的作用为对Down1_y层的输出进行通道压缩。其中，Down1_y层的输出大小可以是19x31，Propost2_y层的输出大小可以是9x15，可以理解的是，Down1_y层和Propost2_y层的输出大小可以根据实际情况调整，本发明实施例不做限定。

最终可以从Propost2_y层输出的向量中确认topK个第二特征向量，用以表征topK个局部特征。

表3

参照表4，表4为其中一个实施例中局部预测模块430的结构表，其中，Fc_locate层的输入为topK个局部特征，Fc_locate层的输出大小为topKxN，即Fc_locate层输出的是每个局部特征属于N个场景类别的概率分布，最终得到第一场景分类结果。

表4

层的名称	输出大小	层
			Fc_locate	topKxN	全连接

参照表5，表5为其中一个实施例中融合预测模块440的结构表，其中，Fc_all层的输入为融合特征，Fc_all层的输出大小为1xN，即Fc_all层输出的是融合特征属于N个场景类别的概率分布，最终得到目标场景分类结果。

表5

层的名称	输出大小	层
			Fc_all	1xN	全连接

示例性地基于图4所示的场景识别模型，参照图6，上述步骤302中，对全局场景特征进行注意力提取，得到局部特征，可以进一步包括步骤601至步骤604，其中，步骤601至步骤604可以应用于服务器240中。

步骤601：对第一特征向量进行压缩处理，得到压缩特征向量。

其中，压缩特征向量表征被压缩后的第一特征向量中每个空间坐标的注意力强度，以表3所示的注意力提取模块的结构为例进行说明，若输入m张训练图像，则Down1_y层输出的矩阵大小为mx128x19x31，其中128代表通道数量，19x31代表卷积后的空间长宽，然后再经过Propost2_y层处理，输出的矩阵大小为mx6x9x15，其中6代表通道数量，9x15代表卷积后的空间长宽，其中，9x15中的点表示该点所在的空间坐标的注意力强度，此时，大小为mx6x9x15的矩阵即为压缩特征向量。

步骤602：对压缩特征向量进行矩阵变换处理，得到每个注意力强度所对应的候选点。

其中，可以采用reshape函数对压缩特征向量进行矩阵变换处理，reshape函数为将指定的矩阵变换成特定维数矩阵的一种函数，且经过转换后的矩阵中元素个数不变，以表3所示的注意力提取模块的结构为例进行说明，对大小为mx6x9x15的矩阵进行矩阵变换处理，最终得到6x9x15＝810个候选点。

步骤603：从训练图像中提取与每个候选点对应的原图像框，从原图像框中筛选出目标图像框。

其中，由于压缩特征向量是由第一特征向量经过压缩处理得到的，因此每个候选点实际上也是经过了压缩处理，因此，对每个候选点进行放大处理后可以对应回训练图像中的原图像框。然后，还需要对每个原图像框进行筛选，筛选出注意力强度较高的原图像框得到目标图像框，才进一步得到局部特征，例如，若原图像框的数量为810个，最后筛选得到的目标图像框的数量可能为4个。

步骤604：获取目标图像框对应的向量，得到第二特征向量。

其中，从原图像框中筛选得到目标图像框后，确定目标图像框对应的向量作为第二特征向量，以作为表4中Fc_locate层的输入。

在一个实施例中，参照图7，上述步骤603中，从训练图像中提取与每个候选点对应的原图像框，可以进一步包括步骤701至步骤702，其中，步骤701至步骤702可以应用于服务器240中。

步骤701：对每个候选点进行放大处理，得到每个候选点对应的放大区域，并根据压缩处理的压缩比例确定每个放大区域的大小；

其中，每个候选点经过了压缩处理，例如从19x31压缩至9x15，即可确定压缩比例，而对每个候选点进行放大处理，实际上可以看作是压缩处理的反过程，因此其放大比例与压缩比例可以是一致的，例如从9x15放大至19x31，根据压缩比例即可确定每个放大区域的大小。

步骤702：根据每个候选点在第一特征向量中的位置以及每个放大区域的大小，得到每个放大区域在训练图像中的平面坐标，根据每个放大区域的平面坐标从训练图像中分别提取与每个候选点对应的原图像框。

其中，根据每个候选点在第一特征向量中的位置即可确定放大区域在训练图像中的位置，结合放大区域的大小即可确定放大区域在训练图像中的平面坐标，根据放大区域的平面坐标即可从训练图像中提取与候选点对应的原图像框。在一个实施例中，放大区域的形状可以为矩形，候选点可以为放大区域的中心，原图像框的坐标可以为box(x1，y1，x2，y2)，参照图8，图8为候选点与放大区域对应的一种示意图，第一特征向量依次经过Down1_y层和Propost2_y层的压缩处理得到候选点，相应地候选点801也经过对应的放大处理最终对应回训练图像中的原图像框802，即box(x1，y1，x2，y2)。

在一个实施例中，参照图9，上述步骤603中，从原图像框中筛选出目标图像框，可以进一步包括步骤901至步骤904，其中，步骤901至步骤904可以应用于服务器240中。

步骤901：获取每个原图像框所对应的置信度。

其中，置信度指的是以测量值为中心，在一定范围内，真值出现在该范围内的几率。若某个原图像框所对应的置信度越大，则代表该置信度对应的原图像框的定位越准确。

步骤902：对置信度进行排序，根据置信度的排序结果得到候选图像框。

其中，对置信度进行排序，可以是对置信度进行由大到小的排序，也可以是对置信度进行由小到大的排序，本发明实施例不做限定。而根据置信度的排序结果得到候选图像框，可以是保留置信度最大的原图像框作为候选图像框，例如，原图像框A、原图像框B、原图像框C、原图像框D所对应的置信度分别为A1、A2、A3和A4，A1、A2、A3和A4由大到小的排序为A2、A1、A4、A3，则候选图像框为原图像框B。

步骤903：获取除候选图像框以外其余的原图像框与候选图像框之间的交并比。

其中，交并比指的是两个图像框之间的交叠率，即它们的交集与并集的比值，交并比越大，两个图像框的交叠率越大，最理想情况是两个图像框完全重叠，即比值为1。在步骤902例子的基础上，上述步骤903获取的交并比包括：原图像框A与原图像框B之间的交并比、原图像框C与原图像框B之间的交并比，原图像框D与原图像框B之间的交并比。

步骤904：将候选图像框以及交并比小于或者等于阈值的原图像框作为目标图像框。

其中，阈值可以根据实际情况设置，例如可以是0.5等，本发明实施例不做限定。在步骤903例子的基础上，假设原图像框A与原图像框B之间的交并比为0.6、原图像框C与原图像框B之间的交并比为0.7，原图像框D与原图像框B之间的交并比为0.2，则目标图像框为原图像框B和原图像框D。

下面以一个实际例子说明上述步骤901至步骤904的具体原理。

现在有5个原图像框box1、box2、box3、box4和box5，置信度依次为0.8、0.9、0.7、0.5和0.3，则这5个原图像框按照置信度由大到小的排序为：box2>box1>box3>box4>box5,根据这5个原图像框的置信度排序结果可以先确定目标图像框为box2，然后分别计算box1、box3、box4、box5与box2之间的交并比，如果交并比大于预设的阈值0.5，则将对应的box删除，具体为：

交并比(box1，box2)＝0.1<0.5，保留box1；

交并比(box3，box2)＝0.7>0.5，删除box3；

交并比(box4，box2)＝0.6>0.5，删除box4；

交并比(box5，box2)＝0.8>0.5，删除box5；

则最终目标图像框为box1和box2。

在一个实施例中，上述过程可以迭代执行，例如：

交并比(box1，box2)＝0.1<0.5，保留box1；

交并比(box3，box2)＝0.7>0.5，删除box3；

交并比(box4，box2)＝0.2<0.5，保留box4；

交并比(box5，box2)＝0.3<0.5，保留box5；

此时则将box1、box4和box5重复上述过程，先将box1、box4和box5进行置信度的排序：box1>box4>box5，然后分别计算box4、box5与box1之间的交并比，最终结果为：

交并比(box4，box1)＝0.7>0.5，删除box4；

交并比(box5，box1)＝0.8>0.5，删除box5；

则最终目标图像框为box1和box2。

可以理解的是，在其他实施例中原图像框的数量、置信度排序情况和交并比情况均会根据实际情况而改变，上述例子仅为示意性地展示步骤901至步骤904的具体原理，停止迭代的条件可以是无法再继续进行交并比的比较(例如经过置信度排序和根据交并比大小删除后剩余的原图像框数量少于2个)，或者保留的原图像框的数量达到预设的阈值。

在一个实施例中，参照图10，上述步骤604中，获取目标图像框对应的向量，得到第二特征向量，可以进一步包括步骤1001至步骤1003，其中，步骤1001至步骤1003可以应用于服务器240中。

步骤1001：获取目标图像框在训练图像中对应的平面坐标；

步骤1002：根据平面坐标从训练图像中提取目标图像块；

步骤1003：对目标图像块进行特征提取，得到第二特征向量。

其中，目标图像框在训练图像中对应的平面坐标可以确定目标图像框的位置，目标图像框的平面坐标可以采用上述步骤701至步骤702中放大的方式确定。根据平面坐标从训练图像中提取目标图像块后，可以通过图4中的基础识别网络410中的特征提取模块进行特征提取，即可得到第二特征向量。

在一个实施例中，参照图11，上述步骤604中，获取目标图像框对应的向量，得到第二特征向量，除了上述步骤1001至步骤1003中从训练图像提取目标图像块进行特征提取的方式以外，也可以进一步包括步骤1101至步骤1102：

步骤1101：获取目标图像框对应的候选点在第一特征向量中的位置；

步骤1102：根据位置从第一特征向量中提取对应候选点的向量，得到第二特征向量。

其中，目标图像框都有对应的候选点，而候选点由第一特征向量进过压缩处理和矩阵变换处理后得到，因此可以根据对应的矩阵变换处理和放大处理确定候选点在第一特征向量中的位置，进而确定第一特征向量中与候选点对应的那部分特征向量，即可得到第二特征向量。

图10和图11分别展示了两种第二特征向量的提取方式，其中图10展示的第二特征向量的提取方式，是通过确定目标图像块后利用特征提取模块进行二次的特征提取，优点是可以提高第二特征向量的准确性，提升场景识别模型的训练准确率以及后续模型应用时的场景识别准确率；而图11展示的第二特征向量的提取方式，则是直接通过候选点的位置从第一特征向量中提取，可以避免二次特征提取带来的模型运行耗时问题，可以提升场景识别模型的训练效率以及后续模型应用时的场景识别效率。

在一个实施例中，参照图12，融合特征由全局场景特征和局部特征合并得到，因此融合特征可以用第三特征向量表征，上述步骤302中，将全局场景特征和局部特征合并，得到融合特征，可以进一步包括步骤1201至步骤1203，其中，步骤1201至步骤1203可以应用于服务器240中。

步骤1201：对第一特征向量进行池化处理；

步骤1202：对第二特征向量进行池化处理；

步骤1203：将经过池化处理后的第一特征向量和第二特征向量首尾相连，得到第三特征向量。

其中，由于第一特征向量和第二特征向量可能是多维向量，因而对第一特征向量进行池化处理后，可以得到对应的一维向量，便于后续的首尾相连处理，池化处理可以为最大池化。通过将经过池化处理后的第一特征向量和第二特征向量首尾相连，能够较为简单便捷地得到第三特征向量。例如，对第一特征向量进行池化处理后可以得到1x2048的特征向量，而第二特征向量可以有topK个，即对第二特征向量进行池化处理可以得到topK个1x2048的特征向量，最后将经过池化处理后的第一特征向量和第二特征向量首尾相连，得到的第三特征向量大小为(1+topK)x2048。

参照图13，图13为本发明实施例提供的场景识别模型训练方法的完整流程示意图，该场景识别模型训练方法包括步骤1301至步骤1315，其中，步骤1301至步骤1315可以应用于服务器240中。

步骤1301：获取训练图像以及训练图像的场景类别标签；

步骤1302：通过深度神经网络对训练图像进行特征提取，得到第一特征向量；

步骤1303：通过深度神经网络对第一特征向量进行场景类别预测得到第一场景分类结果；

步骤1304：根据第一场景分类结果和场景类别标签得到全局预测损失值；

步骤1305：根据全局预测损失值对深度神经网络的参数进行修正；

步骤1306：对第一特征向量进行压缩处理，得到表示注意力强度的压缩特征向量；

步骤1307：对压缩特征向量进行矩阵变换处理，得到多个候选点；

步骤1308：从训练图像中获取与候选点对应的原图像框，从原图像框中筛选出topK个目标图像框；

步骤1309：根据目标图像框从训练图像中提取目标图像块，对目标图像块进行特征提取，得到第二特征向量；

步骤1310：对第二特征向量进行场景类别预测得到第二场景分类结果；

步骤1311：根据第二场景分类结果和场景类别标签得到局部预测损失值；

步骤1312：将第一特征向量和第二特征向量合并，得到第三特征向量；

步骤1313：对第三特征向量进行场景类别预测得到目标场景分类结果；

步骤1314：根据目标场景分类结果和场景类别标签得到融合预测损失值；

步骤1315：将全局预测损失值、局部预测损失值和融合预测损失值求和得到总预测损失值，根据总预测损失值对场景识别模型的参数进行修正。

其中，步骤1305中，先根据全局预测损失值对深度神经网络的参数进行修正，可以使得全局场景特征的提取更加准确，有利于提升场景识别模型训练的效率。当然，在其他实施例中，也可以不根据全局预测损失值对深度神经网络的参数进行修正。

上述步骤1301至步骤1315通过训练图像的场景类别标签分别进行全局预测损失值、局部预测损失值和融合预测损失值的计算，从而无须对训练图像的局部特征进行标注，可以降低人工标注的投入，降低模型训练的复杂程度。并且，利用总预测损失值进行场景识别模型的训练，局部预测损失值作为辅助参数，既有利于避免在场景识别过程中忽略了局部特征的问题，提高场景识别的准确性，也可以使得训练得到的场景识别模型为一阶段的端到端模型，简化模型结构，降低模型训练的复杂程度。

参照图14，图14为本发明实施例提供的场景识别模型训练方法的另一种完整流程示意图，该场景识别模型训练方法包括步骤1301至步骤1415，其中，步骤1401至步骤1415可以应用于服务器240中。

步骤1401：获取训练图像以及训练图像的场景类别标签；

步骤1402：通过深度神经网络对训练图像进行特征提取，得到第一特征向量；

步骤1403：通过深度神经网络对第一特征向量进行场景类别预测得到第一场景分类结果；

步骤1404：根据第一场景分类结果和场景类别标签得到全局预测损失值；

步骤1405：根据全局预测损失值对深度神经网络的参数进行修正；

步骤1406：对第一特征向量进行压缩处理，得到表示注意力强度的压缩特征向量；

步骤1407：对压缩特征向量进行矩阵变换处理，得到多个候选点；

步骤1408：从训练图像中获取与候选点对应的原图像框，从原图像框中筛选出topK个目标图像框；

步骤1409：根据目标图像框对应的候选点在第一特征向量中的位置，从第一特征向量中提取对应的向量得到第二特征向量；

步骤1410：对第二特征向量进行场景类别预测得到第二场景分类结果；

步骤1411：根据第二场景分类结果和场景类别标签得到局部预测损失值；

步骤1412：将第一特征向量和第二特征向量合并，得到第三特征向量；

步骤1413：对第三特征向量进行场景类别预测得到目标场景分类结果；

步骤1414：根据目标场景分类结果和场景类别标签得到融合预测损失值；

步骤1415：将全局预测损失值、局部预测损失值和融合预测损失值求和得到总预测损失值，根据总预测损失值对场景识别模型的参数进行修正。

其中，步骤1405中，先根据全局预测损失值对深度神经网络的参数进行修正，可以使得全局场景特征的提取更加准确，有利于提升场景识别模型训练的效率。当然，在其他实施例中，也可以不根据全局预测损失值对深度神经网络的参数进行修正。

上述步骤1401至步骤1415通过训练图像的场景类别标签分别进行全局预测损失值、局部预测损失值和融合预测损失值的计算，从而无须对训练图像的局部特征进行标注，可以降低人工标注的投入，降低模型训练的复杂程度。并且，利用总预测损失值进行场景识别模型的训练，局部预测损失值作为辅助参数，既有利于避免在场景识别过程中忽略了局部特征的问题，提高场景识别的准确性，也可以使得训练得到的场景识别模型为一阶段的端到端模型，简化模型结构，降低模型训练的复杂程度。

其中，对场景识别模型的参数进行修正，可以是对上述实施例中的表1至表5的参数进行修正。

参照图15，基于上述实施例中场景识别模型训练方法得到的场景识别模型，本发明实施例还提供了一种场景识别方法，包括但不限于以下步骤1501至步骤1502，其中，步骤1501至步骤1502可以应用于服务器240中。

步骤1501：获取待识别图像；

步骤1502：将待识别图像输入至场景识别模型，得到目标场景分类结果。

其中，将待识别图像输入至场景识别模型后，通过场景识别模型提取全局场景特征的第一特征向量，并对第一特征向量进行注意力提取，得到局部特征的第二特征向量，然后将第一特征向量和第二特征向量合并得到融合特征的第三特征向量，对第三特征向量进行场景类别预测得到目标场景分类结果，目标场景分类结果即为最终的场景识别结果。例如，参照图16，输入的待识别图像为一张阳台的图像，对该待识别图像进行特征提取，得到全局场景特征，对全局场景特征进行注意力提取后，可以得到局部特征1601、局部特征1602、局部特征1603和局部特征1604，然后将全局场景特征、局部特征1601、局部特征1602、局部特征1603和局部特征1604合并得到融合特征，对融合特征进行场景类别预测，得到待识别图像的场景为阳台。若采用相关技术的场景识别模型对该待识别图像进行场景识别，得到的场景可能为房间，由于本发明实施例的场景识别模型对待识别图像进行了注意力提取，例如图16中的局部特征1602，该局部特征1602为落地窗，会对最终的场景识别结果产生影响，使得最终的场景识别结果为阳台，从而避免在场景识别过程中忽略了局部特征的问题，提高场景识别的准确性。

本发明实施例提供的场景识别方法可以示例性地应用于个性化推荐，基于此，待识别图像可以从终端处获取，参照图17，上述场景识别方法还可以包括步骤1701至步骤1702，其中，步骤1701至步骤1702可以应用于服务器240中。

步骤1701：根据目标场景分类结果得到对应终端的推荐内容；

步骤1702：向终端发送推荐内容。

其中，不同用户在终端上使用的图像不同，例如用户使用终端观看视频，不同视频涉及的场景类型可能各不相同，通过对终端的图像进行场景识别，可以为用户提供个性化的推荐内容，便于用户查看，并且目标场景分类结果基于本发明实施例提供的场景识别方法得到，因此准确性较高，可以使得推荐内容更加准确，针对性更强。

可以理解的是，上述各个实施例中的步骤，仅为示意性地应用于服务器240，除了可以应用于服务器240以外，上述各个实施例的步骤还可以应用于终端(210,220)。并且，虽然上述各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

下面以具体的例子说明本发明实施例的场景识别方法的应用场景。

参照图18，本发明实施例的场景识别方法可以应用于场景识别结果展示，其中，用户通过前端A输入待识别的图片，待识别的图片可以从网络上下载得到，也可以使用终端的摄像组件拍摄得到。前端A可以是图像识别等应用程序的界面，后端通过本发明实施例提供的场景识别方法对待识别的图片进行场景识别，后端可以于用户的终端本地运行，也可以在服务器中运行，若后端在服务器中运行，用户输入的图片可以通过移动网络、无线网络、蓝牙等通信方式传输至服务器。后端得到识别结果后，最终将识别结果返回到前端B向用户展示，其中，前端A和前端B可以是同一个界面，也可以是不同一个界面。在本例子中，场景识别方法可以由用户操作前端A进行调用。

基于图18所示的处理流程，接下来说明本发明实施例的场景识别方法应用于场景识别结果展示的另一个例子，其中，用户通过前端A观看视频，前端A可以是视频播放器等应用程序的界面，前端A可以设置场景识别按钮，用户需要知道当前剧情是什么场景时，可以通过该场景识别按钮调用本发明实施例提供的场景识别方法，然后视频播放器会把当前播放时刻对应的前后时刻的图像帧提取出来后发送至后端，后端通过本发明实施例提供的场景识别方法对待识别的图片进行场景识别，类似地，后端可以在用户的终端本地运行，也可以在服务器中运行，若后端在服务器中运行，视频播放器提取得到的图像帧可以通过移动网络、无线网络、蓝牙等通信方式传输至服务器。后端得到识别结果后，最终将识别结果返回到前端B向用户展示。

参照图19，本发明实施例的场景识别方法可以应用于个性化推荐，其中，用户通过前端A观看视频，前端A可以是视频播放器等应用程序的界面，视频播放器自行调用本发明实施例提供的场景识别方法，然后视频播放器会把当前播放时刻对应的前后时刻的图像帧提取出来后发送至后端，后端通过本发明实施例提供的场景识别方法对待识别的图片进行场景识别，类似地，后端可以在用户的终端本地运行，也可以在服务器中运行，若后端在服务器中运行，视频播放器提取得到的图像帧可以通过移动网络、无线网络、蓝牙等通信方式传输至服务器。后端得到识别结果后，可以根据识别结果得到推荐内容，将推荐内容返回到前端B向用户展示，其中，推荐内容可以是文字内容，也可以是视频内容，例如根据识别结果预测用户平常喜欢看的视频类型，向用户推荐相同类型的视频内容。可以理解的是，前端A和前端B可以属于同一个应用程序，也可以属于两个不同的应用程序，例如是两个账号相互关联的应用程序。

参照图20，本发明实施例还提供了一种场景识别模型训练装置，包括：

样本获取单元2001，用于获取训练图像以及训练图像的场景类别标签；

识别单元2002，用于将训练图像输入至场景识别模型，通过场景识别模型提取训练图像的全局场景特征，对全局场景特征进行注意力提取，得到局部特征，对局部特征进行场景类别预测得到第一场景分类结果；将全局场景特征和局部特征合并，得到融合特征，对融合特征进行场景类别预测得到目标场景分类结果；

损失值计算单元2003，用于根据第一场景分类结果以及场景类别标签得到局部预测损失值，根据目标场景分类结果以及场景类别标签得到融合预测损失值，根据局部预测损失值以及融合预测损失值得到总预测损失值；

参数修正单元2004，用于根据总预测损失值对场景识别模型的参数进行修正。

上述场景识别模型训练装置与场景识别模型训练方法基于相同的发明构思，因此该场景识别模型训练装置无须对训练图像的局部特征进行标注，可以降低人工标注的投入，降低模型训练的复杂程度，并且可以提升场景识别模型的准确率。

参照图21，本发明实施例还提供了一种场景识别装置，包括：

图像获取单元2101，用于获取待识别图像；

图像识别单元2102，用于将待识别图像输入至场景识别模型，得到目标场景分类结果；

其中，场景识别模型通过上述实施例中的场景识别模型训练方法训练得到。

上述场景识别装置与场景识别方法基于相同的发明构思，因此该场景识别装置可以避免在场景识别过程中忽略了局部特征的问题，提高场景识别的准确性。

另外，本发明实施例还提供了一种电子设备，该电子设备可以对场景识别模型进行训练或者进行场景识别。下面结合附图对该装置进行介绍。请参见图21，本发明实施例提供了一种电子设备，该电子设备可以是终端装置，该终端装置可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端装置为手机为例：

图22示出的是与本发明实施例提供的终端装置相关的手机的部分结构的框图。参考图22，手机包括：射频(Radio Frequency，简称RF)电路2210、存储器2220、输入单元2230、显示单元2240、传感器2250、音频电路2260、无线保真(wireless fidelity，简称WiFi)模块2270、处理器2280、以及电源2290等部件。本领域技术人员可以理解，图22中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图22对手机的各个构成部件进行具体的介绍：

RF电路2210可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器2280处理；另外，将设计上行的数据发送给基站。通常，RF电路2210包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路2210还可以通过无线通信与网络和其他装置通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器2220可用于存储软件程序以及模块，处理器2280通过运行存储在存储器2220的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器2220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器2220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元2230可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元2230可包括触控面板2231以及其他输入装置2232。触控面板2231，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板2231上或在触控面板2231附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板2231可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器2280，并能接收处理器2280发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类别实现触控面板2231。除了触控面板2231，输入单元2230还可以包括其他输入装置2232。具体地，其他输入装置2232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元2240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元2240可包括显示面板2241，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板2241。进一步的，触控面板2231可覆盖显示面板2241，当触控面板2231检测到在其上或附近的触摸操作后，传送给处理器2280以确定触摸事件的类别，随后处理器2280根据触摸事件的类别在显示面板2241上提供相应的视觉输出。虽然在图22中，触控面板2231与显示面板2241是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板2231与显示面板2241集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器2250，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板2241的亮度，接近传感器可在手机移动到耳边时，关闭显示面板2241和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路2260、扬声器2261，传声器2262可提供用户与手机之间的音频接口。音频电路2260可将接收到的音频数据转换后的电信号，传输到扬声器2261，由扬声器2261转换为声音信号输出；另一方面，传声器2262将收集的声音信号转换为电信号，由音频电路2260接收后转换为音频数据，再将音频数据输出处理器2280处理后，经RF电路2210以发送给比如另一手机，或者将音频数据输出至存储器2220以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块2270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图22示出了WiFi模块2270，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器2280是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器2220内的软件程序和/或模块，以及调用存储在存储器2220内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器2280可包括一个或多个处理单元；优选的，处理器2280可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器2280中。

手机还包括给各个部件供电的电源2290(比如电池)，优选的，电源可以通过电源管理系统与处理器2280逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端装置所包括的处理器2280具备执行前面实施例的场景识别模型训练方法以及场景识别方法。

本发明实施例用于执行场景识别模型训练方法或者模型训练方法的还可以是服务器，请参见图23所示，图23为本发明实施例提供的服务器2300的结构图，服务器2300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(CentralProcessing Units，简称CPU)2322(例如，一个或一个以上处理器)和存储器2332，一个或一个以上存储应用程序2342或数据2344的存储介质2330(例如一个或一个以上海量存储装置)。其中，存储器2332和存储介质2330可以是短暂存储或持久存储。存储在存储介质2330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器2322可以设置为与存储介质2330通信，在服务器2300上执行存储介质2330中的一系列指令操作。

服务器2300还可以包括一个或一个以上电源2326，一个或一个以上有线或无线网络接口2350，一个或一个以上输入输出接口2358，和/或，一个或一个以上操作系统2341，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

服务器中的处理器可以用于执行场景识别模型训练方法或者场景识别方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行前述各个实施例的场景识别模型训练方法或者场景识别方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述各个实施例的场景识别模型训练方法或者场景识别方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于上述方法实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

还应了解，本发明实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种场景识别模型训练方法，其特征在于，包括以下步骤：

获取训练图像以及所述训练图像的场景类别标签；

2.根据权利要求1所述的场景识别模型训练方法，其特征在于，所述场景识别模型训练方法还包括：

通过所述场景识别模型对所述全局场景特征进行场景类别预测得到第二场景分类结果，根据所述第二场景分类结果以及所述场景类别标签得到全局预测损失值；

所述根据所述局部预测损失值以及所述融合预测损失值得到总预测损失值，包括：

根据所述局部预测损失值、所述融合预测损失值以及所述全局预测损失值得到总预测损失值。

3.根据权利要求1所述的场景识别模型训练方法，其特征在于，所述全局场景特征用第一特征向量表征，所述局部特征用第二特征向量表征，所述对所述全局场景特征进行注意力提取，得到局部特征，包括：

对所述第一特征向量进行压缩处理，得到压缩特征向量，其中，所述压缩特征向量表征被压缩后的所述第一特征向量中每个空间坐标的注意力强度；

对所述压缩特征向量进行矩阵变换处理，得到每个所述注意力强度所对应的候选点；

从所述训练图像中提取与每个所述候选点对应的原图像框，从所述原图像框中筛选出目标图像框；

获取所述目标图像框对应的向量，得到第二特征向量。

4.根据权利要求3所述的场景识别模型训练方法，其特征在于，所述从所述训练图像中提取与每个所述候选点对应的原图像框，包括：

对每个所述候选点进行放大处理，得到每个所述候选点对应的放大区域，并根据所述压缩处理的压缩比例确定每个所述放大区域的大小；

根据每个所述候选点在所述第一特征向量中的位置以及每个所述放大区域的大小，得到每个所述放大区域在所述训练图像中的平面坐标，根据每个所述放大区域的平面坐标从所述训练图像中分别提取与每个所述候选点对应的原图像框。

5.根据权利要求3所述的场景识别模型训练方法，其特征在于，所述从所述原图像框中筛选出目标图像框，包括：

获取每个所述原图像框所对应的置信度；

对所述置信度进行排序，根据所述置信度的排序结果得到候选图像框；

获取除所述候选图像框以外其余的原图像框与所述候选图像框之间的交并比；

将所述候选图像框以及所述交并比小于或者等于阈值的原图像框作为目标图像框。

6.根据权利要求3至5任意一项所述的场景识别模型训练方法，其特征在于，所述获取所述目标图像框对应的向量，得到第二特征向量，包括：

获取所述目标图像框在所述训练图像中对应的平面坐标；

根据所述平面坐标从所述训练图像中提取目标图像块；

对所述目标图像块进行特征提取，得到第二特征向量。

7.根据权利要求3至5任意一项所述的场景识别模型训练方法，其特征在于，所述获取所述目标图像框对应的向量，得到第二特征向量，包括：

获取所述目标图像框对应的候选点在所述第一特征向量中的位置；

根据所述位置从所述第一特征向量中提取对应所述候选点的向量，得到第二特征向量。

8.根据权利要求1所述的场景识别模型训练方法，其特征在于，所述局部预测损失值的数量为多个，所述根据所述局部预测损失值以及所述融合预测损失值得到总预测损失值，包括：

将多个所述局部预测损失值以及所述融合预测损失值求和得到总预测损失值。

9.根据权利要求1所述的场景识别模型训练方法，其特征在于，所述全局场景特征用第一特征向量表征，所述局部特征用第二特征向量表征，所述融合特征用第三特征向量表征，所述将所述全局场景特征和所述局部特征合并，得到融合特征，包括：

对所述第一特征向量进行池化处理；

对所述第二特征向量进行池化处理；

将经过池化处理后的第一特征向量和第二特征向量首尾相连，得到第三特征向量。

10.根据权利要求1所述的场景识别模型训练方法，其特征在于，所述场景识别模型包括多个连续的卷积层，所述通过所述场景识别模型提取所述训练图像的全局场景特征，包括：

通过所述多个连续的卷积层对所述训练图像进行卷积处理，得到所述训练图像的全局场景特征。

11.根据权利要求2所述的场景识别模型训练方法，其特征在于，所述场景识别模型包括深度神经网络，所述通过所述场景识别模型对所述全局场景特征进行场景类别预测得到第二场景分类结果，包括：

通过所述深度神经网络对所述全局场景特征进行场景类别预测得到第二场景分类结果；

所述场景识别模型训练方法还包括：

根据所述全局预测损失值对所述深度神经网络的参数进行修正。

12.一种场景识别方法，其特征在于，包括以下步骤：

获取待识别图像；

其中，所述场景识别模型通过权利要求1至11任意一项所述的场景识别模型训练方法训练得到。

13.根据权利要求12所述的场景识别方法，其特征在于，所述待识别图像从终端处获取，所述场景识别方法还包括：

根据所述目标场景分类结果得到对应所述终端的推荐内容；

向所述终端发送所述推荐内容。

14.一种场景识别模型训练装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至11中任意一项所述的场景识别模型训练方法，或者实现如权利要求12至13中任意一项所述的场景识别方法。